3,583 papers
arXiv:2505.20128 83 1 мая 2025 г. FREE

Итеративная самостимуляция усиливает большие языковые модели как агентные искатели.

КЛЮЧЕВАЯ СУТЬ
Итеративный процесс поиска и осмысления информации значительно превосходит стандартные подходы (включая RAG), повышая точность и достоверность ответов LLM на сложные вопросы.
Адаптировать под запрос
📌

1. Ключевые аспекты исследования:

Исследование предлагает фреймворк ExSearch, который учит LLM не просто отвечать на вопрос, а действовать как агент-исследователь. Вместо одного ответа модель итеративно выполняет три действия:1) Thinking (Думай)— формулирует подзапрос для поиска,2) Search (Ищи)— обращается к внешней базе знаний,3) Recording (Записывай)— извлекает из найденного ключевые факты. Этот цикл повторяется, пока не будет собрано достаточно информации для финального, основанного на фактах ответа.

Ключевой результат: Итеративный процесс поиска и осмысления информации значительно превосходит стандартные подходы (включая RAG), повышая точность и достоверность ответов LLM на сложные вопросы.

🔬

2. Объяснение всей сути метода:

Суть метода ExSearch заключается в том, чтобы превратить LLM из "всезнайки", который полагается только на свою внутреннюю, часто устаревшую память, в методичного "исследователя". Вместо того чтобы пытаться ответить на сложный вопрос сразу, модель обучают разбивать его на части и работать в цикле.

Представьте, что вы просите LLM спланировать сложное путешествие. Обычная модель попытается выдумать план на основе данных, на которых ее обучали. Модель, работающая по принципу ExSearch, поступит иначе:

  1. Thinking (Думай): Сначала она скажет: "Окей, чтобы спланировать путешествие, мне сначала нужно узнать самые дешевые авиабилеты на нужные даты". Она формулирует конкретный поисковый запрос.
  2. Search (Ищи): Затем она (или пользователь, симулирующий этот процесс) использует этот запрос для поиска информации в интернете или базе данных.
  3. Recording (Записывай): Получив список рейсов, модель не просто пересказывает его, а извлекает суть: "Найдено два рейса: один утром за $500, другой вечером за $450. Записываю это как факт".

После этого цикл повторяется. Следующий шаг Thinking: "Теперь мне нужно найти отели в центре города, доступные в эти даты". Снова Search и Recording.

Этот итеративный процесс сбора и записи фактов продолжается до тех пор, пока все аспекты сложного запроса не будут покрыты. Только после этого модель генерирует финальный ответ, опираясь исключительно на собранные и записанные ею факты. Это позволяет избежать галлюцинаций и дать точный, актуальный и обоснованный ответ.

📌

3. Анализ практической применимости:

*Прямая применимость:Пользователь не может применить сам метод ExSearch, так как он требует дообучения модели. Однако пользователь можетсимулировать его логику вручную. Для этого нужно вести диалог с LLM в режиме "вопрос-ответ-контекст":

1. Дать LLM сложную задачу и попросить его сформулировать первый под-вопрос для поиска информации (шаг "Thinking").
2. Самостоятельно найти эту информацию (в Google, базе знаний и т.д.) — это ручной шаг "Search".
3. Вставить найденный текст в чат и попросить LLM извлечь из него ключевые факты и записать их (шаг "Recording").
4. Попросить LLM сформулировать следующий под-вопрос и повторять цикл.
  • Концептуальная ценность: Огромна. Исследование дает пользователю понимание, что для сложных задач LLM нужно использовать не как оракула, а как инструмент для обработки информации. Оно учит пользователя:

    • Декомпозировать задачи.
    • Не доверять слепо внутренней "памяти" модели.
    • "Заземлять" (grounding) ответы модели на реальных, внешних данных для борьбы с галлюцинациями.
    • Использовать LLM для извлечения и структурирования информации, а не только для ее генерации.
  • Потенциал для адаптации: Механизм адаптации прост и универсален. Он превращает одноразовый промт в итеративный диалог-исследование. Пользователь выступает в роли "внешнего поисковика" (retriever) для LLM. Этот подход можно применять в любой сфере: от планирования маркетинговой кампании и анализа рынка до написания научной работы или подготовки к путешествию.


🚀

4. Практически пример применения:

# РОЛЬ

Ты — мой личный ассистент-исследователь. Твоя задача — помочь мне спланировать 3-дневную поездку в Санкт-Петербург для семьи с двумя детьми (7 и 12 лет) с ограниченным бюджетом.

# КОНТЕКСТ

Мы хотим посетить как минимум один музей, один парк или место для прогулок и найти одно интересное развлечение для детей. Мы предпочитаем передвигаться на общественном транспорте. Бюджет на развлечения и еду — 15 000 рублей на три дня.

# ЦЕЛЬ

Создать пошаговый план поездки с расписанием и примерным бюджетом на каждый день.

# ИНСТРУКЦИИ

Мы будем работать итеративно. Не пытайся сгенерировать весь план сразу. Твоя задача — на каждом шаге формулировать один конкретный вопрос, который поможет нам собрать информацию для плана. Я буду находить информацию и предоставлять ее тебе.

**Наш рабочий цикл:**
1. **Думай:** Ты анализируешь задачу и формулируешь один четкий под-запрос для поиска информации.
2. **Ищи:** Я нахожу информацию по твоему запросу и вставляю ее в чат.
3. **Записывай:** Ты извлекаешь из моей информации ключевые факты (цены, часы работы, адреса, особенности) и сохраняешь их в разделе "НАШИ НАХОДКИ".
4. После этого ты снова переходишь к шагу 1, пока мы не соберем достаточно данных.

**НАЧНЕМ.**

**Шаг 1 (Думай):** Сформулируй свой первый поисковый запрос. Он должен касаться самого интересного и не слишком утомительного музея для детей 7 и 12 лет.

Далее пользователь ждет ответа LLM, например: "Какие музеи в Санкт-Петербурге имеют интерактивные экспозиции для детей и какие у них цены на семейные билеты?". Пользователь ищет это в Google, копирует текст с 2-3 сайтов и вставляет в чат со словами: "Вот что я нашел. Извлеки ключевые факты".

🧠

5. Почему это работает:

Этот промпт работает за счет имитации логики ExSearch, перекладывая часть работы на пользователя, но сохраняя ключевые преимущества метода:

  • Декомпозиция: Промпт явно запрещает LLM генерировать ответ сразу (Не пытайся сгенерировать весь план сразу) и заставляет разбить большую задачу ("спланировать поездку") на маленькие, выполнимые подзадачи ("найти музей").
  • Контролируемый поиск (Grounding): Пользователь, а не LLM, выполняет роль поисковика (Я буду находить информацию). Это гарантирует, что модель будет работать с актуальными и достоверными данными (например, реальными ценами на билеты и часами работы), а не галлюцинировать их.
  • Структурированная память: Команда Записывай и раздел НАШИ НАХОДКИ создают явную, структурированную "память" для LLM внутри диалога. Модель не забывает предыдущие шаги и может использовать собранные факты для финального синтеза плана, что повышает его качество и согласованность.
  • Итеративность: Четко описанный рабочий цикл (Думай -> Ищи -> Записывай) превращает статичный промпт в динамичный процесс, который можно продолжать до тех пор, пока результат не удовлетворит пользователя.

📌

6. Другой пример практического применения

# РОЛЬ

Ты — мой ассистент по здоровому образу жизни. Твоя задача — помочь мне составить базовый план питания для снижения веса.

# КОНТЕКСТ

Я мужчина, 30 лет, офисный работник, низкая физическая активность. Моя цель — сбросить 5 кг за 2 месяца. Я не имею аллергий, но предпочитаю простую в приготовлении еду.

# ЦЕЛЬ

Сформулировать основные принципы питания и составить примерное меню на 3 дня, которое будет соответствовать моей цели.

# ИНСТРУКЦИИ

Мы будем работать пошагово, чтобы создать реалистичный и основанный на фактах план. Не предлагай готовое меню сразу. Следуй этому циклу:

1. **Думай:** Задай мне один конкретный вопрос, чтобы прояснить принципы здорового питания для моей цели. Это должен быть запрос, который можно проверить в авторитетных источниках.
2. **Ищи:** Я предоставлю тебе информацию из медицинских статей или сайтов по диетологии.
3. **Записывай:** Ты должен проанализировать текст, извлечь из него 2-3 ключевых, практически применимых принципа и записать их в наш "СВОД ПРАВИЛ".
4. После этого задай следующий вопрос.

**НАЧНЕМ.**

**Шаг 1 (Думай):** Сформулируй свой первый вопрос. Он должен касаться расчета суточной нормы калорий для похудения для человека с моими параметрами.

🧠

7. Объяснение механизма почему этот пример работает.

Этот механизм эффективен, потому что он решает главные проблемы LLM при предоставлении советов в чувствительных сферах, таких как здоровье:

  • Снижение риска галлюцинаций: Вместо того чтобы LLM "вспоминал" потенциально неверные или опасные диетические советы, пользователь "заземляет" его на авторитетных источниках. Модель работает не как врач, а как суммаризатор проверенной информации, что гораздо безопаснее.
  • Поэтапное построение логики: Процесс заставляет LLM строить свои рекомендации на основе последовательно собранных фактов. Сначала определяется норма калорий, потом баланс белков/жиров/углеводов, затем подбираются продукты. Это приводит к более логичному и обоснованному итоговому плану, чем сгенерированный за один раз.
  • Персонализация через итерации: На каждом шаге пользователь может корректировать направление. Например, если LLM предлагает под-запрос о кето-диете, пользователь может сказать: "Нет, давай сфокусируемся на сбалансированном питании", тем самым направляя исследование в нужное русло. Это делает финальный результат более подходящим для конкретного человека.

📌

Основные критерии оценки

  • A. Релевантность техникам промтинга: Да, исследование предлагает не конкретные фразы, а целостный фреймворк (thinking -> search -> recording), который можно симулировать в промтах для решения сложных задач.
  • B. Улучшение качества диалоговых ответов: Да, основная цель исследования — повысить точность ответов на сложные, требующие знаний вопросы, что напрямую влияет на качество в чат-сценариях.
  • C. Прямая практическая применимость: Низкая, если говорить о прямом применении метода (он требует дообучения модели). Однако высокая, если говорить об адаптации логики метода для ручного использования в промтах. Пользователь может сам выполнять шаг "search" и подавать результаты LLM для шага "recording".
  • D. Концептуальная ценность: Очень высокая. Исследование дает пользователю мощную ментальную модель для взаимодействия с LLM — не как с всезнающим оракулом, а как с "агентом-стажером", которого нужно направлять в поиске и анализе информации. Оно объясняет, почему LLM терпят неудачу в сложных задачах и как это исправить.
  • E. Новая полезная практика (кластеризация):
    • Кластер 1 (Техники формулирования): Да, это продвинутая техника декомпозиции задачи.
    • Кластер 5 (Извлечение и структурирование): Да, шаг "recording" — это по сути извлечение ключевых фактов.
    • Кластер 6 (Контекст и память): Да, метод является стратегией по управлению контекстом и памятью при решении многошаговых задач.
    • Кластер 7 (Надежность и стабильность): Да, главная цель — снизить галлюцинации и повысить фактическую точность за счет обращения к внешним источникам.
  • Чек-лист практичности (+15 баллов):
    • Дает готовые фразы/конструкции для промптов? (Нет)
    • Объясняет, где в промпте размещать важную информацию? (Нет)
    • Показывает, как структурировать сложные запросы? (Да)
    • Раскрывает неочевидные особенности поведения LLM? (Да)
    • Раскрывает эффективные метода суммаризации текста (Да, шаг "recording")
    • Предлагает способы улучшить consistency/точность ответов? (Да)
    • Поскольку есть несколько "Да", к базовой оценке добавляется 15 баллов.
📌

2 Цифровая оценка полезности

Аргументы в пользу оценки (83/100): Исследование предлагает не просто "трюк", а фундаментальный подход к решению сложных задач, требующих актуальной или специфической информации. Его главная ценность для пользователя — в концептуальном сдвиге: от попытки сформулировать один идеальный промт к организации итеративного процесса, где LLM выступает в роли ассистента, а пользователь — в роли руководителя, направляющего поиск. Логику think -> search -> record можно легко симулировать вручную в любом чат-боте, что сразу же повышает качество и достоверность ответов на порядки. Это особенно полезно для аналитических, исследовательских и планировочных задач. Оценка 83 отражает огромную концептуальную и практическую пользу, которую можно извлечь, адаптировав эту логику, даже без доступа к дообучению моделей.

Контраргументы:

* Почему оценка могла бы быть ниже? Метод ExSearch в его "чистом" виде недоступен обычному пользователю, так как требует fine-tuning (дообучения) модели. Статья написана сложным академическим языком и сфокусирована на алгоритме обучения (Expectation-Maximization), а не на практических советах по промтингу. Чтобы извлечь пользу, пользователь должен проделать интеллектуальную работу по адаптации этой сложной концепции к простому диалогу в чате.
* Почему оценка могла бы быть выше? Понимание этого принципа — один из ключевых шагов к переходу от "новичка" в промтинге к "продвинутому пользователю". Это универсальный паттерн, который работает на всех моделях и для широчайшего круга задач. Он напрямую решает одну из главных проблем LLM — галлюцинации и использование устаревших данных. Возможно, его фундаментальная важность заслуживает оценки, близкой к 90.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с