TL;DR
Модели лучше всего справляются с многошаговым поиском, когда демонстрируют четыре конкретных паттерна рассуждений: проверяют информацию из нескольких источников, оценивают их надёжность, меняют стратегию поиска если первая не сработала, и исправляют собственные ошибки. Частота этих поведений напрямую коррелирует с итоговой точностью ответов — от слабых до сильных моделей закономерность одна.
Главная находка исследования переворачивает обычную логику обучения: процесс рассуждения важнее правильности финального ответа. Модель, обученная на примерах с правильными рассуждениями но неправильными ответами, после дополнительного обучения показывает такую же производительность, как модель обученная на правильных ответах. Проблема в том, что модели не развивают эти поведения спонтанно — даже после reinforcement learning их частота падает, а не растёт.
Решение — Behavior Priming: сначала обучить модель на траекториях, которые демонстрируют все четыре поведения (независимо от правильности ответа), затем применить стандартное RL. Это даёт +35% к точности по сравнению с прямым RL, потому что закладывает фундамент для эффективного исследования (выше pass@k, больше энтропии политики) и масштабирования во время теста (длиннее траектории).
Четыре поведения для эффективного поиска
1. Information Verification (Проверка информации) Поиск информации из нескольких независимых источников, кросс-референсинг, явное цитирование доказательств в процессе рассуждения.
2. Authority Evaluation (Оценка авторитетности) Выявление противоречий между источниками, анализ надёжности источников (официальные документы vs форумы vs новостные сайты), приоритизация наиболее авторитетной информации.
3. Adaptive Search (Адаптивный поиск) Динамическое изменение стратегии поиска на основе предыдущих результатов — другие ключевые слова, другой угол атаки на проблему, если первая попытка не дала нужной информации.
4. Error Recovery (Исправление ошибок) Распознавание ошибок в предыдущих шагах (неправильная интерпретация, некорректный вывод) и активное их исправление.
Пример применения
Задача: Проверяешь информацию о стартапе "Умный Склад" перед собеседованием — компания обещает революцию в логистике, но хочешь понять реальную ситуацию.
Промпт:
Мне нужно проверить информацию о стартапе "Умный Склад" (ИНН 7707123456).
Следуй этим принципам:
1. ПРОВЕРКА: Найди информацию минимум из 3 разных типов источников
(официальный сайт, новости, отзывы, регистрационные данные)
2. АВТОРИТЕТНОСТЬ: Если источники противоречат друг другу,
оцени надёжность каждого и объясни почему одному доверяешь больше
3. АДАПТАЦИЯ: Если первый поиск не дал нужной информации,
попробуй другие ключевые слова или угол (ищи не "Умный Склад отзывы",
а "Умный Склад сотрудники Хабр" или "логистика автоматизация 2024")
4. ИСПРАВЛЕНИЕ: Если на каком-то шаге сделал неверный вывод,
явно укажи ошибку и исправь
Покажи мне весь процесс поиска, не только итоговый ответ.
Результат: Модель покажет многошаговый процесс: первый поиск → что нашла → второй поиск с другими словами → сравнение источников → выявление противоречий (сайт говорит "5 млн выручка", СПАРК показывает "500k") → оценка какому источнику доверять → финальный вывод с обоснованием.
Почему это работает
Слабость LLM: модели склонны доверять первому найденному ответу и не проверяют информацию из разных источников. При столкновении с противоречиями часто выбирают случайно, а не по надёжности источника. Не возвращаются к предыдущим шагам, чтобы исправить ошибки.
Сильная сторона LLM: модели хорошо справляются с структурированным процессом рассуждений, когда явно заданы шаги: "сначала найди, потом сравни, потом оцени надёжность". Способны симулировать критическое мышление, если это прописано в инструкции.
Как принципы используют сильную сторону: четыре поведения превращают хаотичный поиск в систематический процесс. Вместо "найди и ответь" модель следует чёткому алгоритму: найти → проверить из других источников → оценить надёжность → адаптировать стратегию если нужно → исправить ошибки. Это снижает когнитивную нагрузку и повышает качество.
Ключевой инсайт исследования: эти поведения не появляются спонтанно даже после RL-обучения. Их нужно явно заложить через примеры, а потом модель научится применять их эффективнее через RL.
Шаблон промпта
Задача: {описание задачи требующей поиска информации}
Следуй принципам эффективного поиска:
1. ПРОВЕРКА ИНФОРМАЦИИ:
- Найди информацию минимум из {N} разных источников
- Сравни их между собой
- Явно укажи какой источник что говорит
2. ОЦЕНКА АВТОРИТЕТНОСТИ:
- Если источники противоречат, оцени надёжность каждого
- Приоритизируй: {типы авторитетных источников для твоей задачи}
- Объясни почему одному источнику доверяешь больше
3. АДАПТИВНЫЙ ПОИСК:
- Если первый поиск не дал результата, попробуй другие ключевые слова
- Меняй угол атаки: {примеры альтернативных углов}
4. ИСПРАВЛЕНИЕ ОШИБОК:
- Проверяй свои предыдущие выводы
- Если нашёл ошибку — явно укажи и исправь
Покажи весь процесс, не только финальный ответ.
Как заполнять:
{описание задачи}— твоя конкретная задача поиска{N}— минимум источников (обычно 3-5){типы авторитетных источников}— для твоей области (официальные документы > экспертные блоги > форумы){примеры альтернативных углов}— разные способы сформулировать поиск
Ограничения
⚠️ Длина траектории: Принципы увеличивают количество шагов (в среднем с 4 до 7 шагов на задачу). Для простых вопросов это избыточно — достаточно одного поиска.
⚠️ Токены: Демонстрация всех четырёх поведений в каждой задаче требует больше токенов. Для рутинных задач это неэффективно.
⚠️ Субъективные критерии: Authority Evaluation хорошо работает для фактической информации (законы, статистика, технические данные), но хуже для субъективных оценок (какой продукт лучше, какой подход правильнее).
Как исследовали
Команда запустила сильную модель (Gemini 2.5 Flash) и слабую (Qwen3-1.7B) на одинаковых вопросах через единый агентный фреймворк. Взяли 200 пар траекторий где Gemini решил задачу, а Qwen — нет. Промпт для анализа: "Почему одна траектория успешна, другая — нет?" Собрали ответы, извлекли общие паттерны, дедуплицировали → получили 4 поведения.
Валидация: измерили частоту этих поведений в траекториях Gemini 2.5 Flash, DeepSeek R1, Llama 3.2-3B, Qwen3-1.7B на трёх бенчмарках (GAIA, WebWalker, HLE). Ранжирование моделей по производительности полностью совпало с ранжированием по частоте поведений — от самой слабой до самой сильной.
Затем создали датасеты из 20k траекторий Gemini:
- SFT (Random) — случайные траектории
- SFT (Correct) — только с правильным ответом
- Behavior Prime — только с четырьмя поведениями (независимо от правильности ответа)
- Behavior Prime (Incorrect) — с поведениями но неправильным ответом
- Behavior Prime (Correct) — с поведениями и правильным ответом
Обучили Qwen3-1.7B и Llama 3.2-3B на каждом датасете (SFT), затем все модели прогнали через одинаковый RL (GRPO, 300 шагов).
Удивительный результат: модель на Behavior Prime (Incorrect) (поведения есть, ответы неправильные) после RL показала такую же производительность, как Behavior Prime (Correct) (поведения и ответы правильные). Обе на 35% лучше чем прямой RL без SFT.
Механика почему это работает: поведения повышают pass@k (разнообразие путей решения) и энтропию политики (не схлопывается к одной стратегии). Это даёт фундамент для эффективного RL. Модели без поведений начинают с низкой энтропии и быстро сходятся к плато. С поведениями — высокая энтропия сохраняется, модель исследует дольше и находит лучшие решения.
Ресурсы
Beneficial Reasoning Behaviors in Agentic Search and Effective Post-training to Obtain Them
Jiahe Jin, Abhijay Paladugu, Chenyan Xiong (Carnegie Mellon University)
Код будет выложен open source (на момент публикации препринта — в процессе).
