3,583 papers
arXiv:2510.06534 80 8 окт. 2025 г. FREE

Четыре ключевых поведения LLM в многошаговом поиске информации

КЛЮЧЕВАЯ СУТЬ
Прикол: модель обученная на правильных рассуждениях с неправильными ответами показывает такую же точность, как модель на правильных ответах. КАК ищешь важнее ЧЕМ закончил. Метод Behavior Priming позволяет научить LLM искать информацию системно — проверять из нескольких источников, оценивать надёжность, менять стратегию если первая не сработала, исправлять собственные ошибки. Фишка: сначала обучи на траекториях с четырьмя поведениями (независимо от правильности ответа), потом стандартное обучение с подкреплением (RL). Модель закладывает правильный процесс поиска → +35% точности vs прямого RL.
Адаптировать под запрос

TL;DR

Модели лучше всего справляются с многошаговым поиском, когда демонстрируют четыре конкретных паттерна рассуждений: проверяют информацию из нескольких источников, оценивают их надёжность, меняют стратегию поиска если первая не сработала, и исправляют собственные ошибки. Частота этих поведений напрямую коррелирует с итоговой точностью ответов — от слабых до сильных моделей закономерность одна.

Главная находка исследования переворачивает обычную логику обучения: процесс рассуждения важнее правильности финального ответа. Модель, обученная на примерах с правильными рассуждениями но неправильными ответами, после дополнительного обучения показывает такую же производительность, как модель обученная на правильных ответах. Проблема в том, что модели не развивают эти поведения спонтанно — даже после reinforcement learning их частота падает, а не растёт.

Решение — Behavior Priming: сначала обучить модель на траекториях, которые демонстрируют все четыре поведения (независимо от правильности ответа), затем применить стандартное RL. Это даёт +35% к точности по сравнению с прямым RL, потому что закладывает фундамент для эффективного исследования (выше pass@k, больше энтропии политики) и масштабирования во время теста (длиннее траектории).

📌

Четыре поведения для эффективного поиска

1. Information Verification (Проверка информации) Поиск информации из нескольких независимых источников, кросс-референсинг, явное цитирование доказательств в процессе рассуждения.

2. Authority Evaluation (Оценка авторитетности) Выявление противоречий между источниками, анализ надёжности источников (официальные документы vs форумы vs новостные сайты), приоритизация наиболее авторитетной информации.

3. Adaptive Search (Адаптивный поиск) Динамическое изменение стратегии поиска на основе предыдущих результатов — другие ключевые слова, другой угол атаки на проблему, если первая попытка не дала нужной информации.

4. Error Recovery (Исправление ошибок) Распознавание ошибок в предыдущих шагах (неправильная интерпретация, некорректный вывод) и активное их исправление.

🚀

Пример применения

Задача: Проверяешь информацию о стартапе "Умный Склад" перед собеседованием — компания обещает революцию в логистике, но хочешь понять реальную ситуацию.

Промпт:

Мне нужно проверить информацию о стартапе "Умный Склад" (ИНН 7707123456). 
Следуй этим принципам:

1. ПРОВЕРКА: Найди информацию минимум из 3 разных типов источников 
 (официальный сайт, новости, отзывы, регистрационные данные)
 
2. АВТОРИТЕТНОСТЬ: Если источники противоречат друг другу, 
 оцени надёжность каждого и объясни почему одному доверяешь больше
 
3. АДАПТАЦИЯ: Если первый поиск не дал нужной информации, 
 попробуй другие ключевые слова или угол (ищи не "Умный Склад отзывы", 
 а "Умный Склад сотрудники Хабр" или "логистика автоматизация 2024")
 
4. ИСПРАВЛЕНИЕ: Если на каком-то шаге сделал неверный вывод, 
 явно укажи ошибку и исправь

Покажи мне весь процесс поиска, не только итоговый ответ.

Результат: Модель покажет многошаговый процесс: первый поиск → что нашла → второй поиск с другими словами → сравнение источников → выявление противоречий (сайт говорит "5 млн выручка", СПАРК показывает "500k") → оценка какому источнику доверять → финальный вывод с обоснованием.

🧠

Почему это работает

Слабость LLM: модели склонны доверять первому найденному ответу и не проверяют информацию из разных источников. При столкновении с противоречиями часто выбирают случайно, а не по надёжности источника. Не возвращаются к предыдущим шагам, чтобы исправить ошибки.

Сильная сторона LLM: модели хорошо справляются с структурированным процессом рассуждений, когда явно заданы шаги: "сначала найди, потом сравни, потом оцени надёжность". Способны симулировать критическое мышление, если это прописано в инструкции.

Как принципы используют сильную сторону: четыре поведения превращают хаотичный поиск в систематический процесс. Вместо "найди и ответь" модель следует чёткому алгоритму: найти → проверить из других источников → оценить надёжность → адаптировать стратегию если нужно → исправить ошибки. Это снижает когнитивную нагрузку и повышает качество.

Ключевой инсайт исследования: эти поведения не появляются спонтанно даже после RL-обучения. Их нужно явно заложить через примеры, а потом модель научится применять их эффективнее через RL.

📋

Шаблон промпта

Задача: {описание задачи требующей поиска информации}

Следуй принципам эффективного поиска:

1. ПРОВЕРКА ИНФОРМАЦИИ:
 - Найди информацию минимум из {N} разных источников
 - Сравни их между собой
 - Явно укажи какой источник что говорит

2. ОЦЕНКА АВТОРИТЕТНОСТИ:
 - Если источники противоречат, оцени надёжность каждого
 - Приоритизируй: {типы авторитетных источников для твоей задачи}
 - Объясни почему одному источнику доверяешь больше

3. АДАПТИВНЫЙ ПОИСК:
 - Если первый поиск не дал результата, попробуй другие ключевые слова
 - Меняй угол атаки: {примеры альтернативных углов}
 
4. ИСПРАВЛЕНИЕ ОШИБОК:
 - Проверяй свои предыдущие выводы
 - Если нашёл ошибку — явно укажи и исправь

Покажи весь процесс, не только финальный ответ.

Как заполнять:

  • {описание задачи} — твоя конкретная задача поиска
  • {N} — минимум источников (обычно 3-5)
  • {типы авторитетных источников} — для твоей области (официальные документы > экспертные блоги > форумы)
  • {примеры альтернативных углов} — разные способы сформулировать поиск
⚠️

Ограничения

⚠️ Длина траектории: Принципы увеличивают количество шагов (в среднем с 4 до 7 шагов на задачу). Для простых вопросов это избыточно — достаточно одного поиска.

⚠️ Токены: Демонстрация всех четырёх поведений в каждой задаче требует больше токенов. Для рутинных задач это неэффективно.

⚠️ Субъективные критерии: Authority Evaluation хорошо работает для фактической информации (законы, статистика, технические данные), но хуже для субъективных оценок (какой продукт лучше, какой подход правильнее).

🔍

Как исследовали

Команда запустила сильную модель (Gemini 2.5 Flash) и слабую (Qwen3-1.7B) на одинаковых вопросах через единый агентный фреймворк. Взяли 200 пар траекторий где Gemini решил задачу, а Qwen — нет. Промпт для анализа: "Почему одна траектория успешна, другая — нет?" Собрали ответы, извлекли общие паттерны, дедуплицировали → получили 4 поведения.

Валидация: измерили частоту этих поведений в траекториях Gemini 2.5 Flash, DeepSeek R1, Llama 3.2-3B, Qwen3-1.7B на трёх бенчмарках (GAIA, WebWalker, HLE). Ранжирование моделей по производительности полностью совпало с ранжированием по частоте поведений — от самой слабой до самой сильной.

Затем создали датасеты из 20k траекторий Gemini:

  • SFT (Random) — случайные траектории
  • SFT (Correct) — только с правильным ответом
  • Behavior Prime — только с четырьмя поведениями (независимо от правильности ответа)
  • Behavior Prime (Incorrect) — с поведениями но неправильным ответом
  • Behavior Prime (Correct) — с поведениями и правильным ответом

Обучили Qwen3-1.7B и Llama 3.2-3B на каждом датасете (SFT), затем все модели прогнали через одинаковый RL (GRPO, 300 шагов).

Удивительный результат: модель на Behavior Prime (Incorrect) (поведения есть, ответы неправильные) после RL показала такую же производительность, как Behavior Prime (Correct) (поведения и ответы правильные). Обе на 35% лучше чем прямой RL без SFT.

Механика почему это работает: поведения повышают pass@k (разнообразие путей решения) и энтропию политики (не схлопывается к одной стратегии). Это даёт фундамент для эффективного RL. Модели без поведений начинают с низкой энтропии и быстро сходятся к плато. С поведениями — высокая энтропия сохраняется, модель исследует дольше и находит лучшие решения.

🔗

Ресурсы

Beneficial Reasoning Behaviors in Agentic Search and Effective Post-training to Obtain Them

Jiahe Jin, Abhijay Paladugu, Chenyan Xiong (Carnegie Mellon University)

Код будет выложен open source (на момент публикации препринта — в процессе).


📋 Дайджест исследования

Ключевая суть

Прикол: модель обученная на правильных рассуждениях с неправильными ответами показывает такую же точность, как модель на правильных ответах. КАК ищешь важнее ЧЕМ закончил. Метод Behavior Priming позволяет научить LLM искать информацию системно — проверять из нескольких источников, оценивать надёжность, менять стратегию если первая не сработала, исправлять собственные ошибки. Фишка: сначала обучи на траекториях с четырьмя поведениями (независимо от правильности ответа), потом стандартное обучение с подкреплением (RL). Модель закладывает правильный процесс поиска → +35% точности vs прямого RL.

Принцип работы

Четыре поведения превращают хаотичный поиск в систему: (1) Проверка информации — ищи из нескольких независимых источников, сравнивай их. (2) Оценка авторитетности — если противоречат, объясни почему одному доверяешь больше (официальные документы > экспертные блоги > форумы). (3) Адаптивный поиск — первый запрос не сработал? Меняй ключевые слова, угол атаки. (4) Исправление ошибок — нашёл ошибку в предыдущих шагах? Явно укажи и исправь. Вместо "найди и ответь" модель следует алгоритму: найти → проверить → оценить → адаптировать → исправить.

Почему работает

LLM склонны доверять первому найденному ответу. При противоречиях выбирают случайно, не по надёжности источника. Не возвращаются назад чтобы исправить ошибки. Ключевой инсайт: эти поведения не появляются сами даже после обучения с подкреплением — их частота падает, а не растёт. Нужно явно заложить через примеры траекторий, а потом модель научится применять эффективнее. Исследование показало: частота четырёх поведений напрямую связана с итоговой точностью — от слабых до сильных моделей закономерность одна.

Когда применять

Многошаговый поиск информации → конкретно для проверки фактов перед решениями (due diligence стартапов, исследование противоречивых тем, анализ источников для статьи), особенно когда информация разбросана и противоречива. НЕ подходит для простых вопросов с одним очевидным источником — четыре поведения увеличивают длину траектории с 4 до 7 шагов, для рутины это избыточно.

Мини-рецепт

1. Пропиши явно: В промпте перечисли все 4 поведения как обязательные шаги. Не просто "найди информацию", а "найди из 3 источников, сравни, оцени надёжность, если не нашёл — измени запрос, если ошибся — исправь".
2. Покажи процесс: Попроси модель показать весь процесс поиска, не только финальный ответ. Формулировка: Покажи мне весь процесс поиска, не только итоговый ответ.
3. Задай приоритеты авторитетности: Укажи для твоей области какие источники важнее. Например: Приоритизируй: официальные документы > научные статьи > экспертные блоги > форумы.
4. Дай примеры адаптации: Подскажи как менять стратегию: Если "Умный Склад отзывы" не дал результата, попробуй "Умный Склад сотрудники Хабр" или "логистика автоматизация 2024".

Примеры

[ПЛОХО] : Найди информацию о стартапе "Умный Склад" перед собеседованием
[ХОРОШО] : Проверь информацию о стартапе "Умный Склад" (ИНН 7707123456). Следуй принципам: (1) ПРОВЕРКА — найди минимум из 3 типов источников (сайт, новости, отзывы, СПАРК). (2) АВТОРИТЕТНОСТЬ — если противоречат, объясни почему одному доверяешь больше. (3) АДАПТАЦИЯ — если первый поиск не дал результата, попробуй другие ключевые слова (не "отзывы", а "сотрудники Хабр" или "логистика автоматизация"). (4) ИСПРАВЛЕНИЕ — если на каком-то шаге сделал неверный вывод, явно укажи ошибку. Покажи весь процесс, не только итог.
Источник: Beneficial Reasoning Behaviors in Agentic Search and Effective Post-training to Obtain Them
ArXiv ID: 2510.06534 | Сгенерировано: 2026-01-11 23:53

Концепты не выделены.

📖 Простыми словами

Четыре ключевых поведения LLM в многошаговом поиске информации

arXiv: 2510.06534

Когда AI-агент ищет информацию в сети, он работает не как библиотекарь, а как детектив. Суть в том, что точность ответа зависит не от мощности процессора, а от конкретных паттернов рассуждения. Модель должна не просто гуглить, а постоянно сомневаться в увиденном. Исследование показало, что успех поиска держится на четырех китах: перекрестная проверка, оценка надежности, смена стратегии и самокоррекция. Если AI ведет себя как упрямый баран и верит первой ссылке — он проиграет. Если он ведет себя как параноик, который перепроверяет факты и признает свои косяки — он выдает результат.

Это как нанять ассистента, чтобы он нашел тебе квартиру. Плохой помощник принесет первый попавшийся вариант с сомнительного сайта и скажет: "Берем, там написано, что все супер". Хороший агент — это Agentic Search. Он увидит, что на одном сайте цена низкая, а на другом в два раза выше, заподозрит неладное, полезет в реестры, поймет, что его пытаются кинуть, и в итоге скажет: "Слушай, тут мутная схема, я нашел другой вариант". Формально оба искали информацию, но только второй реально решил задачу, потому что умел вовремя переобуться.

В работе выделили четкие методы, которые делают AI умнее. Первый — многоисточниковая верификация: нельзя верить одной статье, нужно минимум три. Второй — фильтрация по авторитетности: пост в соцсети весит меньше, чем отчет госоргана. Третий — динамический план: если запрос 'купить дешево' выдает только спам, модель должна сама сменить тактику на 'анализ рынка оптовых цен'. И главное — исправление ошибок. Если на третьем шаге выяснилось, что на первом AI затупил, он должен вернуться назад и переделать, а не переть до конца с неверными данными.

Тестировали это на сложных поисковых задачах, но принцип агентского поведения применим везде, где нужно принимать решения на основе данных. Это работает для бизнес-разведки, проверки контрагентов или даже написания кода. SEO-оптимизация контента теперь должна учитывать, что AI-поисковик вроде Perplexity будет искать подвох и сравнивать тебя с конкурентами. Если твой текст выглядит как дешевая реклама без пруфов, агент просто выкинет его из выдачи, потому что он обучен доверять только структурированным фактам.

Короче: эра простого поиска по ключевым словам закончилась, наступила эра рассуждающих агентов. Чтобы AI выдавал правду, его нужно дрессировать на признание ошибок и критическое мышление. 4 паттерна поведения — это база, которая отделяет полезный инструмент от генератора случайного бреда. Если модель не умеет менять стратегию на ходу, она бесполезна для серьезных задач. Будущее за теми системами, которые умеют вовремя остановиться и подумать, а не просто выдавать текст со скоростью пулемета.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с