3,583 papers
arXiv:2604.19837 74 21 апр. 2026 г. FREE

Forage V2: разделение оценщика и исполнителя против иллюзии полноты

КЛЮЧЕВАЯ СУТЬ
Попросил AI найти всех игроков рынка — он отчитался о 100% выполнении при реальных 15.9% охвата. Не галлюцинация и не плохой промпт — структурная ловушка: одна система одновременно собирает данные и оценивает полноту. Метод Forage V2 позволяет получать реально полные исследования — рынков, конкурентов, источников, аргументов — через разделение этих двух действий на разные промпты. Оценщик в отдельном запросе определяет «знаменатель» — сколько категорий и объектов вообще должно быть — до того, как Исполнитель сделает хоть один шаг. После сбора Оценщик снова смотрит — какие категории пустые, сколько процентов реально покрыто. Конфликт интересов исчезает: судья и участник больше не одно лицо.
Адаптировать под запрос

TL;DR

Слепота к знаменателю (denominator blindness) — системная ошибка LLM при открытых исследовательских задачах. Когда просишь AI собрать «все» данные о чём-то, оно находит часть, принимает её за весь объём и отчитывается о 100% выполнении. Forage V2 решает это через разделение ролей: отдельный Оценщик (Evaluator) и отдельный Исполнитель (Planner), которые не видят работу друг друга.

Главная находка: AI не может честно оценивать свою собственную полноту. В экспериментах один агент самостоятельно отчитался о 100% охвата при реальных 15.9%. Проблема не в качестве текста — в том, что AI путает «всё, что я нашёл» с «всем, что существует». Это не баг конкретной модели, это структурное следствие совмещения ролей исполнителя и судьи в одном агенте.

Метод работает в два разделённых потока: Оценщик независимо оценивает что значит «полно» и проверяет границы задачи — без доступа к тому, как работает Исполнитель. Исполнитель максимизирует результат, опираясь только на метрики с разрывами, но не на логику оценки. V2 добавляет к этому накопление знаний: после каждого прохода оба агента независимо извлекают уроки в общую базу, которую наследуют следующие запуски.


🔬

Схема метода

ПРОГОН N:
  Оценщик (старт) → оценивает, что значит "полно", фиксирует знаменатель
       ↓ (только метрики и пробелы — без кода друг друга)
  Исполнитель     → собирает данные, заполняет пробелы
       ↓
  Оценщик (проверка) → измеряет охват, ревизирует знаменатель, решает: стоп/продолжить
       ↓
  Повтор до достаточного охвата или лимита раундов

ПОСЛЕ ПРОГОНА:
  Оба агента независимо → извлекают уроки в базу знаний (advisory, не правила)

СЛЕДУЮЩИЙ ПРОГОН:
  Старт с накопленной базой → сразу рабочее состояние, не с нуля

Важно: в полном виде архитектура требует кода и нескольких файлов. Но ключевые принципы — разделение оценки и исполнения, самопроверочный чеклист, накопление уроков — воспроизводимы в обычном чате отдельными промптами.


🚀

Пример применения

Задача: Ты готовишь конкурентный анализ для стартапа в сегменте HR-автоматизации в России. Нужно собрать всех игроков. Стандартный запрос — AI выдаст 10-15 названий и скажет «готово». Половина упущена.

Промпт — Шаг 1 (Оценщик, отдельный запрос):

Ты — Оценщик рынка. Твоя задача НЕ называть компании, а оценить 
границы задачи.

Задача для анализа: {рынок HR-автоматизации в России}

Ответь на эти вопросы ДО начала сбора:
1. Какие категории игроков входят в этот рынок? (перечисли типы, 
   не конкретные компании)
2. По каким критериям компания считается или не считается игроком?
3. Оцени: сколько ВСЕГО компаний должно быть в полном списке? 
   (диапазон, с обоснованием)
4. Какие ниши или сегменты я могу пропустить, если искать поверхностно?
5. Какие источники дадут наиболее полную картину? 
   (не ищи компании — только источники)

Закончи фразой: "Знаменатель задачи: примерно Х компаний в Х категориях."

Промпт — Шаг 2 (Исполнитель, новый запрос):

Вот параметры задачи от Оценщика:
{вставить ответ из шага 1}

Теперь собери список. Твоя цель — охватить ВСЕ категории и сегменты, 
которые определил Оценщик. Структурируй по категориям.

Промпт — Шаг 3 (Оценщик снова, самопроверка):

Вот собранный список: {вставить результат шага 2}

Ты — Оценщик. Изначально мы ожидали {Х компаний в Х категориях}.

Ответь:
- Какие категории из шага 1 НЕ получили достаточного охвата?
- Какие сегменты явно недопредставлены?
- Нужно ли пересмотреть знаменатель вверх — появились новые категории?
- Оцени реальный охват: сколько % от полного рынка мы покрыли?

НЕ добавляй компании — только укажи пробелы.

Результат:

Шаг 1 даёт явную карту задачи до начала сбора — с реальной оценкой объёма. Шаг 2 собирает данные под эту карту. Шаг 3 честно измеряет пробелы без иллюзии полноты. После шага 3 можно снова пройти шаг 2, прицельно добирая пробелы. База уроков — записывай в отдельный документ: что нашёл, какие источники работают, какие пустые.


🧠

Почему это работает

Слабость LLM: Когда AI одновременно выполняет задачу и оценивает, насколько хорошо справился, он использует один и тот же «кадр» для обоих суждений. Найденное становится ориентиром для оценки полноты. Это не обман — это структурная ловушка: нельзя одновременно быть участником и беспристрастным судьёй.

Сильная сторона LLM: Модель хорошо следует ролевым инструкциям. Если явно зафиксировать, что Оценщик НЕ видит как работал Исполнитель — AI честно выстраивает независимую оценку. Роль создаёт когнитивный барьер, которого не было без неё.

Как метод использует это: Разделение в разные промпты (или разные чаты) убирает структурный конфликт интересов. Оценщик оценивает задачу до и после сбора, независимо от того, как именно собирали. Самопроверочный чеклист — вопросы "а не занизил ли я знаменатель?" — форсирует ревизию, которую AI без явного запроса не делает.

Рычаги управления: - Знаменатель — чем конкретнее ты сформулировал ожидаемый объём в шаге 1, тем честнее оценка в шаге 3. Попроси дать диапазон с нижней и верхней границей. - Категории — количество типов игроков в шаге 1 задаёт глубину. Можно попросить Оценщика расширить их явно: «добавь смежные рынки». - Раунды — два прохода (сбор → оценка → точечный досбор) дают заметно лучше одного. - Роль аудитора — вместо "Оценщик" можно написать "скептичный инвестор, который проверяет полноту анализа перед питчем" — роль с личностью работает острее.


📋

Шаблон промпта

Шаг 1 — Оценщик (запускается первым, отдельно):

Ты — Оценщик задачи. Работа: определить границы ДО начала сбора.

Задача: {описание задачи}

Ответь:
1. Какие категории/типы объектов входят в область задачи?
2. Критерии включения и исключения объекта в список
3. Ожидаемый полный объём: {X–Y объектов} — с обоснованием
4. Какие ниши легко пропустить при поверхностном поиске?
5. Лучшие источники для полного охвата (не сами объекты)

Итог: "Знаменатель задачи: {X объектов} в {N категориях}."

Шаг 2 — Исполнитель:

Параметры задачи от Оценщика:
{вывод из шага 1}

Задача: собери {тип объектов} по всем указанным категориям.
Структурируй по категориям из оценки. 
Не оценивай полноту — только собирай.

Шаг 3 — Оценщик, аудит:

Исходная оценка: {знаменатель из шага 1}
Собранный список: {результат шага 2}

Проверь:
- Какие категории недопредставлены?
- Какие сегменты пропущены?
- Нужно ли пересмотреть знаменатель вверх?
- Реальный охват: примерно __% от полного объёма

Не добавляй объекты — только укажи пробелы для следующего прохода.

Шаг 4 (опционально) — Исполнитель, точечный досбор:

Оценщик выявил пробелы: {пробелы из шага 3}

Добери только эти сегменты. Не трогай уже собранное.

База знаний (ведёшь вручную):

Задача: {название}
Дата: {дата}

Что работало:
- {источник X} дал наибольший охват по {категории}

Что не работало:
- {источник Y} блокирует / даёт неполные данные

Знаменатель уточнён: {итоговая оценка}
Реальный охват: ~{%}

Плейсхолдеры: {описание задачи} — что именно собираешь и для чего; {тип объектов} — компании, статьи, аргументы, инструменты; {знаменатель} — диапазон из шага 1.


🚀 Быстрый старт — вставь в чат:

Вот шаблон метода Forage для открытых исследовательских задач. 
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит про тип задачи, область поиска и ожидаемый объём — потому что от этого зависит насколько конкретно сформулировать знаменатель в шаге 1. Она возьмёт структуру трёх шагов и адаптирует под твою тему.


⚠️

Ограничения

⚠️ Открытые задачи: Метод работает для задач с размытым полным объёмом — рынки, конкуренты, источники, аргументы. Для задач с известным ответом (столицы, факты) — избыточен.

⚠️ Ручная оркестровка: Полный метод требует 3-4 отдельных запроса и ручного копирования между шагами. В чате без кода это занимает на 5-10 минут больше стандартного подхода.

⚠️ Перекрёстный перенос знаний: Авторы честно признают: база знаний, накопленная по одной задаче (NVIDIA GPU), не проверялась на других доменах. Работает в рамках одного домена. Придётся вести отдельные базы для разных тем.

⚠️ Знаменатель не верифицируем: Оценщик сам оценивает полноту — у него нет доступа к «реальному ответу». Это лучше, чем ничего, но не гарантия. В экспериментах три независимых прогона сошлись на одном числе (266) — это признак стабильности, не абсолютной точности.

⚠️ Слабые модели без базы знаний: Перенос работает от сильной модели к слабой. Запуск слабой модели без накопленных знаний даёт заметно хуже: разброс 90.7–96.5% охвата против 99.7–100% с базой знаний от более сильной модели.


🔗

Ресурсы

  • Forage V2: Knowledge Evolution and Transfer in Autonomous Agent Organizations — Huaqing Xie (Independent Researcher)
  • Ссылка на V1: Xie [2026] — оригинальная работа по denominator blindness
  • Связанные находки: Anthropic [2025b] — наблюдение об агентах, которые "уверенно хвалят посредственную работу"; ByteDance Research WideSearch [2025] — 5.1% реального охвата при высокой уверенности агентов

📋 Дайджест исследования

Ключевая суть

Попросил AI найти всех игроков рынка — он отчитался о 100% выполнении при реальных 15.9% охвата. Не галлюцинация и не плохой промпт — структурная ловушка: одна система одновременно собирает данные и оценивает полноту. Метод Forage V2 позволяет получать реально полные исследования — рынков, конкурентов, источников, аргументов — через разделение этих двух действий на разные промпты. Оценщик в отдельном запросе определяет «знаменатель» — сколько категорий и объектов вообще должно быть — до того, как Исполнитель сделает хоть один шаг. После сбора Оценщик снова смотрит — какие категории пустые, сколько процентов реально покрыто. Конфликт интересов исчезает: судья и участник больше не одно лицо.

Принцип работы

Стандартный подход выглядит так: попросил AI — получил список — решил «готово». Проблема в том, что AI оценивает полноту через то, что уже нашёл. Нашёл 15 компаний — это стало его представлением об объёме рынка. Фишка: задать вопрос о размере задачи до начала сбора, в отдельном запросе — без доступа к тому, что потом найдёт Исполнитель. Оценщик формулирует карту задачи: типы объектов, критерии включения, ожидаемый диапазон объёма. Исполнитель собирает данные под эту карту — и только это. Оценщик потом проверяет: что пусто, где реальный процент от знаменателя. Цикл можно повторить — Исполнитель добирает слабые сегменты, Оценщик снова меряет.

Почему работает

AI использует один и тот же «кадр» для сбора и оценки. Найденное становится жёстким ориентиром полноты — не намеренно, просто потому что больше нечего сравнивать. Нельзя быть беспристрастным судьёй процесса, в котором участвуешь — это не баг конкретной модели, это архитектурное следствие совмещения ролей. Но модель хорошо следует ролевым инструкциям. Явное ограничение «ты не знаешь как работал Исполнитель» создаёт реальный когнитивный барьер, которого без явной инструкции не было. В экспериментах три независимых прогона сошлись на одном числе объектов — это признак стабильности метода, а не случайности.

Когда применять

Открытые исследовательские задачи → конкурентный анализ, сбор источников по теме, составление карты рынка, подбор аргументов, поиск прецедентов — особенно когда нет известного полного ответа и важен именно охват, а не просто «что-то найти». НЕ подходит для фактических запросов с известным ответом (столицы стран, дата события, формула) — там три шага избыточны.

Мини-рецепт

1. Запусти Оценщика первым: В отдельном промпте попроси определить границы задачи до начала сбора. Дай роль: Ты — Оценщик задачи. Не ищи объекты — только назови типы объектов в области задачи, критерии включения и исключения, ожидаемый полный объём (диапазон с обоснованием) и сегменты, которые легко пропустить. Итог: 'Знаменатель: X–Y объектов в N категориях.'

2. Дай карту Исполнителю: В новом промпте вставь вывод Оценщика и попроси собрать данные по всем категориям. Добавь явный запрет: Не оценивай полноту — только собирай, структурируй по категориям из оценки.

3. Верни Оценщику на аудит: Дай собранный список и спроси: какие категории пустые или слабые, нужно ли пересмотреть знаменатель вверх, каков реальный охват в процентах. Важно: Не добавляй объекты — только укажи пробелы.

4. (Опционально) Добор пробелов: Верни пробелы из шага 3 Исполнителю. Пусть добирает только слабые сегменты — не трогает уже собранное. Один дополнительный проход заметно улучшает итог.

5. Веди базу вручную: После каждой задачи записывай — какие источники дали наибольший охват, где данные пустые, до какого знаменателя уточнилась оценка. Следующая похожая задача стартует не с нуля.

Примеры

[ПЛОХО] : Найди всех игроков рынка HR-автоматизации в России
[ХОРОШО] : Шаг 1 (Оценщик, отдельный запрос): Ты — Оценщик задачи. НЕ называй компании. Задача: рынок HR-автоматизации в России. Ответь: 1) Какие типы компаний входят в эту область? 2) По каким критериям компания считается игроком или не считается? 3) Ожидаемый полный объём — диапазон с обоснованием. 4) Какие сегменты легко пропустить при поверхностном поиске? Итог: 'Знаменатель: X–Y компаний в N категориях.' Шаг 2 (Исполнитель): Параметры задачи от Оценщика: {вывод из шага 1}. Собери компании по всем указанным категориям и сегментам. Структурируй по категориям. Не оценивай охват — только собирай. Шаг 3 (Оценщик, аудит): Изначально ожидали: {знаменатель из шага 1}. Собранный список: {результат шага 2}. Какие категории недопредставлены? Какие сегменты пустые? Нужно ли пересмотреть знаменатель вверх? Реальный охват — примерно сколько процентов? Не добавляй компании — только пробелы для следующего прохода.
Источник: Forage V2: Knowledge Evolution and Transfer in Autonomous Agent Organizations
ArXiv ID: 2604.19837 | Сгенерировано: 2026-04-23 05:33

Проблемы LLM

ПроблемаСутьКак обойти
Модель принимает найденное за полноеПросишь собрать «все» компании, источники, аргументы. Модель находит часть. Принимает эту часть за весь объём. Отчитывается о 100% выполнении. Реальный охват может быть 15–20%. Это не ложь — модель буквально не видит то, чего не нашла. Это структурная ловушка для любых открытых задач: рынки, конкуренты, источники, аргументыРаздели запросы. Сначала — отдельный запрос: «оцени границы задачи, не собирай данные». Потом — сбор. Потом — снова отдельный запрос: «проверь пробелы, не добавляй объекты». Оценщик и исполнитель в разных запросах не делят один «кадр»

Методы

МетодСуть
Три отдельных запроса для задач на полнотуШаг 1 — Оценщик (отдельный запрос): попроси определить границы задачи ДО начала сбора. Запрос: «Ты — Оценщик. Не называй объекты. Ответь: какие категории входят в задачу? Критерии включения? Ожидаемый объём: X–Y объектов? Что легко пропустить? Итог: знаменатель задачи — X объектов в N категориях.» Шаг 2 — Исполнитель (новый запрос): вставь вывод из шага 1 и попроси собирать по категориям. «Не оценивай полноту — только собирай.» Шаг 3 — Оценщик снова (отдельный запрос): вставь результат шага 2 и оценку из шага 1. «Какие категории недопредставлены? Какие пропущены? Нужно ли пересмотреть знаменатель вверх? Не добавляй объекты — только пробелы.» Почему работает: модель хорошо держит роль. Если явно запрещено видеть результат другого шага — оценка независима. Разные запросы создают барьер, которого нет в одном диалоге. Когда применять: рынки, конкуренты, источники, аргументы — любая задача без заранее известного полного списка. Когда не нужно: факты с однозначным ответом (столицы, даты)
📖 Простыми словами

Forage V2: Knowledge Evolution and Transfer inAutonomousAgentOrganizations

arXiv: 2604.19837

Проблема в том, что современные нейронки страдают слепотой к знаменателю. Когда ты просишь AI найти «всех» конкурентов или собрать «полную» базу данных, он заходит в тупик: находит десяток примеров и искренне верит, что это и есть весь мир. Модель не понимает, сколько информации осталось за бортом, потому что для неё существует только то, что она уже видит. Это фундаментальный баг архитектуры — AI принимает часть за целое и бодро рапортует о 100% успехе, хотя по факту работа сделана на треть.

Это как если бы ты отправил стажёра в лес за грибами, а он вернулся через пять минут с тремя сыроежками и заявил, что лес пуст. Стажёр не ленится — он просто не представляет масштаб леса и считает, что раз под ногами больше ничего нет, значит, грибы закончились в принципе. Формально он выполнил задачу, но на деле он просто не знает, что нужно заглянуть под соседний куст. В итоге ты получаешь уверенный отчет, который на самом деле — полная фигня.

Метод Forage V2 лечит это через жесткое разделение труда на Исполнителя и Оценщика. Суть в том, что эти двое вообще не должны общаться напрямую и видеть черновики друг друга. Planner (Исполнитель) роет землю и собирает данные, а Evaluator (Оценщик) стоит в стороне и проверяет результат по независимым критериям, не вовлекаясь в процесс поиска. Когда AI сам ищет и сам же себя хвалит, он попадает в структурную ловушку: его собственная находка становится для него эталоном полноты. Разделение ролей ломает этот порочный круг.

Принцип универсален и применим везде, где нужно глубокое исследование, а не поверхностный гугл-поиск. Будь то анализ рынка, сбор научной базы или поиск уязвимостей в коде — стандартный запрос к ChatGPT выдаст тебе верхушку айсберга. Чтобы достать остальное, нужно заставить систему работать через внешний фильтр качества, который будет бить Исполнителя по рукам каждый раз, когда тот попытается сдать работу раньше времени. SEO-подход здесь не катит, тут нужна работающая агентская структура.

Короче: никогда не проси одну нейронку сделать задачу и оценить её качество одновременно — она обязательно соврёт, даже не заметив этого. Нужно внедрять Forage V2 или похожие схемы с независимыми агентами, иначе твой «глубокий анализ» останется на уровне детского реферата. Слепота к знаменателю — это риск пропустить критически важные данные, просто потому что твой AI-помощник решил, что он уже всё видел.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с