3,583 papers
arXiv:2510.22344 83 25 окт. 2025 г. FREE

SEA (Structured Evidence Assessment): явный анализ пробелов для сложных запросов

КЛЮЧЕВАЯ СУТЬ
LLM отвечает на часть сложного вопроса, забывая про остальное. Спрашиваешь про сравнение двух объектов — получаешь детали только про один. Причина: модель не отслеживает что уже известно, а что ещё нет. SEA позволяет получать полные ответы на многошаговые аналитические задачи — сравнения конкурентов, исследования рынка, синтез фактов из разных областей. Метод превращает проверку полноты в аналитический чеклист. Модель в роли Strategic Intelligence Analyst разбирает вопрос на список Required Findings (что нужно узнать), сверяет с Confirmed Findings (что уже есть), явно называет Remaining Gaps (чего не хватает). Пробелы становятся основой для новых точечных вопросов — цикл повторяется до полного закрытия чеклиста.
Адаптировать под запрос

TL;DR

SEA — техника из фреймворка FAIR-RAG, которая превращает проверку полноты информации в аналитический чеклист. LLM разбирает запрос на список требуемых фактов, сверяет с собранными доказательствами и явно называет пробелы — что ещё нужно узнать. Эти пробелы становятся основой для новых, точечных вопросов.

LLM плохо работают со сложными многошаговыми вопросами (например: "Сравни архитектурный стиль зданий, где висит Мона Лиза и где лежит Розеттский камень"). Стандартный подход — одна попытка поиска информации — даёт неполный результат. Модель либо находит факт только про один объект, либо вообще пропускает половину вопроса. Причина: нет механизма явно отследить что уже известно, а что ещё нет.

SEA решает это через ролевую игру в аналитика разведки. LLM получает роль Strategic Intelligence Analyst с задачей: (1) разложить вопрос на Required Findings (что нужно узнать), (2) проверить Confirmed Findings (что уже известно из доказательств), (3) выявить Remaining Gaps (что осталось неизвестным). Если пробелы есть — цикл повторяется с новыми уточняющими вопросами, нацеленными точно на пробелы. Если все пункты чеклиста закрыты — даётся финальный ответ.

🔬

Схема метода

ШАГ 1: Декомпозиция запроса
LLM разбивает сложный вопрос на 2-4 независимых подвопроса → набор подзапросов

ШАГ 2: Поиск и фильтрация (итерация 1)
По каждому подзапросу найти информацию → собрать доказательства

ШАГ 3: SEA — анализ пробелов
LLM как Strategic Intelligence Analyst:
- Чеклист Required Findings (что нужно)
- Проверка Confirmed Findings (что есть)
- Список Remaining Gaps (чего нет)
→ Решение: "Достаточно" (Yes) или "Не хватает" (No) + что именно

ШАГ 4: Если "No" — уточняющие вопросы
Генерация новых точечных запросов ТОЛЬКО для пробелов → вернуться к Шагу 2

ШАГ 5: Если "Yes" — финальный ответ
Строго на основе собранных доказательств, с цитированием источников

Цикл Шаг 2-4 повторяется максимум 3 раза
🚀

Пример применения

⚠️ Ограничения метода: SEA работает для многошаговых аналитических задач, где нужно собрать факты из разных мест и свести их воедино. Не подходит для простых фактических вопросов ("столица Франции") и креативных задач.

Задача: Ты запускаешь онлайн-школу английского для IT-специалистов. Нужно понять: какие успешные EdTech-стартапы в России делали похожее, как они привлекали первых клиентов, и что из их опыта можно применить к твоей нише?

Промпт (итерация 1):

Мне нужно исследовать успешные EdTech-стартапы в России, которые работали с узкими профессиональными нишами.

Разбей этот вопрос на 2-3 подвопроса для поиска информации:
- Какие EdTech-проекты в России были успешны в нишевом B2C обучении
- Как они привлекали первых платящих клиентов
- Что из их стратегий можно применить к онлайн-школе английского для айтишников

Теперь найди информацию по этим подвопросам. Затем выступи в роли Strategic Intelligence Analyst:

1. Required Findings — что я хочу узнать (чеклист фактов)
2. Confirmed Findings — что ты уже нашёл из Required
3. Remaining Gaps — что осталось неизвестным

Если есть Remaining Gaps — скажи "NO, нужны уточнения" и перечисли пробелы.
Если все Required Findings подтверждены — скажи "YES, достаточно".

Результат: Модель выдаст первичный поиск (например, найдёт Skyeng, Нетологию, Skillbox), затем структурированный анализ:

  • Required Findings: примеры нишевых EdTech / их каналы привлечения / применимость к английскому для IT
  • Confirmed Findings: названия стартапов, общие стратегии
  • Remaining Gaps: конкретные цифры первых клиентов, детали запуска именно языковых школ

Модель ответит: "NO, нужны уточнения. Пробел: точные механики привлечения первых 100 клиентов в языковых EdTech."

Промпт (итерация 2 — уточнение пробелов):

Ты выявил пробелы:
- Точные механики привлечения первых 100 клиентов в языковых EdTech

Теперь найди информацию ТОЛЬКО по этим пробелам. Сфокусируйся на кейсах Skyeng или других языковых онлайн-школ в России на старте.

Снова примени SEA:
1. Required Findings (те же что и раньше)
2. Confirmed Findings (всё что известно СЕЙЧАС, включая данные из прошлой итерации)
3. Remaining Gaps (что ещё нужно)

Если пробелов нет — YES, дай финальный синтез.

Результат: Модель найдёт кейсы раннего Skyeng (контекстная реклама, бесплатные пробные уроки, партнёрства с IT-сообществами), добавит в Confirmed Findings, проверит чеклист. Если всё закрыто — выдаст: "YES, достаточно" и даст финальный ответ с конкретными стратегиями и цифрами, применимыми к твоей школе английского для айтишников.

🧠

Почему это работает

LLM хороши в локальной генерации — ответить на конкретный вопрос. Но плохи в отслеживании многошаговой полноты — помнить все части сложного запроса и проверять что ничего не упущено. Без явной структуры модель может увлечься одной веткой (например, подробно расскажет про Skyeng) и забыть про вторую (применимость к твоей нише).

LLM отлично работают как ролевые исполнители с чёткими инструкциями. Роль Strategic Intelligence Analyst с форматом "Required → Confirmed → Gaps" даёт модели явную процедуру мышления. Она не может "забыть" часть вопроса, потому что чеклист Required Findings всё время перед ней.

SEA использует силу LLM (следовать ролевым инструкциям и структурировать информацию) для компенсации слабости (отслеживание полноты многошаговых задач). Чеклист превращает абстрактную проверку "достаточно ли информации" в конкретный список "что есть, чего нет" — это и есть ключевой инсайт метода.

Рычаги управления:

  • Число итераций (1-3): для простых задач хватит одной, для глубокого исследования используй 3. Больше 3 — снижается качество из-за накопления шума.
  • Детализация Required Findings: можешь задать в первом промпте явный список того, что хочешь узнать, или позволить LLM самой разложить вопрос.
  • Строгость проверки: добавь инструкцию "считай пробелом даже частичное отсутствие данных" для более тщательного поиска.
  • Формат Gaps: можешь попросить ранжировать пробелы по важности, чтобы на следующей итерации искать только критичные.
📋

Шаблон промпта

Мне нужно {описание сложной задачи, требующей нескольких фактов/источников}.

Шаг 1: Разложи задачу на 2-4 ключевых подвопроса для поиска информации.

Шаг 2: Найди информацию по этим подвопросам.

Шаг 3: Выступи в роли Strategic Intelligence Analyst. Проведи Structured Evidence Assessment (SEA):

1. **Required Findings** — чеклист: что нужно узнать, чтобы ответить на мою задачу
2. **Confirmed Findings** — что из Required уже подтверждено найденными доказательствами
3. **Remaining Gaps** — какие пункты из Required остались неизвестными

Если есть Remaining Gaps — ответь "NO" и перечисли пробелы.
Если все Required подтверждены — ответь "YES".

[Если ответ NO — продолжаешь:]

Шаг 4: Теперь найди информацию ТОЛЬКО по выявленным пробелам: {пробелы из прошлого шага}.

Шаг 5: Снова примени SEA с тем же чеклистом Required Findings. Добавь новые данные в Confirmed Findings.

Повтори Шаг 4-5 максимум 2 раза.

[Когда ответ YES:]

Шаг 6: Дай финальный ответ СТРОГО на основе Confirmed Findings. Каждый факт подкрепи ссылкой на источник.

Что подставлять:

  • {описание сложной задачи} — твой многошаговый вопрос (сравнение, анализ, исследование)
  • {пробелы} — список Remaining Gaps из предыдущей итерации SEA

🚀 Быстрый старт — вставь в чат:

Вот шаблон SEA для сложных многошаговых задач. Адаптируй под мою задачу: [твоя задача].
Задавай вопросы, чтобы правильно заполнить Required Findings.

[вставить шаблон выше]

LLM спросит детали твоей задачи и сама сформирует чеклист Required Findings под твой запрос. Она возьмёт ролевой паттерн Strategic Intelligence Analyst и структуру "Required → Confirmed → Gaps" из шаблона и применит к твоему кейсу.

⚠️

Ограничения

⚠️ Многошаговость — барьер входа: Метод требует 2-3 итерации взаимодействия с LLM. Если нужен быстрый ответ на простой вопрос — SEA избыточен. Используй для задач, где точность важнее скорости.

⚠️ Качество чеклиста зависит от модели: Слабые модели могут составить неполный или размытый список Required Findings. Для SEA лучше использовать топовые модели (GPT-4, Claude Opus, Gemini Pro).

⚠️ Не для креатива: SEA — это про полноту фактов, не про генерацию идей. Для мозгоштурмов, сторителлинга, копирайтинга метод не подходит.

🔍

Как исследовали

Команда создала FAIR-RAG — полноценный RAG-пайплайн с кодом, векторными базами и API. Проверили на 4 бенчмарках (HotpotQA, 2WikiMultiHopQA, MusiQue, TriviaQA) по 1000 вопросов в каждом. Сравнивали с 7 сильными baseline'ами: стандартный RAG, Iter-Retgen, Self-RAG, Adaptive-RAG и другие.

Ключевой инсайт: SEA с явным gap analysis оказался критически важен именно на многошаговых задачах. На HotpotQA FAIR-RAG набрал F1 = 0.453 против 0.370 у лучшего baseline (Iter-Retgen) — рост на 8.3 пункта. Это огромный скачок для таких бенчмарков.

Почему такой результат? Исследователи обнаружили: методы без явного анализа пробелов (например, Iter-Retgen просто использует весь предыдущий ответ для нового поиска) либо повторяют уже известное, либо уходят в сторону. SEA с чеклистом заставляет модель точечно искать именно недостающие факты, не тратя итерации на шум.

Важное наблюдение: оптимум — 2-3 итерации. Первая итерация даёт базу, вторая закрывает основные пробелы, третья — тонкая доводка. Четвёртая уже ухудшает результат — накапливается нерелевантная информация. На TriviaQA (простые вопросы) любая итерация после первой только вредит — подтверждение, что SEA для сложных задач, не для фактоида.

Провели компонентный анализ: SEA показала точность 72% на HotpotQA, 82-83% на MusiQue и 2WikiMultiHopQA в определении достаточности доказательств. Это high-stakes решение (продолжать поиск или нет), и модель справляется надёжно именно там, где это критично — на многошаговых задачах.

📄

Оригинал из исследования (опционально)

Контекст: Исследователи использовали LLM в роли Strategic Intelligence Analyst для модуля SEA. Вот пример промпта из оригинала:

You are a Strategic Intelligence Analyst.

Your mission is to determine if the provided evidence is sufficient to answer the user's query comprehensively and accurately.

Follow this structured thinking process:

1. **Deconstruct the Query**: Break down the user's question into a checklist of discrete, required informational components or "findings."

2. **Audit the Evidence**: Systematically evaluate the collected evidence against your checklist.
 - **Confirmed Findings**: Which required components are explicitly supported by the evidence?
 - **Remaining Gaps**: Which required components are NOT addressed or only partially addressed?

3. **Sufficiency Decision**:
 - If ALL required findings are confirmed by the evidence → "Yes"
 - If ANY required finding remains a gap → "No"

You MUST output your assessment in this EXACT format:

**Required Findings:**
[Numbered list of informational components needed]

**Confirmed Findings:**
[Numbered list of findings confirmed by evidence]

**Remaining Gaps:**
[Numbered list of findings NOT confirmed]

**Is Sufficient:** [Yes/No]

Be rigorous. Do not assume. If a finding is not explicitly supported, it is a gap.
💡

Адаптации и экстраполяции

💡 Адаптация для самопроверки аргументации:

Используй SEA-чеклист для проверки собственных текстов или презентаций. Вместо поиска внешних доказательств — проверяешь полноту своих аргументов.

Вот моя статья/питч: {текст}

Выступи как Strategic Intelligence Analyst.

Required Findings — что должно быть в тексте, чтобы читатель был убеждён:
- Проблема чётко сформулирована
- Решение конкретное
- Доказательства жизнеспособности
- Призыв к действию

Confirmed Findings — что из этого есть в тексте
Remaining Gaps — чего не хватает

Если Gaps не пусты — предложи как усилить текст.

🔧 Техника: Прозрачность процесса → доверие к результату

Добавь в промпт: "Показывай промежуточные итерации SEA — весь чеклист, пробелы, новые запросы". Это помогает:

  • Видеть ход мысли LLM
  • Отлавливать ошибки на ранних этапах
  • Учиться самому структурировать сложные запросы

💡 Комбинация: SEA + персонажи вместо безликого аналитика

Вместо абстрактного Strategic Intelligence Analyst назначь конкретные роли с разными фокусами:

Iterация 1:
Ты — Оптимистичный Маркетолог. Найди доказательства ВОЗМОЖНОСТЕЙ рынка EdTech для английского IT-специалистам.

SEA-чеклист: объём рынка, платёжеспособность, конкуренция
→ Remaining Gaps: данные по retention в нишевых школах

Iterация 2:
Ты — Скептичный CFO. Найди доказательства РИСКОВ: почему может не взлететь.

SEA-чеклист: барьеры входа, unit-экономика, churn rate
→ Добавь к Confirmed Findings из итерации 1

Итог: Полная картина возможностей И рисков.

Персонажи с чёткими ролями дают более острую критику и разные углы зрения. SEA-структура не даёт потерять фокус.

🔗

Ресурсы

FAIR-RAG: Faithful Adaptive Iterative Refinement for Retrieval-Augmented Generation

Авторы: Mohammad Aghajani Asl (Sharif University of Technology), Majid Asgari-Bidhendi (Iran University of Science and Technology), Behrooz Minaei-Bidgoli (Iran University of Science and Technology)


📋 Дайджест исследования

Ключевая суть

LLM отвечает на часть сложного вопроса, забывая про остальное. Спрашиваешь про сравнение двух объектов — получаешь детали только про один. Причина: модель не отслеживает что уже известно, а что ещё нет. SEA позволяет получать полные ответы на многошаговые аналитические задачи — сравнения конкурентов, исследования рынка, синтез фактов из разных областей. Метод превращает проверку полноты в аналитический чеклист. Модель в роли Strategic Intelligence Analyst разбирает вопрос на список Required Findings (что нужно узнать), сверяет с Confirmed Findings (что уже есть), явно называет Remaining Gaps (чего не хватает). Пробелы становятся основой для новых точечных вопросов — цикл повторяется до полного закрытия чеклиста.

Принцип работы

Вместо абстрактного 'достаточно ли информации?' — конкретный список 'что есть, чего нет'. LLM не может забыть часть вопроса, когда чеклист Required Findings перед ней постоянно. На каждой итерации модель сверяет: все пункты закрыты? Нет → генерирует точечные вопросы ТОЛЬКО для пробелов. Да → даёт финальный ответ со ссылками на источники. Это как инспектор с бланком проверки — пока не отметишь каждый пункт, задача не считается завершённой.

Почему работает

LLM отлично работают в локальной генерации — ответить на конкретный вопрос прямо сейчас. Плохо в отслеживании многошаговой полноты — помнить все части сложного запроса одновременно и проверять что ничего не упущено. Роль Strategic Intelligence Analyst с форматом 'Required → Confirmed → Gaps' даёт модели явную процедуру мышления. Чеклист превращает размытую проверку в конкретные yes/no по каждому пункту. Модель не может 'увлечься' одной веткой и проигнорировать другую — структура заставляет проверить каждый элемент Required Findings перед финальным ответом.

Когда применять

Многошаговые аналитические задачи → исследование конкурентов ('кто делал похожее + как привлекали клиентов + что применимо к моей нише'), сравнение объектов из разных областей ('архитектурный стиль музеев в Париже и Лондоне'), синтез информации из нескольких источников для принятия решения. Особенно когда нужна полнота ответа — пропуск даже одного факта делает результат бесполезным. НЕ подходит для простых фактических вопросов ('столица Франции') и креативных задач (сторителлинг, мозгоштурм идей, копирайтинг).

Мини-рецепт

1. Разложи задачу: Попроси модель разбить твой сложный вопрос на 2-4 ключевых подвопроса для поиска информации.

2. Задай роль аналитика: <роль>Выступи в роли Strategic Intelligence Analyst. Проведи Structured Evidence Assessment. Объясни формат: Required Findings (чеклист что нужно узнать) → Confirmed Findings (что уже подтверждено) → Remaining Gaps (какие пункты неизвестны).

3. Установи правило: Если есть Remaining Gaps — отвечай 'NO' и перечисляй пробелы. Если все Required подтверждены — отвечай 'YES'.

4. Запусти цикл уточнений: При ответе 'NO' — попроси найти информацию ТОЛЬКО по выявленным пробелам, затем снова применить SEA с тем же чеклистом Required Findings. Повтори максимум 2 раза.

5. Получи финальный ответ: При ответе 'YES' — попроси дать итоговый ответ СТРОГО на основе Confirmed Findings, каждый факт с ссылкой на источник.

Примеры

[ПЛОХО] : Расскажи про успешные EdTech-стартапы в России для узких профессиональных ниш и как они привлекали первых клиентов (Слишком общий запрос. Модель даст поверхностный ответ — названия стартапов без деталей механик привлечения, или наоборот — общие советы без конкретных кейсов. Часть вопроса потеряется.)
[ХОРОШО] : Мне нужно исследовать успешные EdTech-стартапы в России для узких профессиональных ниш. Разбей на подвопросы: - Какие проекты были успешны - Как привлекали первых платящих клиентов - Что применимо к онлайн-школе английского для айтишников Найди информацию, затем выступи как Strategic Intelligence Analyst: 1. Required Findings — чеклист фактов что я хочу узнать 2. Confirmed Findings — что уже нашёл из Required 3. Remaining Gaps — что осталось неизвестным Если есть Gaps — скажи 'NO' и перечисли пробелы. Если все Required подтверждены — 'YES'. (Модель выдаст структурированный анализ, выявит пробелы типа 'точные механики привлечения первых 100 клиентов в языковых EdTech', ты уточнишь запрос только для пробелов — через 2-3 итерации получишь полный ответ с конкретными стратегиями Skyeng и применимостью к твоей нише.)
Источник: FAIR-RAG: Faithful Adaptive Iterative Refinement for Retrieval-Augmented Generation
ArXiv ID: 2510.22344 | Сгенерировано: 2026-01-11 23:38

Концепты не выделены.

📖 Простыми словами

SEA (Structured Evidence Assessment): явный анализ пробелов для сложных запросов

arXiv: 2510.22344

Суть FAIR-RAG и его ключевой фишки SEA в том, что обычные нейронки — это патологические оптимисты. Когда ты просишь их собрать данные из разных источников, они хватают первое попавшееся и радостно рапортуют, что всё готово. На деле же они часто игнорируют половину твоего запроса, потому что не умеют в системный аудит. Метод SEA заставляет модель работать как дотошный следователь: сначала разложить сложный вопрос на атомарные факты, а потом методично проверять, на что мы уже ответили, а где у нас дырка в доказательствах.

Это как собирать шкаф из Икеи, когда ты не просто валишь детали в кучу, а сначала выкладываешь перед собой чек-лист из инструкции. Достал винтик — вычеркнул. Если в конце осталась лишняя дырка, ты не делаешь вид, что так и надо, а идешь искать конкретный недостающий болт. Обычный RAG в такой ситуации просто забил бы и сказал: «Ну, вроде стоит, не упадет». SEA же четко видит пробел и отправляет систему на новый круг поиска именно за этой деталью, пока пазл не сойдется полностью.

Внутри системы работает жесткая декомпозиция запроса. Модель берет твой вопрос и превращает его в список требований. Например, если ты сравниваешь две компании по пяти критериям, SEA создаст таблицу соответствия. Она берет найденный кусок текста, сверяет его с пунктом «цена» и, если там пусто, прямо пишет: «информации по цене нет». Эти явные пробелы становятся топливом для следующей итерации поиска. Вместо того чтобы снова гуглить всё подряд, система задает точечный, хирургический вопрос, чтобы закрыть конкретную лакуну.

Тестировали это на сложных аналитических задачах, но принцип универсален для любого глубокого ресёрча. Это не нужно, чтобы узнать столицу Франции — там и дурак справится. Это нужно там, где цена ошибки высока: в юридическом анализе, сравнении сложных продуктов или сборе досье. SEA превращает галлюцинирующего рассказчика в аналитическую машину, которая умеет признавать, чего она не знает. Это переход от простого поиска к осознанному заполнению пустот в знаниях.

Короче, если тебе нужен не просто быстрый ответ, а гарантированная полнота, забудь про обычные промпты. Будущее за итеративным уточнением, где модель сама себя проверяет на вшивость. FAIR-RAG доказывает: чтобы AI перестал лажать, его нужно заставить вести список дел и не давать закрывать задачу, пока не проставлены все галочки. Либо ты строишь процесс так, либо продолжаешь получать ответы, которые выглядят правильно, но рассыпаются при первой проверке.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с