3,583 papers
arXiv:2605.25831 78 25 мая 2026 г. FREE

BAG (Belief-Augmented Generation): заставить LLM признавать неопределённость через анализ собственных ответов

КЛЮЧЕВАЯ СУТЬ
Парадокс: LLM не умеет заглядывать в себя, но умеет читать и анализировать текст. BAG использует второе, чтобы компенсировать первое. Метод позволяет модели осознанно выбирать стратегию — ответить напрямую, уточнить вопрос или честно признать, что не уверена. Сначала модель генерирует N независимых вариантов ответа, потом смотрит на них как на набор и ищет паттерн: варианты согласуются — говорит напрямую, трактуют вопрос по-разному — уточняет, противоречат в фактах — расписывается в незнании. Скрытая неопределённость становится видимым текстом — а с текстом модель работать умеет.
Адаптировать под запрос

TL;DR

BAG — техника, которая заставляет модель сначала сгенерировать несколько вариантов ответа на один вопрос, а потом проанализировать их разброс и выбрать стратегию: ответить напрямую, задать уточняющий вопрос или признать неопределённость.

По умолчанию LLM почти никогда не спрашивает уточнений и не признаёт, что не знает. Спроси модель "Кто снялся в главной роли?", она выберет наиболее "очевидную" для неё интерпретацию и ответит — даже если вопрос неоднозначен или ответ галлюцинация. Проблема в том, что модель не имеет доступа к собственной неопределённости — она видит только один запрос и один ответ, но не видит, как сильно её ответы расходятся при разных попытках.

BAG решает это в два шага: сначала модель генерирует N разных вариантов ответа на вопрос, потом анализирует их как набор и решает — ответы согласуются (→ говорить напрямую), интерпретируют вопрос по-разному (→ уточнить у пользователя), противоречат в фактах (→ признать, что не уверена).


🔬

Схема метода

(Выполняется в одном запросе — модель сама проходит все шаги)

ШАГ 1: Генерация вариантов
Модель генерирует N ответов на один вопрос → "состояние убеждений"

ШАГ 2: Анализ разброса
Модель смотрит на свои ответы как на набор → ищет паттерн

ШАГ 3: Выбор стратегии
Ответы согласуются → ОТВЕЧАТЬ
Ответы — разные интерпретации вопроса → УТОЧНИТЬ
Ответы противоречат в фактах → ПРИЗНАТЬ НЕОПРЕДЕЛЁННОСТЬ

ШАГ 4: Выполнение стратегии
Модель даёт ответ / задаёт вопрос / честно признаёт, что не уверена

🚀

Пример применения

Задача: Ты готовишь питч инвестору и хочешь понять, какой объём рынка указать для своего EdTech-стартапа. Вопрос звучит просто, но на самом деле неоднозначный — смотря что считать рынком и по какой методологии.

Промпт:

Прежде чем ответить, выполни следующее:

1. Сгенерируй 7 разных вариантов ответа на мой вопрос — как будто 
   отвечаешь 7 раз независимо. Пронумеруй их.

2. Проанализируй разброс этих ответов:
   — Если варианты в целом согласуются → дай прямой ответ
   — Если варианты по-разному интерпретируют вопрос → сформулируй 
     уточняющий вопрос, который поможет дать точный ответ
   — Если варианты противоречат друг другу в конкретных фактах → 
     честно скажи, что не уверен в точности, и объясни в чём неопределённость

3. Выбери стратегию и выполни её.

Мой вопрос: Какой объём рынка онлайн-образования для взрослых 
в России в 2024 году?

Результат: Модель сначала выдаст 7 вариантов с разными цифрами и разными методологиями подсчёта. Потом проанализирует: если цифры расходятся и опираются на разные определения — задаст уточняющий вопрос ("Что считать рынком: только платные курсы или включая корпоративное обучение?"). Если данные внутренне противоречивы — признает неопределённость и объяснит, почему точной цифры нет.


🧠

Почему это работает

Слабость LLM: Модель обрабатывает один запрос → даёт один ответ. У неё нет встроенного механизма сказать "я в этом не уверена" — она просто генерирует наиболее вероятное продолжение. В результате галлюцинация и уверенный ответ выглядят одинаково.

Сильная сторона LLM: Модели хорошо умеют анализировать текст и находить в нём паттерны. Если дать ей 7 разных ответов как документ — она прекрасно заметит, что они противоречат друг другу или по-разному трактуют вопрос.

Как метод использует это: BAG превращает скрытую неопределённость модели в явный текст, который та может прочитать и обработать. Вместо "интроспекции" (которой у модели нет) — анализ внешних данных. По сути, это то же самое, что RAG, только вместо внешних документов — собственные варианты ответа.

Рычаги управления: - N вариантов → больше (10-15) для важных фактических вопросов, меньше (3-5) для простых - Порог согласия → можно уточнить: "если хотя бы 2 из 7 расходятся — задай вопрос" - Стратегия "признать неопределённость" → можно заменить на "найти источник и проверить" или "предупредить пользователя" - Имена агентов → замени безликие "вариант 1-7" на конкретные роли ("оптимист", "скептик", "эксперт") — получишь структурированную дискуссию


📋

Шаблон промпта

Прежде чем ответить, выполни следующее:

**ШАГ 1.** Сгенерируй {число} разных вариантов ответа на вопрос ниже — 
независимо, как будто отвечаешь {число} раз подряд. Пронумеруй каждый.

**ШАГ 2.** Проанализируй разброс вариантов:
— Насколько они согласуются по сути?
— Они по-разному интерпретируют вопрос или противоречат в фактах?

**ШАГ 3.** Выбери стратегию:
→ Варианты в целом согласуются → ОТВЕТЬ напрямую, обобщив ключевое
→ Варианты по-разному интерпретируют вопрос → ЗАДАЙ уточняющий вопрос, 
  который разрешит неоднозначность
→ Варианты противоречат друг другу в конкретных фактах → 
  ПРИЗНАЙ НЕОПРЕДЕЛЁННОСТЬ: объясни в чём расхождение и почему 
  уверенный ответ невозможен

**ШАГ 4.** Выполни выбранную стратегию.

---
{вопрос или задача}

Плейсхолдеры: - {число} — количество вариантов: 5 для быстрой проверки, 7-10 для важных решений - {вопрос или задача} — любой вопрос, где важна точность или где возможна неоднозначность


🚀 Быстрый старт — вставь в чат:

Вот шаблон BAG. Адаптируй под мою задачу: {твоя задача}. 
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит количество вариантов и уточнит задачу — потому что число вариантов влияет на чувствительность метода к неопределённости: больше вариантов → меньше ложных срабатываний.


⚠️

Ограничения

⚠️ Граница "уточнить vs. признать незнание" размытая: модель нередко выбирает "уточнить", когда правильная стратегия — "признать незнание". Особенно если ответы звучат правдоподобно, но противоречат друг другу.

⚠️ Ложная неоднозначность: иногда модель "выдумывает" несуществующую двусмысленность, чтобы объяснить противоречивые варианты. Например, вместо того чтобы признать галлюцинацию — задаёт странный уточняющий вопрос.

⚠️ Не для субъективных задач: если у вопроса нет "правильного" ответа (написать текст в определённом стиле, оценить идею), расхождение вариантов норма, не признак неопределённости. Метод работает для фактических, аналитических, структурированных задач.

⚠️ Токены: N вариантов + анализ = значительно больше токенов, чем прямой ответ. При большом числе запросов — дорого.


🔍

Как исследовали

Исследователи взяли набор вопросов AmbigQA — реальные Google-запросы, у которых специально аннотированы несколько правильных ответов в зависимости от интерпретации. Например: "Кто исполнял женскую партию на Gimme Shelter?" — правильный ответ зависит от того, имеется в виду студийная запись или тур. Это идеальный полигон: вопросы выглядят простыми, но требуют уточнения.

Шесть моделей тестировали в четырёх режимах: прямой ответ, ответ с готовым уточнением (оракул-подсказка), только промпт со стратегиями, и BAG. Интересная деталь: когда модель задавала уточняющий вопрос, ответ пользователя симулировала другая модель (Gemini) — она играла роль пользователя с заранее известным намерением. Это позволило автоматизировать тысячи разговоров без участия людей.

Главный сюрприз: BAG иногда превосходит оракул (режим с готовым уточнением). Потому что оракул помогает только с неоднозначностью, а BAG дополнительно умеет признавать незнание — и это оказывается важнее уточнений в тех случаях, когда модель просто не знает факт. Для Qwen3 главным драйвером улучшений стало именно воздержание от ответа, а не уточнение.


💡

Адаптации и экстраполяции

🔧 Техника: разные "голоса" вместо безликих вариантов → острее анализ

Вместо "Сгенерируй 7 вариантов" дай ролевые установки:

Ответь на вопрос семью способами:
- Как осторожный аналитик с опорой только на факты
- Как оптимист, видящий лучший сценарий
- Как скептик, ищущий подвох
- Как эксперт в смежной области
- Как наивный новичок
- Как человек из другого региона/контекста
- Как кто-то, кто видел похожую ситуацию 5 лет назад

Потом проанализируй разброс и выбери стратегию: ответить / уточнить / признать неопределённость.

Разные роли вытягивают разные интерпретации и "слепые пятна" — анализ получается богаче, а неоднозначность проявляется ярче.


🔧 Техника: BAG как детектор галлюцинаций перед важным ответом

Не для диалога — для одиночной проверки факта:

Прежде чем ответить, сгенерируй 5 независимых версий ответа на вопрос.
Потом проверь: если версии дают разные факты (числа, даты, имена) — 
предупреди, что уверенность низкая и лучше проверить источник.
Если версии согласуются — отвечай.

Вопрос: {факт, который нужно проверить}

Работает как быстрый тест на галлюцинацию без внешних инструментов.


🔗

Ресурсы

Название работы: Clarify, Abstain or Answer? Strategising in Conversation with Belief-Augmented Generation

Авторы: Joris Baan, Wilker Aziz, Barbara Plank, Raquel Fernández

Университеты: University of Amsterdam, MCML Munich, LMU Munich

Датасет: AmbigQA (Min et al., 2020) — на основе Natural Questions (Google Search)

Связанные техники: RAG (Retrieval-Augmented Generation), Self-Consistency (Wang et al., 2023), Minimum Bayes Risk decoding


📋 Дайджест исследования

Ключевая суть

Парадокс: LLM не умеет заглядывать в себя, но умеет читать и анализировать текст. BAG использует второе, чтобы компенсировать первое. Метод позволяет модели осознанно выбирать стратегию — ответить напрямую, уточнить вопрос или честно признать, что не уверена. Сначала модель генерирует N независимых вариантов ответа, потом смотрит на них как на набор и ищет паттерн: варианты согласуются — говорит напрямую, трактуют вопрос по-разному — уточняет, противоречат в фактах — расписывается в незнании. Скрытая неопределённость становится видимым текстом — а с текстом модель работать умеет.

Принцип работы

Стандартный запрос: один вопрос → один ответ → нет способа увидеть, насколько модель уверена в том, что говорит. BAG ломает эту схему. Попроси семь независимых ответов — все как один сходятся? Отвечай. Каждый понял вопрос по-своему? Вопрос неоднозначен, уточни. Все дают разные цифры на один факт? Никто не знает точно — признай. Вместо недоступной интроспекции — анализ внешних данных, которые модель сама же создала. Та же логика что и в RAG: только источник данных не интернет, а собственные варианты модели.

Почему работает

LLM строит каждый ответ как наиболее вероятное продолжение. Галлюцинация и уверенный ответ звучат одинаково гладко — модель не краснеет и не мямлит когда врёт, она просто генерирует текст. Но попроси семь вариантов — и противоречия вылезут наружу в виде читаемого текста. Находить паттерны в тексте — это именно то, в чём модель сильна. BAG переформулирует задачу «признай неопределённость» (на что модель не способна) в задачу «найди расхождения в этих семи абзацах» (на что она способна отлично).

Когда применять

Фактические вопросы с риском ошибки — данные, цифры, имена, события. Неоднозначные запросы — когда вопрос звучит просто, но подразумевает несколько разных интерпретаций. Аналитика и решения — там, где важно понимать, насколько вообще стоит доверять выводам модели. НЕ подходит для субъективных задач: написать текст в определённом стиле или оценить идею — расхождение между вариантами там норма, а не признак проблемы. При большом числе запросов — считай затраты: N вариантов плюс анализ это значительно больше токенов, чем прямой ответ.

Мини-рецепт

1. Выбери число вариантов: 5 для быстрой проверки, 7-10 для важных решений — чем больше, тем чувствительнее метод к противоречиям.
2. Попроси сгенерировать независимо: добавь фразу «как будто отвечаешь N раз подряд, не видя предыдущих ответов» — иначе варианты сольются в один.
3. Задай три ветки явно: если согласуются — ответить напрямую, если трактуют вопрос по-разному — задать уточнение, если противоречат в конкретных фактах — признать неопределённость и объяснить в чём расхождение.
4. Потребуй действия, а не объяснения: последний шаг — выполнить выбранную стратегию, а не просто рассказать какую выбрал.

Примеры

[ПЛОХО] : Какой объём рынка онлайн-образования в России в 2024 году?
[ХОРОШО] : Сгенерируй 7 независимых вариантов ответа на вопрос ниже — как будто отвечаешь 7 раз подряд, не видя предыдущих. Пронумеруй каждый. Потом проанализируй разброс: если варианты в целом согласуются — дай прямой ответ, если по-разному трактуют вопрос — задай уточнение которое разрешит неоднозначность, если противоречат в конкретных цифрах — честно скажи, что точного ответа нет и объясни почему. Выполни выбранную стратегию. Вопрос: Какой объём рынка онлайн-образования для взрослых в России в 2024 году?
Источник: Clarify, Abstain or Answer? Strategising in Conversation with Belief-Augmented Generation
ArXiv ID: 2605.25831 | Сгенерировано: 2026-05-26 07:27

Проблемы LLM

ПроблемаСутьКак обойти
Модель не признаёт неопределённость — отвечает всегда уверенноСпрашиваешь о спорном факте или неоднозначном вопросе. Модель выбирает одну интерпретацию и отвечает. Не уточняет. Не предупреждает. Галлюцинация и точный ответ выглядят одинаково — оба уверенные. Работает так по умолчанию для любой задачиПопроси сгенерировать несколько вариантов ответа, а потом — проанализировать их разброс. Где варианты расходятся — там неопределённость. Модель увидит её сама и либо уточнит вопрос, либо честно скажет что не знает

Методы

МетодСуть
Генерация вариантов + анализ разброса — выявляет скрытую неопределённостьПопроси модель сгенерировать N вариантов ответа на один вопрос. Потом попроси проанализировать: варианты согласуются дай прямой ответ; трактуют вопрос по-разному задай уточняющий вопрос; противоречат в фактах признай неопределённость. Шаблон: Сгенерируй {N} вариантов ответа на вопрос. Проанализируй разброс. Если согласуются — ответь напрямую. Если трактуют вопрос по-разному — задай уточняющий вопрос. Если противоречат в фактах — признай неопределённость и объясни почему. Для важных вопросов — 7–10 вариантов. Для быстрой проверки — 3–5. Не работает: субъективные задачи (написать текст, оценить идею) — там расхождение вариантов норма, а не признак незнания

Тезисы

ТезисКомментарий
Разброс вариантов надёжнее описывает уверенность модели, чем её словесная самооценкаКогда просишь "насколько ты уверена?" — получаешь слова. Слова расплывчатые и несравнимые. Когда генерируешь 7 вариантов — видишь реальный разброс. Согласуются модель "знает". Расходятся не знает, просто не скажет об этом без дополнительного хода. Применяй: перед важным фактическим вопросом добавь генерацию 5–7 вариантов. Если они расходятся — доверяй меньше
📖 Простыми словами

Clarify, Abstain or Answer? Strategising in Conversation with Belief-Augmented Generation

arXiv: 2605.25831

Суть в том, что обычные нейронки — это патологические лжецы, которые не умеют сомневаться. Когда ты задаешь вопрос, модель просто выплевывает самый вероятный ответ, даже если сама в нем не уверена. Техника BAG (Belief-Augmented Generation) вправляет ей мозги, заставляя сначала «подумать об стену». Вместо того чтобы сразу выдать результат, модель генерирует внутри себя несколько разных вариантов ответа и смотрит, насколько они друг другу противоречат. Если ответы разлетаются в разные стороны, модель понимает: дело пахнет неопределенностью, и вместо того чтобы врать, она выбирает адекватную стратегию поведения.

Это как если бы ты спросил дорогу у прохожего, который не уверен, где находится нужная улица. Обычная нейронка просто махнет рукой в случайную сторону с лицом знатока. А модель с BAG сначала прокрутит в голове три разных маршрута, поймет, что они ведут в разные концы города, и честно скажет: «Слушай, тут два варианта, тебе какой район нужен?». Это превращает тупого исполнителя в адекватного собеседника, который умеет вовремя заткнуться или переспросить.

Механика работает в один присест: модель сама генерирует «облако мнений», анализирует этот разброс вариантов и принимает решение. Если все варианты совпали — она отвечает уверенно. Если есть легкий туман — задает уточняющий вопрос. Если же в данных полный хаос — она просто признает неопределенность. По сути, мы заставляем алгоритм оценивать собственную компетентность в моменте, используя статистику своих же галлюцинаций как индикатор ошибки.

Хотя метод тестировали на сложных вопросах, принцип универсален для любой серьезной работы с данными. Это критически важно для юристов, врачей или аналитиков, где цена ошибки — полный провал. Если ты строишь питч для инвестора и спрашиваешь AI про объем рынка, тебе не нужен «средний палец в небо». Тебе нужно, чтобы модель подсветила неоднозначность методологии, прежде чем ты опозоришься с неверными цифрами.

Короче: хватит верить модели на слово, заставляй её сомневаться. BAG превращает генерацию из лотереи в управляемый процесс, где «не знаю» или «уточни» ценятся выше, чем уверенный бред. Это единственный способ вытащить из LLM достоверный результат в условиях, когда данные противоречат друг другу. Кто не научит свои промпты такой самопроверке, тот так и будет разгребать последствия уверенных галлюцинаций.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с