TL;DR
BAG — техника, которая заставляет модель сначала сгенерировать несколько вариантов ответа на один вопрос, а потом проанализировать их разброс и выбрать стратегию: ответить напрямую, задать уточняющий вопрос или признать неопределённость.
По умолчанию LLM почти никогда не спрашивает уточнений и не признаёт, что не знает. Спроси модель "Кто снялся в главной роли?", она выберет наиболее "очевидную" для неё интерпретацию и ответит — даже если вопрос неоднозначен или ответ галлюцинация. Проблема в том, что модель не имеет доступа к собственной неопределённости — она видит только один запрос и один ответ, но не видит, как сильно её ответы расходятся при разных попытках.
BAG решает это в два шага: сначала модель генерирует N разных вариантов ответа на вопрос, потом анализирует их как набор и решает — ответы согласуются (→ говорить напрямую), интерпретируют вопрос по-разному (→ уточнить у пользователя), противоречат в фактах (→ признать, что не уверена).
Схема метода
(Выполняется в одном запросе — модель сама проходит все шаги)
ШАГ 1: Генерация вариантов
Модель генерирует N ответов на один вопрос → "состояние убеждений"
ШАГ 2: Анализ разброса
Модель смотрит на свои ответы как на набор → ищет паттерн
ШАГ 3: Выбор стратегии
Ответы согласуются → ОТВЕЧАТЬ
Ответы — разные интерпретации вопроса → УТОЧНИТЬ
Ответы противоречат в фактах → ПРИЗНАТЬ НЕОПРЕДЕЛЁННОСТЬ
ШАГ 4: Выполнение стратегии
Модель даёт ответ / задаёт вопрос / честно признаёт, что не уверена
Пример применения
Задача: Ты готовишь питч инвестору и хочешь понять, какой объём рынка указать для своего EdTech-стартапа. Вопрос звучит просто, но на самом деле неоднозначный — смотря что считать рынком и по какой методологии.
Промпт:
Прежде чем ответить, выполни следующее:
1. Сгенерируй 7 разных вариантов ответа на мой вопрос — как будто
отвечаешь 7 раз независимо. Пронумеруй их.
2. Проанализируй разброс этих ответов:
— Если варианты в целом согласуются → дай прямой ответ
— Если варианты по-разному интерпретируют вопрос → сформулируй
уточняющий вопрос, который поможет дать точный ответ
— Если варианты противоречат друг другу в конкретных фактах →
честно скажи, что не уверен в точности, и объясни в чём неопределённость
3. Выбери стратегию и выполни её.
Мой вопрос: Какой объём рынка онлайн-образования для взрослых
в России в 2024 году?
Результат: Модель сначала выдаст 7 вариантов с разными цифрами и разными методологиями подсчёта. Потом проанализирует: если цифры расходятся и опираются на разные определения — задаст уточняющий вопрос ("Что считать рынком: только платные курсы или включая корпоративное обучение?"). Если данные внутренне противоречивы — признает неопределённость и объяснит, почему точной цифры нет.
Почему это работает
Слабость LLM: Модель обрабатывает один запрос → даёт один ответ. У неё нет встроенного механизма сказать "я в этом не уверена" — она просто генерирует наиболее вероятное продолжение. В результате галлюцинация и уверенный ответ выглядят одинаково.
Сильная сторона LLM: Модели хорошо умеют анализировать текст и находить в нём паттерны. Если дать ей 7 разных ответов как документ — она прекрасно заметит, что они противоречат друг другу или по-разному трактуют вопрос.
Как метод использует это: BAG превращает скрытую неопределённость модели в явный текст, который та может прочитать и обработать. Вместо "интроспекции" (которой у модели нет) — анализ внешних данных. По сути, это то же самое, что RAG, только вместо внешних документов — собственные варианты ответа.
Рычаги управления: - N вариантов → больше (10-15) для важных фактических вопросов, меньше (3-5) для простых - Порог согласия → можно уточнить: "если хотя бы 2 из 7 расходятся — задай вопрос" - Стратегия "признать неопределённость" → можно заменить на "найти источник и проверить" или "предупредить пользователя" - Имена агентов → замени безликие "вариант 1-7" на конкретные роли ("оптимист", "скептик", "эксперт") — получишь структурированную дискуссию
Шаблон промпта
Прежде чем ответить, выполни следующее:
**ШАГ 1.** Сгенерируй {число} разных вариантов ответа на вопрос ниже —
независимо, как будто отвечаешь {число} раз подряд. Пронумеруй каждый.
**ШАГ 2.** Проанализируй разброс вариантов:
— Насколько они согласуются по сути?
— Они по-разному интерпретируют вопрос или противоречат в фактах?
**ШАГ 3.** Выбери стратегию:
→ Варианты в целом согласуются → ОТВЕТЬ напрямую, обобщив ключевое
→ Варианты по-разному интерпретируют вопрос → ЗАДАЙ уточняющий вопрос,
который разрешит неоднозначность
→ Варианты противоречат друг другу в конкретных фактах →
ПРИЗНАЙ НЕОПРЕДЕЛЁННОСТЬ: объясни в чём расхождение и почему
уверенный ответ невозможен
**ШАГ 4.** Выполни выбранную стратегию.
---
{вопрос или задача}
Плейсхолдеры:
- {число} — количество вариантов: 5 для быстрой проверки, 7-10 для важных решений
- {вопрос или задача} — любой вопрос, где важна точность или где возможна неоднозначность
🚀 Быстрый старт — вставь в чат:
Вот шаблон BAG. Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит количество вариантов и уточнит задачу — потому что число вариантов влияет на чувствительность метода к неопределённости: больше вариантов → меньше ложных срабатываний.
Ограничения
⚠️ Граница "уточнить vs. признать незнание" размытая: модель нередко выбирает "уточнить", когда правильная стратегия — "признать незнание". Особенно если ответы звучат правдоподобно, но противоречат друг другу.
⚠️ Ложная неоднозначность: иногда модель "выдумывает" несуществующую двусмысленность, чтобы объяснить противоречивые варианты. Например, вместо того чтобы признать галлюцинацию — задаёт странный уточняющий вопрос.
⚠️ Не для субъективных задач: если у вопроса нет "правильного" ответа (написать текст в определённом стиле, оценить идею), расхождение вариантов норма, не признак неопределённости. Метод работает для фактических, аналитических, структурированных задач.
⚠️ Токены: N вариантов + анализ = значительно больше токенов, чем прямой ответ. При большом числе запросов — дорого.
Как исследовали
Исследователи взяли набор вопросов AmbigQA — реальные Google-запросы, у которых специально аннотированы несколько правильных ответов в зависимости от интерпретации. Например: "Кто исполнял женскую партию на Gimme Shelter?" — правильный ответ зависит от того, имеется в виду студийная запись или тур. Это идеальный полигон: вопросы выглядят простыми, но требуют уточнения.
Шесть моделей тестировали в четырёх режимах: прямой ответ, ответ с готовым уточнением (оракул-подсказка), только промпт со стратегиями, и BAG. Интересная деталь: когда модель задавала уточняющий вопрос, ответ пользователя симулировала другая модель (Gemini) — она играла роль пользователя с заранее известным намерением. Это позволило автоматизировать тысячи разговоров без участия людей.
Главный сюрприз: BAG иногда превосходит оракул (режим с готовым уточнением). Потому что оракул помогает только с неоднозначностью, а BAG дополнительно умеет признавать незнание — и это оказывается важнее уточнений в тех случаях, когда модель просто не знает факт. Для Qwen3 главным драйвером улучшений стало именно воздержание от ответа, а не уточнение.
Адаптации и экстраполяции
🔧 Техника: разные "голоса" вместо безликих вариантов → острее анализ
Вместо "Сгенерируй 7 вариантов" дай ролевые установки:
Ответь на вопрос семью способами:
- Как осторожный аналитик с опорой только на факты
- Как оптимист, видящий лучший сценарий
- Как скептик, ищущий подвох
- Как эксперт в смежной области
- Как наивный новичок
- Как человек из другого региона/контекста
- Как кто-то, кто видел похожую ситуацию 5 лет назад
Потом проанализируй разброс и выбери стратегию: ответить / уточнить / признать неопределённость.
Разные роли вытягивают разные интерпретации и "слепые пятна" — анализ получается богаче, а неоднозначность проявляется ярче.
🔧 Техника: BAG как детектор галлюцинаций перед важным ответом
Не для диалога — для одиночной проверки факта:
Прежде чем ответить, сгенерируй 5 независимых версий ответа на вопрос.
Потом проверь: если версии дают разные факты (числа, даты, имена) —
предупреди, что уверенность низкая и лучше проверить источник.
Если версии согласуются — отвечай.
Вопрос: {факт, который нужно проверить}
Работает как быстрый тест на галлюцинацию без внешних инструментов.
Ресурсы
Название работы: Clarify, Abstain or Answer? Strategising in Conversation with Belief-Augmented Generation
Авторы: Joris Baan, Wilker Aziz, Barbara Plank, Raquel Fernández
Университеты: University of Amsterdam, MCML Munich, LMU Munich
Датасет: AmbigQA (Min et al., 2020) — на основе Natural Questions (Google Search)
Связанные техники: RAG (Retrieval-Augmented Generation), Self-Consistency (Wang et al., 2023), Minimum Bayes Risk decoding
