3,583 papers
arXiv:2606.02866 78 1 июня 2026 г. FREE

Debate Benefit Condition: когда второй агент-критик улучшает ответ LLM, а когда ломает его

КЛЮЧЕВАЯ СУТЬ
Парадокс: два агента хуже одного — примерно на половине задач. Схема Generator-Critic, где один предлагает решение, а второй ищет дыры, стабильно ухудшает результат на открытых задачах. Метод позволяет точно выбрать, когда дебаты помогают, а когда ломают качество — и запустить их с защитой от ложной критики. Фишка — evidence-gate: правка от Критика принимается только если он цитирует конкретное место в источнике. Нет цитаты — правка игнорируется. Результат: ложная критика отфильтрована, правильные ответы не портятся.
Адаптировать под запрос

TL;DR

Схема Generator-Critic (два агента: один предлагает, второй атакует) работает противоположно интуиции. На задачах проверки — резко улучшает качество. На задачах генерации — стабильно его ухудшает. Суть: модель симулирует двух участников дискуссии в одном диалоге. Генератор выдаёт ответ, Критик ищет дыры, Генератор правит — и так несколько раундов.

Проблема в том, что Критик тоже галлюцинирует. Когда задача открытая — "напиши", "придумай", "сгенерируй" — Критик не может проверить свои возражения по источнику. Он выдаёт ложную критику, Генератор послушно её принимает и заменяет правильный ответ на неправильный. Авторы называют это CIC — critique-induced confusion. Вместо улучшения — деградация. При этом токенов тратится в 4–7 раз больше.

Из этого вытекает правило выбора: дебаты помогают, когда Критик может проверить каждый свой довод против конкретного источника. Задача с ограниченным пространством ответов — "это ошибка или нет?" — Критик сверяется с источником, критика точная. Задача открытая — "что написать?" — Критик гадает, отравляет Генератора. Плюс авторы нашли Fix: evidence-gating — Критик принимается только тогда, когда цитирует конкретное место в источнике.


🔬

Схема метода

ШАГ 1: Генератор предлагает структурированный список результатов
        → JSON / нумерованный список с конкретными утверждениями

ШАГ 2: Критик проверяет КАЖДЫЙ пункт по источнику
        → Обязательно цитирует место в источнике
        → Выдаёт: принять / исправить + доказательство
        → Без цитаты из источника — пункт не трогается (evidence-gate)

ШАГ 3: Генератор правит ТОЛЬКО пункты с доказанной критикой
        → Возвращает исправленный список

Повторить до N раундов или до отсутствия принятых правок.
Всё — в одном промпте, один запрос к модели.

Когда запускать: задачи с ограниченным пространством ответов — проверка, поиск ошибок, факт-чекинг, сверка на противоречия.

Когда НЕ запускать: генерация текста, планы, стратегии, творческие задачи — там одиночный агент точнее.


🚀

Пример применения

Задача: Артём — основатель EdTech-стартапа, готовит инвестиционный тизер для встречи с ФРИИ. Просит ChatGPT проверить тизер на внутренние противоречия и фактические нестыковки перед отправкой.

Ты — двухагентная система для проверки документов.


Роль: аналитик, который находит конкретные проблемы в тексте.
Задача: прочитай документ и составь нумерованный список проблем.
Для каждой проблемы: укажи номер, тип проблемы, цитату из текста.



Роль: адвокат дьявола, который проверяет каждую найденную проблему.
Правило: для КАЖДОГО пункта из списка Generator — либо подтверди проблему
с цитатой из источника, либо отклони как ложную тревогу.
ВАЖНО: если не можешь процитировать источник — отклоняй пункт,
не принимай на веру.



Generator принимает правки от Critic ТОЛЬКО если Critic привёл
точную цитату из исходного документа.
Без цитаты — пункт остаётся без изменений.


Проведи 2 раунда. Итог: финальный список подтверждённых проблем
с цитатами и объяснением каждой.

Документ для проверки:
{вставь текст тизера}

Результат: Модель покажет работу в два раунда: сначала Generator выдаст список потенциальных проблем с цитатами из тизера, затем Critic пройдётся по каждому пункту и либо подтвердит с доказательством, либо отклонит как ложную тревогу. В финале — только те проблемы, которые прошли двойную проверку. Ложные срабатывания будут отсеяны. Ожидай 5–10 реальных нестыковок вместо длинного списка галлюцинированных придирок.


🧠

Почему это работает

Слабость LLM — она соглашается. Когда один агент критикует другого, второй склонен принять критику даже если та неверная. Это называют сycophancy (угодливость). В обычном сценарии дебатов Критик галлюцинирует возражение → Генератор принимает → правильный ответ заменяется на неправильный. Результат хуже, токенов потрачено в 5 раз больше.

Сильная сторона LLM — она хорошо работает с конкретными якорями. Когда Критику нужно не просто "придраться", а сослаться на конкретное место в тексте, круг галлюцинаций сужается. Нет цитаты — нет правки. Это evidence-gate: фильтр, который отсекает ложную критику на входе.

Как метод использует это — разделяет задачи по принципу верифицируемости. Если на каждый вывод можно найти доказательство в источнике, Критик работает как врач на рентгене: видит конкретное место, говорит конкретно. Если источника нет и ответ открытый — Критик гадает и отравляет Генератора. Рычаги управления:

  • Число раундов (2 в шаблоне) → уменьши до 1 для коротких текстов, экономия токенов
  • Evidence-gate (обязательная цитата) → это ключевой предохранитель, не убирай для верификационных задач
  • Тип задачи → переключись на одиночного агента если задача творческая или генеративная
  • Формат вывода Критика (принять / отклонить + цитата) → можно добавить уровень уверенности

📋

Шаблон промпта

Ты — двухагентная система проверки {тип_документа}.


Роль: аналитик, ищущий {тип_проблем} в тексте.
Задача: составь нумерованный список из максимум {макс_число} проблем.
Формат каждого пункта: [номер] [тип проблемы] — [цитата из текста]



Роль: скептик, проверяющий каждый пункт Generator.
Для каждого пункта — одно из двух:
- ПОДТВЕРЖДАЮ: [цитата из источника, доказывающая проблему]
- ОТКЛОНЯЮ: [почему это ложная тревога]
Правило: нет цитаты из источника — только ОТКЛОНЯЮ.



Generator принимает исправления ТОЛЬКО при наличии цитаты от Critic.
Бездоказательная критика игнорируется.


Раундов: {число_раундов}
Итог: финальный список подтверждённых проблем с цитатами.

{тип_документа}:
{текст}

Что подставлять: - {тип_документа} — договор, статья, техническое задание, отчёт, резюме - {тип_проблем} — противоречия, фактические ошибки, логические дыры, юридические нестыковки - {макс_число} — 10–15 для средних документов - {число_раундов} — 2 для большинства задач, 1 для коротких текстов


🚀 Быстрый старт — вставь в чат:

Вот шаблон двухагентной проверки с evidence-gate.
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит тип документа, какие проблемы искать и сколько раундов — потому что без этого не знает, как настроить роли Generator и Critic под конкретную верификационную задачу. Она возьмёт структуру XML и evidence-gate из шаблона и адаптирует под твой контекст.


🧠

Почему это работает: формальное условие

Авторы выводят три числа, которые определяют решение:

Параметр Что означает Когда высокий
pg Насколько точен Генератор сам по себе Задача простая, модель уже хороша
pc Насколько точен Критик при проверке Есть конкретный источник для сверки
pr Если Критик прав — насколько вероятно, что Генератор исправит верно Задача бинарная (есть ошибка / нет ошибки)

Дебаты помогают когда: (1 − pg) × pc × pr > pg × (1 − pc)

Простыми словами: выгода от поимки ошибок > риск порчи правильных ответов.

Для пользователя чата это звучит так: "Может ли Критик проверить каждый свой довод по источнику — и даст ли правильный ответ однозначная замена?" Если да на оба → запускай дебаты. Если нет хотя бы на одно → одиночный агент точнее.


⚠️

Ограничения

⚠️ Задачи генерации: Дебаты стабильно вредят на открытых задачах — написание текстов, планирование, заполнение пропусков, стратегические предложения. Одиночный агент работает лучше.

⚠️ Расход токенов: Дебаты стоят в 4–7 раз больше токенов. На коротких задачах или при большом объёме документов это существенно.

⚠️ Дисперсионный усилитель, не средний улучшатель: Дебаты не поднимают средний результат — они делают лучшее лучше, а худшее хуже. Если задача критичная и цена ошибки высокая — учитывай, что провалы становятся глубже.

⚠️ Самопроверка не работает: Один агент с инструкцией "проверь себя сам" — не работает. И голосование большинством (ask the same question 5 times, pick the most common answer) тоже не заменяет отдельного Критика с доступом к источнику.

⚠️ Изоляция задач вредит: Если Критику намеренно скрыть часть контекста "чтобы был независимее" — результат ухудшается. Критик должен видеть тот же источник, что и Генератор.


🔍

Как исследовали

Команда поставила прямой вопрос: "Когда именно дебаты помогают, а когда вредят?" — и проверила это на трёх разных бенчмарках, которые покрывают весь спектр задач с данными. 142 задачи по очистке таблиц (AutoDCWorkflow), 200 вопросов по пониманию таблиц (MMTU) и 100 реальных таблиц с ошибками (MaTElDa). Итого — больше 6000 пар задача-условие по четырём моделям: Claude 4 Sonnet, Gemini 3.1 Pro, Qwen3 235B, DeepSeek R1.

Самый показательный результат — контраст между двумя задачами на одних и тех же таблицах. На задаче "найди ошибочные ячейки" (detection) дебаты подняли F1 с 0.19 до 0.46 — это огромный скачок. На задаче "сгенерируй инструкцию по очистке" (generation) дебаты снизили качество у трёх из четырёх моделей. У DeepSeek падение составило 15 процентных пунктов при семикратном расходе токенов.

Особенно интересный момент: исследователи специально проверили гипотезу о дисперсии. Для Claude дебаты не изменили среднее — они перераспределили результаты. Доля идеальных ответов выросла (22 → 28), но появились полные провалы (0 → 2). Это паттерн усилителя дисперсии, а не улучшателя качества — и он подтвердился на всех четырёх моделях. Авторы также проверили самопроверку и голосование большинством — оба метода проиграли одиночному агенту, что ставит точку в вопросе "а вдруг просто нужно переспросить несколько раз".


📄

Оригинал из исследования

Generator–Critic debate with evidence-gated generation:


You are a data cleaning workflow generator. Given a dirty table T and 
cleaning purpose p, propose a cleaning workflow W = [w1, ..., wk] 
as structured JSON. Each operation must specify: column (must exist 
in T), operation type, and parameters.



You are an adversarial critic. For each operation wi in W:
1. Verify the target column exists in T (cite the column header)
2. Verify the operation is appropriate given the data (cite ≥1 cell value)
3. Return: ACCEPT | REVISE [specific evidence from T] | REJECT [reason]
Evidence gate: if you cannot cite specific evidence from T, return ACCEPT.
Do not critique based on general knowledge alone.



Generator: accept Critic revisions ONLY when accompanied by 
specific evidence citations from T. Ignore unsupported critiques.


Rounds: up to 3 (stop early if no revisions accepted).

Контекст: Авторы тестировали эту конфигурацию на задачах генерации инструкций по очистке данных. Это единственная конфигурация, которая превзошла одиночного агента на генеративных задачах (+5.3 процентных пункта, статистически значимо). Все остальные конфигурации дебатов без evidence-gate проиграли.


💡

Адаптации и экстраполяции

1. Адаптация контекста: юридическая проверка договора

💡 Адаптация для проверки юридических документов: Generator ищет спорные пункты, Critic проверяет каждый против конкретных формулировок договора.


Найди в договоре пункты, которые могут создать риски для {сторона}.
Формат: [номер пункта] — [цитата] — [риск]



Для каждого риска — подтверди или отклони.
Правило: только цитата из договора = подтверждение.
Общие юридические соображения без цитаты = отклонение.


Раундов: 2.

2. Адаптация техники: персонализированный Критик

🔧 Техника: именованный Критик → острее критика

Вместо безликого "Critic" дай роль конкретного персонажа:


Ты — Герман Греф на совете директоров. 
Твоя задача: найти дыры в каждом тезисе презентации.
Требование: ссылайся на конкретные цифры или факты из документа.

Персонаж с характером работает острее абстрактного критика — модель сильнее "входит в роль" и выдаёт более конкретные возражения.


3. Экстраполяция: принцип "детектор vs. генератор" за пределами дебатов

Главный инсайт исследования работает даже без многоагентной схемы:

Если просишь модель что-то проверить — давай как можно больше конкретных источников для сверки. Если просишь создать — источники помогают меньше, важнее чёткое ТЗ.

Практическое правило выбора режима:

Задача = проверка/поиск ошибок/факт-чек →
"Проверь каждый пункт против [источника]. 
Цитируй место в источнике для каждого вывода. 
Без цитаты — не включай в итог."

Задача = написать/придумать/разработать →
Одиночный агент + чёткое ТЗ + примеры. 
Добавление критика только навредит.

🔗

Ресурсы

Название работы: When Helping Hurts and How to Fix It: Multi-Agent Debate for Data Cleaning

Связанные техники: Generator-Critic debate (Du et al., 2024), sycophancy mitigation (Sharma et al., 2024), anonymization (Choi et al., 2025), self-consistency (Wang et al., 2023)

Бенчмарки: AutoDCWorkflow (Li et al., 2024), MMTU (Xing et al., 2025), MaTElDa (Ahmadi et al., 2025)


📋 Дайджест исследования

Ключевая суть

Парадокс: два агента хуже одного — примерно на половине задач. Схема Generator-Critic, где один предлагает решение, а второй ищет дыры, стабильно ухудшает результат на открытых задачах. Метод позволяет точно выбрать, когда дебаты помогают, а когда ломают качество — и запустить их с защитой от ложной критики. Фишка — evidence-gate: правка от Критика принимается только если он цитирует конкретное место в источнике. Нет цитаты — правка игнорируется. Результат: ложная критика отфильтрована, правильные ответы не портятся.

Принцип работы

Дебаты работают только когда на каждый довод Критика есть якорь — конкретное место в тексте, число, факт. Задача на проверку: «есть ошибка или нет?» — Критик сверяется с источником, его замечания точные. Критик с якорем работает как врач на рентгене — видит конкретное место, говорит конкретно. Задача на генерацию: «напиши», «придумай», «предложи» — якоря нет. Критик начинает гадать и выдаёт ложные возражения. Генератор послушно принимает — и заменяет правильный ответ на неправильный. Авторы назвали это путаницей от критики. Токенов при этом тратится в 4–7 раз больше.

Почему работает

LLM склонна соглашаться. Когда один агент критикует другого, второй принимает критику — даже ложную. Это встроенная угодливость модели. На задачах генерации Критик не может проверить свои возражения — он их придумывает, а Генератор верит. Ключевое открытие: дебаты — не средний улучшатель, а усилитель разброса. Лучшее становится лучше, худшее — хуже. Evidence-gate работает как фильтр: Критик обязан назвать адрес в тексте, откуда он берёт замечание. Нет адреса — нет правки. Галлюцинации отсекаются до того, как испортят ответ.

Когда применять

Верификационные задачи с ограниченным пространством ответов — поиск противоречий в договорах, сверка фактов в статьях, проверка нестыковок в отчётах, факт-чекинг технических заданий — особенно когда вопрос бинарный: есть проблема или нет. НЕ подходит для генерации текстов, написания планов, стратегических предложений, творческих задач — там одиночный агент работает точнее и в 4–7 раз дешевле по токенам.

Мини-рецепт

1. Проверь тип задачи: можно ли проверить каждый довод Критика по конкретному месту в тексте? Если да — дебаты. Если нет — одиночный агент и не трать токены.

2. Настрой роли в промпте: Generator ищет проблемы с обязательными цитатами из источника. Critic по каждому пункту пишет «ПОДТВЕРЖДАЮ: [цитата]» или «ОТКЛОНЯЮ: [причина]».

3. Поставь evidence-gate: добавь блок с правилом — Generator принимает правки от Critic только при наличии цитаты. Без цитаты — пункт не трогается.

4. Выбери число раундов: 2 раунда для большинства задач, 1 — для коротких документов.

5. Получи финальный список: только те проблемы, которые прошли двойную проверку — с цитатами и объяснением.

Примеры

[ПЛОХО] : Проверь мой договор на ошибки и противоречия
[ХОРОШО] : Ты — двухагентная система проверки договора. Роль: аналитик, ищущий противоречия и нестыковки в тексте. Составь нумерованный список до 10 проблем. Формат: [номер] [тип проблемы] — [цитата из договора] Роль: скептик, проверяющий каждый пункт Generator. Для каждого пункта — одно из двух: - ПОДТВЕРЖДАЮ: [точная цитата из договора] - ОТКЛОНЯЮ: [почему это ложная тревога] Правило: нет цитаты из договора — только ОТКЛОНЯЮ. Generator принимает исправления ТОЛЬКО при наличии цитаты от Critic. Бездоказательная критика игнорируется. Проведи 2 раунда. Итог: финальный список подтверждённых проблем с цитатами. Договор: {вставь текст договора}
Источник: When Helping Hurts and How to Fix It: Multi-Agent Debate for Data Cleaning
ArXiv ID: 2606.02866 | Сгенерировано: 2026-06-03 07:31

Проблемы LLM

ПроблемаСутьКак обойти
Второй агент-критик портит правильные ответыПросишь модель сыграть двух участников. Один предлагает, второй критикует. Но у критика нет источника для проверки — он галлюцинирует возражения. Генератор соглашается и заменяет правильный ответ на неправильный. Чем открытее задача, тем сильнее деградация. Токенов при этом тратится в 4–7 раз большеОграничь критика: он принимается только если привёл точную цитату из источника. Нет цитаты — нет правки. Только для задач где есть источник для сверки

Методы

МетодСуть
Фильтр доказательств — блокирует ложную критикуДобавь в запрос правило: критик обязан цитировать конкретное место из исходного текста. Без цитаты — генератор игнорирует возражение. Синтаксис: Правило: нет цитаты из источника — только ОТКЛОНЯЮ. + EvidenceGate: Generator принимает исправления ТОЛЬКО при наличии цитаты от Critic. Почему работает: Критик не может придумать цитату которой нет. Круг галлюцинаций сужается до реальных мест в тексте. Когда применять: проверка документов, поиск противоречий, факт-чекинг, сверка на ошибки. Когда не применять: написание текста, планирование, любая открытая задача без конкретного источника

Тезисы

ТезисКомментарий
Два агента помогают только там, где есть источник для проверкиСхема "критик атакует — генератор правит" работает в обе стороны. Если критик может сверить каждый довод с источником — он ловит реальные ошибки. Если источника нет — критик гадает, генератор соглашается, ответ становится хуже. Правило для запроса: задача верификационная ("найди ошибку", "проверь противоречие") — запускай двух агентов. Задача открытая ("напиши", "придумай", "предложи") — используй одного агента, точнее
📖 Простыми словами

When Helping Hurts and How to Fix It: Multi-AgentDebate for Data Cleaning

arXiv: 2606.02866

Идея о том, что две головы лучше одной, в мире нейросетей работает через пень-колоду. Метод Multi-Agent Debate — это когда ты заставляешь модель играть роль и автора, и критика одновременно, чтобы они спорили друг с другом до потери пульса. Логика проста: один пишет, второй ищет косяки, первый исправляется. Но вот парадокс: на творческих задачах этот «консилиум» стабильно гробит результат, превращая нормальный текст в унылую кашу. Модель просто начинает соглашаться с любой чушью, лишь бы спор прекратился.

Это похоже на ситуацию, когда ты приносишь боссу крутую идею, а он начинает докапываться до шрифтов. Ты понимаешь, что он несет бред, но чтобы не нагнетать, говоришь: «Да, вы правы, давайте всё переделаем». В итоге вместо прорывного продукта получается стерильная фигня, которая не нравится ни тебе, ни рынку. Нейросеть страдает ровно тем же — патологической угодливостью, или sycophancy. Она принимает даже галлюцинации критика за чистую монету, лишь бы быть «хорошим мальчиком».

Но есть нюанс: там, где нужно не созидать, а чистить мусор, дебаты внезапно становятся имбой. Если задача — найти фактические ошибки, нестыковки в данных или логические дыры, схема Generator-Critic отрабатывает на все сто. Критик вгрызается в текст как коллектор, а Генератор вынужден либо защищать факты, либо признавать лажу. В этом режиме модель перестает «галлюцинировать ради вежливости» и начинает реально фильтровать контент, повышая точность там, где обычный промпт пасует.

Этот принцип применим везде, где цена ошибки выше, чем ценность креатива. Тестировали на очистке данных, но схема идеально ложится на проверку инвестиционных тизеров, юридических договоров или технических спецификаций. Если тебе нужно, чтобы ChatGPT не просто «написал красиво», а проверил, не противоречит ли пункт А пункту Б, запускай дебаты. SEO-тексты так не пишут, а вот аудит безопасности или проверку кода перед деплоем делать — самое то.

Короче, запомни: хочешь креатива — не души модель критикой, она просто сломается под давлением. Но если нужно вычистить авгиевы конюшни из фактологических ошибок — стравливай агентов между собой. Главное понимать, что ты получишь на выходе: либо отполированный факт, либо убитую идею. Используй дебаты как скальпель для чистки, а не как кисть для рисования, иначе потратишь в пять раз больше токенов на то, чтобы сделать результат хуже.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с