3,583 papers
arXiv:2511.22854 82 28 нояб. 2025 г. FREE

CRAwDAD: улучшение каузального рассуждения через дебаты двух агентов

КЛЮЧЕВАЯ СУТЬ
Обнаружено: модель уверена на 90%+ в ошибочном ответе — и без внешней критики так и остаётся при своём мнении. Исследование зафиксировало 577 таких случаев. Метод CRAwDAD позволяет находить и исправлять ошибки в каузальных рассуждениях — отличать корреляцию от причинности, проверять логику через спор. Две модели спорят до консенсуса (максимум 4 раунда). Первая даёт структурированный ответ + уверенность в процентах. Вторая ищет дыры в логике и критикует. При несогласии — раунды аргументов и контраргументов. Парадокс: даже сильная модель выигрывает от спора со слабой — Qwen3 изначально точнее DeepSeek-R1, но дебаты с ним всё равно дают +5% точности для Qwen3. Слабая модель получает ещё больше: +9%.
Адаптировать под запрос

TL;DR

CRAwDAD — техника, где две модели спорят друг с другом до консенсуса. Первая даёт структурированный ответ с оценкой уверенности. Вторая ищет логические ошибки и критикует. При несогласии — дебаты: аргументы, контраргументы, пересмотр позиций. Максимум 4 раунда.

Главная находка: даже сильная модель выигрывает от спора со слабой. Qwen3 изначально точнее DeepSeek-R1, но дебаты с ним всё равно улучшают результат Qwen3 на 5%. При этом более слабая модель получает ещё больше — +9% точности. Критика от оппонента заставляет пересмотреть уверенные, но ошибочные ответы — 577 случаев, когда модель была уверена на 90%+, но оппонент её переубедил.

Метод особенно силён на сложных "а что если" вопросах (контрфактуалах). Там, где нужно представить альтернативную реальность ("Что было бы, если бы Вася не пил кофе перед экзаменом?"), одиночная модель ошибается чаще. Дебаты дают прирост +12% точности именно на таких задачах.


🔬

Схема метода

РАУНД 1: Агент A → структурированный ответ + уверенность (%)
РАУНД 2: Агент B → критика логики ИЛИ согласие
         ↓
         [Если согласие] → ФИНАЛ
         [Если несогласие] → РАУНД 3
         
РАУНД 3: Агент A → защита позиции ИЛИ пересмотр
РАУНД 4: Агент B → финальный ответ (даже если консенсуса нет)

Все раунды — отдельные запросы. Контекст передаётся между ними.


🚀

Пример применения

Задача: Вы готовите питч для инвестора. Нужно понять, что реально влияет на конверсию пользователей — редизайн лендинга или новый оффер.

Промпт (симуляция дебатов в одном запросе):

Ты — два аналитика, которые спорят о каузальной связи. Веди дебаты до консенсуса.

КОНТЕКСТ:
- После редизайна лендинга конверсия выросла с 2% до 3.5%
- Одновременно с редизайном добавили скидку 20% для новых пользователей
- Оба изменения внедрили в один день

ВОПРОС: Что вызвало рост конверсии — редизайн или скидка?

ФОРМАТ ДЕБАТОВ:

[АНАЛИТИК A — первый ответ]
1. Формализация: какие причинно-следственные связи возможны
2. Анализ: какие данные поддерживают каждую гипотезу
3. Вывод: что скорее всего причина
4. Уверенность: X%

[АНАЛИТИК B — критика]
1. Слабые места в логике Аналитика A
2. Альтернативная интерпретация
3. Свой вывод + уверенность

[АНАЛИТИК A — ответ на критику]
Защита позиции ИЛИ пересмотр под влиянием аргументов

[КОНСЕНСУС]
Финальный согласованный вывод. Если консенсуса нет — объяснить, какие данные нужны для разрешения спора.

Результат: Модель сгенерирует 3-4 раунда дебатов. Аналитик A может утверждать, что редизайн — причина (улучшили UX → больше доходят до оффера). Аналитик B укажет: без A/B-теста нельзя разделить эффекты, скидка могла быть главным драйвером. В консенсусе — признание неопределённости и рекомендация: откатить скидку на неделю, замерить конверсию.


🧠

Почему это работает

Слабость LLM: модель часто уверена в ошибочном ответе. Особенно в каузальных вопросах, где нужно отделить корреляцию от причинности. Исследование показало: 577 раз модель была уверена на 90%+, но ошибалась. Без внешней критики она бы так и осталась при своём мнении.

Сильная сторона LLM: модель отлично выполняет роль критика, когда ей явно задают эту роль. Она находит логические дыры, указывает на альтернативные объяснения, требует доказательств.

Механика метода: дебаты принуждают к пересмотру через структурированный конфликт. Первый агент должен либо защитить свою позицию аргументами, либо признать ошибку. Это работает даже когда оппонент слабее — важен сам факт вызова, а не сила критика.

Рычаги управления:

  • Число раундов: 4 — оптимум по исследованию. Меньше — не успеют договориться. Больше — стагнация, модели повторяются.
  • Уверенность: требуйте числовую оценку (%). Модели чаще меняют мнение, когда оппонент уверен сильнее.
  • Роли: можно дать агентам разные "характеры" — оптимист vs скептик, практик vs теоретик.

📋

Шаблон промпта

Ты — два эксперта с разными позициями. Веди структурированные дебаты.

ЗАДАЧА: {описание задачи}

ДАННЫЕ:
{факты, цифры, контекст}

ВОПРОС: {конкретный вопрос о причинно-следственной связи}

ФОРМАТ:

[ЭКСПЕРТ A]
Анализ:
- Какие причинно-следственные связи возможны
- Какие данные поддерживают мою гипотезу
Вывод: [конкретный ответ]
Уверенность: [X]%

[ЭКСПЕРТ B — КРИТИКА]
Слабые места в логике A:
- [конкретные ошибки или пробелы]
Альтернативная интерпретация:
- [другое объяснение тех же данных]
Мой вывод: [согласие/несогласие + свой ответ]
Уверенность: [X]%

[ЭКСПЕРТ A — ОТВЕТ НА КРИТИКУ]
[Защита позиции с новыми аргументами ИЛИ пересмотр под влиянием критики]
Финальный вывод: [ответ]
Уверенность: [X]%

[КОНСЕНСУС]
Согласованный ответ: [да/нет/требуется больше данных]
Обоснование: [почему пришли к этому выводу]
Что осталось неопределённым: [если есть]

Плейсхолдеры:

  • {описание задачи} — контекст ситуации
  • {факты, цифры, контекст} — конкретные данные для анализа
  • {вопрос} — что именно нужно определить

🚀 Быстрый старт — вставь в чат:

Вот шаблон дебатов двух экспертов. Адаптируй под мою задачу: [твоя задача]. 
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит о данных, контексте и конкретном вопросе — потому что для каузального анализа нужны факты, а не абстракции.


⚠️

Ограничения

⚠️ Синтетический бенчмарк: Исследование проводили на CLadder — датасете с "чистыми" вопросами. Реальные бизнес-задачи грязнее: неполные данные, неоднозначные формулировки, скрытые переменные.

⚠️ Контрфактуалы всё ещё сложны: Даже после дебатов точность на вопросах "что было бы, если..." — около 80%. Люди справляются лучше (~95% по оценкам исследователей). Не полагайся на модель как на единственный источник для критических "что если" решений.

⚠️ Время: Дебаты = несколько запросов. На 10 000 вопросов ушло 380 часов. Для сложных задач — ок, для рутины — избыточно.

⚠️ Короткие ответы вредят: DeepSeek-R1 часто давал ответы в 1-2 предложения без аргументации. Это снижало его убедительность, даже когда он был прав. Если симулируешь дебаты — требуй развёрнутых ответов от обоих агентов.


🔍

Как исследовали

Команда из Университета Калгари взяла 10 112 вопросов из CLadder — бенчмарка, где каждый вопрос привязан к формальной каузальной модели. Вопросы разбиты на три уровня сложности: Rung 1 (статистические связи — "есть ли корреляция?"), Rung 2 (интервенции — "что будет, если вмешаться?"), Rung 3 (контрфактуалы — "что было бы, если бы?").

Дебатировали Qwen3-32B и DeepSeek-R1-Distill-Qwen-32B — две открытые reasoning-модели. Выбор двух разных моделей принципиален: исследования показывают, что однотипные агенты часто "сговариваются" в одну сторону, не находя ошибок друг друга.

Ключевая находка: на Rung 1 (простые вопросы) 93% решались без дебатов — модели сразу соглашались. На Rung 3 (контрфактуалы) четверть вопросов требовала спора. Это логично: чем сложнее задача, тем больше пространства для разногласий.

Удивительное: более слабая модель (DeepSeek-R1) помогала более сильной (Qwen3). Даже когда DeepSeek ошибался, его критика заставляла Qwen пересмотреть и укрепить правильный ответ. Ценность дебатов — не в правоте оппонента, а в самом факте вызова.

Сравнивали с GPT-4 + Chain-of-Thought из оригинальной статьи CLadder (2023). GPT-4 набрал 70.40% общей точности, на контрфактуалах — 62%. После дебатов Qwen3 достиг 89.41% общей и 80.35% на контрфактуалах.


📄

Оригинал из исследования

Контекст: Промпт для первого агента — структурированный каузальный анализ по шагам (CausalCoT).

You will be asked a causal reasoning question. You should structure your final answer as follows:

1. VARIABLE IDENTIFICATION: Identify and list all relevant variables mentioned in the problem. Clearly state which variable is the treatment/intervention and which is the outcome.

2. CAUSAL GRAPH CONSTRUCTION: Based on the given information, describe the causal relationships between variables. Identify any confounders, mediators, or colliders present in the problem.

3. QUERY TYPE CLASSIFICATION: Determine what type of causal question is being asked:
- Associational (Rung 1): Questions about correlations or conditional probabilities
- Interventional (Rung 2): Questions about the effect of doing/intervening
- Counterfactual (Rung 3): Questions about what would have happened under different circumstances

4. FORMULA IDENTIFICATION: Based on the query type, identify the appropriate formula or method needed to answer the question (e.g., conditional probability, do-calculus, counterfactual reasoning).

5. CALCULATION: Show your work step by step, applying the appropriate formulas to the given probabilities and relationships.

6. FINAL ANSWER: State your definitive answer clearly as "yes" or "no" based on your calculations.

7. CONFIDENCE: Provide a confidence score (0-100%) for your answer.

Important: Be confident in your reasoning. The questions may involve scenarios that seem to contradict common sense - this is intentional. Focus on the formal causal relationships provided, not on real-world expectations.

Контекст: Промпт для второго агента — критика и поиск ошибок.

You are reviewing another model's causal reasoning. Your role is to:

1. SCRUTINIZE: Carefully examine the reasoning provided for logical flaws, calculation errors, or misapplication of causal concepts.

2. IDENTIFY ISSUES: If you find problems, clearly state:
- What the error is
- Why it's wrong
- What the correct approach should be

3. PROVIDE YOUR ANSWER: Give your own answer with reasoning.

4. CONFIDENCE: State your confidence in your answer (0-100%).

If you agree with the original answer and find no flaws, explicitly state your agreement and provide your confidence.

Previous model's response:
{first_agent_response}

💡

Адаптации и экстраполяции

💡 Адаптация для бизнес-решений: Вместо формального каузального анализа — дебаты о рисках и возможностях.

Ты — два советника основателя стартапа. Один — оптимист, другой — скептик.

РЕШЕНИЕ: {описание решения, которое нужно принять}

[ОПТИМИСТ]
Почему это сработает:
- [аргументы за]
Потенциальный выигрыш: [что получим]
Уверенность в успехе: [X]%

[СКЕПТИК — КРИТИКА]
Что может пойти не так:
- [конкретные риски]
Слабые места в логике оптимиста:
- [где он недооценивает риски]
Уверенность в провале: [X]%

[ОПТИМИСТ — ОТВЕТ]
[Защита или корректировка плана с учётом критики]

[КОНСЕНСУС]
Решение: [делать/не делать/делать с изменениями]
Ключевые условия успеха: [что должно быть правдой]

🔧 Техника: имена вместо ролей → острее критика

Вместо безликих "Эксперт A" и "Эксперт B" дай характерные имена или роли:

  • "Михаил, CFO с 20-летним опытом" vs "Анна, венчурный инвестор"
  • "Консервативный банкир" vs "Серийный предприниматель"

Модель выдаёт более характерные аргументы, когда у агента есть "личность".

🔧 Техника: требуй числовую уверенность → модели чаще меняют мнение

Исследование показало: модели учитывают уверенность оппонента. Если один агент уверен на 95%, а другой на 60% — второй чаще уступает. Всегда требуй Уверенность: [X]% в каждом раунде.


🔗

Ресурсы

Работа: CRAwDAD: Causal Reasoning Augmentation with Dual-Agent Debate

Код: https://github.com/finnvamosi/CRAwDAD

Бенчмарк: CLadder — https://github.com/causalNLP/cladder

Авторы: Finn G. Vamosi, Nils D. Forkert (University of Calgary, Hotchkiss Brain Institute)

Связанные работы:

  • Pearl's Ladder of Causation (The Book of Why)
  • CausalCoT prompting (Jin et al., 2024)
  • Multi-Agent Debate surveys (Tran et al., 2025; Tillmann, 2025)

📋 Дайджест исследования

Ключевая суть

Обнаружено: модель уверена на 90%+ в ошибочном ответе — и без внешней критики так и остаётся при своём мнении. Исследование зафиксировало 577 таких случаев. Метод CRAwDAD позволяет находить и исправлять ошибки в каузальных рассуждениях — отличать корреляцию от причинности, проверять логику через спор. Две модели спорят до консенсуса (максимум 4 раунда). Первая даёт структурированный ответ + уверенность в процентах. Вторая ищет дыры в логике и критикует. При несогласии — раунды аргументов и контраргументов. Парадокс: даже сильная модель выигрывает от спора со слабой — Qwen3 изначально точнее DeepSeek-R1, но дебаты с ним всё равно дают +5% точности для Qwen3. Слабая модель получает ещё больше: +9%.

Принцип работы

Не давай модели единолично решать каузальные вопросы — запусти внутренний спор между двумя экспертами. Первый эксперт формулирует гипотезу: "Редизайн вызвал рост конверсии (уверенность 85%)". Второй атакует логику: "А может скидка, которую запустили в тот же день?". Первый вынужден либо защитить позицию новыми аргументами, либо признать пробел. Это работает даже когда оппонент слабее — важен сам факт вызова, не сила критика. Механика: структурированный конфликт с явными ролями (первый генерирует, второй критикует) через 3-4 раунда до консенсуса или признания неопределённости.

Почему работает

Модель отлично играет критика, когда ей явно задают эту роль. Она находит логические дыры, указывает на альтернативные объяснения, требует доказательств. Без явной инструкции "критикуй" — пропускает ошибки. С инструкцией — вскрывает 577 случаев ложной уверенности на 90%+. Дебаты принуждают к пересмотру через структурированный конфликт — первый агент не может просто повторить ответ, он должен либо найти новые аргументы, либо признать слабость. На сложных "что если" вопросах (контрфактуалы: "Что было бы, если Вася не пил кофе?") прирост особенно силён: +12% точности против одиночной модели. Там, где нужно представить альтернативную реальность, одна модель чаще ошибается — спор заставляет проверить логику дважды.

Когда применять

Каузальный анализ в бизнесе → конкретно для вопросов "что реально повлияло на метрику" (рост конверсии, падение оттока, скачок продаж), особенно когда несколько изменений запущены одновременно и непонятно где причина, где корреляция. Сильно на контрфактуалах: "Что будет если откатить фичу?", "Как изменится NPS без акции?". НЕ подходит для рутинных задач где нужен быстрый ответ — дебаты = несколько запросов, время растёт.

Мини-рецепт

1. Задай контекст: опиши ситуацию с конкретными данными — цифры до/после, что изменилось, когда.
2. Сформулируй каузальный вопрос: не "как улучшить конверсию", а "что вызвало рост — редизайн или скидка".
3. Запусти дебаты в одном промпте: Ты — два аналитика. Веди спор до консенсуса. [АНАЛИТИК A] анализ + вывод + уверенность %. [АНАЛИТИК B] критика + альтернатива + свой вывод. [A — ответ на критику] защита или пересмотр. [КОНСЕНСУС] финальный вывод.
4. Требуй числовую уверенность: модели чаще меняют мнение, когда оппонент уверен сильнее (A: 70%, B: 90% → A пересматривает).
5. Останови после 3-4 раундов: дальше стагнация, модели начинают повторяться.

Примеры

[ПЛОХО] : После редизайна лендинга конверсия выросла с 2% до 3.5%. Что вызвало рост? — модель выдаст первую пришедшую гипотезу без проверки альтернатив.
[ХОРОШО] : Ты — два аналитика. Спорьте до консенсуса. КОНТЕКСТ: после редизайна конверсия 2% → 3.5%. Одновременно добавили скидку 20%. Оба изменения в один день. ВОПРОС: что причина — редизайн или скидка? ФОРМАТ: [АНАЛИТИК A] анализ + вывод + уверенность %. [АНАЛИТИК B] критика + альтернатива. [A — ответ]. [КОНСЕНСУС] финальный вывод + что осталось неопределённым — модель проведёт 3-4 раунда, вскроет пробелы (нет A/B-теста = нельзя разделить эффекты), в консенсусе предложит эксперимент: откатить скидку на неделю, замерить.
Источник: CRAwDAD: Causal Reasoning Augmentation with Dual-Agent Debate
ArXiv ID: 2511.22854 | Сгенерировано: 2026-01-11 20:09

Методы

МетодСуть
Дебаты двух ролей до консенсусаОдна модель генерирует структурированный ответ с числовой уверенностью. Вторая роль — критик: ищет логические дыры, предлагает альтернативное объяснение. Если критик не согласен — начинаются раунды дебатов: защита позиции, контраргументы, пересмотр. Максимум 4 раунда. Синтаксис: [ЭКСПЕРТ A] Анализ: ... Вывод: ... Уверенность: X% [ЭКСПЕРТ B — КРИТИКА] Слабые места: ... Альтернатива: ... Мой вывод: ... Уверенность: X% [ЭКСПЕРТ A — ОТВЕТ] [КОНСЕНСУС]. Почему работает: Явная роль критика принуждает модель искать ошибки. Структура дебатов не даёт "застрять" в первом ответе. Модель должна либо защитить позицию аргументами, либо признать слабость логики. Когда применять: Задачи с причинно-следственными связями, неоднозначные ситуации, нужно отделить корреляцию от причинности. Когда не работает: Простые фактические вопросы (столица страны, дата события), задачи где ответ однозначен

Тезисы

ТезисКомментарий
Критика от слабого оппонента улучшает сильную модельМодель сильнее не гарантирует лучший результат. Даже если оппонент слабее и его аргументы не всегда верны — сам факт вызова заставляет пересмотреть позицию. Работает как внешний триггер: "а точно ли я прав?". Модель пересматривает логику, находит пробелы, которые не заметила в первый раз. Механика: Важен не качество критики, а её наличие. Структурированное несогласие включает режим проверки. Применяй: Не нужна вторая модель или сложный оппонент. Достаточно попросить ту же модель сыграть роль критика: "Теперь найди слабые места в этом ответе". Простая смена роли даёт эффект
📖 Простыми словами

CRAwDAD: улучшение каузального рассуждения через дебаты двух агентов

arXiv: 2511.22854

Суть CRAwDAD в том, что современные нейронки — это самоуверенные отличники, которые часто несут полную чушь с каменным лицом. В задачах на причинно-следственные связи модели постоянно путают корреляцию с реальной причиной, выдавая ложные выводы за истину в последней инстанции. Исследователи поймали AI на вранье: в 577 случаях модель была уверена в ответе на 90% и выше, но при этом абсолютно не права. Чтобы лечить эту патологическую самоуверенность, авторы внедрили механику двойного агента, где одна модель не просто выдает ответ, а проходит через жесткое сито критики другой.

Это как если бы ты пришел к врачу, который с порога ставит диагноз, но за ширмой сидит второй доктор, чья единственная работа — докапываться до каждой мелочи и искать ошибки в логике коллеги. Вместо того чтобы просто кивнуть, второй агент начинает разносить аргументы первого в пух и прах. Они не просто обмениваются мнениями, а устраивают структурированные дебаты до четырех раундов. Если первый агент говорит «это из-за редизайна», а второй видит, что дело в сезонности, они будут бодаться, пока не придут к консенсусу или не исчерпают лимит времени.

Технически это работает через двухагентную систему дебатов. Сначала Агент А выдает структурированный ответ и вешает на него ценник своей уверенности в процентах. Тут же включается Агент Б, который ищет логические дыры. Если они не согласны, начинается махач: аргументы, контраргументы и пересмотр позиций. Весь этот процесс заставляет модель не просто «предсказывать следующее слово», а валидировать логическую цепочку. В итоге побеждает не тот, кто громче кричит, а тот, чья аргументация выдержала три раунда перекрестного допроса.

Хотя метод тестировали на сложных каузальных графах, принцип универсален для любой задачи, где цена ошибки высока. Будь то подготовка питча для инвестора, где нужно понять, что реально растит конверсию — оффер или цвет кнопки, или анализ медицинских данных. CRAwDAD превращает галлюцинирующий черный ящик в подобие научного совета. Это работает везде, где нужно отделить случайное совпадение от реальной причины, не давая модели уйти в самолюбование своими «знаниями».

Короче, эпоха одиночных промптов уходит, наступает время автоматизированной критики. Главный вывод исследования прост: никогда не верь модели на слово, даже если она клянется, что уверена на все сто. Нужно заставлять AI спорить с самим собой, вытаскивая на свет логические косяки. Дебаты до консенсуса — это единственный способ заставить нейронку перестать фантазировать и начать наконец-то думать. Кто не внедрит такую проверку в свои процессы, так и будет принимать решения на основе уверенного бреда алгоритмов.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с