TL;DR
CRAwDAD — техника, где две модели спорят друг с другом до консенсуса. Первая даёт структурированный ответ с оценкой уверенности. Вторая ищет логические ошибки и критикует. При несогласии — дебаты: аргументы, контраргументы, пересмотр позиций. Максимум 4 раунда.
Главная находка: даже сильная модель выигрывает от спора со слабой. Qwen3 изначально точнее DeepSeek-R1, но дебаты с ним всё равно улучшают результат Qwen3 на 5%. При этом более слабая модель получает ещё больше — +9% точности. Критика от оппонента заставляет пересмотреть уверенные, но ошибочные ответы — 577 случаев, когда модель была уверена на 90%+, но оппонент её переубедил.
Метод особенно силён на сложных "а что если" вопросах (контрфактуалах). Там, где нужно представить альтернативную реальность ("Что было бы, если бы Вася не пил кофе перед экзаменом?"), одиночная модель ошибается чаще. Дебаты дают прирост +12% точности именно на таких задачах.
Схема метода
РАУНД 1: Агент A → структурированный ответ + уверенность (%)
РАУНД 2: Агент B → критика логики ИЛИ согласие
↓
[Если согласие] → ФИНАЛ
[Если несогласие] → РАУНД 3
РАУНД 3: Агент A → защита позиции ИЛИ пересмотр
РАУНД 4: Агент B → финальный ответ (даже если консенсуса нет)
Все раунды — отдельные запросы. Контекст передаётся между ними.
Пример применения
Задача: Вы готовите питч для инвестора. Нужно понять, что реально влияет на конверсию пользователей — редизайн лендинга или новый оффер.
Промпт (симуляция дебатов в одном запросе):
Ты — два аналитика, которые спорят о каузальной связи. Веди дебаты до консенсуса.
КОНТЕКСТ:
- После редизайна лендинга конверсия выросла с 2% до 3.5%
- Одновременно с редизайном добавили скидку 20% для новых пользователей
- Оба изменения внедрили в один день
ВОПРОС: Что вызвало рост конверсии — редизайн или скидка?
ФОРМАТ ДЕБАТОВ:
[АНАЛИТИК A — первый ответ]
1. Формализация: какие причинно-следственные связи возможны
2. Анализ: какие данные поддерживают каждую гипотезу
3. Вывод: что скорее всего причина
4. Уверенность: X%
[АНАЛИТИК B — критика]
1. Слабые места в логике Аналитика A
2. Альтернативная интерпретация
3. Свой вывод + уверенность
[АНАЛИТИК A — ответ на критику]
Защита позиции ИЛИ пересмотр под влиянием аргументов
[КОНСЕНСУС]
Финальный согласованный вывод. Если консенсуса нет — объяснить, какие данные нужны для разрешения спора.
Результат: Модель сгенерирует 3-4 раунда дебатов. Аналитик A может утверждать, что редизайн — причина (улучшили UX → больше доходят до оффера). Аналитик B укажет: без A/B-теста нельзя разделить эффекты, скидка могла быть главным драйвером. В консенсусе — признание неопределённости и рекомендация: откатить скидку на неделю, замерить конверсию.
Почему это работает
Слабость LLM: модель часто уверена в ошибочном ответе. Особенно в каузальных вопросах, где нужно отделить корреляцию от причинности. Исследование показало: 577 раз модель была уверена на 90%+, но ошибалась. Без внешней критики она бы так и осталась при своём мнении.
Сильная сторона LLM: модель отлично выполняет роль критика, когда ей явно задают эту роль. Она находит логические дыры, указывает на альтернативные объяснения, требует доказательств.
Механика метода: дебаты принуждают к пересмотру через структурированный конфликт. Первый агент должен либо защитить свою позицию аргументами, либо признать ошибку. Это работает даже когда оппонент слабее — важен сам факт вызова, а не сила критика.
Рычаги управления:
- Число раундов: 4 — оптимум по исследованию. Меньше — не успеют договориться. Больше — стагнация, модели повторяются.
- Уверенность: требуйте числовую оценку (%). Модели чаще меняют мнение, когда оппонент уверен сильнее.
- Роли: можно дать агентам разные "характеры" — оптимист vs скептик, практик vs теоретик.
Шаблон промпта
Ты — два эксперта с разными позициями. Веди структурированные дебаты.
ЗАДАЧА: {описание задачи}
ДАННЫЕ:
{факты, цифры, контекст}
ВОПРОС: {конкретный вопрос о причинно-следственной связи}
ФОРМАТ:
[ЭКСПЕРТ A]
Анализ:
- Какие причинно-следственные связи возможны
- Какие данные поддерживают мою гипотезу
Вывод: [конкретный ответ]
Уверенность: [X]%
[ЭКСПЕРТ B — КРИТИКА]
Слабые места в логике A:
- [конкретные ошибки или пробелы]
Альтернативная интерпретация:
- [другое объяснение тех же данных]
Мой вывод: [согласие/несогласие + свой ответ]
Уверенность: [X]%
[ЭКСПЕРТ A — ОТВЕТ НА КРИТИКУ]
[Защита позиции с новыми аргументами ИЛИ пересмотр под влиянием критики]
Финальный вывод: [ответ]
Уверенность: [X]%
[КОНСЕНСУС]
Согласованный ответ: [да/нет/требуется больше данных]
Обоснование: [почему пришли к этому выводу]
Что осталось неопределённым: [если есть]
Плейсхолдеры:
{описание задачи}— контекст ситуации{факты, цифры, контекст}— конкретные данные для анализа{вопрос}— что именно нужно определить
🚀 Быстрый старт — вставь в чат:
Вот шаблон дебатов двух экспертов. Адаптируй под мою задачу: [твоя задача].
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит о данных, контексте и конкретном вопросе — потому что для каузального анализа нужны факты, а не абстракции.
Ограничения
⚠️ Синтетический бенчмарк: Исследование проводили на CLadder — датасете с "чистыми" вопросами. Реальные бизнес-задачи грязнее: неполные данные, неоднозначные формулировки, скрытые переменные.
⚠️ Контрфактуалы всё ещё сложны: Даже после дебатов точность на вопросах "что было бы, если..." — около 80%. Люди справляются лучше (~95% по оценкам исследователей). Не полагайся на модель как на единственный источник для критических "что если" решений.
⚠️ Время: Дебаты = несколько запросов. На 10 000 вопросов ушло 380 часов. Для сложных задач — ок, для рутины — избыточно.
⚠️ Короткие ответы вредят: DeepSeek-R1 часто давал ответы в 1-2 предложения без аргументации. Это снижало его убедительность, даже когда он был прав. Если симулируешь дебаты — требуй развёрнутых ответов от обоих агентов.
Как исследовали
Команда из Университета Калгари взяла 10 112 вопросов из CLadder — бенчмарка, где каждый вопрос привязан к формальной каузальной модели. Вопросы разбиты на три уровня сложности: Rung 1 (статистические связи — "есть ли корреляция?"), Rung 2 (интервенции — "что будет, если вмешаться?"), Rung 3 (контрфактуалы — "что было бы, если бы?").
Дебатировали Qwen3-32B и DeepSeek-R1-Distill-Qwen-32B — две открытые reasoning-модели. Выбор двух разных моделей принципиален: исследования показывают, что однотипные агенты часто "сговариваются" в одну сторону, не находя ошибок друг друга.
Ключевая находка: на Rung 1 (простые вопросы) 93% решались без дебатов — модели сразу соглашались. На Rung 3 (контрфактуалы) четверть вопросов требовала спора. Это логично: чем сложнее задача, тем больше пространства для разногласий.
Удивительное: более слабая модель (DeepSeek-R1) помогала более сильной (Qwen3). Даже когда DeepSeek ошибался, его критика заставляла Qwen пересмотреть и укрепить правильный ответ. Ценность дебатов — не в правоте оппонента, а в самом факте вызова.
Сравнивали с GPT-4 + Chain-of-Thought из оригинальной статьи CLadder (2023). GPT-4 набрал 70.40% общей точности, на контрфактуалах — 62%. После дебатов Qwen3 достиг 89.41% общей и 80.35% на контрфактуалах.
Оригинал из исследования
Контекст: Промпт для первого агента — структурированный каузальный анализ по шагам (CausalCoT).
You will be asked a causal reasoning question. You should structure your final answer as follows:
1. VARIABLE IDENTIFICATION: Identify and list all relevant variables mentioned in the problem. Clearly state which variable is the treatment/intervention and which is the outcome.
2. CAUSAL GRAPH CONSTRUCTION: Based on the given information, describe the causal relationships between variables. Identify any confounders, mediators, or colliders present in the problem.
3. QUERY TYPE CLASSIFICATION: Determine what type of causal question is being asked:
- Associational (Rung 1): Questions about correlations or conditional probabilities
- Interventional (Rung 2): Questions about the effect of doing/intervening
- Counterfactual (Rung 3): Questions about what would have happened under different circumstances
4. FORMULA IDENTIFICATION: Based on the query type, identify the appropriate formula or method needed to answer the question (e.g., conditional probability, do-calculus, counterfactual reasoning).
5. CALCULATION: Show your work step by step, applying the appropriate formulas to the given probabilities and relationships.
6. FINAL ANSWER: State your definitive answer clearly as "yes" or "no" based on your calculations.
7. CONFIDENCE: Provide a confidence score (0-100%) for your answer.
Important: Be confident in your reasoning. The questions may involve scenarios that seem to contradict common sense - this is intentional. Focus on the formal causal relationships provided, not on real-world expectations.
Контекст: Промпт для второго агента — критика и поиск ошибок.
You are reviewing another model's causal reasoning. Your role is to:
1. SCRUTINIZE: Carefully examine the reasoning provided for logical flaws, calculation errors, or misapplication of causal concepts.
2. IDENTIFY ISSUES: If you find problems, clearly state:
- What the error is
- Why it's wrong
- What the correct approach should be
3. PROVIDE YOUR ANSWER: Give your own answer with reasoning.
4. CONFIDENCE: State your confidence in your answer (0-100%).
If you agree with the original answer and find no flaws, explicitly state your agreement and provide your confidence.
Previous model's response:
{first_agent_response}
Адаптации и экстраполяции
💡 Адаптация для бизнес-решений: Вместо формального каузального анализа — дебаты о рисках и возможностях.
Ты — два советника основателя стартапа. Один — оптимист, другой — скептик.
РЕШЕНИЕ: {описание решения, которое нужно принять}
[ОПТИМИСТ]
Почему это сработает:
- [аргументы за]
Потенциальный выигрыш: [что получим]
Уверенность в успехе: [X]%
[СКЕПТИК — КРИТИКА]
Что может пойти не так:
- [конкретные риски]
Слабые места в логике оптимиста:
- [где он недооценивает риски]
Уверенность в провале: [X]%
[ОПТИМИСТ — ОТВЕТ]
[Защита или корректировка плана с учётом критики]
[КОНСЕНСУС]
Решение: [делать/не делать/делать с изменениями]
Ключевые условия успеха: [что должно быть правдой]
🔧 Техника: имена вместо ролей → острее критика
Вместо безликих "Эксперт A" и "Эксперт B" дай характерные имена или роли:
- "Михаил, CFO с 20-летним опытом" vs "Анна, венчурный инвестор"
- "Консервативный банкир" vs "Серийный предприниматель"
Модель выдаёт более характерные аргументы, когда у агента есть "личность".
🔧 Техника: требуй числовую уверенность → модели чаще меняют мнение
Исследование показало: модели учитывают уверенность оппонента. Если один агент уверен на 95%, а другой на 60% — второй чаще уступает. Всегда требуй Уверенность: [X]% в каждом раунде.
Ресурсы
Работа: CRAwDAD: Causal Reasoning Augmentation with Dual-Agent Debate
Код: https://github.com/finnvamosi/CRAwDAD
Бенчмарк: CLadder — https://github.com/causalNLP/cladder
Авторы: Finn G. Vamosi, Nils D. Forkert (University of Calgary, Hotchkiss Brain Institute)
Связанные работы:
- Pearl's Ladder of Causation (The Book of Why)
- CausalCoT prompting (Jin et al., 2024)
- Multi-Agent Debate surveys (Tran et al., 2025; Tillmann, 2025)
