3,583 papers
arXiv:2601.05746 77 9 янв. 2026 г. FREE

DynaDebate: многоагентная дискуссия с разными путями решения

КЛЮЧЕВАЯ СУТЬ
Запускаешь три агента для решения задачи — они выбирают один и тот же путь, делают одинаковую ошибку, дискуссия превращается в голосование 3:0 за неправильный ответ. Это groupthink (все думают одинаково), потому что модель обучена на одинаковых данных и у неё есть доминирующие паттерны мышления. DynaDebate решает через принудительную диверсификацию: агент-генератор сначала создаёт 2-3 логически разных подхода к задаче ('через уравнения', 'через геометрию', 'через перебор'), потом распределяет их между агентами. Фишка: агенты не просто обсуждают финальные ответы, а критикуют конкретные шаги в рассуждениях друг друга ('на шаге 3 ошибка в расчёте'). Если консенсуса нет — включается верификатор с внешними инструментами (код, поиск) для объективной проверки.
Адаптировать под запрос

TL;DR

DynaDebate — метод многоагентной дискуссии, который даёт каждому агенту свой путь решения задачи. Вместо неуправляемого "пусть все подумают и обсудят", система работает в три этапа: (1) агент-генератор создаёт несколько логически разных подходов к задаче (например, "через уравнения", "через геометрию", "через перебор"), (2) каждый агент получает свой подход и решает задачу по нему, (3) агенты обсуждают не финальные ответы, а конкретные шаги в рассуждениях друг друга.

Обычные многоагентные дискуссии вырождаются в groupthink — все агенты думают одинаково и делают одинаковые ошибки. Когда запускаешь "три агента обсудите задачу", они часто выбирают один и тот же путь решения (например, все пытаются "дополнить квадрат"), делают одну и ту же ошибку на втором шаге, и дискуссия превращается в голосование 3:0 за неправильный ответ. Это происходит потому что модель обучена на одних и тех же данных — у неё есть ментальные паттерны, которые срабатывают у всех агентов одинаково. Критика тоже не работает: агенты оценивают "звучит ли ответ убедительно", а не "правильная ли логика на каждом шаге". Из-за этого даже правильный ответ одного агента тонет под давлением группы с красиво оформленной, но неверной логикой.

DynaDebate решает это через принудительную диверсификацию на старте (агент-генератор создаёт 2-3 разных подхода и распределяет их между агентами), пошаговую критику вместо оценки финала (агенты проверяют каждый шаг рассуждений на ошибки в расчётах и логике), и объективную верификацию при разногласиях (включается агент с внешними инструментами — код или поиск — который даёт фактическую проверку).


🔬

Схема метода

ЭТАП 1: Генерация путей решения
Агент-генератор → анализирует задачу → создаёт 2-3 логически разных подхода
                → распределяет подходы между агентами

ЭТАП 2: Решение + пошаговая дискуссия (2 раунда)
Раунд 1: Каждый агент решает по своему пути → детализирует каждый шаг
Раунд 2: Агенты читают чужие решения → критикуют конкретные шаги
         ("на шаге 3 ошибка в расчёте", "переход от шага 2 к 3 нелогичен")

ЭТАП 3: Верификация (если нет консенсуса)
Агент-верификатор → пишет код / делает поиск → даёт объективный результат
                  → агенты используют его как референс

Все этапы могут выполняться в одном чате через структурированный промпт, либо через несколько последовательных запросов.


🚀

Пример применения

Задача: Оценить жизнеспособность идеи SaaS-сервиса для российского рынка — платформы автоматизации email-рассылок для малого бизнеса (конкурент Unisender/SendPulse). Нужно понять: стоит ли вкладывать 2 млн рублей в MVP.

Промпт:

Задача: оценить жизнеспособность SaaS-идеи (платформа email-рассылок для малого бизнеса, российский рынок, бюджет MVP 2 млн руб).

ШАГ 1 — ГЕНЕРАЦИЯ ПОДХОДОВ
Ты — Агент-Генератор. Предложи 3 логически разных подхода к оценке этой идеи:
- Подход 1: [один метод анализа]
- Подход 2: [другой метод анализа]  
- Подход 3: [третий метод анализа]

Требования: подходы должны быть логически обоснованы и независимы друг от друга.

ШАГ 2 — РЕШЕНИЕ ПО ПУТЯМ
Создай трёх агентов. Каждый берёт один подход и оценивает идею по нему.
Детализируй каждый шаг: "Шаг 1: [действие] → [вывод]. Шаг 2: [действие] → [вывод]."

ШАГ 3 — ПОШАГОВАЯ КРИТИКА
Каждый агент читает рассуждения двух других. 
Критикуй НЕ финальные выводы, а КОНКРЕТНЫЕ ШАГИ:
- "На шаге X агент Y использовал данные [источник] — они устарели/неточны"
- "Переход от шага 2 к шагу 3 содержит логический пробел: [объяснение]"

ШАГ 4 — ВЕРИФИКАЦИЯ (если нет консенсуса)
Если агенты расходятся — используй Code Interpreter для расчётов или поиск для проверки фактов.

Финал: консенсусный вывод с обоснованием.

Результат:

Модель выполнит сначала генерацию подходов (например: "финансовая модель Unit Economics", "анализ конкурентов через данные SimilarWeb", "опрос целевой аудитории через гипотезы"). Потом три агента дадут оценки по своим путям с детализацией шагов. В раунде критики они укажут на конкретные слабые места в расчётах или логике друг друга. Если выводы разойдутся (один говорит "запускать", другой "не стоит"), верификатор посчитает Unit Economics в коде или найдёт актуальные данные по конкурентам. Финальный вывод будет опираться на объективные расчёты, а не на "кто убедительнее звучит".


🧠

Почему это работает

Слабость LLM: Модель обучена на одних и тех же данных, поэтому у неё есть доминирующие паттерны мышления. Когда запускаешь несколько агентов без явных инструкций, они часто выбирают один и тот же путь решения — самый частотный в обучающих данных. Если этот путь содержит ошибку на третьем шаге, все агенты сделают эту ошибку, и дискуссия не поможет. Более того, агенты оценивают чужие ответы поверхностно — "звучит ли убедительно", "хорошо ли структурирован текст" — вместо проверки каждого шага на точность. Из-за этого правильный, но менее красиво оформленный ответ проигрывает неправильному, но убедительно звучащему.

Сильная сторона LLM: Модель хорошо следует явным структурированным инструкциям. Если дать конкретное задание "реши через метод X", она выполнит именно его, даже если это не самый частотный паттерн. Также модель способна к детальной аналитике текста — если попросить "проверь шаг 3 на ошибки в расчётах", она это сделает точнее, чем при запросе "оцени правильность ответа".

Как метод использует это: DynaDebate принудительно назначает разные пути решения через агента-генератора, который сначала создаёт несколько подходов, а потом распределяет их. Это обходит доминирующий паттерн и заставляет агентов исследовать разные части пространства решений. Пошаговая критика обходит поверхностную оценку — агенты проверяют каждый шаг на ошибки в фактах и логике, а не оценивают "общее впечатление". Верификация через внешние инструменты даёт объективный якорь, который не зависит от убедительности формулировок.

Рычаги управления:

  • Количество путей решения (2-3-4) — для простых задач достаточно 2, для сложных лучше 3. Больше 4 создаёт шум.
  • Количество раундов дискуссии — для сложных задач (математика, стратегия) оптимально 2 раунда. Больше снижает качество из-за раздувания контекста.
  • Критерий активации верификатора — можно активировать всегда, или только при отсутствии консенсуса, или при расхождении больше чем на X%.
  • Тип внешнего инструмента — код (Code Interpreter) для расчётов, поиск для фактов, API для специфичных данных.

📋

Шаблон промпта

Задача: {описание задачи}

ЭТАП 1 — ГЕНЕРАЦИЯ ПОДХОДОВ К РЕШЕНИЮ
Ты — Агент-Генератор. 
Проанализируй задачу и предложи {N} логически разных подходов к её решению.
Каждый подход должен быть:
- Логически обоснован и применим к этой задаче
- Независим от других (использует другой метод/источник данных/логическую цепочку)

Формат:
Подход 1: [название метода] — [краткое описание]
Подход 2: [название метода] — [краткое описание]
Подход {N}: [название метода] — [краткое описание]

ЭТАП 2 — РЕШЕНИЕ ПО НАЗНАЧЕННЫМ ПУТЯМ
Создай {N} агентов. Каждому назначь один подход из списка выше.
Каждый агент решает задачу строго по своему подходу.

Требование: детализируй рассуждения пошагово.
Формат:
Агент 1 (Подход: [название]):
  Шаг 1: [действие] → [результат/вывод]
  Шаг 2: [действие] → [результат/вывод]
  ...
  Финальный ответ: [ответ]

ЭТАП 3 — ПОШАГОВАЯ КРИТИКА
Каждый агент читает решения других агентов.
Критикуй НЕ финальные ответы, а КОНКРЕТНЫЕ ШАГИ в рассуждениях:
- Найди ошибки в расчётах или фактах на конкретном шаге
- Найди логические пробелы в переходах между шагами
- Укажи номер шага и опиши проблему

Формат критики:
Агент X критикует Агента Y:
  - Шаг {номер}: [описание ошибки или пробела в логике]
  - Шаг {номер}: [описание ошибки или пробела в логике]

После критики каждый агент корректирует своё решение (если нашли ошибки).

ЭТАП 4 — ВЕРИФИКАЦИЯ (при отсутствии консенсуса)
Если агенты не пришли к согласию после критики:
Активируй Агента-Верификатора.
- Для расчётных задач: используй {инструмент_1, например Code Interpreter} для объективной проверки
- Для фактических задач: используй {инструмент_2, например поиск} для проверки данных
Результат верификации используется как референс для финального вывода.

ФИНАЛ
Консенсусный ответ с обоснованием: почему именно этот ответ, какие ключевые аргументы из дискуссии его подтверждают.

Что подставлять: - {описание задачи} — твоя конкретная задача (математическая, аналитическая, стратегическая) - {N} — количество подходов/агентов (оптимально 2-3) - {инструмент_1}, {инструмент_2} — какие инструменты использовать для проверки (Code Interpreter, поиск, специфичные API)


🚀 Быстрый старт — вставь в чат:

Вот шаблон DynaDebate для многоагентной дискуссии. Адаптируй под мою задачу: [твоя задача]. 
Задавай уточняющие вопросы, чтобы правильно заполнить поля.

[вставить шаблон выше]

LLM спросит: сколько агентов создать, какие инструменты доступны для верификации (Code Interpreter? поиск?), нужно ли упростить для быстрого результата. Она возьмёт структуру из шаблона (генерация подходов → решение по путям → пошаговая критика → верификация) и адаптирует под твою задачу с конкретными подходами.


⚠️

Ограничения

⚠️ Не для простых задач: На элементарных вопросах ("столица Франции", "2+2") весь механизм избыточен — простой промпт даст тот же результат быстрее. Метод эффективен для задач, где существует несколько логически разных путей решения.

⚠️ Эффект насыщения: Больше 3 агентов часто ухудшает результат вместо улучшения — появляется coordination overhead. В экспериментах 4 агента показывали хуже, чем 3.

⚠️ Длинный контекст: Больше 2 раундов дискуссии снижает точность на сложных задачах — контекст раздувается, модель теряет фокус. Оптимум — 2 раунда.

⚠️ Требует workflow: Нельзя просто скопировать один промпт и получить результат. Нужно либо структурировать в одном большом промпте, либо делать несколько запросов, либо настроить кастомный GPT/проект в Claude.

⚠️ Верификация не универсальна: Для субъективных задач (креатив, стиль, эмоции) внешняя верификация не работает — там нет объективной правды. Метод лучше подходит для задач с проверяемыми фактами или расчётами.


🔍

Как исследовали

Тестировали на GPT-4o-mini и Qwen3-8B (open-source модель). Конфигурация: 3 агента, 2 раунда дискуссии.

Датасеты: - Математика: GSM8K (базовая, 93-96% accuracy), MATH500 (70-84%), AIME 2024/2025 (олимпиады, 10-37%) - Широкие знания: MMLU (82-83%) - Фактическая точность: Biography (проверка биографий на галлюцинации)

Главные находки:

Диверсификация работает: Метрика "intra-diversity" (насколько семантически различаются ответы агентов) и "structural non-overlap" (насколько различаются структуры рассуждений) выросли для DynaDebate vs базовые методы. При этом точность не упала — значит, диверсификация не превратилась в шум.

Больше агентов ≠ лучше: Переход с 2 на 3 агента даёт скачок качества (например, AIME 2025: с 26.67% до 36.67%). Но 4 агента уже хуже 3 (падение до 23.33%) — появляется coordination noise.

Абляция компонентов: - Убрали генерацию путей → на AIME 2025 точность с 36.67% до 16.67% (агенты не находят входные точки в сложную задачу) - Убрали пошаговую критику → на MATH500 с 83.80% до 79.40% (ошибки в промежуточных шагах не ловятся) - Убрали верификацию → на MMLU с 83.00% до 80.00% (groupthink эффект не преодолевается)

Против кого мерились: CoT (стандартный промпт), CoT-SC (голосование), Self-Refine (итеративная коррекция), MAD (многоагентная дискуссия с ролями), SoM (Society of Mind), DMAD (дискуссия с разными стратегиями промптинга).

Где победили: На сложных математических и знаниевых задачах (MATH500, MMLU, AIME) DynaDebate лучше всех. На простых (GSM8K) все топовые методы почти одинаковы (насыщение). На Biography (фактическая точность) лучше Self-Refine, потому что он заточен под итеративную полировку текста.

Интересный вывод: Qwen3-8B с DynaDebate обогнал Self-Refine и MAD на сложных задачах, хотя это меньшая модель. Это показывает, что правильная организация процесса рассуждений может компенсировать размер модели.


📄

Оригинал из исследования

Авторы использовали псевдокод-подобную нотацию для описания компонентов. Вот упрощённая структура (детальный псевдокод в Appendix A оригинала):

# ЭТАП 1: Dynamic Path Generation
P = PathGenerationAgent(query q)
  → возвращает список {path_1, path_2, ..., path_K}
  → требования: логическая обоснованность, взаимная независимость

Распределение путей по агентам (Round-Robin):
Agent_i получает path_((i-1 mod K) + 1)

# ЭТАП 2: Path-Guided Execution + Process-Centric Debate
Round 1:
  Каждый Agent_i генерирует reasoning chain R_i,1 = {z_i[1], z_i[2], ..., z_i[L]}
    где z_i[k] — атомарный шаг вывода
    R_i,1 ~ π(· | q, Path(Agent_i))

Round t > 1:
  Agent_i читает {R_j,t-1} для всех j ≠ i
  Выполняет First-Principles Audit:
    - Проверяет каждый шаг z_j[k] на intrinsic correctness (ошибки в расчётах/фактах)
    - Проверяет переходы z_j[k] → z_j[k+1] на logical coherence
  Генерирует обновлённое решение R_i,t на основе критики

# ЭТАП 3: Trigger-Based Verification
if Trigger(H_t):  # например, консенсус не достигнут
  o_t ← VerificationAgent(q, H_t)
    → генерирует команду для внешнего инструмента (Python code / Search)
    → выполняет в изолированной среде
  H_t ← H_t ∪ {o_t}  # добавляет результат в историю дискуссии
  Агенты используют o_t как референс для следующего раунда

Ключевое отличие от других MAD-методов: - MAD (Liang et al., 2023): агенты с разными ролями (пессимист/оптимист), но без управления путями решения - SoM (Du et al., 2023): модульная структура, но агенты не критикуют шаги друг друга - DMAD (Liu et al., 2025): разные стратегии промптинга (Chain-of-Thought, Program-of-Thought), но без верификации и без пошаговой критики


🔗

Ресурсы

Работа: DynaDebate: Breaking Homogeneity in Multi-Agent Debate with Dynamic Path Generation

Авторы: Zhenghao Li, Zhi Zheng, Wei Chen (University of Science and Technology of China, State Key Laboratory of Cognitive Intelligence), Jielun Zhao (North Automatic Control Technology Institute + Shenzhen Institute for Advanced Study, UESTC), Yong Chen, Tong Xu, Enhong Chen

Важные отсылки: - MAD (Liang et al., 2023) — базовый метод многоагентной дискуссии - SoM / Society of Mind (Du et al., 2023) — модульная архитектура - DMAD (Liu et al., 2025) — дискуссия с разными стратегиями промптинга - VerifiAgent (Han et al., 2025) — идея trigger-based verification - Tree of Thoughts (Yao et al., 2023), Graph of Thoughts (Besta et al., 2024) — многопутевое рассуждение - Self-Consistency (Wang et al., 2022) — голосование по множественным путям


📋 Дайджест исследования

Ключевая суть

Запускаешь три агента для решения задачи — они выбирают один и тот же путь, делают одинаковую ошибку, дискуссия превращается в голосование 3:0 за неправильный ответ. Это groupthink (все думают одинаково), потому что модель обучена на одинаковых данных и у неё есть доминирующие паттерны мышления. DynaDebate решает через принудительную диверсификацию: агент-генератор сначала создаёт 2-3 логически разных подхода к задаче ('через уравнения', 'через геометрию', 'через перебор'), потом распределяет их между агентами. Фишка: агенты не просто обсуждают финальные ответы, а критикуют конкретные шаги в рассуждениях друг друга ('на шаге 3 ошибка в расчёте'). Если консенсуса нет — включается верификатор с внешними инструментами (код, поиск) для объективной проверки.

Принцип работы

Метод работает в три этапа. Этап 1 — Генерация путей: агент-генератор анализирует задачу и создаёт несколько логически независимых подходов к решению (например, для оценки стартапа: 'финансовая модель через юнит-экономику', 'анализ конкурентов через данные', 'опрос целевой аудитории'). Этап 2 — Решение + дискуссия: каждый агент берёт свой подход и решает задачу с детализацией шагов, потом агенты читают чужие решения и критикуют не финал, а конкретные шаги ('переход от шага 2 к 3 содержит логический пробёл', 'на шаге 4 данные устарели'). Этап 3 — Верификация: если агенты расходятся во мнениях — активируется агент-верификатор, который использует внешние инструменты (Code Interpreter для расчётов, поиск для фактов) и даёт объективный результат. Оптимум: 3 агента, 2 раунда дискуссии. Больше агентов или раундов снижает точность вместо роста.

Почему работает

Модель обучена на одних и тех же данных — у неё есть доминирующие паттерны мышления. Когда запускаешь несколько агентов без явных инструкций, они часто выбирают самый частотный путь из обучающих данных. Если этот путь содержит ошибку на третьем шаге — все агенты сделают её, и дискуссия не поможет. Более того, агенты оценивают чужие ответы поверхностно — 'звучит ли убедительно' вместо 'правильная ли логика на каждом шаге'. Из-за этого правильный, но менее красиво оформленный ответ проигрывает неправильному, но убедительному. DynaDebate обходит доминирующий паттерн через принудительное распределение подходов (генератор создаёт их заранее), обходит поверхностную оценку через пошаговую критику (проверяй конкретный шаг, а не общее впечатление), и даёт объективный якорь через верификацию внешними инструментами (код не врёт про расчёты).

Когда применять

Сложные задачи с несколькими путями решения → стратегический анализ (оценка идей, конкурентов, рисков), математические задачи (где можно решать через разные методы: алгебра/геометрия/программирование), техническая диагностика (поиск причин сбоя через разные гипотезы). Особенно эффективно когда стандартный промпт даёт ответ с высокой уверенностью, но ты подозреваешь ошибку. НЕ подходит для простых фактических вопросов ('столица Франции') — там весь механизм избыточен. НЕ для субъективных задач (креатив, стиль) — там нет объективной правды для верификации.

Мини-рецепт

1. Задай генерацию подходов: 'Ты — Агент-Генератор. Предложи 3 логически разных подхода к задаче [описание]. Каждый подход должен использовать другой метод/источник данных/логическую цепочку'. 2. Распределяй и решай: Создай 3 агентов, каждому назначь один подход. Требование: детализируй решение пошагово ('Шаг 1: [действие] → [результат]. Шаг 2: ...'). 3. Пошаговая критика: Каждый агент читает решения других и критикует КОНКРЕТНЫЕ ШАГИ: 'На шаге X агент Y использовал данные [источник] — они устарели', 'Переход от шага 2 к 3 содержит пробёл в логике: [объяснение]'. 4. Верификация при разногласиях: Если консенсуса нет — активируй агента-верификатора с инструментом (Code Interpreter для расчётов, поиск для фактов). Используй результат как референс для финального вывода.

Примеры

[ПЛОХО] : Запусти трёх агентов для решения задачи: оценить окупаемость проекта edtech-стартапа с бюджетом 2 млн рублей. Пусть обсудят и дадут финальный ответ — агенты выберут один путь (например, все посчитают юнит-экономику одинаково), сделают одну ошибку в предпосылках (например, завысят конверсию), и проголосуют 3:0 за неправильный вывод.
[ХОРОШО] : ЭТАП 1: Ты — Агент-Генератор. Предложи 3 разных подхода к оценке окупаемости edtech-стартапа (бюджет 2 млн): (1) финмодель через юнит-экономику, (2) анализ конкурентов через похожие проекты, (3) опрос целевой аудитории через гипотезы спроса. ЭТАП 2: Создай 3 агентов, каждому назначь подход. Решай с детализацией шагов. ЭТАП 3: Критикуй конкретные шаги ('на шаге 2 агент 1 взял конверсию 5% — откуда цифра? у конкурентов 1-2%'). ЭТАП 4: Если разногласия — используй Code Interpreter для пересчёта финмодели с корректными входными данными — агенты исследуют разные части задачи, критикуют расчёты и предпосылки на конкретных шагах, объективная верификация через код исключает 'убедительно звучащую ошибку'.
Источник: DynaDebate: Breaking Homogeneity in Multi-Agent Debate with Dynamic Path Generation
ArXiv ID: 2601.05746 | Сгенерировано: 2026-01-12 05:46

Концепты не выделены.

📖 Простыми словами

DynaDebate: многоагентная дискуссия с разными путями решения

arXiv: 2601.05746

Проблема большинства AI-дебатов в том, что нейросети — это стадо. Когда ты запускаешь несколько агентов обсуждать задачу, они не спорят, а просто хором повторяют одну и ту же ошибку, потому что все обучены на одних и тех же популярных паттернах. Метод DynaDebate ломает эту систему через колено: он принудительно раздает агентам разные пути решения еще до того, как они откроют рот. Вместо того чтобы позволить моделям свалиться в одну колею, система заранее генерирует веер разных подходов и заставляет каждого агента придерживаться своей линии.

Это как если бы ты собрал консилиум врачей, но вместо реального обсуждения все они просто поддакивали самому громкому коллеге. DynaDebate работает иначе: он берет трех специалистов и говорит первому: "Ты ищешь проблему в генетике", второму — "Ты проверяешь образ жизни", а третьему — "Ты топишь за экологию". Даже если все они изначально хотели сказать одно и то же, такая динамическая генерация путей заставляет их копать в разные стороны. В итоге истина рождается не из соглашательства, а из столкновения реально разных точек зрения.

В основе метода лежат два этапа: сначала разнообразная генерация, а потом распределение ролей. Если ты спросишь обычную LLM, стоит ли открывать доставку еды в Екб, она выдаст стандартный набор банальностей. DynaDebate заставит одного агента считать жесткую экономику, другого — анализировать логистику пробок на Малышева, а третьего — искать слабые места в меню конкурентов. Когда у каждого есть свой уникальный контекст, им становится физически невозможно просто копировать ответы друг друга, и общая точность системы взлетает.

Этот принцип универсален и применим везде, где нужно принять сложное решение, будь то написание кода, бизнес-стратегия или научный анализ. Исследователи доказали, что гомогенность ответов — это главный враг коллективного разума AI. Пока агенты мыслят одинаково, их количество не переходит в качество. Но стоит внедрить DynaDebate, и даже средние модели начинают выдавать результат уровня топовых за счет того, что перестают тупить в одной и той же точке.

Короче: хватит плодить одинаковых ботов и ждать от них чуда. Если хочешь адекватный ответ от нейросети, заставляй её смотреть на проблему под разными углами через принудительную диверсификацию. Метод DynaDebate официально подтверждает: один ум хорошо, а три разных — это единственный способ заставить AI не лажать на сложных задачах. Либо ты управляешь траекторией рассуждений, либо получаешь три копии одной ошибки.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с