TL;DR
AceMAD — техника многоагентной дискуссии, которая добавляет к стандартному спору один необычный шаг: каждый агент заранее предсказывает, что именно скажут оппоненты. Это простое требование меняет всё: тот, кто реально прав, способен предвидеть ошибки большинства — а тот, кто уверенно заблуждается, ожидает, что все согласятся с ним.
Главная находка: стандартный мультиагентный спор не работает, когда большинство агентов ошибаются согласованно — то есть все падают в одну и ту же ловушку. Это не случайный шум, который усреднение исправит. Это системный сбой: агенты слышат заблуждение, усиливают его, и итоговый ответ оказывается хуже, чем если бы просто взяли первый голос. Математики называют это «мартингальным проклятием» — спор ходит по кругу и никуда не движется.
Решение: добавить «мета-когнитивный тест» (проверку второго порядка — не «что ты думаешь», а «что ты думаешь, что думают другие»). Тот, кто верно предсказал позиции оппонентов, получает повышенный вес в финальном ответе. Метод конвертирует когнитивное превосходство в реальное влияние на результат.
Схема метода
РАУНД 1: Аргументы + внутренний прогноз
Каждый агент → своя позиция + предсказание: "Агент Б скажет X, Агент В скажет Y"
(прогнозы не раскрываются другим агентам — каждый пишет независимо)
ФАЗА ОЦЕНКИ: Сравнение прогнозов с реальными позициями
Кто точнее предсказал позиции других → получает высокий вес
Кто ошибся (ожидал согласия, получил несогласие) → низкий вес
РАУНД 2: Дискуссия с учётом позиций
Агенты читают реальные аргументы, корректируют позиции
ФИНАЛ: Взвешенное голосование
Агенты с высоким Score → их позиция влияет сильнее
Итоговый ответ → позиция с наибольшим взвешенным весом
⚠️ Все раунды — в одном промпте. Дополнительных запросов не нужно.
Пример применения
Задача: Основатель Telegram-канала про инвестиции (80к подписчиков) думает, запускать ли платную подписку на аналитику. Большинство советников говорят «нет» — «аудитория не платит за то, что было бесплатным». Но это именно та ситуация, где уверенное большинство может ошибаться.
Промпт:
Реши следующую задачу методом AceMAD: стоит ли Telegram-каналу
про инвестиции (80к подписчиков, 4 года, бесплатный контент)
запускать платную подписку за 990 руб/мес с закрытой аналитикой?
Симулируй трёх независимых экспертов:
— Виктор (скептик, маркетолог, видел много провалов монетизации)
— Елена (предпринимательница, несколько раз успешно переводила аудиторию на платный формат)
— Артём (финансовый аналитик, смотрит на цифры и unit-экономику)
=== ШАГ 1: НЕЗАВИСИМЫЕ ПОЗИЦИИ И ПРОГНОЗЫ ===
Каждый эксперт пишет отдельно:
— Своя рекомендация (запускать / не запускать / как) + 2-3 ключевых аргумента
— ПРОГНОЗ (до чтения чужих ответов):
"Виктор думает, что Елена скажет [X], а Артём скажет [Y]"
(и так для каждого)
Важно: прогнозы пишутся ДО того, как эксперты «видят» ответы других.
=== ШАГ 2: ОЦЕНКА ПРОГНОЗОВ ===
Сравни прогнозы с реальными позициями:
— Кто точнее предсказал позицию других? (Высокая / Средняя / Низкая точность)
— Кто ожидал, что другие согласятся с ним, а они не согласились?
— Вывод: кто из троих демонстрирует лучшее понимание всей картины?
=== ШАГ 3: ДИСКУССИЯ ===
Эксперты читают позиции друг друга. Каждый:
— Указывает на слепое пятно в аргументе оппонента
— Уточняет или корректирует свою позицию (если изменил мнение — объясни почему)
=== ШАГ 4: ВЗВЕШЕННЫЙ ОТВЕТ ===
Финальная рекомендация с учётом весов:
— Эксперт с высокой точностью прогноза → вес ×3
— Средняя точность → вес ×1.5
— Низкая → вес ×1
Итог: [рекомендация] + главное условие успеха + главный риск
Результат: Модель покажет три независимых позиции с прогнозами, затем — оценку точности каждого прогноза. Будет видно, кто «ожидал консенсуса» (слабый сигнал), а кто точно предсказал разногласия (сильный сигнал). Финальная рекомендация будет взвешена: если Артём с точными прогнозами говорит «запускай, но только с ограниченным тестом», его позиция получит доминирующий вес над Виктором, который ожидал, что все скажут «нет».
Почему это работает
Обычный мозговой штурм с несколькими ролями имеет скрытый изъян: модель порождает роли из одних и тех же весов и часто приводит их к похожим выводам. Если в тренировочных данных была популярной идея «не монетизируй бесплатную аудиторию» — все три эксперта скажут одно и то же разными словами. Это и есть коррелированная ошибка.
Требование «предскажи позицию других» работает как детектор. Тот, кто по-настоящему понимает задачу, замечает, где другие упрощают. Тот, кто уверен в банальном ответе — ожидает всеобщего согласия и «удивляется», когда его нет. Эта «неожиданность» — прямое доказательство слабой позиции.
Нелинейное усиление весов — ключевой рычаг. Если просто усреднить позиции, сильный сигнал тонет в шуме. Когда точно предсказавший эксперт получает вес в 2-3 раза выше, система целенаправленно движется к правильному ответу, а не колеблется вокруг среднего.
Рычаги управления: - Число экспертов → 3-5 оптимально; больше — дороже по токенам, но полезно для очень спорных вопросов - Конкретные имена ролей (Виктор, Елена, Артём) → острее, чем «Эксперт А, Б, В» — роль выполняется ярче - Веса (×3 / ×1.5 / ×1) → можно заменить на ×2 / ×1.2 / ×1 для более мягкого взвешивания - Убрать прогнозы, оставить только дискуссию → вернёшься к стандартному MAD, потеряешь главное преимущество
Шаблон промпта
Реши задачу методом AceMAD: {задача}
Симулируй {N} независимых экспертов с разными точками зрения:
— {Эксперт_1}: {роль и установка}
— {Эксперт_2}: {роль и установка}
— {Эксперт_3}: {роль и установка}
=== ШАГ 1: НЕЗАВИСИМЫЕ ПОЗИЦИИ И ПРОГНОЗЫ ===
Каждый эксперт — отдельно:
1. Позиция по задаче + {N_аргументов} ключевых аргумента
2. Прогноз: "Я ожидаю, что [Эксперт_X] скажет [Y], потому что..."
(прогноз пишется независимо, до чтения чужих ответов)
=== ШАГ 2: ОЦЕНКА ПРОГНОЗОВ ===
Сравни прогнозы с реальными позициями:
— Точность прогнозов каждого: Высокая / Средняя / Низкая
— Кто ожидал согласия, а получил несогласие?
— Итог: кто демонстрирует лучшее понимание всей картины?
=== ШАГ 3: ДИСКУССИЯ ===
Эксперты читают позиции друг друга:
— Укажи главное слепое пятно в аргументе оппонента
— Скорректируй свою позицию (если изменил мнение — объясни почему)
=== ШАГ 4: ВЗВЕШЕННЫЙ ОТВЕТ ===
Финальный ответ по {задача}:
Высокая точность прогноза → вес ×3
Средняя → вес ×1.5
Низкая → вес ×1
Итоговая рекомендация: [ответ]
Главное условие: [1 предложение]
Главный риск: [1 предложение]
Плейсхолдеры:
- {задача} — конкретный вопрос или дилемма
- {N} — число экспертов (3 оптимально)
- {Эксперт_X} — имя + роль (скептик, оптимист, аналитик, практик — чем контрастнее, тем лучше)
- {N_аргументов} — обычно 2-3
🚀 Быстрый старт — вставь в чат:
Вот шаблон AceMAD. Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит, какие роли нужны и какова конкретная дилемма — потому что качество прогнозов зависит от того, насколько чётко определены позиции экспертов. Она возьмёт структуру шаблона и подберёт подходящие противоположные точки зрения под твою задачу.
Ограничения
⚠️ Коррелированные роли: Если все три эксперта — «бизнес-аналитики», модель породит почти одинаковые позиции. Роли должны быть контрастными по установке и стилю мышления.
⚠️ Простые фактические вопросы: Метод избыточен для задач, где есть однозначно верный ответ. AceMAD работает там, где правда неочевидна большинству.
⚠️ Симуляция в одной модели: В чате все эксперты — это одна и та же LLM. Полной независимости нет. Исследователи тестировали настоящие отдельные вызовы модели. В чате прогнозы будут точнее, чем в реальной системе — потому что «один ум» прогнозирует себя. Метод всё равно полезен, но магический эффект «найти правое меньшинство» слабее.
⚠️ Взвешивание приблизительное: В чате мы даём модели веса словами (×3, ×1.5). Исследователи применяли математическую формулу с экспоненциальным усилением. Итог близкий, но не идентичный.
Как исследовали
Команда сначала воспроизвела «мартингальное проклятие» эмпирически: взяли шесть бенчмарков (от медицинских вопросов до логических ловушек) и специально отобрали только трудные случаи — те, где модели ошибаются систематически, а не случайно. На этих подмножествах большинство голосование давало около 14% точности, а стандартный MAD поднимал её до 22% — ненамного лучше. Это подтвердило: когда ошибки коррелированы, обычный спор не помогает.
Затем запустили AceMAD на тех же данных с 5 агентами — метод выиграл у стандартного MAD в среднем на ~20 процентных пунктов. Показательно, что ключевым компонентом оказались именно прогнозы пиров: когда их убрали, оставив только дискуссию и взвешивание, точность падала на ~15 пунктов. Это доказало: не само взвешивание делает чудо, а именно мета-когнитивный тест выявляет носителей правды.
Неожиданный результат: даже банальный факт, что «дебаты лучше голосования», держался только на трудных задачах — на лёгких разница исчезала. Это важно для практики: AceMAD нужен именно там, где интуиция подводит и ловушки системные.
Адаптации и экстраполяции
1. Упрощённая версия без явного взвешивания
🔧 Убрать числовые веса → интуитивная оценка точности
Вместо ×3 / ×1.5 попроси модель: «Кто из экспертов точнее понял позицию других? Дай финальный ответ, опираясь преимущественно на его аргументы». Проще, работает достаточно хорошо.
2. Детектор эхо-камеры в обычном диалоге
Принцип AceMAD применим без многоагентного формата — как точечный запрос в конце любого анализа:
Ты дал мне этот анализ: {анализ}.
Теперь отдельно ответь:
— Какую позицию по этому вопросу обычно занимает большинство людей?
— Какие аргументы они используют?
— Если большинство ошибается — в какой именно точке?
— Скорректируй свой анализ с учётом этого.
Это однократный «мета-когнитивный тест» без полноценного MAD. Модель заставляет себя предсказать «толпу» и проверить, не слилась ли с ней.
Ресурсы
Breaking the Martingale Curse: Multi-Agent Debate via Asymmetric Cognitive Potential Energy
Yuhan Liu, Juntian Zhang, Yichen Wu, Martin Takáč, Salem Lahlou, Xiuying Chen, Nils Lukas
Mohamed bin Zayed University of Artificial Intelligence (MBZUAI), Gaoling School of Artificial Intelligence / Renmin University of China, Harvard University
Контакты: yuhan.liu@mbzuai.ac.ae, zhangjuntian@ruc.edu.cn
