3,583 papers
arXiv:2603.06801 73 6 мар. 2026 г. FREE

AceMAD: выяви правого через то, что он предскажет — а не через то, что скажет

КЛЮЧЕВАЯ СУТЬ
Три эксперта поспорили — и пришли к худшему ответу, чем если бы взяли первый голос. Не несчастный случай: когда большинство ошибается одинаково, дискуссия не исправляет ошибку — она её закрепляет. AceMAD позволяет найти правого именно в таком споре — где уверенное большинство тянет не туда. Фишка: добавь один шаг — каждый агент предсказывает позиции оппонентов ДО чтения их ответов. Кто точно предсказал разногласия — тот реально понял задачу. Его вес в финальном ответе вырастает в 3 раза.
Адаптировать под запрос

TL;DR

AceMAD — техника многоагентной дискуссии, которая добавляет к стандартному спору один необычный шаг: каждый агент заранее предсказывает, что именно скажут оппоненты. Это простое требование меняет всё: тот, кто реально прав, способен предвидеть ошибки большинства — а тот, кто уверенно заблуждается, ожидает, что все согласятся с ним.

Главная находка: стандартный мультиагентный спор не работает, когда большинство агентов ошибаются согласованно — то есть все падают в одну и ту же ловушку. Это не случайный шум, который усреднение исправит. Это системный сбой: агенты слышат заблуждение, усиливают его, и итоговый ответ оказывается хуже, чем если бы просто взяли первый голос. Математики называют это «мартингальным проклятием» — спор ходит по кругу и никуда не движется.

Решение: добавить «мета-когнитивный тест» (проверку второго порядка — не «что ты думаешь», а «что ты думаешь, что думают другие»). Тот, кто верно предсказал позиции оппонентов, получает повышенный вес в финальном ответе. Метод конвертирует когнитивное превосходство в реальное влияние на результат.


🔬

Схема метода

РАУНД 1: Аргументы + внутренний прогноз
  Каждый агент → своя позиция + предсказание: "Агент Б скажет X, Агент В скажет Y"

  (прогнозы не раскрываются другим агентам — каждый пишет независимо)

ФАЗА ОЦЕНКИ: Сравнение прогнозов с реальными позициями
  Кто точнее предсказал позиции других → получает высокий вес
  Кто ошибся (ожидал согласия, получил несогласие) → низкий вес

РАУНД 2: Дискуссия с учётом позиций
  Агенты читают реальные аргументы, корректируют позиции

ФИНАЛ: Взвешенное голосование
  Агенты с высоким Score → их позиция влияет сильнее
  Итоговый ответ → позиция с наибольшим взвешенным весом

⚠️ Все раунды — в одном промпте. Дополнительных запросов не нужно.


🚀

Пример применения

Задача: Основатель Telegram-канала про инвестиции (80к подписчиков) думает, запускать ли платную подписку на аналитику. Большинство советников говорят «нет» — «аудитория не платит за то, что было бесплатным». Но это именно та ситуация, где уверенное большинство может ошибаться.

Промпт:

Реши следующую задачу методом AceMAD: стоит ли Telegram-каналу 
про инвестиции (80к подписчиков, 4 года, бесплатный контент) 
запускать платную подписку за 990 руб/мес с закрытой аналитикой?

Симулируй трёх независимых экспертов: 
— Виктор (скептик, маркетолог, видел много провалов монетизации)
— Елена (предпринимательница, несколько раз успешно переводила аудиторию на платный формат)
— Артём (финансовый аналитик, смотрит на цифры и unit-экономику)

=== ШАГ 1: НЕЗАВИСИМЫЕ ПОЗИЦИИ И ПРОГНОЗЫ ===

Каждый эксперт пишет отдельно:
— Своя рекомендация (запускать / не запускать / как) + 2-3 ключевых аргумента
— ПРОГНОЗ (до чтения чужих ответов): 
  "Виктор думает, что Елена скажет [X], а Артём скажет [Y]"
  (и так для каждого)

Важно: прогнозы пишутся ДО того, как эксперты «видят» ответы других.

=== ШАГ 2: ОЦЕНКА ПРОГНОЗОВ ===

Сравни прогнозы с реальными позициями:
— Кто точнее предсказал позицию других? (Высокая / Средняя / Низкая точность)
— Кто ожидал, что другие согласятся с ним, а они не согласились?
— Вывод: кто из троих демонстрирует лучшее понимание всей картины?

=== ШАГ 3: ДИСКУССИЯ ===

Эксперты читают позиции друг друга. Каждый:
— Указывает на слепое пятно в аргументе оппонента
— Уточняет или корректирует свою позицию (если изменил мнение — объясни почему)

=== ШАГ 4: ВЗВЕШЕННЫЙ ОТВЕТ ===

Финальная рекомендация с учётом весов:
— Эксперт с высокой точностью прогноза → вес ×3
— Средняя точность → вес ×1.5
— Низкая → вес ×1

Итог: [рекомендация] + главное условие успеха + главный риск

Результат: Модель покажет три независимых позиции с прогнозами, затем — оценку точности каждого прогноза. Будет видно, кто «ожидал консенсуса» (слабый сигнал), а кто точно предсказал разногласия (сильный сигнал). Финальная рекомендация будет взвешена: если Артём с точными прогнозами говорит «запускай, но только с ограниченным тестом», его позиция получит доминирующий вес над Виктором, который ожидал, что все скажут «нет».


🧠

Почему это работает

Обычный мозговой штурм с несколькими ролями имеет скрытый изъян: модель порождает роли из одних и тех же весов и часто приводит их к похожим выводам. Если в тренировочных данных была популярной идея «не монетизируй бесплатную аудиторию» — все три эксперта скажут одно и то же разными словами. Это и есть коррелированная ошибка.

Требование «предскажи позицию других» работает как детектор. Тот, кто по-настоящему понимает задачу, замечает, где другие упрощают. Тот, кто уверен в банальном ответе — ожидает всеобщего согласия и «удивляется», когда его нет. Эта «неожиданность» — прямое доказательство слабой позиции.

Нелинейное усиление весов — ключевой рычаг. Если просто усреднить позиции, сильный сигнал тонет в шуме. Когда точно предсказавший эксперт получает вес в 2-3 раза выше, система целенаправленно движется к правильному ответу, а не колеблется вокруг среднего.

Рычаги управления: - Число экспертов → 3-5 оптимально; больше — дороже по токенам, но полезно для очень спорных вопросов - Конкретные имена ролей (Виктор, Елена, Артём) → острее, чем «Эксперт А, Б, В» — роль выполняется ярче - Веса (×3 / ×1.5 / ×1) → можно заменить на ×2 / ×1.2 / ×1 для более мягкого взвешивания - Убрать прогнозы, оставить только дискуссию → вернёшься к стандартному MAD, потеряешь главное преимущество


📋

Шаблон промпта

Реши задачу методом AceMAD: {задача}

Симулируй {N} независимых экспертов с разными точками зрения:
— {Эксперт_1}: {роль и установка}
— {Эксперт_2}: {роль и установка}
— {Эксперт_3}: {роль и установка}

=== ШАГ 1: НЕЗАВИСИМЫЕ ПОЗИЦИИ И ПРОГНОЗЫ ===

Каждый эксперт — отдельно:
1. Позиция по задаче + {N_аргументов} ключевых аргумента
2. Прогноз: "Я ожидаю, что [Эксперт_X] скажет [Y], потому что..."
   (прогноз пишется независимо, до чтения чужих ответов)

=== ШАГ 2: ОЦЕНКА ПРОГНОЗОВ ===

Сравни прогнозы с реальными позициями:
— Точность прогнозов каждого: Высокая / Средняя / Низкая
— Кто ожидал согласия, а получил несогласие?
— Итог: кто демонстрирует лучшее понимание всей картины?

=== ШАГ 3: ДИСКУССИЯ ===

Эксперты читают позиции друг друга:
— Укажи главное слепое пятно в аргументе оппонента
— Скорректируй свою позицию (если изменил мнение — объясни почему)

=== ШАГ 4: ВЗВЕШЕННЫЙ ОТВЕТ ===

Финальный ответ по {задача}:
Высокая точность прогноза → вес ×3
Средняя → вес ×1.5  
Низкая → вес ×1

Итоговая рекомендация: [ответ]
Главное условие: [1 предложение]
Главный риск: [1 предложение]

Плейсхолдеры: - {задача} — конкретный вопрос или дилемма - {N} — число экспертов (3 оптимально) - {Эксперт_X} — имя + роль (скептик, оптимист, аналитик, практик — чем контрастнее, тем лучше) - {N_аргументов} — обычно 2-3


🚀 Быстрый старт — вставь в чат:

Вот шаблон AceMAD. Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит, какие роли нужны и какова конкретная дилемма — потому что качество прогнозов зависит от того, насколько чётко определены позиции экспертов. Она возьмёт структуру шаблона и подберёт подходящие противоположные точки зрения под твою задачу.


⚠️

Ограничения

⚠️ Коррелированные роли: Если все три эксперта — «бизнес-аналитики», модель породит почти одинаковые позиции. Роли должны быть контрастными по установке и стилю мышления.

⚠️ Простые фактические вопросы: Метод избыточен для задач, где есть однозначно верный ответ. AceMAD работает там, где правда неочевидна большинству.

⚠️ Симуляция в одной модели: В чате все эксперты — это одна и та же LLM. Полной независимости нет. Исследователи тестировали настоящие отдельные вызовы модели. В чате прогнозы будут точнее, чем в реальной системе — потому что «один ум» прогнозирует себя. Метод всё равно полезен, но магический эффект «найти правое меньшинство» слабее.

⚠️ Взвешивание приблизительное: В чате мы даём модели веса словами (×3, ×1.5). Исследователи применяли математическую формулу с экспоненциальным усилением. Итог близкий, но не идентичный.


🔍

Как исследовали

Команда сначала воспроизвела «мартингальное проклятие» эмпирически: взяли шесть бенчмарков (от медицинских вопросов до логических ловушек) и специально отобрали только трудные случаи — те, где модели ошибаются систематически, а не случайно. На этих подмножествах большинство голосование давало около 14% точности, а стандартный MAD поднимал её до 22% — ненамного лучше. Это подтвердило: когда ошибки коррелированы, обычный спор не помогает.

Затем запустили AceMAD на тех же данных с 5 агентами — метод выиграл у стандартного MAD в среднем на ~20 процентных пунктов. Показательно, что ключевым компонентом оказались именно прогнозы пиров: когда их убрали, оставив только дискуссию и взвешивание, точность падала на ~15 пунктов. Это доказало: не само взвешивание делает чудо, а именно мета-когнитивный тест выявляет носителей правды.

Неожиданный результат: даже банальный факт, что «дебаты лучше голосования», держался только на трудных задачах — на лёгких разница исчезала. Это важно для практики: AceMAD нужен именно там, где интуиция подводит и ловушки системные.


💡

Адаптации и экстраполяции

1. Упрощённая версия без явного взвешивания

🔧 Убрать числовые веса → интуитивная оценка точности

Вместо ×3 / ×1.5 попроси модель: «Кто из экспертов точнее понял позицию других? Дай финальный ответ, опираясь преимущественно на его аргументы». Проще, работает достаточно хорошо.


2. Детектор эхо-камеры в обычном диалоге

Принцип AceMAD применим без многоагентного формата — как точечный запрос в конце любого анализа:

Ты дал мне этот анализ: {анализ}.

Теперь отдельно ответь:
— Какую позицию по этому вопросу обычно занимает большинство людей?
— Какие аргументы они используют?
— Если большинство ошибается — в какой именно точке?
— Скорректируй свой анализ с учётом этого.

Это однократный «мета-когнитивный тест» без полноценного MAD. Модель заставляет себя предсказать «толпу» и проверить, не слилась ли с ней.


🔗

Ресурсы

Breaking the Martingale Curse: Multi-Agent Debate via Asymmetric Cognitive Potential Energy

Yuhan Liu, Juntian Zhang, Yichen Wu, Martin Takáč, Salem Lahlou, Xiuying Chen, Nils Lukas

Mohamed bin Zayed University of Artificial Intelligence (MBZUAI), Gaoling School of Artificial Intelligence / Renmin University of China, Harvard University

Контакты: yuhan.liu@mbzuai.ac.ae, zhangjuntian@ruc.edu.cn


📋 Дайджест исследования

Ключевая суть

Три эксперта поспорили — и пришли к худшему ответу, чем если бы взяли первый голос. Не несчастный случай: когда большинство ошибается одинаково, дискуссия не исправляет ошибку — она её закрепляет. AceMAD позволяет найти правого именно в таком споре — где уверенное большинство тянет не туда. Фишка: добавь один шаг — каждый агент предсказывает позиции оппонентов ДО чтения их ответов. Кто точно предсказал разногласия — тот реально понял задачу. Его вес в финальном ответе вырастает в 3 раза.

Принцип работы

Тот, кто прав в сложном вопросе, видит, где другие упрощают. Он предсказывает: скептик скажет X, оптимист скажет Y — и попадает в точку. Тот, кто уверен в банальном ответе, ожидает всеобщего согласия — и удивляется, когда его нет. Эта «неожиданность» — прямое доказательство слабой позиции. Система работает как детектор: слабый прогноз = плохое понимание = меньший вес в финале. Не красноречие решает — а точность прогноза.

Почему работает

Стандартный мультиагентный спор имеет скрытый изъян. Все роли — это одна модель с одними и теми же предубеждениями. Если в данных была популярна идея «не монетизируй бесплатную аудиторию» — все три эксперта скажут одно разными словами. Это называют мартингальным проклятием: спор ходит по кругу и не движется к правде. Прогноз позиций ломает этот круг. Тот, кто по-настоящему понимает задачу, замечает, где другие упрощают. Тот, кто заблуждается, ждёт согласия — и получает доказательство своей слабости.

Когда применять

Стратегические дилеммы и спорные решения — запускать продукт или нет, выбор между двумя путями развития, оценка рисков — особенно там, где «очевидное» большинство мнений кажется подозрительно единодушным. НЕ подходит для фактических вопросов с однозначно проверяемым ответом — метод избыточен там, где правда гуглится.

Мини-рецепт

1. Создай контрастных экспертов: не три аналитика — а скептик, практик и аналитик с разными установками. Чем острее разница, тем ярче сработает прогноз.
2. Раунд 1 — позиция плюс прогноз: каждый эксперт пишет свою позицию и отдельно — прогноз что скажут другие. Важно: прогнозы пишутся до чтения чужих ответов.
3. Оцени точность: попроси модель сравнить прогнозы с реальными позициями. Кто ожидал согласия — получил несогласие? Это слабый игрок.
4. Дискуссия: эксперты читают реальные позиции и указывают на слепые пятна друг друга.
5. Взвешенный финал: точный прогноз → вес ×3, средний → ×1.5, слабый → ×1. Итоговая рекомендация с главным условием и главным риском.

Примеры

[ПЛОХО] : Три эксперта: стоит ли Telegram-каналу с 80к подписчиков запускать платную подписку за 990 руб?
[ХОРОШО] : Реши задачу методом AceMAD: запускать ли платную подписку на Telegram-канале про инвестиции (80к подписчиков, бесплатный контент 4 года, цена 990 руб/мес)? Симулируй троих — Виктор (скептик, видел провалы монетизации), Елена (предприниматель, успешно переводила аудитории на платный формат), Артём (финансовый аналитик, смотрит на цифры). Шаг 1: каждый пишет позицию + прогноз что скажут двое других — ДО чтения их ответов. Шаг 2: сравни прогнозы с реальными позициями, выяви кто ожидал согласия и не получил. Шаг 3: дискуссия — каждый называет слепое пятно оппонента. Шаг 4: финал с весами — точный прогноз ×3, средний ×1.5, слабый ×1. Итог: рекомендация + главное условие + главный риск.
Источник: Breaking the Martingale Curse: Multi-Agent Debate via Asymmetric Cognitive Potential Energy
ArXiv ID: 2603.06801 | Сгенерировано: 2026-03-10 04:27

Проблемы LLM

ПроблемаСутьКак обойти
Несколько ролей в одном промпте сходятся к одному ответуПросишь симулировать трёх экспертов с разными взглядами. Модель порождает все три роли из одних и тех же весов. Если в данных было популярно мнение "не делай X" — все три эксперта скажут "не делай X" разными словами. Это не три мнения. Это одно мнение в трёх костюмах. Чем сильнее в данных преобладало какое-то мнение — тем хуже работает мультиролевой промпт именно для таких вопросовДобавь в структуру шаг: каждый эксперт заранее предсказывает позицию других. Кто точнее предсказал — тот получает больший вес в итоге. Это ломает согласованность: модель вынуждена искать реальные различия между позициями, а не симулировать разногласие на поверхности

Методы

МетодСуть
Предсказание позиций оппонентов — взвешенная дискуссияДобавь в стандартный мультиролевой промпт один шаг между позициями и дискуссией. Каждый эксперт пишет: "Я ожидаю, что [Эксперт Б] скажет [X], потому что...". Прогнозы пишутся независимо — до чтения чужих ответов. Потом сравни прогнозы с реальными позициями. Кто точно предсказал — высокая точность. Кто ожидал согласия, а получил спор — низкая. Применяй веса: высокая точность ×3, средняя ×1.5, низкая ×1. Финальный ответ строится с учётом весов. Почему работает: тот, кто по-настоящему понимает задачу, замечает где другие упрощают. Тот, кто уверен в банальном ответе, ждёт всеобщего согласия. Точность прогноза — прямой индикатор глубины понимания. Когда применять: спорные решения, где большинство мнений может быть согласованно неверным. Когда не нужен: простые фактические вопросы с однозначным ответом. Рычаги: контрастные роли (скептик, оптимист, аналитик) работают лучше одинаковых ролей; веса можно смягчить до ×2 / ×1.2 / ×1

Тезисы

ТезисКомментарий
Кто прав — предсказывает разногласие. Кто ошибается — ждёт согласияЭто работает через второй уровень мышления: не "что я думаю", а "что думают другие". Тот, кто понимает задачу глубже, видит где другие упрощают — и точно предсказывает их позиции. Тот, кто уверен в банальном ответе, ожидает что все согласятся с ним. Его "удивление" от несогласия — прямое доказательство слабой позиции. Применяй: добавь в любой мультиролевой промпт вопрос "что, по-твоему, ответят другие эксперты". Тот чьи прогнозы точнее — его позиции доверяй больше
📖 Простыми словами

Breaking the Martingale Curse: Multi-AgentDebate via Asymmetric Cognitive Potential Energy

arXiv: 2603.06801

Суть в том, что обычные споры нейросетей между собой — это чаще всего имитация бурной деятельности. Когда ты просишь три разные модели обсудить проблему, они ведут себя как стадо: если в их обучающих данных зашит какой-то популярный стереотип, они все дружно в него упрутся. Исследователи называют это коррелированной ошибкой, а по факту это просто коллективный тупняк. Метод AceMAD ломает эту систему через один хитрый финт: он заставляет каждого агента не просто высказать мнение, а сначала предсказать, что именно ответят его оппоненты.

Это как если бы ты пришел на встречу акционеров и вместо своего доклада сначала выдал: «Я знаю, что сейчас эти двое начнут нести чушь про риски и падение охватов». В этом и кроется асимметричный когнитивный потенциал. Тот, кто реально шарит в теме и прав, легко предвидит типичные ошибки и заблуждения толпы. А вот тот, кто заблуждается, обычно свято верит, что все остальные с ним согласятся. В итоге AI-система видит этот разрыв в предсказаниях и понимает: ага, вот этот парень, который видит чужие косяки наперед, скорее всего, и есть самый умный.

Возьмем классический пример: запуск платной подписки в Telegram-канале. Обычный консилиум нейросетей завалит тебя советами в духе «не надо, аудитория уйдет», потому что так написано в 90% учебников по маркетингу. Это проклятие мартингала в действии — когда усредненное мнение ведет в тупик. Но если заставить их играть по правилам AceMAD, один «умный» агент предскажет этот хор нытиков и объяснит, почему их аргументы — полная фигня. Он видит структуру их ошибки, а они его — нет.

Этот принцип универсален и работает везде, где нужно принять сложное решение, а не просто собрать статистику мнений. Тестировали на логических задачах и математике, но схема идеально ложится на бизнес-стратегии, код или юридические разборы. Везде, где большинство может ошибаться из-за шаблонного мышления, предсказание чужих ответов вытаскивает истину на поверхность. Это переход от простого голосования к интеллектуальному доминированию одного качественного аргумента над кучей посредственных.

Короче, хватит просто спрашивать мнение у трех разных чат-ботов — они все равно будут поддакивать друг другу. Нужно заставлять их играть в «угадай, что скажет другой», чтобы выявить того, кто видит ситуацию глубже остальных. AceMAD доказывает, что в мире AI качество важнее количества, а умение предвидеть чужую глупость — это и есть главный признак интеллекта. Если модель не может предсказать ход мыслей оппонента, она просто плывет по течению вместе со всеми.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с