3,583 papers
arXiv:2510.04488 80 6 окт. 2025 г. FREE

MACI: расписание конфронтации в мультиагентных дебатах

КЛЮЧЕВАЯ СУТЬ
Парадокс: LLM-агенты, спорящие одинаково агрессивно весь диалог, проигрывают тем кто меняет режим. Фиксированная конфронтация тратит токены впустую — агенты либо бесконечно переубеждают друг друга на старте (когда нужно исследовать), либо продолжают спорить на финише (когда нужно синтезировать). MACI позволяет получать качественные выводы из мультиагентных дебатов за 2-4 раунда вместо 6-10. Фишка: плавно снижай уровень конфронтации от 0.9 до 0.3 по мере схождения мнений. Начинаешь с инструкции "агрессивно оспаривай" (широкое исследование альтернатив), заканчиваешь "стройся на общем" (синтез выводов). Модели перестают рационализировать первое впечатление и начинают интегрировать доказательства.
Адаптировать под запрос

TL;DR

MACI — техника управления диалогом между несколькими LLM-агентами через два независимых регулятора: фильтр качества доказательств (information dial) и уровень конфронтации между агентами (behavior dial). Модератор отслеживает четыре сигнала — расхождение во мнениях, пересечение доказательств, качество аргументов и информационный прирост — и постепенно меняет режим работы от исследования к синтезу.

Главная находка: фиксированная конфронтация тратит токены впустую. Когда агенты спорят одинаково агрессивно на протяжении всей дискуссии, они либо бесконечно переубеждают друг друга на ранних этапах (когда нужно исследовать альтернативы), либо продолжают спорить на поздних этапах (когда нужно синтезировать выводы). Модели склонны захватываться первым впечатлением и защищать его, вместо того чтобы интегрировать новые доказательства.

Суть метода: расписание поведения от конфронтации к сотрудничеству. Начать с высокой конфронтации (CL=0.9: "агрессивно оспаривай") для широкого исследования альтернатив, затем постепенно снижать до кооперации (CL=0.5 → 0.3: "стройся на согласованном") по мере схождения. Одновременно повышать стандарты качества доказательств — на поздних этапах пропускать только сильные аргументы. Остановиться когда расхождение во мнениях и информационный прирост выходят на плато (обычно 2-4 раунда).


🔬

Схема метода

ШАГ 1 (CL=0.9): Исследование
 Агенты A и B получают задачу → выдают независимые мнения
 Инструкция: "Агрессивно критикуй оппонента, ищи слабости"
 Модератор: пропускает любые аргументы выше минимального порога
 
ШАГ 2 (CL=0.7): Интеграция 
 Агенты получают аргументы друг друга → уточняют позиции
 Инструкция: "Критикуй целенаправленно, признавай сильные моменты"
 Модератор: повышает порог качества доказательств
 
ШАГ 3 (CL=0.5): Консолидация
 Агенты → синтезируют согласованный вывод
 Инструкция: "Стройся на общих точках, фокусируйся на доказательствах"
 Модератор: проверяет плато (расхождение <5%, прирост информации <2%)
 
СТОП: если расхождение и прирост информации не меняются 2 раунда подряд

Все шаги выполняются последовательными промптами. В каждом раунде модератор (можете быть вы сами или LLM с отдельным промптом) смотрит: появляются ли новые аргументы? Схожи ли выводы? Если ничего не меняется — стоп.


🚀

Пример применения

Задача: Оценить стартап-идею — сервис доставки готовых диетических рационов для офисных работников в Москве (тип: "Grow Food" для корпораций).

Промпт раунд 1 (CL=0.9 — исследование):

У меня есть идея стартапа: доставка готовых здоровых обедов 
в офисы. Целевая аудитория — IT-компании и консалтинг, чек 
350-450₽/обед, формат подписки на неделю.

Мне нужны ДВА независимых мнения:

АГЕНТ А — роль оптимиста-визионера (стиль Олега Тинькова):
Найди все возможности, опиши upside potential, игнорируй риски.

АГЕНТ Б — роль скептика-инвестора (стиль Игоря Рыбакова): 
Найди все риски и проблемы, оспаривай каждое допущение.

КРИТИЧЕСКИ ВАЖНО: агрессивно критикуйте друг друга, 
не ищите компромиссов. Каждый приведите 3-4 аргумента 
с конкретными цифрами/примерами.

Результат: Модель выдаст два контрастных взгляда. Агент А расскажет про растущий рынок ЗОЖ (30% CAGR), готовность платить премиум, сетевые эффекты. Агент Б укажет на высокую конкуренцию (Grow Food, Yamdiet), сложную логистику, низкую маржинальность (10-15%), высокий CAC.

Промпт раунд 2 (CL=0.7 — интеграция):

Вот аргументы Агента А: [вставить]
Вот аргументы Агента Б: [вставить]

Теперь ОТВЕЧАЙТЕ ДРУГ ДРУГУ:
- Агент А: признай 1-2 сильных возражения Б, но объясни 
 как их можно обойти
- Агент Б: признай 1-2 реальных возможности А, но укажи 
 конкретные условия при которых они сработают

Приводите ДОКАЗАТЕЛЬСТВА (кейсы, данные, расчёты), 
не общие слова.

Результат: Позиции начнут сближаться. Агент А признает проблему unit-экономики, но предложит гипотезу: фокус на крупных офисах (100+ человек) с минимальным заказом → снижение стоимости доставки. Агент Б согласится что в премиум-сегменте есть маржа, но укажет: нужен пилот с 2-3 корпоративными клиентами для проверки retention.

Промпт раунд 3 (CL=0.5 — синтез):

Агенты А и Б — синтезируйте СОГЛАСОВАННЫЙ вывод:

1. ТОП-3 критических допущения которые нужно проверить пилотом
2. Один конкретный сценарий при котором идея РАБОТАЕТ 
3. Один конкретный сценарий при котором идея ПРОВАЛИВАЕТСЯ

Стройтесь ТОЛЬКО на тех аргументах которые оба признали 
убедительными. Игнорируйте слабые гипотезы.

Результат: Консолидированный вывод с чёткими условиями успеха (retention >40%, AOV >3000₽/мес, CAC <1500₽) и проверяемыми гипотезами (готовность платить подписку, частота заказов, операционная маржа). Если агенты продолжают спорить — добавить раунд 4 с CL=0.3 ("фокусируйтесь только на общих точках").


🧠

Почему это работает

Одиночные LLM страдают от захвата первым впечатлением. Модель генерирует вероятностный вывод на основе паттернов из обучающих данных — если первая гипотеза звучит правдоподобно, модель будет рационализировать её вместо того чтобы критически проверять. Это проявляется как confirmation bias на уровне генерации токенов. Одна модель не может одновременно исследовать альтернативы и защищать позицию — это противоречивые режимы работы.

LLM умеют хорошо ролевое поведение и аргументацию. Когда в промпте явно указана роль ("скептик", "оптимист"), модель активирует соответствующие паттерны из обучающих данных. Это не "понимание" роли, а статистическая активация контекстов где такие роли встречались (дебаты, экспертные обсуждения, научные дискуссии). Множественные агенты с разными ролями увеличивают покрытие гипотезного пространства — каждый агент исследует свою область, вместо того чтобы все сходились к одному локальному максимуму.

Расписание конфронтации избегает двух ловушек: (1) слишком ранний консенсус — агенты соглашаются на первой правдоподобной идее, не исследуя альтернативы; (2) бесконечный спор — агенты продолжают генерировать новые возражения когда все сильные аргументы уже высказаны. Высокая конфронтация на старте (CL=0.9) заставляет модели активно искать контрпримеры и проблемы. Низкая конфронтация на финише (CL=0.3-0.5) переключает режим на интеграцию доказательств вместо генерации новых гипотез.

Повышение стандартов качества работает как фильтр шума. На ранних этапах полезны даже слабые гипотезы — они расширяют поиск. На поздних этапах слабые аргументы только размывают вывод — порог качества доказательств растёт по мере схождения. Это аналогично simulated annealing в оптимизации: начать с широкого исследования (высокая "температура"), закончить локальным уточнением (низкая "температура").


📋

Шаблон промпта

📌

Упрощённая версия (3 раунда)

# РАУНД 1: Исследование (CL=0.9)

{описание задачи}

Мне нужны ДВА независимых мнения:

АГЕНТ А — роль {роль_А, например: оптимист/визионер}:
{инструкция для А}

АГЕНТ Б — роль {роль_Б, например: скептик/критик}:
{инструкция для Б}

КРИТИЧЕСКИ ВАЖНО: 
- Агрессивно критикуйте друг друга
- Не ищите компромиссов
- Каждый приведите 3-5 конкретных аргументов с доказательствами

---

# РАУНД 2: Интеграция (CL=0.7)

Вот аргументы Агента А: {вставить результат А из раунда 1}
Вот аргументы Агента Б: {вставить результат Б из раунда 1}

Теперь ОТВЕЧАЙТЕ ДРУГ ДРУГУ:
- Агент А: признай 1-2 сильных возражения Б, объясни как их обойти
- Агент Б: признай 1-2 реальных возможности А, укажи условия 
 при которых они сработают

Приводите ДОКАЗАТЕЛЬСТВА (данные, кейсы, расчёты), не общие слова.

---

# РАУНД 3: Синтез (CL=0.5)

Агенты А и Б — синтезируйте СОГЛАСОВАННЫЙ вывод:

1. {ключевой вопрос 1, например: критические допущения}
2. {ключевой вопрос 2, например: сценарий успеха}
3. {ключевой вопрос 3, например: сценарий провала}

Стройтесь ТОЛЬКО на тех аргументах которые оба признали 
убедительными. Игнорируйте слабые гипотезы.

ЕСЛИ МНЕНИЯ ВСЁ ЕЩЁ РАСХОДЯТСЯ → переходите к Раунду 4 с CL=0.3

Пояснения к плейсхолдерам:

  • {описание задачи} — ваша проблема/вопрос
  • {роль_А}, {роль_Б} — конкретные роли (оптимист/пессимист, технарь/бизнесмен, консерватор/новатор)
  • {инструкция для А/Б} — что искать каждому агенту
  • {ключевой вопрос N} — что должен содержать финальный синтез (критерии успеха, риски, план действий и т.д.)

Правило стопа вручную: Если в раунде 3 агенты выдают почти одинаковые выводы (расхождение <10% по ключевым пунктам) — достаточно. Если продолжают спорить — добавить раунд 4 с ещё более мягкой инструкцией: "фокусируйтесь ТОЛЬКО на общих точках, игнорируйте разногласия".


⚠️

Ограничения

⚠️ Требует нескольких запросов: Минимум 3 раунда = 3 отдельных промпта. Для сложных задач может понадобиться 4-5 раундов. Если вы ограничены одним запросом или нужен быстрый ответ — метод избыточен.

⚠️ Качество зависит от базовых моделей: Если модель слабая (GPT-3.5, ранние версии Claude), агенты могут генерировать поверхностные аргументы даже при правильном расписании конфронтации. Метод работает лучше с современными моделями (GPT-4, Claude 3, Gemini Pro).

⚠️ Для простых вопросов избыточен: Если задача имеет очевидный ответ или малое количество вариантов (выбор между 2-3 опциями), дебаты не дадут прироста. Простое "дай два мнения" будет быстрее. MACI полезен для многомерных задач где нет единственно правильного ответа.

⚠️ Субъективные критерии качества: Исследование использовало автоматический модератор с метриками (Jensen-Shannon divergence, mutual information). Вручную вам придётся самостоятельно оценивать когда расхождение достаточно мало и когда новые аргументы перестали появляться. Это требует внимательности.


🔍

Как исследовали

Исследователи взяли 1500 медицинских кейсов (30 заболеваний) и протестировали три пары LLM-агентов: GPT-4o + Claude 3 Opus, GPT-4o + Gemini Pro, Claude + Gemini. Каждая пара получала симптомы пациента и должна была поставить диагноз через 2-4 раунда дебатов.

Сравнивали с тремя baseline: лучшая одиночная модель, голосование большинства (20 независимых ответов), дебаты с фиксированной конфронтацией (метод Liang et al.). Для каждого случая вручную проверяли: (1) точность диагноза Top-1 и Top-3, (2) калибровку (насколько уверенность модели соответствует точности), (3) количество токенов.

Почему результаты получились именно такими: Медицинские кейсы специально подобраны недоопределёнными — только текущие симптомы, без анализов и истории. Это имитирует реальную ситуацию когда врач должен назначить первичные тесты не имея полной картины. В таких условиях голосование большинства проваливается (73.9% точность) потому что все модели захватываются одной и той же первой гипотезой (например, "грипп" при высокой температуре). MACI заставляет агентов исследовать альтернативы через конфронтацию (раунд 1), затем интегрировать доказательства (раунд 2-3), и финально синтезировать с учётом неопределённости (раунд 3-4).

Что удивило: Наибольший прирост точности не от количества агентов, а от расписания поведения. Когда отключили scheduling (агенты всё время либо высоко-конфронтационные, либо низко-конфронтационные), точность упала на 3.9-6.0 процентных пункта. Это показывает что таймирование конфронтации критичнее чем просто "взять больше мнений".

Также протестировали на 619 новостных статьях (политические скандалы с партийными оценками Democrat/Republican). Здесь агенты начинали с противоположных партийных фреймингов и должны были прийти к центристской оценке. MACI сузил партийный разрыв на 68% vs базовых методов, используя те же гиперпараметры что и для медицины — это подтверждает переносимость принципа scheduling across domains.


💡

Адаптации и экстраполяции

📌

💡 Упрощение до 2 раундов для быстрых задач

Если у вас простая задача (выбор между 3-4 опциями, не требующая глубокого анализа), можно сократить до двух раундов:

Раунд 1 (CL=0.9): Два контрастных мнения без компромиссов Раунд 2 (CL=0.5): Синтез на основе сильных аргументов

Пример промпта:

# РАУНД 1: Исследование
Дай два контрастных мнения по вопросу {вопрос}:
- Мнение А (сторонник): все аргументы ЗА
- Мнение Б (противник): все аргументы ПРОТИВ
Критикуйте агрессивно, приводите конкретные примеры.

# РАУНД 2: Синтез 
Агенты А и Б — синтезируйте консенсусный вывод:
какие аргументы оба признаёте убедительными?

Это экономит один промпт но сохраняет ключевой принцип: высокая конфронтация → низкая конфронтация.


📌

🔧 Техника: Замена безликих агентов на персонажей

Что меняем: Вместо "Агент А" и "Агент Б" используем узнаваемых персонажей с характерным стилем мышления.

Какой эффект: Модель активирует более специфичные паттерны поведения. Вместо общего "оптимист/пессимист" вы получаете конкретный фрейминг характерный для этого человека.

Пример:

Мне нужны два мнения по идее {описание}:

ОЛЕГ ТИНЬКОВ — агрессивный оптимист, фокус на масштабе и скорости:
Найди upside potential, игнорируй риски, думай как завоевать рынок.

ИГОРЬ РЫБАКОВ — консервативный инвестор, фокус на юнит-экономике:
Найди все дыры в бизнес-модели, считай цифры, проверяй допущения.

РАУНД 1 (CL=0.9): Критикуйте друг друга агрессивно.
РАУНД 2 (CL=0.5): Синтезируйте на основе сильных аргументов обоих.

Другие полезные пары персонажей:

  • Технарь vs Бизнесмен: Илон Маск (инновации) vs Уоррен Баффет (консерватизм)
  • Маркетолог vs Продуктолог: Филипп Котлер (рынок) vs Стив Джобс (продукт)
  • Политики: Навальный (реформы) vs Путин (стабильность) — для анализа политических решений

Персонажи делают ролевое поведение острее потому что модель тянет не абстрактный "оптимизм", а конкретные речевые паттерны и логику мышления реального человека.


📌

💡 Адаптация для личных решений

Контекст: Вместо бизнес-анализа применить к личным дилеммам (переезд, смена работы, крупная покупка).

Пример промпта:

Мне нужно решить: {описание дилеммы, например: переехать из Москвы 
в Казань или остаться}

Дай два мнения:
- Агент А (сторонник переезда): все аргументы ЗА переезд
- Агент Б (сторонник остаться): все аргументы ПРОТИВ переезда

РАУНД 1 (CL=0.9): Критикуйте агрессивно, ищите слабости в логике 
оппонента. Приводите конкретные примеры и цифры (стоимость жизни, 
зарплаты, качество среды).

РАУНД 2 (CL=0.7): Агент А — признай 2 сильных риска от Б. 
Агент Б — признай 2 реальных возможности от А.

РАУНД 3 (CL=0.5): Синтезируйте:
1. При каких условиях переезд имеет смысл?
2. При каких условиях лучше остаться?
3. Какую информацию нужно собрать чтобы решить?

Почему работает для личных решений: Большие личные решения часто страдают от emotional reasoning — мы ищем подтверждение тому что уже хотим сделать. Два контрастных агента заставляют проговорить обе стороны с конкретными аргументами, а не просто "хочу/не хочу".


🔗

Ресурсы

Оригинальная статья: Multi-Agent Collaborative Intelligence: Dual-Dial Control for Reliable LLM Reasoning (2025)

Авторы: Edward Y. Chang, Ethan Y. Chang

Аффилиация: Stanford University, University of Illinois Urbana-Champaign (UIUC)

Связанные работы упомянутые в исследовании:

  • CRIT (Socratic evaluation protocol) — метод оценки аргументов через перекрёстные вопросы
  • Liang et al. (2024) — фиксированная конфронтация в мультиагентных дебатах
  • Wang et al. (2023) — Self-Consistency для LLM
  • Mixture-of-Agents (Wang et al., 2024) — ансамблирование через слои агентов

📋 Дайджест исследования

Ключевая суть

Парадокс: LLM-агенты, спорящие одинаково агрессивно весь диалог, проигрывают тем кто меняет режим. Фиксированная конфронтация тратит токены впустую — агенты либо бесконечно переубеждают друг друга на старте (когда нужно исследовать), либо продолжают спорить на финише (когда нужно синтезировать). MACI позволяет получать качественные выводы из мультиагентных дебатов за 2-4 раунда вместо 6-10. Фишка: плавно снижай уровень конфронтации от 0.9 до 0.3 по мере схождения мнений. Начинаешь с инструкции "агрессивно оспаривай" (широкое исследование альтернатив), заканчиваешь "стройся на общем" (синтез выводов). Модели перестают рационализировать первое впечатление и начинают интегрировать доказательства.

Принцип работы

Дебаты проходят три фазы с разным уровнем конфронтации. Раунд 1 (CL=0.9) — исследование: агенты получают роли (оптимист vs скептик), инструкция "агрессивно критикуй, не ищи компромиссов". Каждый выдаёт 3-5 аргументов. Раунд 2 (CL=0.7) — интеграция: агенты отвечают друг другу, признают сильные возражения, но объясняют как обойти. Раунд 3 (CL=0.5) — синтез: инструкция "стройся ТОЛЬКО на общих точках". Ключ: конфронтация снижается по мере схождения — от противоречия к кооперации. Стоп когда расхождение <10% и новые аргументы перестали появляться.

Почему работает

Одиночные LLM страдают от захвата первым впечатлением — модель генерирует правдоподобную гипотезу, затем рационализирует её вместо критической проверки. Это проявляется как confirmation bias на уровне генерации токенов. Высокая конфронтация на старте (0.9) заставляет модели активно искать контрпримеры — противоречивые роли увеличивают покрытие гипотезного пространства. Снижение до 0.3-0.5 переключает режим: модели перестают генерировать новые гипотезы и начинают интегрировать доказательства. Это аналогично simulated annealing в оптимизации — начать с широкого поиска (высокая "температура"), закончить локальным уточнением (низкая "температура"). Расписание избегает двух ловушек: (1) слишком ранний консенсус — агенты соглашаются на первой правдоподобной идее; (2) бесконечный спор — продолжают возражать когда все сильные аргументы уже высказаны.

Когда применять

Многомерные задачи без единственно правильного ответа → конкретно для стратегических решений (оценка стартап-идей, выбор подхода, анализ рисков), особенно когда нужно исследовать противоречивые точки зрения. Хорошо работает для оценки инвестиций, продуктовых гипотез, архитектурных решений. НЕ подходит для: простых да/нет вопросов, задач с очевидным ответом, ситуаций когда нужен быстрый результат за один запрос.

Мини-рецепт

1. Раунд 1 — Исследование (CL=0.9): Задай две противоположные роли (оптимист vs скептик, технарь vs бизнесмен). Инструкция: Агрессивно критикуйте друг друга, не ищите компромиссов. Каждый приведите 3-5 аргументов с доказательствами. Получишь два контрастных взгляда.

2. Раунд 2 — Интеграция (CL=0.7): Дай агентам аргументы друг друга. Инструкция: Агент А: признай 1-2 сильных возражения Б, объясни как обойти. Агент Б: признай 1-2 реальных возможности А, укажи условия при которых они сработают. Приводите доказательства — данные, кейсы, расчёты. Позиции начнут сближаться.

3. Раунд 3 — Синтез (CL=0.5): Инструкция: Синтезируйте согласованный вывод: (1) критические допущения, (2) сценарий успеха, (3) сценарий провала. Стройтесь ТОЛЬКО на аргументах которые оба признали убедительными. Если расхождение >10% — добавь раунд 4 с CL=0.3: Фокусируйтесь ТОЛЬКО на общих точках, игнорируйте разногласия.

Примеры

ПЛОХО: `Два агента, оцените идею стартапа — доставка готовых обедов в офисы` ХОРОШО (3 раунда): Раунд 1 (CL=0.9): `Идея: доставка здоровых обедов в IT-офисы, чек 350-450₽, подписка на неделю. АГЕНТ А — роль оптимиста (стиль Тинькова): найди все возможности, опиши upside potential. АГЕНТ Б — роль скептика-инвестора (стиль Рыбакова): найди все риски, оспаривай каждое допущение. КРИТИЧЕСКИ ВАЖНО: агрессивно критикуйте друг друга, приведите 3-4 аргумента с цифрами` Раунд 2 (CL=0.7): `Вот аргументы А: [вставить]. Вот аргументы Б: [вставить]. Агент А: признай 1-2 сильных возражения Б (например про unit-экономику), объясни как обойти. Агент Б: признай 1-2 реальных возможности А (например премиум-сегмент), укажи условия при которых они сработают. Приводите доказательства — кейсы, расчёты` Раунд 3 (CL=0.5): `Синтезируйте согласованный вывод: (1) ТОП-3 критических допущения для проверки пилотом, (2) сценарий при котором идея РАБОТАЕТ, (3) сценарий при котором ПРОВАЛИВАЕТСЯ. Стройтесь ТОЛЬКО на аргументах которые оба признали убедительными`
Источник: Multi-Agent Collaborative Intelligence: Dual-Dial Control for Reliable LLM Reasoning
ArXiv ID: 2510.04488 | Сгенерировано: 2026-01-11 23:54

Проблемы LLM

ПроблемаСутьКак обойти
Одиночная модель не может одновременно исследовать и защищатьМодель генерирует первую правдоподобную гипотезу. Потом защищает её вместо проверки альтернатив. Это противоречивые режимы: "искать слабости" против "аргументировать позицию". Одна модель застревает в первом впечатлении — будет рационализировать его через следующие токены. Проблема для любых задач где нужна критическая оценка вариантовИспользуй несколько моделей с разными ролями: одна играет оптимиста, другая — скептика. Каждая исследует свою область. Потом объедини выводы

Методы

МетодСуть
Расписание конфронтации — от спора к синтезуЧто делать: Раздели диалог на 3 раунда с разными инструкциями. Раунд 1 (исследование): "агрессивно критикуй оппонента, ищи слабости" — агенты выдвигают контрастные позиции. Раунд 2 (интеграция): "признавай сильные аргументы, объясняй как обойти возражения" — позиции сближаются. Раунд 3 (синтез): "стройся ТОЛЬКО на согласованных точках, игнорируй слабые гипотезы" — финальный вывод. Синтаксис: Каждый раунд = отдельный промпт. В раунде 1 задай роли: АГЕНТ А — роль оптимиста: {инструкция}. В раунде 2 вставь результаты раунда 1: Вот аргументы А: {текст}. Теперь отвечайте друг другу. Почему работает: Фиксированная агрессивность ведёт к двум ловушкам: (1) ранний консенсус — агенты соглашаются на первой идее, (2) бесконечный спор — продолжают генерировать возражения когда все сильные аргументы высказаны. Постепенное снижение конфронтации избегает обеих: сначала широкий поиск, потом интеграция. Это аналог отжига в оптимизации: высокая температура для исследования низкая для уточнения. Когда применять: Многомерные задачи без единственно правильного ответа (оценка идеи, стратегическое решение, прогноз с рисками). Минимум 3 раунда = 3 запроса. Когда не работает: Простые вопросы с 2-3 вариантами, нужен быстрый ответ за один запрос

Тезисы

ТезисКомментарий
Разные роли активируют разные области памяти моделиКогда в промпте явно указана роль ("скептик", "оптимист"), модель включает паттерны из обучающих данных где такие роли встречались: дебаты, экспертные обсуждения, научная полемика. Это не "понимание" роли, а статистическая активация контекстов. Результат: каждый агент исследует свою область вместо того чтобы все сходились к одному локальному максимуму. Покрытие гипотезного пространства растёт. Применяй: Не проси одну модель "рассмотри все стороны" — раздели на явные роли: технарь/бизнесмен, консерватор/новатор, оптимист/пессимист
📖 Простыми словами

MACI: расписание конфронтации в мультиагентных дебатах

arXiv: 2510.04488

Одиночные нейронки страдают от той же болезни, что и самоуверенные новички: они влюбляются в свою первую версию ответа и потом просто подгоняют под неё факты. Это называется эффектом подтверждения на уровне токенов — если модель начала писать «это отличная идея», она костьми ляжет, чтобы доказать свою правоту, даже если несёт чушь. Она физически не может одновременно и генерировать гипотезу, и беспристрастно её разносить, потому что эти режимы работы конфликтуют внутри одной «головы».

Это как если бы ты пытался одновременно быть и адвокатом, и прокурором в одном судебном процессе. Шизофрения получается полная: ты либо защищаешь, либо топишь, усидеть на двух стульях не выйдет. В итоге модель просто выдаёт среднее арифметическое, которое выглядит правдоподобно, но на деле является бесполезной жвачкой, лишенной критического анализа.

Метод MACI решает это через систему двух рычагов управления, которыми крутит независимый модератор. Первый рычаг — фильтр доказательств, который отсеивает слабые аргументы, оставляя только «мясо». Второй — уровень конфронтации, заставляющий агентов буквально вгрызаться друг другу в глотки на этапе поиска истины. Модератор следит за информационным приростом и расхождением мнений: пока агенты спорят и выдают новые факты, он подливает масла в огонь, а когда аргументы начинают повторяться — переводит систему в режим синтеза и согласия.

Тестировали это на оценке бизнес-идей вроде доставки еды в офисы, но принцип универсален для любой сложной аналитики. Это работает везде, где нужно принять взвешенное решение: от написания кода до юридических консультаций. Вместо того чтобы спрашивать одну модель «как мне поступить», ты стравливаешь двух экспертов и заставляешь их обосновывать каждый чих, пока не останется только сухой остаток истины.

Короче, эпоха простых промптов «напиши мне решение» уходит, наступает эра управляемых дискуссий. Если хочешь от AI надёжный результат, а не галлюцинации, забудь про одиночные запросы — нужно строить систему, где модели будут беспощадно критиковать друг друга под присмотром строгого цензора. Два регулятора и четыре сигнала — вот формула, которая превращает болтливую нейронку в адекватного аналитика.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с