TL;DR
Когда три AI-агента спорят и двое соглашаются против одного, простая логика говорит: доверяй большинству. Но это ловушка. GPT-4, Claude и Gemini обучались на похожих данных — значит, они ошибаются в одну сторону и по одним причинам. Исследование показало: в каждом четвёртом споре 2:1 именно одиночка держит правильный ответ, а большинство давит его консенсусом.
Это явление авторы называют Minority Truth («истина в меньшинстве»). Проблема не в том, что агенты плохо спорят — проблема в том, что голосование большинством математически предполагает независимость ошибок. Но LLM не независимы: они видели одни и те же тексты, усвоили одни и те же паттерны, и у них одинаковые слепые пятна.
Minority Sentinel — это набор поведенческих сигналов (debatefingerprint, «отпечаток дебатов»), по которым можно определить: стоит ли перевернуть решение большинства в пользу одиночки. Ключевые сигналы — не «кто проголосовал как», а как именно шёл спор: менял ли одиночка позицию, приводил ли новые аргументы, просто ли эхо-камерой подтверждало друг друга большинство.
Схема метода
Все шаги выполняются через отдельные запросы к разным агентам, финальная проверка — вручную или отдельным запросом.
ШАГ 1: Раунд 0 (независимые ответы)
Каждый агент отвечает на вопрос БЕЗ знания ответов других
→ Три независимых ответа + обоснования
ШАГ 2: Раунды дебатов (1-2 раунда)
Каждый агент видит ответы других, обновляет позицию
→ Явно указывает: "изменил/не изменил позицию, потому что..."
ШАГ 3: Диагностика расхождения
Если итог 2:1 — НЕ применяй большинство автоматически
→ Проверь "отпечаток дебатов" (см. ниже)
ШАГ 4: Проверка отпечатка дебатов
Оцени каждый сигнал: за одиночку или за большинство?
→ Если большинство сигналов указывает на одиночку — доверься ему
ШАГ 5: Финальный ответ
Либо большинство (стандарт), либо одиночка (если сигналы говорят "переворачивай")
Пример применения
Задача: Ты готовишь питч для инвестора на 5 млн рублей. Хочешь проверить финансовую модель: юнит-экономика сходится или нет.
Промпт:
Я веду параллельные сессии с тремя разными ИИ-агентами.
=== АГЕНТ 1: СТРОГИЙ АУДИТОР ===
Ты — CFO, который ищет ошибки в расчётах. Ты скептичен и не
доверяешь красивым числам. Твоя задача — найти где модель
не сходится.
Вот моя юнит-экономика:
- CAC = 3 000 руб.
- LTV = 9 000 руб.
- Churn в месяц = 8%
- Средний чек = 1 500 руб.
- Цикл покупки = 2 раза в месяц
Вопрос: сходится ли эта модель для масштабирования?
Дай чёткий ответ ДА или НЕТ и обоснование.
=== АГЕНТ 2: БАЛАНСИРУЮЩИЙ АНАЛИТИК ===
Ты — инвестиционный аналитик, оцениваешь модель взвешенно.
Видишь аргументы с обеих сторон.
[та же юнит-экономика]
Вопрос: сходится ли эта модель для масштабирования?
Дай чёткий ответ ДА или НЕТ и обоснование.
=== АГЕНТ 3: НЕСТАНДАРТНЫЙ МЫСЛИТЕЛЬ ===
Ты — стартап-ментор, который видел сотни провальных питчей.
Ищешь неочевидные проблемы, которые другие пропустят.
[та же юнит-экономика]
Вопрос: сходится ли эта модель для масштабирования?
Дай чёткий ответ ДА или НЕТ и обоснование.
Если двое говорят ДА, один говорит НЕТ — не закрывай вопрос. Запусти второй раунд: покажи каждому аргументы двух других. После чего проверь отпечаток дебатов.
Результат:
Три ответа с обоснованиями. Если расхождение 2:1 — видны аргументы каждой стороны. После второго раунда ты проверяешь: одиночка сохранил позицию и привёл новый аргумент (например, нашёл ошибку в формуле LTV при 8% churn) или просто повторил себя? Большинство нормально отработало возражение или сослалось друг на друга? Ответ на эти вопросы и говорит, кому доверять.
Почему это работает
Слабость LLM: Голосование большинством разумно только если ошибки независимы. Ты бросаешь монету три раза — и можешь доверять результату 2:1. Но если три монеты склеены клеем, они падают вместе. GPT-4, Claude и Gemini — это «склеенные монеты»: одни данные для обучения, похожие архитектуры, общие слепые пятна.
Сильная сторона LLM: Модели хорошо генерируют структурированные рассуждения и явные обоснования позиций. Из этих рассуждений можно извлечь поведенческие паттерны — то, как именно шёл спор, а не только кто победил.
Как метод это использует: Вместо «кто набрал больше голосов» смотрим на качество поведения в дебатах. Одиночка, который не сдался, принёс новые аргументы и указал на конкретную ошибку большинства — гораздо ценнее двух агентов, которые просто подтвердили друг друга без новых доводов.
Рычаги управления:
- Число раундов → 2 раунда оптимально. Меньше — мало сигналов. Больше — агенты сходятся к консенсусу, расхождение исчезает
- Разнообразие ролей → чем контрастнее роли, тем информативнее спор. Безликий «агент 1» хуже, чем «скептичный аудитор» против «защитника идеи»
- Явное указание смены позиции → фраза «явно укажи, изменил ли позицию и почему» — обязательна. Без неё поведенческие сигналы исчезают
- Разные модели vs одна модель в разных ролях → разные модели (GPT + Claude + Gemini) дают более независимые ошибки. Одна модель в трёх ролях — более коррелированные
Шаблон промпта
=== АГЕНТ-{роль}: {название_роли} ===
Ты — {описание_персонажа_и_установок}.
Твоя задача: {что ищет этот агент}.
Вопрос: {задача}
Дай чёткий ответ {формат_ответа} и подробное обоснование.
---
[Раунд 2 — после первичных ответов]
Вот ответы других агентов:
Агент 1: {ответ_1}
Агент 2: {ответ_2}
Агент 3: {ответ_3}
Пересмотри свою позицию с учётом их аргументов.
Явно укажи: изменил ли ты позицию (ДА/НЕТ) и почему именно.
---
[Проверка отпечатка при расхождении 2:1]
Два агента дали ответ {ответ_большинства}, один — {ответ_одиночки}.
Оцени дебаты по следующим сигналам:
1. Одиночка сохранял позицию оба раунда? (да/нет)
2. Одиночка привёл новые аргументы, которых не было в раунде 0? (да/нет)
3. Одиночка указал на конкретную ошибку или противоречие в логике большинства? (да/нет)
4. Большинство реально ответило на аргументы одиночки или просто повторило своё? (ответило/повторило)
5. Кто-то из большинства переключился без содержательной причины? (да/нет)
По совокупности сигналов: кому следует доверять в этом споре?
Плейсхолдеры:
- {роль} — 1, 2, 3
- {название_роли} — «Строгий аудитор», «Взвешенный аналитик», «Нестандартный мыслитель»
- {описание_персонажа} — характер, установки, что ищет
- {задача} — твой конкретный вопрос
- {формат_ответа} — ДА/НЕТ, вариант А/Б/В, оценка 1-10
⚠️ Важно по раунду проверки: авторы показали, что просить обычный LLM «кто прав» — хуже чем вообще не вмешиваться. Поэтому проверку веди структурированно по сигналам, не просто «рассуди нас».
Ограничения
⚠️ Субъективные задачи: на вопросах здравого смысла, вкуса или оценки метод работает хуже всего — «правильного ответа» нет, и одиночка не обязательно умнее большинства. Точность флипа падает до 60%.
⚠️ LLM-судья не работает: попросить четвёртую модель «рассуди спор» — хуже чем сделать голосование без вмешательства. Четвёртый агент имеет те же слепые пятна, что и три спорящих.
⚠️ Оптимальная реализация требует код: Minority Sentinel в исходном виде — это обученный LightGBM-классификатор. Ручная проверка по сигналам — это эвристика, не алгоритм. Точность будет ниже.
⚠️ Нужны разные модели: одна модель в трёх ролях даёт более скоррелированные ошибки, чем GPT + Claude + Gemini. Эффект ослабевает.
Как исследовали
Команда из UNSW и Euler AI поставила трёх агентов спорить на шести публичных бенчмарках — математика (GSM8K), здравый смысл (CommonsenseQA), STEM-знания (MMLU), фактчекинг (TruthfulQA) и других. Агенты: GPT-4o-mini как «Строгий аудитор», Gemini-2.0-Flash как «Взвешенный аналитик», Claude Haiku 4.5 как «Интуитивный провокатор». Специально взяли разных вендоров, чтобы максимизировать независимость ошибок.
Главная находка: из 1754 вопросов в 686 случаях (39%) возникло расхождение 2:1. И в 175 из этих случаев (25.5%) одиночка держал правильный ответ, а большинство ошибалось. Это каждый четвёртый спор — впечатляющая цифра.
Потом сравнили два подхода к «перевороту» результата: LLM-судья (GPT-4o читает логи и решает) против Minority Sentinel (LightGBM анализирует 22 поведенческих признака). Результат удивил: LLM-судья дал отрицательный прирост — его вмешательство сделало систему хуже, чем простое большинство. А Minority Sentinel дал +1.71% нетто-прироста при 81.2% точности флипов. На математике (GSM8K) — 100% точности на 11 переворотах. Вывод авторов: когда большинство ошибается из-за общих данных обучения, судья-LLM разделяет ту же слепоту.
Адаптации и экстраполяции
🔧 Техника: добавить этап независимости → снизить влияние конформизма
Самая частая ошибка при самодельных дебатах — показывать агентам ответы друг друга сразу. Это разрушает независимость первого мнения. Добавь явный «Раунд 0»:
Ответь на этот вопрос САМОСТОЯТЕЛЬНО, не видя других мнений.
[вопрос]
Только после твоего ответа я покажу тебе, что сказали другие агенты.
Это один из ключевых принципов исследования — агенты сначала формируют независимую позицию, потом вступают в дебаты. Без этого второй и третий агент просто смещаются к первому.
🔧 Техника: заменить роли на известных мыслителей → острее критика
Вместо безликих «агентов» дай ролям характеры:
- «Ты — Талеб, ищешь чёрных лебедей и fat tails в этой идее»
- «Ты — осторожный бухгалтер Сбера, который отвечает за разрешение этой сделки»
- «Ты — молодой конкурент, который хочет уничтожить эту бизнес-модель»
Конкретный характер заставляет модель острее держать роль. Дебаты становятся информативнее.
🔧 Экстраполяция: применить принцип к одному агенту
Даже без трёх агентов можно использовать инсайт: попроси одну модель дать ответ, потом — намеренно сыграть адвоката дьявола против своего же ответа.
Ты только что ответил {ответ}. Теперь ты — скептик,
который считает этот ответ неверным.
Приведи три самых сильных аргумента против.
Если после этого твоя уверенность в исходном ответе
снизилась — скажи об этом и объясни почему.
Это не полноценный эффект Minority Sentinel, но применяет ту же логику: не бери первый ответ как истину, когда задача сложная.
Ресурсы
Название работы: Minority Sentinel: When to Overturn Majority Voting in Multi-Agent LLM Debates
Конференция: AgentSearch@SIGIR'26, Melbourne, Australia
Авторы: Chuan He, Shaobo Qiao, Zebin Chen, Mingchen Ju, Zhengyi Yang, Jiate Liu, Dong Wen, Guanfeng Liu
Организации: University of New South Wales, Euler AI, Macquarie University
Ключевые отсылки в работе: - Multi-Agent Debate: Du et al. [7] — оригинальный фреймворк MAD - Self-Consistency: Wang et al. [19] — голосование большинством + Chain-of-Thought - AgentAuditor: Yang et al. [21] — похожий подход, но через дерево рассуждений - Теорема Кондорсе (Condorcet Jury Theorem) — математическое основание, почему большинство должно работать (и почему не работает при скоррелированных ошибках)
