3,583 papers
arXiv:2606.29270 76 28 июня 2026 г. FREE

Minority Sentinel: почему большинство в дебатах агентов ошибается — и как это поймать

КЛЮЧЕВАЯ СУТЬ
В каждом четвёртом споре трёх AI-агентов формата 2:1 прав именно одиночка — а большинство ошибается всей толпой. Minority Sentinel позволяет определить, когда нужно перевернуть решение большинства — и не потерять правильный ответ из-за коллективного слепого пятна. Смотришь не на счёт голосов, а на «отпечаток дебатов»: держал ли одиночка позицию под давлением, принёс ли новые аргументы, нашёл ли конкретную ошибку в логике большинства — если да, доверяй одиночке, а не двум согласным.
Адаптировать под запрос

TL;DR

Когда три AI-агента спорят и двое соглашаются против одного, простая логика говорит: доверяй большинству. Но это ловушка. GPT-4, Claude и Gemini обучались на похожих данных — значит, они ошибаются в одну сторону и по одним причинам. Исследование показало: в каждом четвёртом споре 2:1 именно одиночка держит правильный ответ, а большинство давит его консенсусом.

Это явление авторы называют Minority Truth («истина в меньшинстве»). Проблема не в том, что агенты плохо спорят — проблема в том, что голосование большинством математически предполагает независимость ошибок. Но LLM не независимы: они видели одни и те же тексты, усвоили одни и те же паттерны, и у них одинаковые слепые пятна.

Minority Sentinel — это набор поведенческих сигналов (debatefingerprint, «отпечаток дебатов»), по которым можно определить: стоит ли перевернуть решение большинства в пользу одиночки. Ключевые сигналы — не «кто проголосовал как», а как именно шёл спор: менял ли одиночка позицию, приводил ли новые аргументы, просто ли эхо-камерой подтверждало друг друга большинство.


🔬

Схема метода

Все шаги выполняются через отдельные запросы к разным агентам, финальная проверка — вручную или отдельным запросом.

ШАГ 1: Раунд 0 (независимые ответы)
  Каждый агент отвечает на вопрос БЕЗ знания ответов других
  → Три независимых ответа + обоснования

ШАГ 2: Раунды дебатов (1-2 раунда)
  Каждый агент видит ответы других, обновляет позицию
  → Явно указывает: "изменил/не изменил позицию, потому что..."

ШАГ 3: Диагностика расхождения
  Если итог 2:1 — НЕ применяй большинство автоматически
  → Проверь "отпечаток дебатов" (см. ниже)

ШАГ 4: Проверка отпечатка дебатов
  Оцени каждый сигнал: за одиночку или за большинство?
  → Если большинство сигналов указывает на одиночку — доверься ему

ШАГ 5: Финальный ответ
  Либо большинство (стандарт), либо одиночка (если сигналы говорят "переворачивай")

🚀

Пример применения

Задача: Ты готовишь питч для инвестора на 5 млн рублей. Хочешь проверить финансовую модель: юнит-экономика сходится или нет.

Промпт:

Я веду параллельные сессии с тремя разными ИИ-агентами.

=== АГЕНТ 1: СТРОГИЙ АУДИТОР ===
Ты — CFO, который ищет ошибки в расчётах. Ты скептичен и не 
доверяешь красивым числам. Твоя задача — найти где модель 
не сходится.

Вот моя юнит-экономика:
- CAC = 3 000 руб.
- LTV = 9 000 руб.
- Churn в месяц = 8%
- Средний чек = 1 500 руб.
- Цикл покупки = 2 раза в месяц

Вопрос: сходится ли эта модель для масштабирования? 
Дай чёткий ответ ДА или НЕТ и обоснование.
=== АГЕНТ 2: БАЛАНСИРУЮЩИЙ АНАЛИТИК ===
Ты — инвестиционный аналитик, оцениваешь модель взвешенно. 
Видишь аргументы с обеих сторон.

[та же юнит-экономика]

Вопрос: сходится ли эта модель для масштабирования?
Дай чёткий ответ ДА или НЕТ и обоснование.
=== АГЕНТ 3: НЕСТАНДАРТНЫЙ МЫСЛИТЕЛЬ ===
Ты — стартап-ментор, который видел сотни провальных питчей. 
Ищешь неочевидные проблемы, которые другие пропустят.

[та же юнит-экономика]

Вопрос: сходится ли эта модель для масштабирования?
Дай чёткий ответ ДА или НЕТ и обоснование.

Если двое говорят ДА, один говорит НЕТ — не закрывай вопрос. Запусти второй раунд: покажи каждому аргументы двух других. После чего проверь отпечаток дебатов.

Результат:

Три ответа с обоснованиями. Если расхождение 2:1 — видны аргументы каждой стороны. После второго раунда ты проверяешь: одиночка сохранил позицию и привёл новый аргумент (например, нашёл ошибку в формуле LTV при 8% churn) или просто повторил себя? Большинство нормально отработало возражение или сослалось друг на друга? Ответ на эти вопросы и говорит, кому доверять.


🧠

Почему это работает

Слабость LLM: Голосование большинством разумно только если ошибки независимы. Ты бросаешь монету три раза — и можешь доверять результату 2:1. Но если три монеты склеены клеем, они падают вместе. GPT-4, Claude и Gemini — это «склеенные монеты»: одни данные для обучения, похожие архитектуры, общие слепые пятна.

Сильная сторона LLM: Модели хорошо генерируют структурированные рассуждения и явные обоснования позиций. Из этих рассуждений можно извлечь поведенческие паттерны — то, как именно шёл спор, а не только кто победил.

Как метод это использует: Вместо «кто набрал больше голосов» смотрим на качество поведения в дебатах. Одиночка, который не сдался, принёс новые аргументы и указал на конкретную ошибку большинства — гораздо ценнее двух агентов, которые просто подтвердили друг друга без новых доводов.

Рычаги управления:

  • Число раундов → 2 раунда оптимально. Меньше — мало сигналов. Больше — агенты сходятся к консенсусу, расхождение исчезает
  • Разнообразие ролей → чем контрастнее роли, тем информативнее спор. Безликий «агент 1» хуже, чем «скептичный аудитор» против «защитника идеи»
  • Явное указание смены позиции → фраза «явно укажи, изменил ли позицию и почему» — обязательна. Без неё поведенческие сигналы исчезают
  • Разные модели vs одна модель в разных ролях → разные модели (GPT + Claude + Gemini) дают более независимые ошибки. Одна модель в трёх ролях — более коррелированные

📋

Шаблон промпта

=== АГЕНТ-{роль}: {название_роли} ===
Ты — {описание_персонажа_и_установок}.
Твоя задача: {что ищет этот агент}.

Вопрос: {задача}

Дай чёткий ответ {формат_ответа} и подробное обоснование.
---
[Раунд 2 — после первичных ответов]
Вот ответы других агентов:
Агент 1: {ответ_1}
Агент 2: {ответ_2}
Агент 3: {ответ_3}

Пересмотри свою позицию с учётом их аргументов. 
Явно укажи: изменил ли ты позицию (ДА/НЕТ) и почему именно.

---
[Проверка отпечатка при расхождении 2:1]
Два агента дали ответ {ответ_большинства}, один — {ответ_одиночки}.

Оцени дебаты по следующим сигналам:
1. Одиночка сохранял позицию оба раунда? (да/нет)
2. Одиночка привёл новые аргументы, которых не было в раунде 0? (да/нет)
3. Одиночка указал на конкретную ошибку или противоречие в логике большинства? (да/нет)
4. Большинство реально ответило на аргументы одиночки или просто повторило своё? (ответило/повторило)
5. Кто-то из большинства переключился без содержательной причины? (да/нет)

По совокупности сигналов: кому следует доверять в этом споре?

Плейсхолдеры: - {роль} — 1, 2, 3 - {название_роли} — «Строгий аудитор», «Взвешенный аналитик», «Нестандартный мыслитель» - {описание_персонажа} — характер, установки, что ищет - {задача} — твой конкретный вопрос - {формат_ответа} — ДА/НЕТ, вариант А/Б/В, оценка 1-10

⚠️ Важно по раунду проверки: авторы показали, что просить обычный LLM «кто прав» — хуже чем вообще не вмешиваться. Поэтому проверку веди структурированно по сигналам, не просто «рассуди нас».


⚠️

Ограничения

⚠️ Субъективные задачи: на вопросах здравого смысла, вкуса или оценки метод работает хуже всего — «правильного ответа» нет, и одиночка не обязательно умнее большинства. Точность флипа падает до 60%.

⚠️ LLM-судья не работает: попросить четвёртую модель «рассуди спор» — хуже чем сделать голосование без вмешательства. Четвёртый агент имеет те же слепые пятна, что и три спорящих.

⚠️ Оптимальная реализация требует код: Minority Sentinel в исходном виде — это обученный LightGBM-классификатор. Ручная проверка по сигналам — это эвристика, не алгоритм. Точность будет ниже.

⚠️ Нужны разные модели: одна модель в трёх ролях даёт более скоррелированные ошибки, чем GPT + Claude + Gemini. Эффект ослабевает.


🔍

Как исследовали

Команда из UNSW и Euler AI поставила трёх агентов спорить на шести публичных бенчмарках — математика (GSM8K), здравый смысл (CommonsenseQA), STEM-знания (MMLU), фактчекинг (TruthfulQA) и других. Агенты: GPT-4o-mini как «Строгий аудитор», Gemini-2.0-Flash как «Взвешенный аналитик», Claude Haiku 4.5 как «Интуитивный провокатор». Специально взяли разных вендоров, чтобы максимизировать независимость ошибок.

Главная находка: из 1754 вопросов в 686 случаях (39%) возникло расхождение 2:1. И в 175 из этих случаев (25.5%) одиночка держал правильный ответ, а большинство ошибалось. Это каждый четвёртый спор — впечатляющая цифра.

Потом сравнили два подхода к «перевороту» результата: LLM-судья (GPT-4o читает логи и решает) против Minority Sentinel (LightGBM анализирует 22 поведенческих признака). Результат удивил: LLM-судья дал отрицательный прирост — его вмешательство сделало систему хуже, чем простое большинство. А Minority Sentinel дал +1.71% нетто-прироста при 81.2% точности флипов. На математике (GSM8K) — 100% точности на 11 переворотах. Вывод авторов: когда большинство ошибается из-за общих данных обучения, судья-LLM разделяет ту же слепоту.


💡

Адаптации и экстраполяции

🔧 Техника: добавить этап независимости → снизить влияние конформизма

Самая частая ошибка при самодельных дебатах — показывать агентам ответы друг друга сразу. Это разрушает независимость первого мнения. Добавь явный «Раунд 0»:

Ответь на этот вопрос САМОСТОЯТЕЛЬНО, не видя других мнений.
[вопрос]
Только после твоего ответа я покажу тебе, что сказали другие агенты.

Это один из ключевых принципов исследования — агенты сначала формируют независимую позицию, потом вступают в дебаты. Без этого второй и третий агент просто смещаются к первому.

🔧 Техника: заменить роли на известных мыслителей → острее критика

Вместо безликих «агентов» дай ролям характеры: - «Ты — Талеб, ищешь чёрных лебедей и fat tails в этой идее»

- «Ты — осторожный бухгалтер Сбера, который отвечает за разрешение этой сделки» - «Ты — молодой конкурент, который хочет уничтожить эту бизнес-модель»

Конкретный характер заставляет модель острее держать роль. Дебаты становятся информативнее.

🔧 Экстраполяция: применить принцип к одному агенту

Даже без трёх агентов можно использовать инсайт: попроси одну модель дать ответ, потом — намеренно сыграть адвоката дьявола против своего же ответа.

Ты только что ответил {ответ}. Теперь ты — скептик, 
который считает этот ответ неверным. 
Приведи три самых сильных аргумента против. 
Если после этого твоя уверенность в исходном ответе 
снизилась — скажи об этом и объясни почему.

Это не полноценный эффект Minority Sentinel, но применяет ту же логику: не бери первый ответ как истину, когда задача сложная.


🔗

Ресурсы

Название работы: Minority Sentinel: When to Overturn Majority Voting in Multi-Agent LLM Debates

Конференция: AgentSearch@SIGIR'26, Melbourne, Australia

Авторы: Chuan He, Shaobo Qiao, Zebin Chen, Mingchen Ju, Zhengyi Yang, Jiate Liu, Dong Wen, Guanfeng Liu

Организации: University of New South Wales, Euler AI, Macquarie University

Ключевые отсылки в работе: - Multi-Agent Debate: Du et al. [7] — оригинальный фреймворк MAD - Self-Consistency: Wang et al. [19] — голосование большинством + Chain-of-Thought - AgentAuditor: Yang et al. [21] — похожий подход, но через дерево рассуждений - Теорема Кондорсе (Condorcet Jury Theorem) — математическое основание, почему большинство должно работать (и почему не работает при скоррелированных ошибках)


📋 Дайджест исследования

Ключевая суть

В каждом четвёртом споре трёх AI-агентов формата 2:1 прав именно одиночка — а большинство ошибается всей толпой. Minority Sentinel позволяет определить, когда нужно перевернуть решение большинства — и не потерять правильный ответ из-за коллективного слепого пятна. Смотришь не на счёт голосов, а на «отпечаток дебатов»: держал ли одиночка позицию под давлением, принёс ли новые аргументы, нашёл ли конкретную ошибку в логике большинства — если да, доверяй одиночке, а не двум согласным.

Принцип работы

GPT-4, Claude, Gemini — не три независимые монеты. Это монеты, склеенные клеем: подбросишь — упадут вместе. Голосование большинством работает только когда ошибки независимы — а у языковых моделей они зависимы: одни обучающие данные, одинаковые слепые пятна, похожие архитектуры. Счёт 2:1 ничего не доказывает — он просто повторяет общий паттерн ошибки. Поэтому вместо счёта смотришь на «отпечаток дебатов»: пять поведенческих сигналов — как вёл себя каждый агент в споре, а не кто набрал больше голосов.

Почему работает

Модели хорошо делают одно: генерируют структурированные рассуждения с явными обоснованиями позиций. Из этих рассуждений можно вытащить поведенческие паттерны — они честнее, чем счёт голосов. Одиночка, не сломавшийся под давлением и нашедший конкретную ошибку в расчётах большинства — ценнее двух агентов, просто подтвердивших друг друга без новых доводов. В оригинале это реализуется как LightGBM-классификатор на поведенческих сигналах. Ручная проверка по пяти критериям тоже работает — просто менее точно.

Когда применять

Аналитические задачи с объективно правильным ответом: проверка финансовой модели, юридический анализ документов, техническое ревью кода, оценка логических противоречий. Особенно полезно когда ставки высоки и ошибочный консенсус дорого стоит. НЕ подходит для субъективных оценок (стиль, вкус, мнения) — там точность переворота падает до 60%, и одиночка не обязательно умнее большинства. Также не работает если все три агента — одна и та же модель в разных ролях: ошибки тогда ещё более скоррелированы.

Мини-рецепт

1. Назначь контрастные роли: не «агент 1», а «строгий аудитор», «взвешенный аналитик», «нестандартный мыслитель» — чем контрастнее персонажи, тем информативнее спор.
2. Раунд 0: каждый агент отвечает независимо, без знания ответов других. Три отдельных запроса.
3. Раунд дебатов (достаточно двух): каждый видит ответы других и обязательно указывает: «изменил ли позицию и почему именно». Без этой фразы поведенческие сигналы исчезают.
4. Если итог 2:1 — не голосуй снова. Запусти проверку по пяти сигналам отпечатка.
5. Пять сигналов: одиночка держал позицию оба раунда? принёс новые аргументы которых не было на старте? нашёл конкретную ошибку или противоречие? большинство ответило по существу или просто повторило своё? кто-то из большинства переключился без реальной причины? — по совокупности принимай решение о перевороте.

Примеры

[ПЛОХО] : Агент 1 — НЕТ, агенты 2 и 3 — ДА. Большинство говорит ДА — принимаем решение
[ХОРОШО] : (после двух раундов дебатов запускаешь проверку отпечатка) Оцени ход дебатов по пяти сигналам. Агент 1 (аудитор): в раунде 0 сказал НЕТ, в раунде 2 сохранил позицию и добавил новый расчёт — при оттоке клиентов 8% в месяц пожизненная ценность клиента не 9 000 руб., а около 6 200 руб., модель не сходится. Агенты 2 и 3: сказали ДА в обоих раундах, на конкретный расчёт агента 1 не ответили — просто повторили общий вывод. Сигналы: одиночка держал позицию — да. Новый конкретный аргумент с цифрами — да. Большинство проигнорировало возражение — да. Кому доверять в этом споре и почему?
Источник: Minority Sentinel: When to Overturn Majority Voting in Multi-Agent LLM Debates
ArXiv ID: 2606.29270 | Сгенерировано: 2026-06-30 04:28

Проблемы LLM

ПроблемаСутьКак обойти
Голосование большинством среди агентов не работаетЗапускаешь трёх агентов. Двое говорят ДА, один — НЕТ. Кажется: доверяй двум. Но голосование работает только если ошибки независимы. GPT-4, Claude, Gemini учились на похожих данных. У них одинаковые слепые пятна. Они ошибаются вместе и в одну сторону. Итог 2:1 — это не «двое правы», это «двое ошиблись одинаково». Случается примерно в каждом четвёртом спореНе принимай итог 2:1 автоматически. Проверь как шёл спор, а не только кто победил. Смотри на поведение агентов в дебатах — это надёжнее чем счёт голосов

Методы

МетодСуть
Отпечаток дебатов — кому доверять при счёте 2:1Запускаешь два раунда. В каждом агент явно указывает: изменил позицию или нет, и почему. Если итог 2:1 — проверяешь пять сигналов. 1. Одиночка держал позицию оба раунда? 2. Одиночка принёс новые аргументы, которых не было с начала? 3. Одиночка указал на конкретную ошибку в логике большинства? 4. Большинство ответило на аргументы одиночки — или просто повторило своё? 5. Кто-то из большинства переключился без содержательной причины? Если большинство сигналов за одиночку — доверяй ему, не большинству. Работает: задачи с проверяемым ответом, технический анализ, факты. Не работает: субъективные оценки, вопросы вкуса — там «правильного» ответа нет

Тезисы

ТезисКомментарий
Качество спора надёжнее счёта голосовАгент, который не сдался и принёс новый аргумент, несёт больше информации чем два агента, которые просто подтвердили друг друга. Механика: новый аргумент — это сигнал что агент опирается на что-то, чего нет у остальных. Эхо-камера — сигнал что агенты копируют друг друга, а не думают независимо. Применяй: В промпте требуй явно указать «изменил/не изменил позицию и почему». Без этого сигналы не видны
📖 Простыми словами

Minority Sentinel: When to Overturn Majority Voting in Multi-AgentLLMDebates

arXiv: 2606.29270

Когда несколько нейросетей спорят между собой, мы по привычке верим большинству, но в мире LLM демократия — это путь в никуда. Проблема в том, что GPT-4, Claude и Gemini учились на одних и тех же массивах данных из интернета, поэтому их ошибки не случайны, а системны. Если две модели из трех согласны друг с другом, это не значит, что они правы — скорее всего, они просто наступили на одни и те же грабли, заложенные в их архитектуру. В итоге коллективный разум превращается в коллективное заблуждение, где толпа просто задавливает правильный ответ авторитетом.

Это похоже на ситуацию, когда ты пришел в сервис с редкой поломкой машины, и два механика-самоучки говорят: "Да это карбюратор", а один опытный инженер твердит про электронику. Ты веришь двоим, потому что их больше, но по факту они просто оба читали одну и ту же кривую инструкцию в сети. В итоге ты тратишь деньги на ненужный ремонт, хотя единственный верный голос был прямо перед тобой, просто он не вписался в общую картину.

Метод Minority Sentinel предлагает перестать играть в голосование и начать искать того самого «одинокого эксперта». Исследователи выяснили, что в 25% случаев, когда модели спорят со счетом 2:1, прав именно тот, кто остался в меньшинстве. Чтобы не слить правильное решение, нужно заставлять агентов не просто голосовать, а аргументировать расхождения. Если одиночка приводит конкретные факты, а большинство отделывается общими фразами, значит, перед нами тот самый случай, когда нужно перевернуть результат и довериться меньшинству.

Этот принцип критически важен везде, где цена ошибки высока: от проверки финансовой модели стартапа до написания сложного кода. Тестировали подход на логических задачах, но логика универсальна — если ты используешь разные нейросети для фактчекинга, никогда не принимай ответ просто по количеству голосов. В сложных вопросах большинство почти всегда ошибается одинаково, и твоя задача — выцепить тот самый сигнал из шума, который противоречит толпе.

Короче: слепое доверие консенсусу нейросетей — это ловушка для ленивых. Если три модели сошлись в ответе, это еще не истина, а если одна из них яростно спорит — это повод присмотреться к ней внимательнее. 1 из 3 может быть умнее большинства, и если ты научишься слышать этого «часового меньшинства», качество твоих решений вырастет на четверть. Не дай склеенным монетам обмануть тебя только потому, что они звенят в унисон.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с