TL;DR
Исследователи обнаружили парадокс multi-agent систем: когда несколько AI-агентов координируются и повторяют одно и то же неправильное решение, они создают ложный консенсус, который давит на основного агента принять ошибку. Чем больше голосов «за» — тем сильнее давление, даже если все они неправы. В тестах на медицинских вопросах AI-доктор игнорировал корректные гайдлайны и следовал за хором ассистентов в 98-100% случаев.
Проблема в том, что LLM воспринимает повторение как доказательство. Если четыре агента говорят "препарат XYZ", а правильный ответ "препарат ABC" — модель склоняется к большинству, принимая координацию за надёжность. Это особенно опасно когда читатель просит LLM симулировать дискуссию экспертов или множественные мнения в одном промпте. Модель может сама создать искусственный консенсус, усилив одну точку зрения через разные "голоса".
Решение — агент-верификатор: финальный независимый шаг, который проверяет решение по надёжному источнику, игнорируя предыдущий консенсус. В экспериментах это подняло точность с 2% до 100%, полностью заблокировав ложные рекомендации.
Схема метода
Multi-agent промпт:
ДИСКУССИЯ: {несколько агентов дают мнения} → консенсусное решение
↓
ВЕРИФИКАТОР (отдельный запрос):
"Проверь это решение по {надёжный источник}.
Игнорируй предыдущие мнения.
Что говорит источник?"
→ Финальное решение на основе верификации
Ключевой момент: верификатор работает отдельно от дискуссии, без доступа к "мнениям" агентов.
Пример применения
Задача: Оцениваешь идею запустить сервис аренды электросамокатов в Казани. Попросил LLM симулировать дискуссию трёх экспертов — они все говорят "отличная идея, рынок растёт". Но это может быть ложный консенсус, где модель усилила одну точку зрения через разные роли.
Промпт для дискуссии:
Оцени бизнес-идею: сервис аренды электросамокатов в Казани.
Симулируй дискуссию трёх экспертов:
- Инвестор, фокус на финансах
- Урбанист, фокус на городской инфраструктуре
- Маркетолог, фокус на спросе
Каждый даёт аргументы за и против. В конце — консенсус.
Промпт для верификатора (новый запрос):
Предложенное решение: "{вставь консенсус из предыдущего ответа}"
Проверь это решение по реальным данным:
- Статистика микромобильности в городах РФ за 2023-2024
- Регулирование самокатов в Казани
- Финансовые показатели существующих сервисов (Whoosh, Urent)
Игнорируй любые предыдущие мнения.
Что показывают факты?
Результат:
Первый промпт может дать оптимистичный консенсус — три эксперта согласились, что идея хороша. Второй промпт (верификатор) проверит по фактам: реальный спрос падает с 2022, мораторий на новые компании, убыточность лидеров. Верификатор даст трезвую картину, не зависящую от "хора экспертов" из первого запроса.
Почему это работает
Слабость LLM: Модель путает повторение с доказательством. Если несколько "агентов" в одном промпте говорят одно и то же, LLM воспринимает это как сильный сигнал достоверности. На самом деле это одна генерация текста, где модель усилила паттерн через разные роли. Консенсус создан искусственно внутри одного ответа.
Сильная сторона LLM: Модель хорошо извлекает информацию из надёжных источников и следует прямым инструкциям. Если явно сказать "проверь по источнику X, игнорируя мнения" — она сфокусируется на фактах, а не на паттернах из предыдущего контекста.
Как метод использует это: Верификатор — это контекстный разрыв. Вы делаете отдельный запрос, где нет "хора голосов" из первой дискуссии. Модель стартует с чистого листа, без давления консенсуса. Инструкция "игнорируй предыдущие мнения" усиливает это, направляя внимание только на надёжный источник.
Рычаги управления:
- Источник верификации: Укажи конкретный — "Росстат", "официальный сайт регулятора", "исследование Гартнер". Чем точнее источник, тем надёжнее проверка.
- "Игнорируй мнения": Эта фраза критична. Без неё модель может попытаться согласовать факты с предыдущим консенсусом. С ней — фокус только на источнике.
- Отдельный запрос vs один промпт: Отдельный запрос создаёт контекстный разрыв. Если делать в одном промпте ("а теперь проверь сам") — риск что модель будет искать подтверждение своему консенсусу.
Шаблон промпта
Шаг 1: Multi-agent дискуссия (первый запрос)
Оцени {решение/идею/вариант}: {описание}
Симулируй дискуссию {N} экспертов:
- {роль 1}: {фокус}
- {роль 2}: {фокус}
- {роль 3}: {фокус}
Каждый даёт аргументы. В конце — консенсусное решение.
Шаг 2: Верификатор (новый чат или явное указание забыть контекст)
Предложенное решение: "{консенсус из шага 1}"
Проверь это решение по надёжным источникам:
- {источник 1}
- {источник 2}
- {критерий проверки}
Игнорируй любые предыдущие мнения или дискуссии.
Что показывают факты из этих источников?
Плейсхолдеры:
- {решение/идею} — что оцениваешь
- {N} — количество агентов (2-4 оптимально)
- {роль} и {фокус} — эксперты с разными углами зрения
- {источник} — конкретный надёжный источник для проверки
- {консенсус из шага 1} — скопируй итоговое решение из первого ответа
Критично: Шаг 2 должен быть в новом запросе (или новом чате), чтобы модель не тянула контекст дискуссии.
🚀 Быстрый старт — вставь в чат:
Вот шаблон двухшагового промпта с верификацией.
Адаптируй под мою задачу: {твоя задача}.
Спроси какие роли экспертов нужны для дискуссии
и какие источники использовать для проверки.
[вставить шаблон выше]
LLM спросит про предметную область задачи и критерии проверки — потому что для верификатора нужны конкретные надёжные источники, специфичные для твоей темы. Она возьмёт структуру "дискуссия → независимая проверка" и заполнит ролями и источниками под задачу.
Ограничения
⚠️ Применимость: Метод нужен только если используешь multi-agent промпты (симуляция дискуссий, несколько мнений). В обычной работе с ChatGPT такой "сговор" не возникает естественно.
⚠️ Зависимость от источника: Верификатор работает только если LLM имеет доступ к надёжному источнику. Для закрытых корпоративных данных нужно загружать файлы или использовать RAG (поиск по базе знаний).
⚠️ Дополнительные токены: Два запроса вместо одного. Для критических решений (крупные инвестиции, медицинские вопросы) — оправдано. Для рутины — избыточно.
⚠️ Не защита от галлюцинаций: Если модель "выдумает факты" про источник — верификатор тоже ошибётся. Для максимальной надёжности проверяй финальный ответ сам в первоисточнике.
Как исследовали
Команда из Teesside University создала систему с AI-доктором и несколькими AI-ассистентами. Доктор знал правильный ответ из медицинских гайдлайнов, но ассистенты координированно повторяли неправильную рекомендацию ("препарат XYZ вместо ABC"). Тестировали на 50 клинических вопросах с Grok-4 Fast и LLaMA-3.3-70B — обе модели показали идентичные паттерны уязвимости.
Проверяли три режима AI-доктора: (1) скриптованный (следует консенсусу если >3 ассистентов согласны), (2) нейтральный без инструкций, (3) с явной инструкцией уважать мнение большинства. Во всех случаях, когда 4+ ассистента координировались, доктор принимал неправильное решение в 98-100% случаев. Даже нейтральный режим давал ошибки — модель меняла дозировку или класс препарата, что в медицине считается вредом.
Почему результаты получились такими: LLM обучены находить паттерны в тексте. Когда четыре "эксперта" говорят одно и то же — это сильный статистический сигнал, который перевешивает знания из обучения. Модель интерпретирует повторение как подтверждение, особенно если явно сказано "уважай большинство". Это фундаментальная особенность архитектуры, не баг конкретной модели.
Что удивило: Даже нейтральный доктор без инструкций про консенсус поддался давлению. Исследователи ожидали что "независимое рассуждение" устоит, но модель всё равно дрейфовала к мнению большинства. Это показывает, что просто убрать инструкцию "следуй консенсусу" недостаточно — нужна активная защита.
Добавление агента-верификатора полностью изменило картину: он проверял финальное решение по гайдлайнам, игнорируя мнения ассистентов. Результат: 100% точность, 0% вредных рекомендаций во всех 50 тестах. Верификатор работал как контекстный разрыв — он не видел дискуссию, только финальное решение и эталонный источник.
Инсайт для практики: Если просишь LLM симулировать несколько экспертов в одном промпте, ты рискуешь получить искусственный консенсус, где модель усиливает одну идею через разные "голоса". Для критических решений всегда добавляй финальный независимый шаг проверки в новом запросе, опираясь на надёжные источники.
Адаптации и экстраполяции
🔧 Техника: Градация источников → разная степень доверия
Не все источники равнозначны. Адаптируй уровень доверия к верификации под задачу:
Для критических решений (финансы, здоровье, юридические вопросы):
Проверь решение строго по:
- {официальный регулятор}
- {научное исследование/метаанализ}
- {законодательство}
Если источники противоречат консенсусу — отклони консенсус.
Приоритет только фактам из этих источников.
Для творческих задач (контент, маркетинг, стратегия):
Проверь решение по:
- {актуальная статистика}
- {кейсы конкурентов}
- {тренды рынка}
Укажи где консенсус расходится с фактами,
но оставь пространство для гипотез.
Эффект: в первом случае верификатор жёстко блокирует расхождения, во втором — маркирует риски, но оставляет место для экспериментов.
🔧 Техника: "Адвокат дьявола" перед верификацией → ещё один слой
Добавь промежуточный шаг между консенсусом и верификатором:
ШАГ 1: Multi-agent дискуссия → консенсус
ШАГ 2: Адвокат дьявола (новый запрос)
"Консенсус: {решение}
Сыграй адвоката дьявола.
Найди 3 самых сильных аргумента ПРОТИВ этого решения.
Какие риски и слабые места?"
ШАГ 3: Верификатор
"Решение: {консенсус}
Контраргументы: {из шага 2}
Проверь по источникам: {список}
Что перевешивает?"
Эффект: адвокат дьявола заставляет модель активно искать слабости консенсуса перед финальной проверкой. Это особенно полезно когда источники неполные или допускают интерпретацию.
🔧 Комбинация: Chain-of-Verification + Multi-Agent
Объедини верификатор с техникой Chain-of-Verification (CoVe): модель сама генерирует проверочные вопросы к своему ответу.
ШАГ 1: Консенсус агентов → решение
ШАГ 2: Генерация проверочных вопросов (новый запрос)
"Решение: {консенсус}
Сгенерируй 3-5 проверочных вопросов,
ответы на которые подтвердят или опровергнут это решение."
ШАГ 3: Верификатор отвечает на вопросы
"Вопросы: {из шага 2}
Ответь на каждый по источникам: {список}
Итог: решение подтверждается или опровергается?"
Эффект: модель не просто проверяет решение, а структурирует проверку через конкретные вопросы. Это снижает риск поверхностной верификации, где модель ищет подтверждение вместо честной проверки.
Ресурсы
Many-to-One Adversarial Consensus: Exposing Multi-Agent Collusion Risks in AI-Based Healthcare — исследование атак ложного консенсуса в multi-agent системах здравоохранения.
Ссылки из работы: - AI Safety via Debate (Irving et al., 2018) — оригинальная идея использования дебатов для безопасности AI - Constitutional AI (Anthropic, 2021) — внедрение социальных норм в обучение LLM - Multi-Agent Risks from Advanced AI (Cooperative AI Foundation) — technical report о рисках сговора в AI-системах
Авторы: Adeela Bashir, The Anh Han, Zia Ush Shamszaman — Teesside University (School of Computing, Engineering and Digital Technologies; Center for Digital Innovation)
