TL;DR
В многоагентных промптах (когда просишь модель симулировать дискуссию нескольких экспертов) уверенность агента в своём ответе — главный фактор, определяющий чья точка зрения победит в финале. Не качество аргументов, не фактическая правота — именно уверенность управляет тем, к кому прислушаются остальные агенты.
Когда просишь Claude или ChatGPT сыграть трёх экспертов и обсудить вопрос, финальный ответ не берёт лучшее от каждого поровну — он неявно "голосует" за самого уверенного. Агент-оптимист с чёткой позицией переубедит сомневающегося скептика, даже если скептик прав. Это работает как сломанный компас: стрелка тянется к громкости, а не к северу.
Исследование формализует почему так происходит: многоагентная дискуссия ведёт себя как система смеси экспертов (Mixture of Experts) — каждый агент получает вес влияния пропорционально своей уверенности. Из этого вытекают два практических вывода: хочешь честного взвешивания разных точек зрения — явно управляй уверенностью агентов; хочешь найти лучший ответ на сложный вопрос — давай агентам разные специализации, чтобы уверенность была сигналом реальной компетентности, а не шумом.
Схема метода
Один промпт, несколько шагов внутри одного запроса:
ШАГ 1: Назначить агентам разные специализации → каждый эксперт в своей нише
ШАГ 2: Каждый агент даёт начальную позицию + явно называет уверенность (0-100%) → видно кто "претендует на победу"
ШАГ 3: Агенты читают позиции друг друга и могут обновить своё мнение → симуляция дискуссии
ШАГ 4: Финальный агент-модератор взвешивает с учётом уверенности → итоговый вывод с объяснением почему
Все шаги — в одном промпте, один запрос к модели.
Пример применения
Задача: Илья запускает подписочный сервис с нейросетями для малого бизнеса. Цена — 3 990 ₽/месяц. Нужно решить: идти через таргет Вконтакте или через партнёрства с бухгалтерскими сервисами типа Контур.
Промпт:
Ты симулируешь совет трёх экспертов. Каждый — профессионал в своей нише,
мыслит из своей специализации.
Эксперт А — Вася Хабаров, специалист по платному трафику и таргету ВКонтакте для B2B SaaS.
Эксперт Б — Марина Соколова, директор по партнёрствам в финтех-стартапах, строила
дистрибуцию через бухгалтерские и ERP-платформы.
Эксперт В — Андрей Коврин, аналитик юнит-экономики, считает всё в цифрах.
Вопрос: стартап запускает ИИ-сервис для малого бизнеса за 3990 ₽/мес.
Что эффективнее на старте — таргет ВКонтакте или партнёрства с Контур/1С?
Формат ответа:
1. Каждый эксперт даёт позицию (3-4 предложения) и называет свою уверенность:
"Уверен на X%" — где X отражает насколько вопрос в его компетенции.
2. Каждый эксперт читает позиции других и может скорректировать свою (1-2 предложения).
3. Модератор взвешивает мнения с учётом уверенности каждого и даёт финальную рекомендацию.
Результат:
Модель покажет три чётких позиции с разными уверенностями — например, Марина будет уверена на 85% (это её ниша), Вася на 70% (таргет работает, но B2B SaaS сложнее). На втором шаге агенты скорректируют позиции: кто-то согласится с чужим аргументом, кто-то останется при своём. Модератор в финале явно объяснит почему рекомендация опирается на эксперта с высокой уверенностью — и ты увидишь логику, а не просто вывод.
Почему это работает
Слабость LLM в многоагентной дискуссии. Когда просишь модель сыграть нескольких персонажей, она не знает кому "доверять больше" — все агенты одинаково синтетические. Без явного сигнала модель тяготеет к уверенно сформулированным позициям, потому что они статистически доминируют в обучающих текстах — так устроен язык. Уверенный тон срабатывает как сигнал авторитета, даже если за ним ничего нет.
Сильная сторона LLM. Модель хорошо следует структурированным инструкциям. Если явно сказать "назови уверенность в процентах" — агент будет её называть, а не замалчивать. Если сказать "модератор взвешивает с учётом уверенности" — модель реально будет это делать. Мы переводим скрытый механизм в явный и управляемый.
Как метод использует это. Разные специализации агентов создают настоящее разнообразие — каждый смотрит на задачу из другого угла, а не просто перефразирует одно и то же. Явная уверенность делает routing прозрачным: вместо "кто громче" — "кто профессиональнее в этом конкретном вопросе". Модератор — это финальный слой, который не позволяет уверенному-но-неправому агенту бесконтрольно победить.
Рычаги управления: - Число агентов → 3 оптимально, 5+ создаёт шум и размывает routing - Специализации → чем конкретнее ниша каждого, тем честнее уверенность - Шкала уверенности → можно попросить не процент, а "высокая/средняя/низкая" — проще читать - Раунды дискуссии → один раунд корректировки достаточно; два — если задача сложная
Шаблон промпта
Симулируй совет трёх экспертов с разными специализациями.
Эксперт А — {имя_А}, специалист по {специализация_А}.
Эксперт Б — {имя_Б}, специалист по {специализация_Б}.
Эксперт В — {имя_В}, специалист по {специализация_В}.
Вопрос: {твой вопрос или задача}
Формат:
1. Каждый эксперт даёт позицию (3-4 предложения) и называет уверенность:
"Уверен на X%" — насколько вопрос в его компетенции.
2. Каждый читает позиции других, при необходимости корректирует свою (1-2 предложения).
3. Модератор агрегирует мнения с учётом уверенности и даёт итоговую рекомендацию
с объяснением логики.
Плейсхолдеры:
- {имя_А/Б/В} — придумай реалистичные имена, модель работает острее с конкретными персонажами
- {специализация_А/Б/В} — выбирай ниши, реально разные и релевантные задаче
- {твой вопрос или задача} — конкретно: не "расскажи о маркетинге", а "что выбрать: X или Y при условии Z"
🚀 Быстрый старт — вставь в чат:
Вот шаблон многоагентного совета с confidence routing.
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит какие специализации нужны и в чём суть задачи — потому что без этого она не сможет подобрать агентов с реальным разнообразием экспертизы. Она возьмёт паттерн из шаблона и адаптирует под твою ситуацию.
Ограничения
⚠️ Уверенный-но-неправый агент: Если один агент сформулирован увереннее других по умолчанию (например, потому что его специализация шире), он может доминировать независимо от качества аргументов. Следи за балансом — давай всем агентам примерно равный "авторитетный" статус в промпте.
⚠️ Однородные агенты: Если специализации пересекаются или недостаточно отличаются (например, "эксперт по маркетингу" и "эксперт по продвижению") — агенты говорят одно и то же разными словами. Дискуссия становится бессмысленной. Польза от многоагентного подхода возникает только при реальном разнообразии точек зрения.
⚠️ Не для субъективных суждений: Метод плохо работает там, где у задачи нет "правильного" ответа и компетентность не различима — например, "какой вариант дизайна красивее?". Confidence routing работает когда есть объективный критерий компетентности.
⚠️ Маленькие задачи: На простых вопросах многоагентный совет — избыточность. "Столица Франции?" не нужен консилиум.
Как исследовали
Исследователи из CISPA (Германия) и Венского университета взяли математическую модель из социальных наук — модель Фридкина-Джонсена, которая описывает как мнения распространяются в социальных сетях — и проверили, описывает ли она поведение LLM-агентов в дискуссии. Оказалось — да, очень точно. Проверили на GPT-4 Mini и других моделях, задачи из MMLU-Pro (сложные академические вопросы), несколько сотен примеров.
Ключевой сюрприз: параметры модели менялись в зависимости от вопроса — то есть система не была статичным ансамблем (где все агенты всегда имеют одинаковый вес), а динамически перераспределяла доверие. Это и есть Mixture of Experts поведение — но без явного обучения роутера, он возникает сам через дискуссию.
Самый наглядный эксперимент: один уверенный агент переубеждал большинство агентов, которые изначально давали неправильный ответ — и итоговый ответ системы становился правильным. Это противоречит интуиции "большинство всегда прав" и показывает почему diversity + calibrated confidence важнее численного перевеса.
Адаптации и экстраполяции
🔧 Техника: явный "красный флаг" агент → принудительная критика
Добавь четвёртого агента с ролью "devil's advocate" и инструкцией: "Твоя уверенность всегда 90%, твоя задача — найти главную слабость в позиции самого уверенного эксперта." Это противодействует эффекту захвата: самый уверенный агент больше не проходит без критики.
Эксперт Г — Критик, задача: найти главную слабость в позиции
самого уверенного из А/Б/В. Уверен в своей критике на 90%.
🔧 Техника: агент-верификатор после финала → проверка качества routing
После рекомендации модератора добавь:
Агент-аудитор: проверь финальную рекомендацию.
Ответь: соответствует ли она реально наиболее уверенному и компетентному эксперту,
или уверенность кого-то была завышена относительно реальной применимости его
специализации к данному вопросу?
Это заставляет модель сделать meta-reflection — проверить не просто ответ, а качество самого процесса routing.
Ресурсы
Multi-Agent Systems are Mixtures of Experts: Who Becomes an Influencer? — Franka Bause, Jonas Niederle, Martin Pawelczyk, Rebekka Burkholz. CISPA Helmholtz Center for Information Security (Саарбрюккен, Германия) & University of Vienna (Австрия), 2025. Препринт.
Ключевые отсылки из работы: Friedkin-Johnsen model of opinion dynamics [Friedkin & Johnsen, 1990]; Society of Mind / multi-agent deliberation [Du et al., 2023]; Self-consistency prompting [Wang et al., 2023].
