TL;DR
Когда ты просишь LLM проанализировать вопрос сразу с нескольких точек зрения, давая всем "экспертам" одинаковые данные — они приходят к одному выводу. Не потому что он правильный, а потому что у них буквально одинаковые исходные данные. Это называется стадный эффект: видимость дискуссии без реальной проверки.
Главная находка: многоагентная дискуссия с одинаковой информацией у всех агентов ни лучше, ни хуже одного агента. Ошибки коррелируют на 60%+ — агенты буквально делают одинаковые промахи. Чем больше агентов с одними данными, тем сильнее они друг друга убеждают в одном (неправильном) ответе. Никакое усложнение промптов не помогает: добавь больше шагов рассуждения на плохих данных — получишь более уверенно ошибочный ответ.
InfoDelphi решает это через спроектированную информационную асимметрию: каждый агент получает уникальный срез данных плюс общую базу для общего языка. Затем агенты обмениваются не просто выводами, а рассуждениями — это единственный способ передать приватную информацию другому агенту. Итог: два раунда дискуссии, финальное взвешивание по уверенности.
Схема метода
(Всё работает в одном промпте)
ПОДГОТОВКА: Раздели источники
└── Общий пул (~50%) → все три агента видят эти
└── Приватный срез А → только Агент 1
└── Приватный срез Б → только Агент 2
└── Приватный срез В → только Агент 3
РАУНД 1: Независимые прогнозы
└── Каждый агент → вероятность + рассуждение на основе СВОИХ источников
РАУНД 2: Дискуссия с чужими рассуждениями
└── Каждый агент читает рассуждения двух других → пересматривает вывод
АГРЕГАЦИЯ: Взвешенный итог
└── Агенты с более крайними оценками получают больший вес
└── Финальный вывод → единый ответ
Пример применения
Задача: Ты — копирайтер-фрилансер. Думаешь поднять ценник с 3 000 до 5 000 рублей за текст. Собрал 9 артефактов: отзывы клиентов, переписки про бюджеты, посты конкурентов с прайсами, обсуждения в телеграм-чате «Биржа копирайтеров», статистику по рынку. Нужен честный прогноз — уйдут ли клиенты или останутся?
Промпт:
Вопрос: Стоит ли поднять ставку с 3 000 до 5 000 рублей за текст?
Ты играешь роль трёх аналитиков. У каждого — разные данные.
ОБЩИЙ КОНТЕКСТ (видят все трое):
[Вставь 3 самых релевантных источника — например, общую статистику рынка копирайтинга]
АНАЛИТИК 1 — Клиентские сигналы:
[Вставь: отзывы клиентов, переписки про бюджеты, благодарности / жалобы на цену]
АНАЛИТИК 2 — Рыночное позиционирование:
[Вставь: прайсы конкурентов, посты с ценами в профессиональных чатах]
АНАЛИТИК 3 — Отраслевой контекст:
[Вставь: обсуждения в чатах «Биржа копирайтеров», статьи о ценообразовании]
---
РАУНД 1. Каждый аналитик — независимо:
- Прогноз: клиентская база сохранится? (Да / Нет)
- Вероятность: 0–100%
- Рассуждение: только на основе своих источников
- Уверенность: Высокая / Средняя / Низкая
РАУНД 2. Каждый аналитик читает выводы двух других:
- Пересматривает свой прогноз
- Объясняет: что изменилось и почему — или почему остаётся при своём
ИТОГ. На основе трёх финальных прогнозов:
Дай взвешенный вывод. Агентам с высокой уверенностью и крайними оценками — больший вес.
Финал: стоит поднимать? → вероятность сохранения клиентской базы: __%
Результат:
Модель покажет три независимых раунда: каждый агент формулирует вывод только из своих данных — клиентские сигналы, рыночные ориентиры, отраслевой контекст. В раунде 2 агенты увидят чужие рассуждения и либо скорректируют оценку, либо усилят её с объяснением. В итоге — взвешенный вывод с логикой, а не просто «стоит / не стоит».
Почему это работает
Слабость LLM: Когда все агенты получают одинаковые данные, модель генерирует похожие паттерны рассуждений — ведь входной контекст одинаковый. Итог: три агента приходят к одному выводу. Это не потому что они «согласились», а потому что у них буквально одинаковые стартовые условия. Ошибки коррелируют — агенты ошибаются вместе, в одну сторону.
Сильная сторона LLM: Модель хорошо следует ролям с чёткими инструкциями, хорошо извлекает выводы из конкретного текста, хорошо переформулирует чужую логику. Если дать агентам разные данные, они физически не могут прийти к одинаковому выводу — у них разные основания.
Как метод использует это: Приватные срезы данных создают реальное разнообразие позиций. Общий пул даёт общий язык для общения. Обмен рассуждениями (а не просто цифрами) позволяет передать знание из приватного среза другому агенту: агент 1 не видел клиентские отзывы, но прочитал рассуждение агента 2 — это лучше, чем ничего.
Рычаги управления: - Размер общего пула (50% по умолчанию) → уменьши до 30% для максимальной независимости агентов; увеличь до 70%, если хочешь больше согласованности - Число раундов (2 по умолчанию) → не делай 3+: агенты начинают сходиться к консенсусу и теряют разнообразие - Веса по уверенности → убери взвешивание, если хочешь демократичный усреднённый вывод - Размер приватных срезов → чем конкретнее и разнороднее источники в разных срезах, тем сильнее эффект
Шаблон промпта
Вопрос: {вопрос}
Ты играешь роль трёх аналитиков. У каждого — разные данные.
ОБЩИЙ КОНТЕКСТ (видят все трое):
{общие_источники — самые релевантные для общего понимания}
АНАЛИТИК 1 — {роль_1, например: «Пользовательский опыт»}:
{источники_1 — тексты, скриншоты, данные}
АНАЛИТИК 2 — {роль_2, например: «Рыночный контекст»}:
{источники_2}
АНАЛИТИК 3 — {роль_3, например: «Отраслевые тренды»}:
{источники_3}
---
РАУНД 1. Каждый аналитик — независимо:
- Прогноз: {формат_ответа, например: «Да/Нет»}
- Вероятность: 0–100%
- Рассуждение: только из своих источников
- Уверенность: Высокая / Средняя / Низкая
РАУНД 2. Каждый аналитик читает выводы двух других:
- Пересматривает прогноз
- Объясняет: что изменилось — или почему остаётся при своём
ИТОГ. Взвешенный вывод:
Агентам с высокой уверенностью и крайними оценками — больший вес.
Финальный ответ: {вопрос} → {формат_итога}%
Плейсхолдеры:
- {вопрос} — конкретный бинарный или открытый вопрос с чётким критерием
- {общие_источники} — 2-3 самых релевантных куска текста, которые дают "общий язык"
- {источники_1/2/3} — разные источники: статьи, переписки, отзывы, данные
- {роль_1/2/3} — дай осмысленные роли, которые отражают характер данных
- {формат_итога} — "вероятность успеха", "рекомендация", "итоговая оценка"
🚀 Быстрый старт — вставь в чат:
Вот шаблон InfoDelphi — мультиагентный анализ с разными данными у каждого агента.
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить все поля.
[вставить шаблон выше]
LLM спросит: какой вопрос ты хочешь проанализировать, какие источники или данные у тебя есть, как их лучше разбить по ролям — потому что без конкретных срезов данных асимметрия не работает. Она возьмёт паттерн шаблона и соберёт промпт под твои материалы.
Ограничения
⚠️ Нужны реальные отдельные источники: Метод не работает, если у тебя один текст или один большой документ. Нечего делить — нет асимметрии. Работает лучше всего, когда у тебя 6-10+ разнородных материалов: статьи, отзывы, данные из разных источников.
⚠️ Более двух раундов — хуже: Третий раунд снижает качество — агенты начинают сходиться к групповому консенсусу вместо независимых оценок. Используй ровно 2 раунда.
⚠️ Слишком мало общего контекста ломает коммуникацию: Если агенты не имеют общих оснований, они не могут интерпретировать рассуждения друг друга. Около 50% данных должны быть общими.
⚠️ Для субъективных и творческих задач — слабее: Метод создавался для задач с правильным ответом (прогнозы, факты, решения с критериями). Для оценки "красивого текста" или "интересной идеи" разнообразие данных не так критично.
⚠️ Полная автоматизация требует кода: Исследование реализовывало маршрутизацию доказательств через BM25-ранжирование программно. В чате ты делаешь это вручную — распределяешь источники сам. Это нормально для 1-2 задач, но трудоёмко в потоке.
Ресурсы
Статья: Diverse Evidence, Better Forecasts: Multi-Agent Deliberation Under Information Asymmetry
Авторы: Yuante Li, Yicheng Tao, Kate Zhang, Taozhi Wang, Gefei Gu, Yaxin Zhou — Carnegie Mellon University (School of Computer Science + College of Engineering)
Связанные концепции: Delphi method (Dalkey, 1969) — человеческий прообраз метода; Mixture-of-Agents (Wang et al., 2024); Superforecaster prompting (Karger et al., 2024)
Бенчмарк: POLYGYM — 375 бинарных вопросов из Polymarket, polymarket.com
