TL;DR
Scalable Delphi — техника оценки вероятностей через виртуальную панель экспертов. Одна LLM играет роли нескольких специалистов с разными взглядами, каждый независимо оценивает вероятность события и объясняет почему. Модератор (та же LLM) обобщает аргументы без указания авторов. Во втором раунде эксперты видят чужие доводы и корректируют оценки. Финальная цифра — среднее от панели.
Одна LLM даёт узкий диапазон оценок — модель склонна возвращаться к одному ответу даже при повторных запросах. Если попросить оценить вероятность успеха атаки 5 раз подряд, получишь 42%, 43%, 41%, 42%, 43% — иллюзия точности при реальной неопределённости. Проблема в mode collapse: модель находит одно правдоподобное объяснение и держится за него. Реальные эксперты с разным опытом дали бы 25%, 50%, 60% — и этот разброс показывает настоящую неопределённость.
Метод борется через разнообразие персон и обмен аргументами. Пять экспертов с разными специализациями (пентестер, защитник инфраструктуры, исследователь) видят задачу по-разному и дают разные оценки. Модератор извлекает аргументы за высокие и низкие значения. Во втором раунде эксперты читают чужие доводы и корректируют позицию — как в реальном Delphi, только за минуты вместо месяцев.
Схема метода
РАУНД 1 (независимые оценки):
→ 5 экспертов с разными ролями
→ Каждый получает задачу и данные
→ Каждый даёт оценку + обоснование
МОДЕРАТОР (синтез):
→ Обобщает оценки (мин, макс, среднее)
→ Извлекает аргументы за/против
→ Убирает имена экспертов
РАУНД 2 (коррекция):
→ Эксперты видят обобщение
→ Пересматривают оценку с учётом аргументов
→ Дают финальную цифру
РЕЗУЛЬТАТ:
→ Среднее от 5 экспертов
→ Разброс показывает неопределённость
Всё происходит в промптах, без кода. Можно делать вручную в чате или автоматизировать через API.
Пример применения
Задача: Оцениваешь вероятность успешного запуска нового сервиса доставки в Екатеринбурге к июню. Есть данные: конкуренты (Яндекс.Еда,Deliveryclub), бюджет 15 млн рублей, команда 8 человек, MVP готов на 60%.
Промпт (Раунд 1, Эксперт 1 — операционист):
Ты — эксперт по операционной логистике с опытом запуска локальных сервисов доставки.
Задача: оценить вероятность (0-100%) успешного запуска сервиса доставки в Екатеринбурге к июню.
Данные:
- Конкуренты: Яндекс.Еда, Deliveryclub — 80% рынка
- Бюджет: 15 млн рублей
- Команда: 8 человек (2 разработчика, 3 операциониста, 2 маркетолога, 1 CEO)
- MVP готов на 60%
- Текущий месяц: март
- Критерии успеха: 500 активных пользователей/месяц, работающая инфраструктура
Дай:
1. Оценку вероятности (число 0-100)
2. Диапазон уверенности (например, 40-60%)
3. Обоснование на 3-4 предложения
Формат ответа:
Оценка: [число]
Диапазон: [мин-макс]
Обоснование: [текст]
Повтори для Эксперта 2 (маркетолог), Эксперта 3 (инвестор), Эксперта 4 (разработчик), Эксперта 5 (предприниматель с опытом неудач).
Промпт (Модератор):
Ты — модератор панели экспертов. Получил 5 оценок вероятности успешного запуска сервиса доставки.
[вставь ответы 5 экспертов]
Создай обобщение для второго раунда:
1. Статистика оценок (мин, макс, среднее, медиана)
2. Ключевые аргументы ЗА высокую вероятность
3. Ключевые аргументы ПРОТИВ (за низкую вероятность)
4. Точки согласия и разногласия
НЕ указывай кто из экспертов что сказал.
Формат: короткие списки, без воды.
Промпт (Раунд 2, все эксперты):
Ты — [роль эксперта как в Раунде 1].
Напоминание задачи: [задача]
Твоя оценка в Раунде 1: [число]
Твоё обоснование: [текст]
Обобщение от других экспертов:
[вставь текст от модератора]
С учётом аргументов коллег, пересмотри оценку.
Можешь оставить прежнюю, если аргументы не убедили.
Формат:
Финальная оценка: [число]
Изменение: [оставил прежнюю / повысил / понизил]
Почему: [1-2 предложения]
Результат:
Получишь 5 финальных оценок (например: 35%, 48%, 52%, 40%, 30%) + обоснования изменений. Среднее = 41% с разбросом 30-52% — видна реальная неопределённость, не иллюзорная точность.
Почему это работает
LLM склонна к mode collapse при повторных запросах — находит одно правдоподобное объяснение и возвращает похожие ответы. Если спросить "какова вероятность X?" 10 раз, получишь 10 близких чисел с разными формулировками одной логики. Это создаёт ложное чувство определённости: узкий диапазон оценок выглядит как точность, но на деле просто отражает один путь рассуждений модели.
Разные персоны активируют разные паттерны в знаниях модели. Пентестер фокусируется на технических уязвимостях, бизнес-консультант — на рыночных рисках, исследователь — на новых векторах атак. Та же LLM в разных ролях честно даёт разные оценки, потому что роль задаёт фильтр: на какие факторы смотреть, какой опыт считать релевантным, какие риски весомее. Это не притворство — модель реально синтезирует разные срезы своих знаний.
Обмен аргументами запускает обновление. Когда эксперт видит довод которого не учёл ("конкуренты контролируют поставщиков курьеров"), он может пересмотреть оценку не потому что "надо согласиться", а потому что действительно пропустил фактор. Модератор убирает имена — важен аргумент, не авторитет. Финальное среднее учитывает больше факторов чем любая одна персона.
Рычаги управления:
- Число экспертов (3-7): больше = шире диапазон, но diminishing returns после 5-6
- Персоны: конкретные (не "эксперт 1", а "CTO стартапа с опытом неудач") дают острее расхождения
- Раунды (1-3): второй раунд даёт основной прирост, третий почти не меняет — экономь токены
- Критерии успеха: чем конкретнее (не "успех", а "500 пользователей к июню"), тем уже разброс оценок
Шаблон промпта
Раунд 1 — Эксперт:
Ты — {роль_эксперта_с_конкретным_опытом}.
Задача: оценить вероятность (0-100%) {события}.
Данные:
{факторы_релевантные_задаче}
Дай:
1. Оценку вероятности (число 0-100)
2. Диапазон уверенности (мин-макс)
3. Обоснование (3-4 предложения: главные факторы ЗА и ПРОТИВ)
Формат:
Оценка: [число]
Диапазон: [мин-макс]
Обоснование: [текст]
Модератор:
Ты — модератор панели экспертов. Получил {N} оценок по задаче: {задача}.
Ответы экспертов:
{вставить_все_ответы}
Создай обобщение:
1. Статистика оценок (мин, макс, среднее, медиана)
2. Аргументы ЗА высокую вероятность (2-3 главных)
3. Аргументы ПРОТИВ (2-3 главных)
4. Точки разногласия (где и почему мнения разошлись)
НЕ указывай кто что сказал. Короткие списки.
Раунд 2 — Эксперт (корректировка):
Ты — {роль_как_в_раунде_1}.
Задача: {повтор_задачи}
Твоя оценка Раунд 1: {число}
Твоё обоснование: {текст}
Обобщение от других экспертов:
{текст_от_модератора}
Пересмотри оценку с учётом аргументов коллег.
Можешь оставить прежнюю если не убедили.
Формат:
Финальная оценка: [число]
Изменение: [оставил/повысил/понизил]
Почему: [1-2 предложения]
Плейсхолдеры:
- {роль_эксперта_с_конкретным_опытом} — не "эксперт 1", а "руководитель отдела кибербезопасности банка" или "пентестер с 10-летним опытом"
- {события} — конкретное измеримое событие с критериями успеха
- {факторы} — данные релевантные оценке (цифры, контекст, ограничения)
- {N} — число экспертов (обычно 5)
🚀 Быстрый старт — вставь в чат:
Помоги организовать Scalable Delphi для моей задачи: {твоя_задача}.
1. Предложи 5 ролей экспертов с разными взглядами
2. Создай промпты для Раунда 1 под каждого эксперта
3. Создай промпт для модератора
4. Создай промпты для Раунда 2
Вот шаблон метода:
[вставить все три шаблона выше]
LLM спросит детали задачи и критерии успеха, потому что от этого зависят роли экспертов. Например, для оценки технического риска нужны разработчик + тестировщик + DevOps, а для бизнес-риска — маркетолог + финансист + операционист.
Ограничения
⚠️ Переоценка при слабых данных: Если исходные данные скудные или неструктурированные, все персоны могут сойтись на одной (неверной) логике. Метод усиливает сигнал из данных — если сигнала нет, усиливать нечего.
⚠️ Не для простых фактов: "Какая столица Австралии?" — одна LLM ответит точно, панель экспертов избыточна. Метод для задач с настоящей неопределённостью: прогнозы, риски, стратегические решения.
⚠️ Трудозатраты при ручном выполнении: Панель из 5 экспертов × 2 раунда = 10 запросов + модератор = 11 промптов для одной оценки. В чате это утомительно. Через API — автоматизируется легко, но это уже не "быстро в чате".
⚠️ Иллюзия независимости: Все эксперты — одна модель. Если модель системно ошибается (недооценивает киберриски), все персоны унаследуют смещение. Разнообразие персон снижает смещение внутри одной модели, но не компенсирует слепые зоны самой модели.
Как исследовали
Команда из CISPA протестировала метод на задачах кибербезопасности — области где нужно оценивать вероятности которые нельзя измерить напрямую. Взяли три бенчмарка с известными результатами: BountyBench (успешность AI-агентов в поиске уязвимостей), Cybench (решение CTF-задач), CyberGym (создание эксплойтов). Для каждого бенчмарка есть ground truth: какой процент задач решил каждый агент.
Задача-ловушка: скрыли результат одного агента и попросили LLM-панель предсказать его, давая описание агента и результаты остальных. Если LLM просто угадывает — корреляция с реальностью будет низкой. Если рассуждает — оценки должны коррелировать с фактами.
Результат удивил силой корреляции: Pearson r = 0.87–0.95 across benchmarks. Это значит LLM не просто близко угадала, а уловила паттерн сложности задач. Например, если агент А сильнее агента Б на эксплуатации уязвимостей, LLM это увидела по описаниям и правильно расставила оценки. Простой baseline ("среднее по остальным агентам") показал r = –1.0 на некоторых бенчмарках — идеально неправильно, потому что усреднение систематически ошибается.
Чувствительность к информации: давали информацию дозированно. Только цифры без названий агентов → корреляция низкая или отрицательная. Добавили названия моделей (GPT-4o, Claude Sonnet) → корреляция выросла до 0.85+. Почему это важно: подтверждает что LLM рассуждает об агентах ("GPT-4o сильнее в код-ревью чем o3-mini"), а не угадывает по статистическим артефактам.
Сравнение с людьми: независимая группа исследователей (Murray et al., 2025) собрала две панели реальных экспертов по кибербезопасности, задала те же вопросы. Две человеческие панели разошлись на 16.6 процентных пункта в среднем — эксперты не согласны друг с другом! GPT-5.1 оказался ближе к Панели A (5.0 pp разницы), чем Панель A к Панели B. Это не значит "LLM правильнее людей" — ground truth неизвестен. Но значит что LLM-оценки в пределах разброса компетентных экспертов, не в фантазиях.
Почему кибербезопасность? Удобный домен для проверки: (1) есть бенчмарки с фактами, (2) есть независимые человеческие оценки, (3) задачи действительно неопределённые — никто не знает точно, насколько опасен новый класс атак. Если метод работает здесь, экстраполируется на другие области с такой же структурой неопределённости.
Адаптации и экстраполяции
🔧 Техника: асинхронные раунды вместо синхронных
Оригинальный Delphi требует ждать всех экспертов перед следующим раундом. В чате можно делать асинхронно: Эксперт 1 дал оценку → сразу запускаешь Раунд 2 для него с аргументами которые уже есть → параллельно Эксперт 2 завершает Раунд 1. Экономит время при ручной работе.
Изменённый workflow:
Параллельные треды:
Чат 1: Эксперт 1 Раунд 1 → видит частичное обобщение → Раунд 2
Чат 2: Эксперт 2 Раунд 1 → видит обновлённое обобщение → Раунд 2
...
Модератор обновляет обобщение после каждого нового ответа
Финальное среднее можешь считать сам в Excel/калькуляторе.
🔧 Техника: взвешивание экспертов по уверенности
Оригинал усредняет всех поровну. Но если Эксперт 1 дал диапазон 40-60% (высокая неопределённость), а Эксперт 2 дал 48-52% (уверен), можешь взвесить:
Вес = 1 / (ширина диапазона)
Эксперт 1: диапазон 20 → вес 0.05
Эксперт 2: диапазон 4 → вес 0.25
Взвешенное среднее = (оценка₁ × вес₁ + оценка₂ × вес₂) / (вес₁ + вес₂)
Даёшь больший вес экспертам которые уверены в своей оценке.
🔧 Техника: добавь "красную команду"
Классическая панель стремится к консенсусу. Добавь одного эксперта-скептика с явной инструкцией:
Ты — критик-скептик в панели. Твоя роль: искать слабые места в оптимистичных оценках.
Если большинство даёт высокую вероятность успеха, ищи риски которые недооценили.
Если большинство пессимистично, ищи возможности которые упустили.
Давай НИЗКУЮ оценку если остальные дают высокую, и наоборот.
Обоснуй почему консенсус может ошибаться.
Это не испортит среднее если скептик неправ, но подсветит риски группового мышления если все эксперты сошлись слишком быстро.
Ресурсы
Scalable Delphi: Large Language Models for Structured Risk Estimation
Tobias Lorenz, Mario Fritz
CISPA Helmholtz Center for Information Security, Germany
Preprint, February 2026
Отсылки из исследования: - Оригинальный метод Delphi: Dalkey & Helmer (1963) - Structured expert judgment в высокорисковых доменах: Cooke (1991), Bedford & Cooke (2001) - Human expert elicitation study: Murray et al. (2025) - Benchmarks: BountyBench (Zhang et al., 2025a), Cybench (Zhang et al., 2025b), CyberGym (Wang et al., 2025)
