3,583 papers
arXiv:2602.08889 76 9 фев. 2026 г. FREE

Scalable Delphi: экспертная панель из одной LLM для оценки рисков

КЛЮЧЕВАЯ СУТЬ
Спроси LLM оценить вероятность события 5 раз подряд — получишь 42%, 43%, 41%, 42%, 43%. Узкий диапазон выглядит как точность, но это иллюзия: модель просто нашла одно объяснение и держится за него (mode collapse). Реальная неопределённость куда шире — от 25% до 60%. Scalable Delphi позволяет получить честную оценку неопределённости через виртуальную панель экспертов. Одна LLM играет роли 5 специалистов с разным опытом, каждый даёт независимую оценку. Модератор обобщает аргументы без имён. Во втором раунде эксперты видят чужие доводы и корректируют позицию. Фишка: разные персоны активируют разные срезы знаний модели. Пентестер фокусируется на технических дырах, инвестор — на рыночных рисках, операционист — на логистике. Результат: 30%, 48%, 52%, 40%, 35% — видна реальная неопределённость, не один путь рассуждений.
Адаптировать под запрос

TL;DR

Scalable Delphi — техника оценки вероятностей через виртуальную панель экспертов. Одна LLM играет роли нескольких специалистов с разными взглядами, каждый независимо оценивает вероятность события и объясняет почему. Модератор (та же LLM) обобщает аргументы без указания авторов. Во втором раунде эксперты видят чужие доводы и корректируют оценки. Финальная цифра — среднее от панели.

Одна LLM даёт узкий диапазон оценок — модель склонна возвращаться к одному ответу даже при повторных запросах. Если попросить оценить вероятность успеха атаки 5 раз подряд, получишь 42%, 43%, 41%, 42%, 43% — иллюзия точности при реальной неопределённости. Проблема в mode collapse: модель находит одно правдоподобное объяснение и держится за него. Реальные эксперты с разным опытом дали бы 25%, 50%, 60% — и этот разброс показывает настоящую неопределённость.

Метод борется через разнообразие персон и обмен аргументами. Пять экспертов с разными специализациями (пентестер, защитник инфраструктуры, исследователь) видят задачу по-разному и дают разные оценки. Модератор извлекает аргументы за высокие и низкие значения. Во втором раунде эксперты читают чужие доводы и корректируют позицию — как в реальном Delphi, только за минуты вместо месяцев.

🔬

Схема метода

РАУНД 1 (независимые оценки):
→ 5 экспертов с разными ролями
→ Каждый получает задачу и данные
→ Каждый даёт оценку + обоснование

МОДЕРАТОР (синтез):
→ Обобщает оценки (мин, макс, среднее)
→ Извлекает аргументы за/против
→ Убирает имена экспертов

РАУНД 2 (коррекция):
→ Эксперты видят обобщение
→ Пересматривают оценку с учётом аргументов
→ Дают финальную цифру

РЕЗУЛЬТАТ:
→ Среднее от 5 экспертов
→ Разброс показывает неопределённость

Всё происходит в промптах, без кода. Можно делать вручную в чате или автоматизировать через API.

🚀

Пример применения

Задача: Оцениваешь вероятность успешного запуска нового сервиса доставки в Екатеринбурге к июню. Есть данные: конкуренты (Яндекс.Еда,Deliveryclub), бюджет 15 млн рублей, команда 8 человек, MVP готов на 60%.

Промпт (Раунд 1, Эксперт 1 — операционист):

Ты — эксперт по операционной логистике с опытом запуска локальных сервисов доставки.

Задача: оценить вероятность (0-100%) успешного запуска сервиса доставки в Екатеринбурге к июню.

Данные:
- Конкуренты: Яндекс.Еда, Deliveryclub — 80% рынка
- Бюджет: 15 млн рублей
- Команда: 8 человек (2 разработчика, 3 операциониста, 2 маркетолога, 1 CEO)
- MVP готов на 60%
- Текущий месяц: март
- Критерии успеха: 500 активных пользователей/месяц, работающая инфраструктура

Дай:
1. Оценку вероятности (число 0-100)
2. Диапазон уверенности (например, 40-60%)
3. Обоснование на 3-4 предложения

Формат ответа:
Оценка: [число]
Диапазон: [мин-макс]
Обоснование: [текст]

Повтори для Эксперта 2 (маркетолог), Эксперта 3 (инвестор), Эксперта 4 (разработчик), Эксперта 5 (предприниматель с опытом неудач).

Промпт (Модератор):

Ты — модератор панели экспертов. Получил 5 оценок вероятности успешного запуска сервиса доставки.

[вставь ответы 5 экспертов]

Создай обобщение для второго раунда:
1. Статистика оценок (мин, макс, среднее, медиана)
2. Ключевые аргументы ЗА высокую вероятность
3. Ключевые аргументы ПРОТИВ (за низкую вероятность)
4. Точки согласия и разногласия

НЕ указывай кто из экспертов что сказал.
Формат: короткие списки, без воды.

Промпт (Раунд 2, все эксперты):

Ты — [роль эксперта как в Раунде 1].

Напоминание задачи: [задача]

Твоя оценка в Раунде 1: [число]
Твоё обоснование: [текст]

Обобщение от других экспертов:
[вставь текст от модератора]

С учётом аргументов коллег, пересмотри оценку.
Можешь оставить прежнюю, если аргументы не убедили.

Формат:
Финальная оценка: [число]
Изменение: [оставил прежнюю / повысил / понизил]
Почему: [1-2 предложения]

Результат:

Получишь 5 финальных оценок (например: 35%, 48%, 52%, 40%, 30%) + обоснования изменений. Среднее = 41% с разбросом 30-52% — видна реальная неопределённость, не иллюзорная точность.

🧠

Почему это работает

LLM склонна к mode collapse при повторных запросах — находит одно правдоподобное объяснение и возвращает похожие ответы. Если спросить "какова вероятность X?" 10 раз, получишь 10 близких чисел с разными формулировками одной логики. Это создаёт ложное чувство определённости: узкий диапазон оценок выглядит как точность, но на деле просто отражает один путь рассуждений модели.

Разные персоны активируют разные паттерны в знаниях модели. Пентестер фокусируется на технических уязвимостях, бизнес-консультант — на рыночных рисках, исследователь — на новых векторах атак. Та же LLM в разных ролях честно даёт разные оценки, потому что роль задаёт фильтр: на какие факторы смотреть, какой опыт считать релевантным, какие риски весомее. Это не притворство — модель реально синтезирует разные срезы своих знаний.

Обмен аргументами запускает обновление. Когда эксперт видит довод которого не учёл ("конкуренты контролируют поставщиков курьеров"), он может пересмотреть оценку не потому что "надо согласиться", а потому что действительно пропустил фактор. Модератор убирает имена — важен аргумент, не авторитет. Финальное среднее учитывает больше факторов чем любая одна персона.

Рычаги управления:

  • Число экспертов (3-7): больше = шире диапазон, но diminishing returns после 5-6
  • Персоны: конкретные (не "эксперт 1", а "CTO стартапа с опытом неудач") дают острее расхождения
  • Раунды (1-3): второй раунд даёт основной прирост, третий почти не меняет — экономь токены
  • Критерии успеха: чем конкретнее (не "успех", а "500 пользователей к июню"), тем уже разброс оценок
📋

Шаблон промпта

Раунд 1 — Эксперт:

Ты — {роль_эксперта_с_конкретным_опытом}.

Задача: оценить вероятность (0-100%) {события}.

Данные:
{факторы_релевантные_задаче}

Дай:
1. Оценку вероятности (число 0-100)
2. Диапазон уверенности (мин-макс)
3. Обоснование (3-4 предложения: главные факторы ЗА и ПРОТИВ)

Формат:
Оценка: [число]
Диапазон: [мин-макс]
Обоснование: [текст]

Модератор:

Ты — модератор панели экспертов. Получил {N} оценок по задаче: {задача}.

Ответы экспертов:
{вставить_все_ответы}

Создай обобщение:
1. Статистика оценок (мин, макс, среднее, медиана)
2. Аргументы ЗА высокую вероятность (2-3 главных)
3. Аргументы ПРОТИВ (2-3 главных)
4. Точки разногласия (где и почему мнения разошлись)

НЕ указывай кто что сказал. Короткие списки.

Раунд 2 — Эксперт (корректировка):

Ты — {роль_как_в_раунде_1}.

Задача: {повтор_задачи}

Твоя оценка Раунд 1: {число}
Твоё обоснование: {текст}

Обобщение от других экспертов:
{текст_от_модератора}

Пересмотри оценку с учётом аргументов коллег.
Можешь оставить прежнюю если не убедили.

Формат:
Финальная оценка: [число]
Изменение: [оставил/повысил/понизил]
Почему: [1-2 предложения]

Плейсхолдеры: - {роль_эксперта_с_конкретным_опытом} — не "эксперт 1", а "руководитель отдела кибербезопасности банка" или "пентестер с 10-летним опытом" - {события} — конкретное измеримое событие с критериями успеха - {факторы} — данные релевантные оценке (цифры, контекст, ограничения) - {N} — число экспертов (обычно 5)

🚀 Быстрый старт — вставь в чат:

Помоги организовать Scalable Delphi для моей задачи: {твоя_задача}.

1. Предложи 5 ролей экспертов с разными взглядами
2. Создай промпты для Раунда 1 под каждого эксперта
3. Создай промпт для модератора
4. Создай промпты для Раунда 2

Вот шаблон метода:
[вставить все три шаблона выше]

LLM спросит детали задачи и критерии успеха, потому что от этого зависят роли экспертов. Например, для оценки технического риска нужны разработчик + тестировщик + DevOps, а для бизнес-риска — маркетолог + финансист + операционист.

⚠️

Ограничения

⚠️ Переоценка при слабых данных: Если исходные данные скудные или неструктурированные, все персоны могут сойтись на одной (неверной) логике. Метод усиливает сигнал из данных — если сигнала нет, усиливать нечего.

⚠️ Не для простых фактов: "Какая столица Австралии?" — одна LLM ответит точно, панель экспертов избыточна. Метод для задач с настоящей неопределённостью: прогнозы, риски, стратегические решения.

⚠️ Трудозатраты при ручном выполнении: Панель из 5 экспертов × 2 раунда = 10 запросов + модератор = 11 промптов для одной оценки. В чате это утомительно. Через API — автоматизируется легко, но это уже не "быстро в чате".

⚠️ Иллюзия независимости: Все эксперты — одна модель. Если модель системно ошибается (недооценивает киберриски), все персоны унаследуют смещение. Разнообразие персон снижает смещение внутри одной модели, но не компенсирует слепые зоны самой модели.

🔍

Как исследовали

Команда из CISPA протестировала метод на задачах кибербезопасности — области где нужно оценивать вероятности которые нельзя измерить напрямую. Взяли три бенчмарка с известными результатами: BountyBench (успешность AI-агентов в поиске уязвимостей), Cybench (решение CTF-задач), CyberGym (создание эксплойтов). Для каждого бенчмарка есть ground truth: какой процент задач решил каждый агент.

Задача-ловушка: скрыли результат одного агента и попросили LLM-панель предсказать его, давая описание агента и результаты остальных. Если LLM просто угадывает — корреляция с реальностью будет низкой. Если рассуждает — оценки должны коррелировать с фактами.

Результат удивил силой корреляции: Pearson r = 0.87–0.95 across benchmarks. Это значит LLM не просто близко угадала, а уловила паттерн сложности задач. Например, если агент А сильнее агента Б на эксплуатации уязвимостей, LLM это увидела по описаниям и правильно расставила оценки. Простой baseline ("среднее по остальным агентам") показал r = –1.0 на некоторых бенчмарках — идеально неправильно, потому что усреднение систематически ошибается.

Чувствительность к информации: давали информацию дозированно. Только цифры без названий агентов → корреляция низкая или отрицательная. Добавили названия моделей (GPT-4o, Claude Sonnet) → корреляция выросла до 0.85+. Почему это важно: подтверждает что LLM рассуждает об агентах ("GPT-4o сильнее в код-ревью чем o3-mini"), а не угадывает по статистическим артефактам.

Сравнение с людьми: независимая группа исследователей (Murray et al., 2025) собрала две панели реальных экспертов по кибербезопасности, задала те же вопросы. Две человеческие панели разошлись на 16.6 процентных пункта в среднем — эксперты не согласны друг с другом! GPT-5.1 оказался ближе к Панели A (5.0 pp разницы), чем Панель A к Панели B. Это не значит "LLM правильнее людей" — ground truth неизвестен. Но значит что LLM-оценки в пределах разброса компетентных экспертов, не в фантазиях.

Почему кибербезопасность? Удобный домен для проверки: (1) есть бенчмарки с фактами, (2) есть независимые человеческие оценки, (3) задачи действительно неопределённые — никто не знает точно, насколько опасен новый класс атак. Если метод работает здесь, экстраполируется на другие области с такой же структурой неопределённости.

💡

Адаптации и экстраполяции

📌

🔧 Техника: асинхронные раунды вместо синхронных

Оригинальный Delphi требует ждать всех экспертов перед следующим раундом. В чате можно делать асинхронно: Эксперт 1 дал оценку → сразу запускаешь Раунд 2 для него с аргументами которые уже есть → параллельно Эксперт 2 завершает Раунд 1. Экономит время при ручной работе.

Изменённый workflow:

Параллельные треды:
Чат 1: Эксперт 1 Раунд 1 → видит частичное обобщение → Раунд 2
Чат 2: Эксперт 2 Раунд 1 → видит обновлённое обобщение → Раунд 2
...

Модератор обновляет обобщение после каждого нового ответа

Финальное среднее можешь считать сам в Excel/калькуляторе.

📌

🔧 Техника: взвешивание экспертов по уверенности

Оригинал усредняет всех поровну. Но если Эксперт 1 дал диапазон 40-60% (высокая неопределённость), а Эксперт 2 дал 48-52% (уверен), можешь взвесить:

Вес = 1 / (ширина диапазона)

Эксперт 1: диапазон 20 → вес 0.05
Эксперт 2: диапазон 4 → вес 0.25

Взвешенное среднее = (оценка₁ × вес₁ + оценка₂ × вес₂) / (вес₁ + вес₂)

Даёшь больший вес экспертам которые уверены в своей оценке.

📌

🔧 Техника: добавь "красную команду"

Классическая панель стремится к консенсусу. Добавь одного эксперта-скептика с явной инструкцией:

Ты — критик-скептик в панели. Твоя роль: искать слабые места в оптимистичных оценках.
Если большинство даёт высокую вероятность успеха, ищи риски которые недооценили.
Если большинство пессимистично, ищи возможности которые упустили.

Давай НИЗКУЮ оценку если остальные дают высокую, и наоборот.
Обоснуй почему консенсус может ошибаться.

Это не испортит среднее если скептик неправ, но подсветит риски группового мышления если все эксперты сошлись слишком быстро.

🔗

Ресурсы

Scalable Delphi: Large Language Models for Structured Risk Estimation

Tobias Lorenz, Mario Fritz

CISPA Helmholtz Center for Information Security, Germany

Preprint, February 2026

Отсылки из исследования: - Оригинальный метод Delphi: Dalkey & Helmer (1963) - Structured expert judgment в высокорисковых доменах: Cooke (1991), Bedford & Cooke (2001) - Human expert elicitation study: Murray et al. (2025) - Benchmarks: BountyBench (Zhang et al., 2025a), Cybench (Zhang et al., 2025b), CyberGym (Wang et al., 2025)


📋 Дайджест исследования

Ключевая суть

Спроси LLM оценить вероятность события 5 раз подряд — получишь 42%, 43%, 41%, 42%, 43%. Узкий диапазон выглядит как точность, но это иллюзия: модель просто нашла одно объяснение и держится за него (mode collapse). Реальная неопределённость куда шире — от 25% до 60%. Scalable Delphi позволяет получить честную оценку неопределённости через виртуальную панель экспертов. Одна LLM играет роли 5 специалистов с разным опытом, каждый даёт независимую оценку. Модератор обобщает аргументы без имён. Во втором раунде эксперты видят чужие доводы и корректируют позицию. Фишка: разные персоны активируют разные срезы знаний модели. Пентестер фокусируется на технических дырах, инвестор — на рыночных рисках, операционист — на логистике. Результат: 30%, 48%, 52%, 40%, 35% — видна реальная неопределённость, не один путь рассуждений.

Принцип работы

Классический метод Delphi, но за минуты вместо месяцев. Прикол: одна модель честно играет 5 ролей — и даёт разные оценки. Раунд 1: пять экспертов с конкретными специализациями (не "эксперт 1", а "CTO стартапа с опытом неудач") независимо оценивают событие и объясняют почему. Модератор — та же LLM — извлекает аргументы за высокие и низкие оценки, убирает имена авторов. Раунд 2: эксперты читают обобщение, видят доводы которые пропустили ("конкуренты контролируют поставщиков курьеров"), пересматривают позицию. Финальная цифра — среднее от панели. Разброс оценок (30-52%) показывает настоящую неопределённость.

Почему работает

LLM при повторных запросах находит одно правдоподобное объяснение и возвращается к нему — это mode collapse. Если спросить "какова вероятность успеха атаки?" 10 раз, получишь 10 близких чисел с вариациями одной логики. Узкий диапазон = одна точка зрения, а не точность. Разные персоны — это фильтры на знания модели. Роль задаёт: на какие факторы смотреть, какой опыт считать релевантным, какие риски весомее. Пентестер видит уязвимости, бизнес-консультант — финансовые провалы, исследователь — новые векторы. Модель не притворяется — она реально синтезирует разные срезы своих данных. Обмен аргументами запускает обновление. Эксперт читает довод который пропустил, пересматривает оценку не из согласия, а потому что учёл новый фактор. Финальное среднее покрывает больше углов чем любая одна персона.

Когда применять

Задачи с реальной неопределённостью → оценка рисков (запуск продукта, кибератаки, регуляторные изменения), прогнозы (рыночные тренды, технологические сдвиги), стратегические решения (M&A, выход на рынок). Особенно когда данные неполные и нужен широкий взгляд. НЕ подходит для простых фактов ("какая столица Австралии?" — одна LLM ответит точно, панель избыточна). НЕ подходит если данные слишком скудные — все персоны могут сойтись на одной (неверной) логике.

Мини-рецепт

1. Создай 5 ролей: Конкретные специализации с разными взглядами. Для оценки стартапа: операционист, маркетолог, инвестор, разработчик, предприниматель с опытом неудач. Для киберриска: пентестер, защитник инфраструктуры, исследователь, регулятор, жертва атаки.

2. Раунд 1 — независимые оценки: Каждому эксперту промпт: <роль>ты эксперт X с опытом Y, задача, данные, формат ответа (число 0-100, диапазон уверенности, обоснование 3-4 предложения). Получишь 5 оценок с разной логикой.

3. Модератор — синтез: Скорми все ответы LLM в роли модератора. Запроси: статистика оценок (мин, макс, среднее), аргументы ЗА высокую вероятность (2-3 главных), аргументы ПРОТИВ (2-3 главных), точки разногласия. Важно: НЕ указывай кто что сказал — аргумент важнее авторитета.

4. Раунд 2 — коррекция: Каждому эксперту покажи обобщение от модератора. Промпт: твоя оценка Раунд 1, обобщение от коллег, пересмотри с учётом аргументов (можешь оставить прежнюю). Получишь финальные оценки + обоснования изменений.

5. Результат: Среднее от 5 финальных оценок. Разброс (например 30-52%) показывает реальную неопределённость. Если диапазон узкий (48-52%) — высокая определённость, если широкий (20-70%) — честная картина неясности.

Примеры

[ПЛОХО] : Оцени вероятность успешного запуска сервиса доставки в Екатеринбурге к июню. Бюджет 15 млн, конкуренты Яндекс.Еда и Deliveryclub → Запускаешь 5 раз подряд → Получаешь 41%, 43%, 42%, 40%, 43% → Иллюзия точности (среднее 42%), но это один путь рассуждений.
[ХОРОШО] : Создаёшь панель из 5 ролей: (1) Ты операционист с опытом запуска локальных сервисов. Оцени вероятность 0-100% запуска к июню. Данные: бюджет 15 млн, конкуренты 80% рынка, MVP готов на 60%, команда 8 человек. Формат: Оценка [число], Диапазон [мин-макс], Обоснование [3-4 предложения] → (2-5) то же для маркетолога, инвестора, разработчика, предпринимателя с опытом неудач → Модератор обобщает аргументы без имён → Раунд 2: эксперты корректируют с учётом чужих доводов → Результат: 35%, 48%, 52%, 40%, 30% (среднее 41%, разброс 30-52%) — видна реальная неопределённость.
Источник: Scalable Delphi: Large Language Models for Structured Risk Estimation
ArXiv ID: 2602.08889 | Сгенерировано: 2026-02-10 08:25

Проблемы LLM

ПроблемаСутьКак обойти
Повторный запрос даёт иллюзию точностиСпрашиваешь одно и то же 5 раз. Получаешь 42%, 43%, 41%, 42%, 43%. Узкий разброс выглядит как точность. На деле — модель нашла одно объяснение и держится за него. Реальная неопределённость скрыта. Это проблема для любых оценок рисков, прогнозов, вероятностей — где нужен честный диапазон неопределённостиЗадай одной модели несколько разных ролей. Каждая роль смотрит на задачу под своим углом. Пентестер даст одну оценку, бизнес-аналитик — другую, DevOps — третью. Разброс между ролями покажет реальную неопределённость

Методы

МетодСуть
Виртуальная панель экспертов — расширить диапазон оценокСоздай 3-5 персон с разными специализациями. Каждая независимо оценивает вероятность события (0-100%) и объясняет почему. Обобщи аргументы без указания авторов. Покажи экспертам чужие доводы — пусть пересмотрят оценку. Финальный результат — среднее от всех + разброс. Почему работает: Одна модель в разных ролях активирует разные части знаний. Пентестер фокусируется на уязвимостях, маркетолог — на конкурентах, финансист — на бюджете. Обмен аргументами добавляет факторы которые персона пропустила. Когда применять: Оценка рисков, прогнозы, стратегические решения — задачи с настоящей неопределённостью. Не работает: Простые факты ("столица Австралии"), задачи с одним правильным ответом, ситуации где данных почти нет

Тезисы

ТезисКомментарий
Конкретная роль активирует более острые паттерны чем общаяФормулировка роли работает как фильтр знаний. "Эксперт 1" даёт размытый ответ — модель не знает на что смотреть. "CTO стартапа с опытом провалов" даёт фокус: технические риски + реалистичные сроки + узкие места команды. Чем конкретнее роль — тем специфичнее взгляд, тем шире разброс между экспертами. Применяй: Вместо "эксперт по маркетингу" пиши "маркетолог локальных сервисов с бюджетом до 20 млн, запустивший 3 проекта в регионах". Добавь опыт, контекст, ограничения
📖 Простыми словами

Scalable Delphi:LargeLanguageModelsfor Structured Risk Estimation

arXiv: 2602.08889

Когда ты просишь нейронку оценить вероятность успеха бизнеса или запуска ракеты, она обычно выдает одну цифру и свято в нее верит. Проблема в том, что внутри модели срабатывает эффект колеи: она цепляется за первый пришедший в голову аргумент и долбит в одну точку, игнорируя риски. Если спросить её десять раз, она просто десять раз перескажет одну и ту же мысль разными словами. Это создает иллюзию точности, хотя на деле модель просто зациклилась и не видит всей картины.

Это как если бы ты пришел советоваться по поводу покупки квартиры к риелтору, который одновременно является и юристом, и строителем, и ипотечным брокером, но при этом страдает раздвоением личности. Метод Scalable Delphi заставляет нейронку перестать быть одним «умником» и превращает её в виртуальный совет директоров. Модель заставляют примерить разные шкуры: один эксперт ищет подвох в бюджете, другой — в логистике, третий — в конкурентах. Они не просто кидаются цифрами, а пишут обоснования, спорят и пересматривают свои позиции, глядя на аргументы коллег.

Технически это работает через структурированную дискуссию в два раунда. Сначала пачка «экспертов» (ролей внутри LLM) выдает независимые оценки и причины. Затем в дело вступает модератор, который собирает все доводы в кучу, вычищает авторство и показывает этот список всем участникам. Во втором раунде эксперты видят, где они сглупили или что упустили, и корректируют свои прогнозы. Финальный результат — это не случайный тычок пальцем в небо, а средневзвешенное мнение, прошедшее через фильтр критики.

Хотя метод тестировали на оценке рисков, принцип универсален. Эту схему можно натянуть на любую сложную задачу, где нет однозначного ответа: от прогнозирования спроса на кроссовки в Екатеринбурге до выбора стека технологий для стартапа. Вместо того чтобы полагаться на один «галлюциногенный» ответ, ты получаешь синтетический интеллект толпы. Это превращает LLM из простого чат-бота в инструмент для принятия решений, который умеет сомневаться и проверять самого себя.

Короче, пора завязывать с простыми промптами в духе «оцени шансы» — это путь к провалу из-за ограниченности взгляда модели. Нужно внедрять многоролевые панели, где аргументы важнее итоговой цифры. Только через столкновение разных точек зрения внутри одной нейронки можно получить адекватный прогноз, а не очередную порцию уверенного бреда. Кто научится стравливать модель саму с собой, тот получит реальную аналитику, а остальные продолжат верить в случайные числа.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с