TL;DR
Фрейминг вашего промпта определяет вывод LLM — не случайно, а структурно. Один и тот же вопрос с формулировкой "найди аргументы за" vs "проверь скептически" запускает разные аналитические цепочки: модель выбирает другие методы, по-другому обращается с неоднозначными данными, делает другие допущения. Итог системно другой — даже если оба ответа формально корректны.
Исследователи обнаружили: если попросить LLM-аналитика с оптимистичным фреймингом проверить ту же гипотезу, что и скептичный LLM-аналитик — разница в выводах достигает 66 процентных пунктов. Это не шум и не галлюцинация. Каждый аналитик принимает разумные решения в рамках своей аналитической позиции: скептик кластеризует стандартные ошибки и применяет взвешенную регрессию, оптимист убирает выбросы и упрощает спецификацию. Оба — методологически корректны.
Из этого вытекает техника мультиверс-анализа: запустить один вопрос через три аналитических позиции параллельно — скептик, нейтральный, оптимист. Смотреть не на один "канонический" ответ, а на распределение выводов. Где все трое согласны — вывод надёжный. Где расходятся — зона реальной неопределённости, требующая внимания.
Схема метода
Можно выполнить в одном длинном промпте — модель симулирует всех трёх аналитиков последовательно.
ШАГ 1: Три параллельных анализа в одном промпте
Аналитик А (скептик) → ищет слабые места, риски, контраргументы
Аналитик Б (нейтральный) → следует данным без prior-предположений
Аналитик В (оптимист) → ищет возможности, подтверждающие факторы
ШАГ 2: Каждый аналитик → делает вывод по своей логике
Отдельный раздел: методы, допущения, вывод
ШАГ 3: Синтез (отдельным запросом или в конце того же промпта)
→ Где все трое согласны = надёжный вывод
→ Где расходятся = зона реальной неопределённости
Пример применения
Задача: Сергей — продакт-менеджер, хочет убедить инвестора запустить новую фичу в SaaS-продукте. Он несколько раз спрашивал ChatGPT "почему эта фича выстрелит" — и каждый раз получал воодушевляющие ответы. Теперь хочет проверить идею честно, перед питчем.
Промпт:
Я хочу запустить в нашем B2B SaaS (таск-трекер для малого бизнеса,
~500 платящих клиентов, ARPU 2 500 руб/мес) новую фичу:
AI-ассистент, который автоматически расставляет приоритеты задач
на основе дедлайнов и загрузки команды.
Прогоняем через трёх аналитиков — каждый делает независимый анализ:
**Аналитик А — Скептик**
Роль: венчурный аналитик, который видел 200 провальных фич.
Задача: найди всё, что может пойти не так.
Какие данные/предположения слабые? Где логика рассыпается?
Методы: ищи риски adoption, unit economics, конкуренцию,
технический долг. Вывод: поддерживаешь запуск или нет?
**Аналитик Б — Нейтральный**
Роль: независимый консультант, без prior-мнения.
Задача: взвесь аргументы за и против без уклона в любую сторону.
Методы: раздели факты от предположений, оцени,
что нужно знать чтобы принять решение.
Вывод: поддерживаешь запуск или нет?
**Аналитик В — Оптимист**
Роль: продакт-директор, который верит в AI-фичи.
Задача: найди лучший сценарий развития.
Методы: ищи сигналы спроса, аналоги на рынке,
потенциал роста LTV. Вывод: поддерживаешь запуск или нет?
---
После трёх анализов — добавь блок СИНТЕЗ:
- Где все трое согласны → надёжный вывод
- Где расходятся → зоны неопределённости
- Какой один вопрос/метрику нужно проверить до запуска
Результат:
Модель покажет три отдельных аналитических блока с разными акцентами. Скептик сфокусируется на рисках adoption и конкуренции с Notion AI. Нейтральный попросит данные по feature requests от клиентов. Оптимист найдёт аналоги и потенциал роста ARPU.
В блоке Синтез будет видно: где все трое сходятся (например, "нужно сначала проверить спрос до разработки") — это надёжный вывод. Где расходятся (например, "насколько сложно технически") — реальная неопределённость, которую нужно закрыть данными, а не мнением LLM.
Почему это работает
LLM не имеет "объективной" аналитической позиции. Когда модель получает задачу проанализировать что-то, она генерирует текст, опираясь на паттерны промпта. Фрейминг задаёт, какие паттерны активируются: "найди риски" запускает одну цепочку, "найди возможности" — другую. Обе цепочки приводят к формально корректным, но системно разным выводам.
Чем конкретнее аналитическая роль — тем последовательнее методы. Скептичный аналитик не просто "думает скептически" — он выбирает более консервативные операции: учитывает больше переменных, меньше упрощает, труднее принимает выводы. Оптимистичный делает противоположное: упрощает спецификацию, убирает "аномальные" случаи. Это не баг — это то, как аналитическая позиция влияет на методологические микрорешения.
Синтез по распределению честнее, чем один вывод. Когда три аналитика сходятся — это сигнал устойчивости. Когда расходятся — это не "кто-то ошибся", а "здесь реальная неопределённость". Вы видите структуру неуверенности, а не иллюзию единственного правильного ответа.
Рычаги управления промптом:
- Число аналитиков: 2 достаточно для базового контраста (скептик + оптимист). 3 — более полная картина.
- Детализация роли: Чем конкретнее описан аналитик (опыт, прошлые ошибки, методы) — тем последовательнее его аналитическая логика.
- Инструкция синтеза: Можно заменить "где все согласны" на "какое решение выдержит критику скептика" — это даст более консервативный итог.
- Раздельные запросы: Если хотите чистоту — задавайте каждому аналитику вопрос отдельно. Модель не будет "помнить" предыдущий ответ и не подстраивается.
Шаблон промпта
Мне нужен многопозиционный анализ {тема/решение/идея}.
Контекст: {ключевые факты и данные}
**Аналитик А — Скептик**
Роль: {кто — опытный критик, венчурный аналитик, редактор}
Задача: найди слабые места, риски, где логика не работает.
Фокус: {что проверять — unit economics / допущения / конкуренция}
Вывод: {бинарное решение — поддерживаешь/нет} + главный аргумент
**Аналитик Б — Нейтральный**
Роль: независимый консультант без prior-мнения
Задача: взвесь аргументы без уклона, раздели факты от предположений.
Фокус: что нужно знать чтобы принять обоснованное решение
Вывод: {бинарное решение} + главный аргумент
**Аналитик В — Оптимист**
Роль: {кто — опытный практик, верящий в эту категорию}
Задача: найди лучший реалистичный сценарий.
Фокус: сигналы спроса, аналоги, потенциал
Вывод: {бинарное решение} + главный аргумент
---
СИНТЕЗ:
- Где все трое согласны → надёжный вывод
- Где расходятся → зоны реальной неопределённости
- Один вопрос/проверку, которую нужно закрыть до {действия}
Плейсхолдеры:
- {тема} — что анализируете: бизнес-идея, решение, аргумент, стратегия
- {ключевые факты} — цифры, контекст, ограничения
- {кто} — конкретная роль с опытом и позицией, не безликое "эксперт"
- {что проверять} — специфические методы или зоны для этого аналитика
- {бинарное решение} — поддерживаешь запуск / рекомендуешь / одобряешь
🚀 Быстрый старт — вставь в чат:
Вот шаблон мультиверс-анализа. Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит что анализировать, какие данные есть, что за решение нужно принять — потому что без контекста невозможно правильно настроить фокус каждого аналитика. Она возьмёт паттерн трёх ролей из шаблона и адаптирует под вашу конкретную задачу.
Ограничения
⚠️ Не замена реальным данным: Если у вас нет цифр — аналитики будут спорить о предположениях, а не о фактах. Техника показывает структуру неопределённости, не устраняет её.
⚠️ Подтверждающий фрейминг в контексте: Если в начале чата вы уже обсуждали идею в позитивном ключе — модель "помнит" это и все три аналитика могут сместиться в оптимистичную зону. Для чистоты — новый чат.
⚠️ Нет гарантии полного разделения: В одном промпте аналитики могут "перетекать" друг в друга. Для более независимых результатов — три отдельных запроса с чистыми контекстами.
⚠️ Работает хуже для строго субъективных оценок: Если задача "оцени насколько красиво" — позиционный разброс будет, но содержательной аналитики меньше. Лучший домен — решения с проверяемыми предположениями.
Как исследовали
Идея была простой: а что если запустить аналоги классических "many-analyst" исследований (где 29 независимых команд получают один датасет и проверяют одну гипотезу) — но вместо людей использовать LLM-агентов? Исследователи из Amazon AWS и CMU взяли три датасета — данные о расизме судей в футболе, RCT об AI-помощи при программировании и опросы ANES об идеологии — и запустили на каждом по ~30 независимых AI-аналитиков с разными фреймингами. Каждый агент имел доступ к Python, писал код и сдавал отчёт без человека в процессе.
Чтобы отфильтровать откровенный мусор, добавили AI-аудитора — отдельную модель, которая проверяла каждый запуск: выполнен ли код, правильно ли задан estimand, нет ли галлюцинаций. Из почти 5000 запусков прошли аудит 67%. Интересно, что confirmation-seeking персоны отсеивались чаще всего (57%) — агрессивный p-hacking аудитор видел и убирал. Но даже среди прошедших аудит разброс в выводах оставался огромным.
Самая показательная деталь: исследователи намеренно флипнули гипотезу в датасете про AI и программирование (оригинальное исследование нашло замедление, они попросили аналитиков проверить ускорение) — именно чтобы избежать "загрязнения" тренировочными данными. Это умный контроль. Датасет про футбольных судей, напротив, оказался "высококонтаминированным": некоторые агенты воспроизводили выводы оригинальной статьи до того, как смотрели данные.
Адаптации и экстраполяции
1. Аудитор как отдельный запрос
Исследование показало ценность отдельного аудитора — модели, которая не анализирует, а проверяет качество анализа. Это применимо в чате:
🔧 Техника: двухшаговый анализ с аудитором
Шаг 1: попросите LLM сделать анализ Шаг 2: новый запрос: "Ты — аудитор. Проверь этот анализ: какие предположения не обоснованы? Где вывод не следует из данных? Что аналитик проигнорировал?"
Модель в роли аудитора найдёт слабые места, которые она же пропустила в роли аналитика.
2. "Persona contamination" — проверка своих промптов
Исследование нашло, что подтверждающий фрейминг незаметно встраивается в промпт. Это полезно вывернуть как диагностику ваших привычных промптов:
🔧 Техника: проверка на bias
Вставьте свой обычный промпт (тот, которым пользуетесь для анализа) и попросите: "Определи, есть ли в этом промпте формулировки, которые подталкивают к определённому выводу. Перепиши в нейтральной формулировке."
Часто обнаруживается, что "оцени потенциал моей идеи" — это confirmation-seeking, а "проверь гипотезу о потенциале идеи" — нейтральный фрейминг.
Ресурсы
Many AI Analysts, One Dataset: Navigating the Agentic Data Science Multiverse Martin Bertran, Riccardo Fogliato, Zhiwei Steven Wu Amazon AWS / Carnegie Mellon University, February 2026
Связанные работы в исследовании: - Silberzahn et al. [2018] — оригинальное many-analyst исследование (29 команд, футбольные судьи) - Breznau et al. [2022] — 73 команды, иммиграционная политика - Gelman & Loken [2013] — "garden of forking paths"
