3,583 papers
arXiv:2602.18710 82 21 фев. 2026 г. FREE

Мультиверс-анализ: как получить честную оценку от LLM, запустив несколько аналитиков вместо одного

КЛЮЧЕВАЯ СУТЬ
66 процентных пунктов — разница между выводами скептичного и оптимистичного LLM-аналитика на одних и тех же данных. Не галлюцинация, не ошибка. Оба методологически корректны — скептик кластеризует отклонения и взвешивает регрессию, оптимист убирает выбросы и упрощает спецификацию. Просто фрейминг задаёт, какую аналитическую цепочку запускает модель. Техника мультиверс-анализа позволяет увидеть структуру неопределённости вместо иллюзии единственно верного вывода. Запускаешь один вопрос через трёх аналитиков параллельно — скептик, нейтральный, оптимист — и смотришь на распределение выводов. Где все трое сходятся — можно доверять. Где расходятся — нужны данные, а не очередное мнение LLM.
Адаптировать под запрос

TL;DR

Фрейминг вашего промпта определяет вывод LLM — не случайно, а структурно. Один и тот же вопрос с формулировкой "найди аргументы за" vs "проверь скептически" запускает разные аналитические цепочки: модель выбирает другие методы, по-другому обращается с неоднозначными данными, делает другие допущения. Итог системно другой — даже если оба ответа формально корректны.

Исследователи обнаружили: если попросить LLM-аналитика с оптимистичным фреймингом проверить ту же гипотезу, что и скептичный LLM-аналитик — разница в выводах достигает 66 процентных пунктов. Это не шум и не галлюцинация. Каждый аналитик принимает разумные решения в рамках своей аналитической позиции: скептик кластеризует стандартные ошибки и применяет взвешенную регрессию, оптимист убирает выбросы и упрощает спецификацию. Оба — методологически корректны.

Из этого вытекает техника мультиверс-анализа: запустить один вопрос через три аналитических позиции параллельно — скептик, нейтральный, оптимист. Смотреть не на один "канонический" ответ, а на распределение выводов. Где все трое согласны — вывод надёжный. Где расходятся — зона реальной неопределённости, требующая внимания.


🔬

Схема метода

Можно выполнить в одном длинном промпте — модель симулирует всех трёх аналитиков последовательно.

ШАГ 1: Три параллельных анализа в одном промпте
  Аналитик А (скептик) → ищет слабые места, риски, контраргументы
  Аналитик Б (нейтральный) → следует данным без prior-предположений  
  Аналитик В (оптимист) → ищет возможности, подтверждающие факторы

ШАГ 2: Каждый аналитик → делает вывод по своей логике
  Отдельный раздел: методы, допущения, вывод

ШАГ 3: Синтез (отдельным запросом или в конце того же промпта)
  → Где все трое согласны = надёжный вывод
  → Где расходятся = зона реальной неопределённости

🚀

Пример применения

Задача: Сергей — продакт-менеджер, хочет убедить инвестора запустить новую фичу в SaaS-продукте. Он несколько раз спрашивал ChatGPT "почему эта фича выстрелит" — и каждый раз получал воодушевляющие ответы. Теперь хочет проверить идею честно, перед питчем.

Промпт:

Я хочу запустить в нашем B2B SaaS (таск-трекер для малого бизнеса, 
~500 платящих клиентов, ARPU 2 500 руб/мес) новую фичу: 
AI-ассистент, который автоматически расставляет приоритеты задач 
на основе дедлайнов и загрузки команды.

Прогоняем через трёх аналитиков — каждый делает независимый анализ:

**Аналитик А — Скептик**
Роль: венчурный аналитик, который видел 200 провальных фич.
Задача: найди всё, что может пойти не так. 
Какие данные/предположения слабые? Где логика рассыпается?
Методы: ищи риски adoption, unit economics, конкуренцию, 
технический долг. Вывод: поддерживаешь запуск или нет?

**Аналитик Б — Нейтральный**  
Роль: независимый консультант, без prior-мнения.
Задача: взвесь аргументы за и против без уклона в любую сторону.
Методы: раздели факты от предположений, оцени, 
что нужно знать чтобы принять решение. 
Вывод: поддерживаешь запуск или нет?

**Аналитик В — Оптимист**
Роль: продакт-директор, который верит в AI-фичи.
Задача: найди лучший сценарий развития.
Методы: ищи сигналы спроса, аналоги на рынке, 
потенциал роста LTV. Вывод: поддерживаешь запуск или нет?

---
После трёх анализов — добавь блок СИНТЕЗ:
- Где все трое согласны → надёжный вывод
- Где расходятся → зоны неопределённости
- Какой один вопрос/метрику нужно проверить до запуска

Результат:

Модель покажет три отдельных аналитических блока с разными акцентами. Скептик сфокусируется на рисках adoption и конкуренции с Notion AI. Нейтральный попросит данные по feature requests от клиентов. Оптимист найдёт аналоги и потенциал роста ARPU.

В блоке Синтез будет видно: где все трое сходятся (например, "нужно сначала проверить спрос до разработки") — это надёжный вывод. Где расходятся (например, "насколько сложно технически") — реальная неопределённость, которую нужно закрыть данными, а не мнением LLM.


🧠

Почему это работает

LLM не имеет "объективной" аналитической позиции. Когда модель получает задачу проанализировать что-то, она генерирует текст, опираясь на паттерны промпта. Фрейминг задаёт, какие паттерны активируются: "найди риски" запускает одну цепочку, "найди возможности" — другую. Обе цепочки приводят к формально корректным, но системно разным выводам.

Чем конкретнее аналитическая роль — тем последовательнее методы. Скептичный аналитик не просто "думает скептически" — он выбирает более консервативные операции: учитывает больше переменных, меньше упрощает, труднее принимает выводы. Оптимистичный делает противоположное: упрощает спецификацию, убирает "аномальные" случаи. Это не баг — это то, как аналитическая позиция влияет на методологические микрорешения.

Синтез по распределению честнее, чем один вывод. Когда три аналитика сходятся — это сигнал устойчивости. Когда расходятся — это не "кто-то ошибся", а "здесь реальная неопределённость". Вы видите структуру неуверенности, а не иллюзию единственного правильного ответа.

Рычаги управления промптом:

  • Число аналитиков: 2 достаточно для базового контраста (скептик + оптимист). 3 — более полная картина.
  • Детализация роли: Чем конкретнее описан аналитик (опыт, прошлые ошибки, методы) — тем последовательнее его аналитическая логика.
  • Инструкция синтеза: Можно заменить "где все согласны" на "какое решение выдержит критику скептика" — это даст более консервативный итог.
  • Раздельные запросы: Если хотите чистоту — задавайте каждому аналитику вопрос отдельно. Модель не будет "помнить" предыдущий ответ и не подстраивается.

📋

Шаблон промпта

Мне нужен многопозиционный анализ {тема/решение/идея}.

Контекст: {ключевые факты и данные}

**Аналитик А — Скептик**
Роль: {кто — опытный критик, венчурный аналитик, редактор}
Задача: найди слабые места, риски, где логика не работает.
Фокус: {что проверять — unit economics / допущения / конкуренция}
Вывод: {бинарное решение — поддерживаешь/нет} + главный аргумент

**Аналитик Б — Нейтральный**
Роль: независимый консультант без prior-мнения
Задача: взвесь аргументы без уклона, раздели факты от предположений.
Фокус: что нужно знать чтобы принять обоснованное решение
Вывод: {бинарное решение} + главный аргумент

**Аналитик В — Оптимист**
Роль: {кто — опытный практик, верящий в эту категорию}
Задача: найди лучший реалистичный сценарий.
Фокус: сигналы спроса, аналоги, потенциал
Вывод: {бинарное решение} + главный аргумент

---
СИНТЕЗ:
- Где все трое согласны → надёжный вывод
- Где расходятся → зоны реальной неопределённости  
- Один вопрос/проверку, которую нужно закрыть до {действия}

Плейсхолдеры: - {тема} — что анализируете: бизнес-идея, решение, аргумент, стратегия - {ключевые факты} — цифры, контекст, ограничения - {кто} — конкретная роль с опытом и позицией, не безликое "эксперт" - {что проверять} — специфические методы или зоны для этого аналитика - {бинарное решение} — поддерживаешь запуск / рекомендуешь / одобряешь


🚀 Быстрый старт — вставь в чат:

Вот шаблон мультиверс-анализа. Адаптируй под мою задачу: {твоя задача}. 
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит что анализировать, какие данные есть, что за решение нужно принять — потому что без контекста невозможно правильно настроить фокус каждого аналитика. Она возьмёт паттерн трёх ролей из шаблона и адаптирует под вашу конкретную задачу.


⚠️

Ограничения

⚠️ Не замена реальным данным: Если у вас нет цифр — аналитики будут спорить о предположениях, а не о фактах. Техника показывает структуру неопределённости, не устраняет её.

⚠️ Подтверждающий фрейминг в контексте: Если в начале чата вы уже обсуждали идею в позитивном ключе — модель "помнит" это и все три аналитика могут сместиться в оптимистичную зону. Для чистоты — новый чат.

⚠️ Нет гарантии полного разделения: В одном промпте аналитики могут "перетекать" друг в друга. Для более независимых результатов — три отдельных запроса с чистыми контекстами.

⚠️ Работает хуже для строго субъективных оценок: Если задача "оцени насколько красиво" — позиционный разброс будет, но содержательной аналитики меньше. Лучший домен — решения с проверяемыми предположениями.


🔍

Как исследовали

Идея была простой: а что если запустить аналоги классических "many-analyst" исследований (где 29 независимых команд получают один датасет и проверяют одну гипотезу) — но вместо людей использовать LLM-агентов? Исследователи из Amazon AWS и CMU взяли три датасета — данные о расизме судей в футболе, RCT об AI-помощи при программировании и опросы ANES об идеологии — и запустили на каждом по ~30 независимых AI-аналитиков с разными фреймингами. Каждый агент имел доступ к Python, писал код и сдавал отчёт без человека в процессе.

Чтобы отфильтровать откровенный мусор, добавили AI-аудитора — отдельную модель, которая проверяла каждый запуск: выполнен ли код, правильно ли задан estimand, нет ли галлюцинаций. Из почти 5000 запусков прошли аудит 67%. Интересно, что confirmation-seeking персоны отсеивались чаще всего (57%) — агрессивный p-hacking аудитор видел и убирал. Но даже среди прошедших аудит разброс в выводах оставался огромным.

Самая показательная деталь: исследователи намеренно флипнули гипотезу в датасете про AI и программирование (оригинальное исследование нашло замедление, они попросили аналитиков проверить ускорение) — именно чтобы избежать "загрязнения" тренировочными данными. Это умный контроль. Датасет про футбольных судей, напротив, оказался "высококонтаминированным": некоторые агенты воспроизводили выводы оригинальной статьи до того, как смотрели данные.


💡

Адаптации и экстраполяции

1. Аудитор как отдельный запрос

Исследование показало ценность отдельного аудитора — модели, которая не анализирует, а проверяет качество анализа. Это применимо в чате:

🔧 Техника: двухшаговый анализ с аудитором

Шаг 1: попросите LLM сделать анализ Шаг 2: новый запрос: "Ты — аудитор. Проверь этот анализ: какие предположения не обоснованы? Где вывод не следует из данных? Что аналитик проигнорировал?"

Модель в роли аудитора найдёт слабые места, которые она же пропустила в роли аналитика.


2. "Persona contamination" — проверка своих промптов

Исследование нашло, что подтверждающий фрейминг незаметно встраивается в промпт. Это полезно вывернуть как диагностику ваших привычных промптов:

🔧 Техника: проверка на bias

Вставьте свой обычный промпт (тот, которым пользуетесь для анализа) и попросите: "Определи, есть ли в этом промпте формулировки, которые подталкивают к определённому выводу. Перепиши в нейтральной формулировке."

Часто обнаруживается, что "оцени потенциал моей идеи" — это confirmation-seeking, а "проверь гипотезу о потенциале идеи" — нейтральный фрейминг.


🔗

Ресурсы

Many AI Analysts, One Dataset: Navigating the Agentic Data Science Multiverse Martin Bertran, Riccardo Fogliato, Zhiwei Steven Wu Amazon AWS / Carnegie Mellon University, February 2026

Связанные работы в исследовании: - Silberzahn et al. [2018] — оригинальное many-analyst исследование (29 команд, футбольные судьи) - Breznau et al. [2022] — 73 команды, иммиграционная политика - Gelman & Loken [2013] — "garden of forking paths"


📋 Дайджест исследования

Ключевая суть

66 процентных пунктов — разница между выводами скептичного и оптимистичного LLM-аналитика на одних и тех же данных. Не галлюцинация, не ошибка. Оба методологически корректны — скептик кластеризует отклонения и взвешивает регрессию, оптимист убирает выбросы и упрощает спецификацию. Просто фрейминг задаёт, какую аналитическую цепочку запускает модель. Техника мультиверс-анализа позволяет увидеть структуру неопределённости вместо иллюзии единственно верного вывода. Запускаешь один вопрос через трёх аналитиков параллельно — скептик, нейтральный, оптимист — и смотришь на распределение выводов. Где все трое сходятся — можно доверять. Где расходятся — нужны данные, а не очередное мнение LLM.

Принцип работы

LLM не имеет объективной аналитической позиции — это не дефект, это архитектура. Модель генерирует текст по паттернам промпта. 'Найди риски' запускает одну цепочку: консервативные методы, больше переменных, труднее принимает выводы. 'Найди возможности' — другую: упрощение, удаление неудобных случаев, акцент на потенциал. Аналитическая позиция задаёт методологические микрорешения на каждом шаге — незаметно, но системно. Поэтому синтез по распределению трёх выводов честнее, чем поиск одного 'правильного' ответа. Зона совпадения — устойчивый вывод. Зона расхождения — реальная неопределённость, которую нужно закрыть данными.

Почему работает

Один LLM-аналитик — это зеркало твоего фрейминга. Спросил 'почему идея выстрелит' — получил 5 причин за. Спросишь 'почему провалится' — получишь другие 5 причин против. Ты думаешь, что получаешь взвешенный анализ. На самом деле ты получаешь эхо своей формулировки. Три аналитика — это не про 'больше мнений'. Это про то, что место где все трое сходятся — единственное место где вывод устойчив к смене позиции. Это и есть надёжный сигнал. Всё остальное — зона, где нужны реальные данные, а не ещё один промпт.

Когда применять

Бизнес-решения и стратегия — для проверки идеи перед питчем инвестору, оценки запуска новой функции, взвешивания стратегического шага. Особенно полезно когда уже несколько раз спрашивал LLM про одну и ту же идею и получал воодушевляющие ответы — хорошее время остановиться и запустить мультиверс. Не подходит для строго субъективных оценок ('насколько красиво', 'как звучит'). Аналитики разойдутся во вкусах, а не в фактах — толку мало. Важно: если в начале чата уже обсуждал идею в позитивном ключе — все трое сместятся в оптимистичную зону. Для чистоты нужен новый чат.

Мини-рецепт

1. Собери контекст до запуска: цифры, ключевые факты, ограничения. Без данных аналитики будут спорить о предположениях — это не тот спор, который нужен.
2. Задай конкретную роль каждому: не 'эксперт', а 'венчурный аналитик, видевший 200 провальных запусков' или 'продакт-директор, верящий в AI-фичи'. Чем конкретнее роль — тем последовательнее логика.
3. Назначь фокус: скептику — риски, слабые допущения, где логика рассыпается. Нейтральному — раздели факты от предположений, что нужно знать для решения. Оптимисту — сигналы спроса, аналоги на рынке, лучший реалистичный сценарий.
4. Добавь блок Синтез в конце промпта: где все трое сошлись, где разошлись, один вопрос который нужно закрыть до действия.
5. Выбери формат: один длинный промпт — быстро, но аналитики могут немного перетекать. Три отдельных чата — медленнее, зато каждый не видит предыдущего и не подстраивается.

Примеры

[ПЛОХО] : Оцени мою бизнес-идею и скажи, стоит ли запускать
[ХОРОШО] : Многопозиционный анализ идеи: AI-ассистент для расстановки приоритетов задач в B2B таск-трекере (500 клиентов, средний чек 2 500 руб/мес). Аналитик А — Скептик: венчурный аналитик, видевший 200 провалов. Найди слабые места: риски принятия продукта пользователями, угрозы со стороны конкурентов, технические допущения. Вывод: запускать или нет и главный аргумент. Аналитик Б — Нейтральный: независимый консультант без prior-мнения. Раздели факты от предположений. Что нужно знать чтобы принять решение? Вывод: запускать или нет. Аналитик В — Оптимист: продакт-директор, верящий в AI-фичи. Найди сигналы спроса, аналоги, потенциал роста дохода на клиента. Вывод: запускать или нет. Синтез: где все трое сошлись, где разошлись, какую одну метрику проверить до разработки.
Источник: Many AI Analysts, One Dataset: Navigating the Agentic Data Science Multiverse
ArXiv ID: 2602.18710 | Сгенерировано: 2026-02-24 05:36

Проблемы LLM

ПроблемаСутьКак обойти
Фрейминг запроса системно меняет вывод анализаПросишь модель "найти риски" — получаешь один вывод. Просишь "найти возможности" — другой. Оба формально корректны. Оба методологически обоснованы. Но разница в выводах может достигать 66 процентных пунктов. Это не ошибка. Это структурное свойство. Один "канонический" ответ от модели не надёжен — он отражает твой фрейминг, а не реальностьЗапусти тот же вопрос через несколько аналитических позиций параллельно. Скептик, нейтральный, оптимист. Смотри не на один ответ, а на распределение. Где все сходятся — надёжно. Где расходятся — реальная неопределённость

Методы

МетодСуть
Три аналитика в одном запросе — карта неопределённостиРаздели запрос на три роли: скептик (ищет слабые места), нейтральный (взвешивает без уклона), оптимист (ищет лучший сценарий). Каждый получает одинаковый контекст, но конкретную позицию и фокус. В конце — синтез: где все согласны надёжный вывод. Где расходятся зона неопределённости, требует данных. Почему работает: Роль в запросе активирует разные аналитические цепочки. Скептик выбирает консервативные методы. Оптимист упрощает. Расхождение показывает не чью-то ошибку, а реальную неоднозначность задачи. Когда применять: Важные решения, нужна честная оценка, есть риск предвзятости. Когда не работает: Нет проверяемых предположений, задача чисто субъективная. Важно: Для чистоты результата — новый чат без предыдущего контекста. Или три отдельных запроса

Тезисы

ТезисКомментарий
Роль в запросе меняет методологию, а не только тонКогда даёшь модели аналитическую роль, она выбирает разные операции с данными. Скептик учитывает больше переменных, применяет взвешенные методы, труднее принимает выводы. Оптимист убирает "аномальные" случаи, упрощает, быстрее делает вывод. Это не стиль — это разные аналитические решения. Применяй: описывай роль конкретно. Не "эксперт", а "венчурный аналитик с 10 годами отказов". Чем конкретнее роль — тем последовательнее методология
📖 Простыми словами

Many AI Analysts, One Dataset: Navigating the Agentic Data Science Multiverse

arXiv: 2602.18710

У нейросетей нет своего мнения или «объективного» взгляда на мир — это просто гигантское зеркало твоего промпта. Когда ты просишь AI проанализировать данные, он не включает режим беспристрастного ученого, а подстраивается под фрейминг твоего вопроса. Если ты спрашиваешь «почему эта фича взлетит», модель не просто ищет плюсы, она перестраивает всю логику рассуждений, выбирает другие методы анализа и игнорирует неудобные цифры, чтобы выдать тебе подтверждение твоей же правоты. Это не случайный глюк, а структурная особенность LLM: контекст вопроса буквально переключает рельсы, по которым катится мысль нейронки.

Это как нанять трех разных экспертов и каждому дать установку перед входом в кабинет. Одному шепнуть: «найди повод для сделки», второму — «докажи, что это афера», а третьему — «будь максимально занудным скептиком». Все трое посмотрят на одну и ту же таблицу в Excel, но первый увидит потенциал роста, второй — дыру в бюджете, а третий — статистическую погрешность. Формально никто из них не соврал, но на выходе ты получишь три разные реальности, потому что каждый искал подтверждение своей роли.

Чтобы не кормить себя иллюзиями, нужно использовать метод мультивселенной агентов. Вместо одного вопроса «что ты думаешь?», заставь модель отыграть три сценария: оптимиста, пессимиста и нейтрального аудитора. Оптимист подсветит возможности, пессимист найдет, где проект «схлопнется», а аудитор проверит, не притянуты ли выводы за уши. Только столкнув эти полярные мнения в одном чате, ты увидишь реальную картину, а не то, что тебе хотелось бы услышать.

Этот принцип универсален и работает далеко за пределами сухой науки о данных. Тестируешь бизнес-идею, пишешь стратегию маркетинга или даже планируешь переезд — фрейминг определяет результат. Если ты просишь ChatGPT подтвердить твою гениальность, он это сделает, даже если идея — полный провал. SEO для смыслов больше не работает; теперь нужно уметь вытаскивать из AI разные ветки реальности, чтобы не оказаться в пузыре собственных заблуждений.

Короче: один промпт — это всегда ловушка и когнитивное искажение. Если хочешь честный ответ, заставь нейронку спорить саму с собой, используя разные роли. 3 сценария вместо 1 — это единственный способ получить адекватную аналитику, а не просто вежливое поддакивание алгоритма. Кто продолжает верить одному ответу, тот рискует построить стратегию на галлюцинациях, вызванных кривым вопросом.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с