3,583 papers
arXiv:2604.26106 82 28 апр. 2026 г. FREE

Pre-mortem + Wildcards: как исправить главные слепые пятна LLM при анализе и прогнозировании

КЛЮЧЕВАЯ СУТЬ
Opus 4.6 сам по себе делает pre-mortem только в 9 из 100 случаев. Лучший прогнозист — в 38. Разница не в том, сколько информации собрала модель. Разница в том, какие вопросы она задаёт себе после. CHAMPS KNOW позволяет перевести LLM из режима «собери данные → ответь» в режим стратегического аналитика — одним промптом, без дообучения. Три блока, которые модель почти никогда не проходит сама: P (если я неправ — почему?), O (что я упускаю?), W (какой дикий сценарий всё изменит?). Фишка: блок P инструктирует модель оспорить собственную позицию сразу после того, как она её сформировала — и это не вежливая оговорка, а вынужденный поиск реального контраргумента.
Адаптировать под запрос

TL;DR

Исследователи сравнили, на что опираются лучшие и средние прогнозисты при анализе сложных вопросов. Оказалось: разница не в качестве поиска информации, а в том, какие вопросы они задают себе после сбора данных. Лучшие прогнозисты систематически делают три вещи, которые обычные LLM почти никогда не делают без команды: проводят pre-mortem анализ («если я окажусь неправ — почему?»), ищут альтернативные перспективы («что я упускаю?») и рассматривают чёрных лебедей («какое маловероятное событие всё изменит?»).

Главная находка: Frontier LLM по умолчанию тратят ~94% усилий на сбор информации (H — «поиск») и почти игнорируют pre-mortem (P), альтернативные перспективы (O) и wildcards (W). При этом именно P, O, W — главное, что отличает точного аналитика от среднего. Claude Opus 4.6 проводил pre-mortem только в 9.5% случаев. Лучший прогнозист — в 37.8%. Ещё острее: LLM систематически путает риторику с намерением — если лидер говорит «мы сделаем это», модель воспринимает это как обязательство, не как переговорный манёвр. Она не задаёт вопрос: «а зачем ему это делать именно сейчас?»

Решение: явно инструктировать LLM проходить структуру CHAMPS KNOW — 10-мерный фреймворк Тетлока для точного мышления. Особенно важны три недоиспользуемых измерения: P (что если я неправ?), O (какие перспективы я игнорирую?), W (какой чёрный лебедь всё изменит?). Это один промпт, один запрос, без инфраструктуры.


🔬

Схема метода

Метод работает в одном промпте, один запрос:

ШАГ 1: Нормы и прецеденты (N) → Что обычно происходит в похожих ситуациях?
ШАГ 2: Ключевые игроки и стимулы (K) → Кто решает? Почему именно сейчас?
ШАГ 3: Сравнимые классы (C) → На что это похоже из прошлого?
ШАГ 4: Pre-mortem анализ (P) → Если прогноз неверен — почему?
ШАГ 5: Альтернативные перспективы (O) → Что я упускаю?
ШАГ 6: Wildcards (W) → Что маловероятно, но меняет всё?
ШАГ 7: Итог → Вывод с вероятностью и главными аргументами

Исследование и вывод — в одном запросе. Структура заменяет дефолтный режим LLM («собери инфо → ответь») на режим стратегического аналитика.


🚀

Пример применения

Задача: Алексей — основатель HR-tech стартапа. Главный вопрос: «Выйдет ли Яндекс с конкурирующим ATS-продуктом (система найма) в следующие 12 месяцев, и стоит ли мне откладывать раунд?»

Промпт:

Проанализируй следующий вопрос как стратегический аналитик, используя 
структуру CHAMPS KNOW. Пройди каждое измерение последовательно:

**Вопрос:** Выйдет ли Яндекс с конкурирующим ATS-продуктом (система 
автоматизации найма) в ближайшие 12 месяцев?

**Контекст:** Яндекс уже имеет Яндекс Работу, HR-tech рынок РФ растёт, 
конкуренты — HH.ru, Поток, Skillaz. Я — стартап с 200 клиентами, 
рассматриваю раунд инвестиций.

---

Пройди каждый блок:

**N — Нормы и прецеденты:**
Как Яндекс обычно заходит в смежные ниши? Что типично для их 
продуктовой экспансии — строят, покупают, партнёрятся?

**K — Ключевые игроки и их стимулы:**
Кто внутри Яндекса принимает такое решение? Какой у них стимул 
запустить именно ATS, именно сейчас? Что меняется в их приоритетах 
в 2025?

**C — Сравнимые классы:**
На какие предыдущие экспансии Яндекса это похоже? Чем отличается 
данная ситуация от этих прецедентов?

**P — Pre-mortem анализ (ОБЯЗАТЕЛЬНО):**
Предположи, что через 12 месяцев Яндекс выпустил конкурирующий ATS. 
Почему мой анализ мог это недооценить? Какие сигналы я, вероятно, 
игнорирую прямо сейчас?

Теперь предположи обратное: через 12 месяцев Яндекс так и не вышел 
в ATS. Почему? Что удержало?

**O — Альтернативные перспективы:**
Какие точки зрения на ситуацию я не рассматривал? Как видит это 
крупный инвестор? Как видит менеджер Яндекса, которому предложили 
строить ATS?

**W — Wildcards:**
Какое неожиданное событие может резко изменить ситуацию в ту или 
иную сторону? Например: регуляторное изменение, сделка M&A, 
изменение стратегии?

---

**Итоговый вывод:**
На основе анализа выше — оцени вероятность выхода Яндекса в ATS 
в ближайшие 12 месяцев. Укажи: главный аргумент за, главный аргумент 
против, и что изменило бы твою оценку.

Результат: Модель последовательно пройдёт все блоки. В блоке K появится рассуждение не просто «Яндекс большой», а «каков конкретный стимул продуктовой команды именно сейчас». В блоке P модель сама себя оспорит — и, возможно, изменит оценку. В W появятся сценарии вроде «если Mail.ru Group купит Skillaz — Яндекс ускорится». Итог будет не «вероятно да/нет», а структурированный вывод с конкретными триггерами для пересмотра.


🧠

Почему это работает

Дефолтный режим LLM — линейный. Модель собирает информацию, формирует позицию и защищает её. Если в тексте написано «мы сделаем это» — она воспринимает это как сигнал, не задавая вопрос «а зачем им это говорить?». Это не ошибка конкретной модели — это паттерн. Исследование показало: даже лучший frontier агент (Opus 4.6) провёл pre-mortem только в 1 из 10 случаев сам по себе.

LLM хорошо умеет принимать роль. Когда вы явно задаёте структуру рассуждения — модель её выполняет. Она не «думает» по-другому, она генерирует текст по другому паттерну. Блок «P — pre-mortem» буквально меняет следующий генерируемый текст: модель вынуждена искать контраргументы к своей только что сформированной позиции.

Три рычага управления промптом: - Добавить «ОБЯЗАТЕЛЬНО» к блоку P → модель не пропустит его как формальность - Убрать блоки M и S → если вопрос не требует математики или уточнения формулировок — промпт становится короче - Заменить общий контекст на конкретные данные → блок K становится острее, если дать реальные факты о компании или человеке


📋

Шаблон промпта

Проанализируй следующий вопрос как стратегический аналитик. 
Пройди каждый блок последовательно:

**Вопрос:** {вопрос для анализа}

**Контекст:** {известные факты, данные, ситуация}

---

**N — Нормы и прецеденты:**
Какие типичные паттерны поведения характерны для данной ситуации? 
Что обычно происходит в похожих случаях?

**K — Ключевые игроки и стимулы:**
Кто принимает решения? Какие у них реальные стимулы именно сейчас? 
Почему они могут сделать это (или не сделать) в данный момент?

**C — Сравнимые ситуации:**
На что это похоже из прошлого? Чем данный случай отличается?

**P — Pre-mortem анализ (ОБЯЗАТЕЛЬНО):**
Предположи, что мой прогноз окажется неверным. Почему это произойдёт? 
Какие факторы я сейчас, вероятно, недооцениваю?

Теперь предположи противоположный исход. Что его вызвало?

**O — Альтернативные перспективы:**
Кто мог бы со мной не согласиться и почему? Какие точки зрения 
я не рассматривал?

**W — Wildcards:**
Какое маловероятное, но реальное событие может изменить всё? 
Один-два сценария.

---

**Итоговый вывод:**
На основе анализа выше: {вопрос для анализа} — что наиболее вероятно, 
главные аргументы за и против, и что изменило бы твою оценку?

Плейсхолдеры: - {вопрос для анализа} — конкретный вопрос: «выйдет ли X на рынок Y», «стоит ли мне делать Z», «как отреагирует конкурент» - {известные факты} — что уже знаешь: новости, данные, слухи, история


🚀 Быстрый старт — вставь в чат:

Вот шаблон для структурированного стратегического анализа (CHAMPS KNOW). 
Адаптируй под мою задачу: [твоя задача или вопрос]. 
Задай уточняющие вопросы, чтобы заполнить контекст.

[вставить шаблон выше]

LLM спросит какой вопрос анализируем и какой контекст есть — потому что блок K (стимулы) требует конкретных данных об актёрах, иначе анализ будет общим.


⚠️

Ограничения

⚠️ Вопросы без чёткой аналитической структуры: Pre-mortem и wildcards хорошо работают для стратегических вопросов с конкретными игроками и стимулами. На творческих или субъективных задачах («напиши текст о природе») структура не добавляет ценности.

⚠️ Качество зависит от контекста в промпте: Блок K («стимулы ключевых игроков») будет поверхностным, если не дать модели реальные данные о человеке/компании. Без контекста она генерирует общие паттерны, не конкретный анализ.

⚠️ Не заменяет экспертизу домена: Исследование показало — даже с правильной структурой рассуждения LLM иногда не имеет нужного контекста (например, о специфике нигерийских профсоюзных переговоров). Структура улучшает рассуждение, но не восполняет пробел знаний.

⚠️ Ensemble лучше одного запроса: Лучшие результаты в исследовании получались при усреднении нескольких независимых прогонов. В чате это означает: запусти промпт дважды в разных сессиях и сравни выводы.


🔍

Как исследовали

Команда FutureSearch построила BTF-2 — набор из 1417 прогностических вопросов за период октябрь–декабрь 2025 года. Фишка: вопросы сопровождались замороженным корпусом из 15 миллионов документов, снятых на момент постановки вопросов. Это позволяло запускать агентов снова и снова на одних и тех же данных — без того, чтобы они «подглядывали» в будущее через интернет.

Четыре лучших frontier-агента (Opus 4.6, Gemini 3.1 Pro, GPT-5.4, Grok 4.20) исследовали вопросы самостоятельно, делали прогнозы и оставляли полные трейсы — все поисковые запросы, прочитанные страницы, промежуточные мысли. Затем исследователи построили SOTA-прогнозист из ансамбля агентов с дополнительными техниками, который оказался точнее любого одиночного агента.

Самое интересное: они взяли фреймворк Тетлока CHAMPS KNOW (10 измерений хорошего прогнозирования, доказавших эффективность в рандомизированных исследованиях с людьми) и попросили Gemini оценить каждый финальный ответ по этим измерениям. Выяснилось, что SOTA-прогнозист опирался на pre-mortem (P) в 4 раза чаще, чем лучший одиночный агент, и на wildcards (W) — почти в 10 раз чаще. Параллельно эксперты-люди вручную разобрали 130 худших прогнозов Opus 4.6 — и нашли одну закономерность: агент принимал риторику лидеров за обязательство и не задавал вопрос «а зачем им это именно сейчас?»


💡

Адаптации и экстраполяции

📌

🔧 Адаптация: Быстрый pre-mortem без полной структуры

Если не нужен полный CHAMPS KNOW — добавь только P и O к любому запросу:

[Твой обычный вопрос к LLM]

После ответа обязательно добавь два блока:

**Если я неправ — почему?**
Предположи, что твой вывод окажется ошибочным. 
Какие факторы ты, вероятно, недооцениваешь?

**Что я упускаю?**
Какие перспективы или данные ты не рассмотрел в основном ответе?

Это минимальный рабочий вариант: два дополнительных абзаца меняют качество анализа без переработки всего промпта.


📌

🔧 Адаптация: Моделирование стимулов для переговоров

На основе находки «LLM путает риторику с намерением». Применимо перед переговорами, питчем, или разговором с партнёром/инвестором:

Я готовлюсь к переговорам с {имя/роль}.

Их публичная позиция: {что они говорят}

Ответь на три вопроса:
1. Какие РЕАЛЬНЫЕ стимулы стоят за этой позицией? 
   Что им нужно на самом деле?
2. Что было бы для них «лицо-сохраняющим» выходом из текущей позиции?
3. При каких условиях они отступят от заявленного — 
   и как это будет выглядеть внешне?

🔗

Ресурсы

Evaluating Strategic Reasoning in Forecasting Agents — Tom Liptay, Dan Schwarz, Rafael Poyiadzi, Jack Wildman, Nikos I. Bosse. FutureSearch (2026). Контакт: tom@futuresearch.ai

CHAMPS KNOW Framework — Tetlock & Gardner, «Superforecasting» (2015); Chang et al. (2016) — рандомизированное исследование влияния CHAMPS KNOW на точность человеческих прогнозов (+6–12%).

Смежные работы: ForecastBench (Karger et al., 2025); Bench to the Future v1 (Wildman et al., 2025); Autocast (Zou et al., 2022).


📋 Дайджест исследования

Ключевая суть

Opus 4.6 сам по себе делает pre-mortem только в 9 из 100 случаев. Лучший прогнозист — в 38. Разница не в том, сколько информации собрала модель. Разница в том, какие вопросы она задаёт себе после. CHAMPS KNOW позволяет перевести LLM из режима «собери данные → ответь» в режим стратегического аналитика — одним промптом, без дообучения. Три блока, которые модель почти никогда не проходит сама: P (если я неправ — почему?), O (что я упускаю?), W (какой дикий сценарий всё изменит?). Фишка: блок P инструктирует модель оспорить собственную позицию сразу после того, как она её сформировала — и это не вежливая оговорка, а вынужденный поиск реального контраргумента.

Принцип работы

LLM работает линейно. Собирает информацию → формирует позицию → защищает её. Если в источнике написано «мы это сделаем» — принимает как факт. Не спрашивает: «а зачем им это говорить именно сейчас?». Это паттерн, не баг конкретной модели. CHAMPS KNOW ломает этот цикл: когда P идёт сразу после формирования вывода, модель вынуждена генерировать текст в обратном направлении — искать то, что только что проигнорировала. Модель не «думает» иначе. Она генерирует текст по другому шаблону. Но результат — другой.

Почему работает

После сбора информации мозг фиксируется на первой правдоподобной версии. У модели тот же эффект — назовём это якорением. Спросить «может, я неправ?» — и модель добавит оговорку, потом продолжит гнуть своё. Инструктировать «предположи что неправ — объясни почему» — и модель ищет реальный контраргумент. Это разные запросы с разным результатом. Исследование показало: даже frontier-модели тратят ~94% усилий на сбор информации и почти не трогают P, O, W — те самые блоки, которые отличают точный анализ от среднего. Структура просто заставляет модель дойти до этих блоков вместо того, чтобы остановиться после первого правдоподобного ответа.

Когда применять

Стратегические вопросы с конкретными игроками и стимулами: анализ конкурентов, прогнозы по решениям компаний, оценка рисков сделок, найм ключевых людей — особенно когда ставки высокие и хочется ошибиться как можно реже. Лучше всего работает когда можно дать модели реальные данные об участниках — без этого блок K (стимулы) будет водой. НЕ подходит для творческих задач и вопросов без конкретных участников: «напиши текст», «что интереснее», «как улучшить слог».

Мини-рецепт

1. Возьми шаблон: N → K → C → P → O → W → итог. Это весь фреймворк. Можно убрать блоки, которые не нужны под конкретную задачу.
2. Заполни контекст: в блок K без реальных фактов о компании или человеке модель выдаст общие паттерны, не острый анализ. Дай ей что-то конкретное.
3. Блок P — пометь «ОБЯЗАТЕЛЬНО»: без этого модель пройдёт его формально. С этим — вынуждена искать реальный контраргумент к своей позиции.
4. Запусти дважды в разных сессиях: два независимых прогона дадут разные wildcards и разные pre-mortem — сравни выводы, возьми пересечение.

Примеры

[ПЛОХО] : Выйдет ли Яндекс на рынок систем автоматизации найма в 2025?
[ХОРОШО] : Проанализируй вопрос как стратегический аналитик, пройди каждый блок последовательно. Вопрос: Выйдет ли Яндекс с конкурирующим продуктом для автоматизации найма в ближайшие 12 месяцев? Контекст: Яндекс уже имеет Яндекс Работу, рынок растёт, конкуренты — HH.ru, Поток, Skillaz. N: Как Яндекс обычно заходит в смежные ниши — строит, покупает, партнёрится? K: Кто внутри Яндекса принимает такое решение? Какой у них стимул именно сейчас? C: На какие прошлые экспансии Яндекса это похоже? Чем отличается? P (ОБЯЗАТЕЛЬНО): Предположи — через 12 месяцев Яндекс вышел. Почему мой анализ это недооценил? Теперь предположи обратное: так и не вышел. Что удержало? O: Какие точки зрения я не рассматривал? W: Какое неожиданное событие резко меняет ситуацию? Итог: вероятность выхода, главный аргумент за, главный против, что изменило бы оценку.
Источник: Evaluating Strategic Reasoning in Forecasting Agents
ArXiv ID: 2604.26106 | Сгенерировано: 2026-04-30 05:29

Проблемы LLM

ПроблемаСутьКак обойти
Модель по умолчанию не проверяет свои выводыПолучила данные сформировала позицию защищает её. Не спрашивает сама себя: «А если я неправа — почему?» Не ищет что упускает. Не думает о маловероятных сценариях. Работает как прокурор, не как аналитик. Проблема в любом прогнозе, оценке риска, стратегическом анализеЯвно потребуй три блока: (1) предположи, что прогноз неверен — почему; (2) какие перспективы ты игнорируешь; (3) какое маловероятное событие всё изменит. Пометь их как «ОБЯЗАТЕЛЬНО» — иначе модель пройдёт формально
Модель принимает заявления буквальноКто-то говорит «мы это сделаем» — модель читает как обязательство. Не задаёт вопрос: «Зачем им это говорить именно сейчас?» Не различает намерение и переговорный манёвр. Критично при анализе конкурентов, политики, переговоровДобавь явный блок о стимулах: «Кто принимает решение? Почему именно сейчас? Что им выгодно заявить — и что выгодно сделать?» Без этого блока модель анализирует слова, не мотивацию

Методы

МетодСуть
Структура pre-mortem анализа в одном запросеДобавь в запрос три последовательных блока. Блок P: «Предположи, что прогноз неверен. Почему? Что я сейчас, вероятно, недооцениваю? Теперь предположи противоположный исход — что его вызвало?» Блок O: «Кто мог бы со мной не согласиться и почему? Какие точки зрения я не рассматривал?» Блок W: «Одно-два маловероятных, но реальных события, которые меняют всё.» После трёх блоков — итоговый вывод с вероятностью и условиями пересмотра. Пометь каждый блок явно. Работает: стратегические вопросы с конкретными игроками и стимулами. Не работает: творческие задачи, вопросы без структуры «кто решает»
📖 Простыми словами

Evaluating Strategic Reasoning in ForecastingAgents

arXiv: 2604.26106

Проблема в том, что обычные AI-ассистенты мыслят слишком прямолинейно и предсказуемо. Когда ты просишь модель что-то спрогнозировать, она работает как прилежный отличник: собирает факты, склеивает их в логическую цепочку и выдает ответ, в который сама же свято верит. Корень беды в линейном мышлении — LLM склонны подтверждать первую попавшуюся гипотезу, вместо того чтобы подвергнуть её сомнению. Они не умеют «думать об обратном» по умолчанию, поэтому их прогнозы часто оказываются поверхностными и летят в трубу при первом же столкновении с реальностью.

Это как если бы ты спросил у восторженного фаната, выиграет ли его команда в следующем матче. Он вывалит на тебя кучу статистики о прошлых победах, но напрочь проигнорирует, что у главного нападающего болит колено, а судья вчера засудил похожую игру. Формально прогноз обоснован, но по факту это информационный пузырь. Модель ведет себя как адвокат своей идеи, а тебе на самом деле нужен прокурор, который разнесет её в щепки еще до того, как ты поставишь на этот прогноз деньги.

Чтобы вытащить AI на уровень топового аналитика, нужно заставить его использовать стратегическое рассуждение через три конкретных метода. Первый — это pre-mortem анализ: модель должна представить, что её прогноз уже провалился, и объяснить, почему это случилось. Второй — поиск альтернативных перспектив, когда агент обязан найти аргументы, прямо противоречащие его текущей позиции. И третий — учет «черных лебедей», то есть разбор маловероятных, но катастрофических событий. Исследование показало, что даже крутые модели вроде Opus делают это сами лишь в 1 из 10 случаев, так что их нужно буквально тыкать носом в эти задачи.

Этот принцип универсален и работает далеко за пределами скучных отчетов. Будь то запуск стартапа, планирование раунда инвестиций или оценка того, выкатит ли конкурент похожий продукт через полгода — механика критического фильтра везде одинакова. Тестировали это на прогнозистах, но метод применим к любому сложному решению, где цена ошибки высока. Если ты просто спрашиваешь AI «что будет?», ты получаешь гадание на кофейной гуще. Если заставляешь его искать точки отказа, ты получаешь стратегию.

Короче: разница между средним прогнозом и гениальным инсайтом заключается не в количестве данных, а в умении атаковать собственные выводы. Хватит использовать LLM как энциклопедию, начни использовать их как спарринг-партнеров, которые обязаны найти в твоем плане изъян. 3 метода критического анализа превращают обычный чат в мощный инструмент для принятия решений. Кто продолжит верить линейным ответам нейросетей, тот неизбежно столкнется с реальностью, которую просто не заложили в промпт.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с