TL;DR
Reasoning-модели (o1, o3, DeepSeek-R1, Gemini Pro) и conversational-модели (GPT-4.1, Gemini Flash, DeepSeek-Chat) — это два принципиально разных класса поведения при принятии решений. Первые ведут себя как холодный аналитик: не реагируют на порядок вариантов, формулировку "потеря/выгода" и не меняют вывод, если попросить объяснение. Вторые — как человек в стрессе: меняют ответ в зависимости от того, что сказано первым, как сформулирован вопрос и что именно вы попросили объяснить.
Главная боль: вы спрашиваете у ChatGPT-4.1, какой вариант выбрать — и думаете, что получаете взвешенный анализ. На самом деле ответ мог измениться, потому что вы поставили рискованный вариант первым, или написали "можешь потерять 30%" вместо "шанс сохранить 70%". Та же задача, другой порядок слов — другой вывод.
Ключ к управлению: тип объяснения, которое вы просите, меняет само решение. Просьба дать короткое обоснование (1-2 предложения) делает ответ conversational-моделей заметно рациональнее. Просьба написать полный математический разбор — парадоксально снижает рациональность: модель начинает больше "болтать" и меньше считать. Reasoning-модели к этому нечувствительны.
Схема метода
Это не одна техника, а три независимых рычага, которые влияют на качество решений от LLM:
РЫЧАГ 1: Выбор модели
→ Нужна рациональность? → RM: o1, o3, DeepSeek-R1, Gemini 2.5 Pro
→ Хватает CM? → тогда учитывай рычаги 2 и 3
РЫЧАГ 2: Формат данных
→ Явные числа/вероятности → модель считает
→ Историческая выборка / "из 100 случаев X раз..." → CM сдвигается к человеческим эвристикам
РЫЧАГ 3: Тип запрошенного объяснения
→ Без объяснения → базовый ответ
→ "Кратко обоснуй (1-2 предложения)" → CM становится рациональнее
→ "Разбери математически / пошагово" → CM парадоксально становится менее рациональным
→ RM стабильны при любом варианте
Все три рычага работают в одном сообщении — отдельные запросы не нужны.
Пример применения
Задача: Ты выбираешь между двумя предложениями работы. Первое — стабильный оффер в Яндексе на 350 тыс./мес. Второе — стартап с зарплатой 250 тыс. + опционы, которые могут стоить 5-20 млн через 3 года, а могут ничего. Просишь ChatGPT (GPT-4.1, conversational) помочь решить.
Промпт:
Помоги мне принять взвешенное решение. Кратко обоснуй выбор (1-2 предложения).
Вариант A: Оффер в Яндексе — 350 000 руб./мес, стабильно, без рисков.
Вариант B: Стартап — 250 000 руб./мес + опционы.
Из 100 стартапов на похожей стадии:
- 60 закрываются или зависают — опционы = 0
- 25 выходят на умеренный рост — опционы = 1-3 млн руб.
- 15 выстреливают — опционы = 8-20 млн руб.
Горизонт: 3 года. Мне 29 лет, есть финансовая подушка на 8 месяцев.
Дай краткое обоснование (1-2 предложения) выбора.
Результат:
Модель выдаст конкретный совет с коротким обоснованием. Важно то, чего не будет: длинных рассуждений "с одной стороны... с другой стороны..." Именно этот формат — краткое обоснование — по данным исследования даёт наиболее рациональный вывод от conversational-моделей. Если переформулировать запрос с "разбери математически" — вероятнее всего получишь более развёрнутый текст, но менее чёткое решение.
Почему это работает
Слабость conversational-LLM — отсутствие устойчивого "взгляда на задачу". Модель генерирует текст, опираясь на паттерны, которые возникают прямо в момент генерации. Если в начале промпта стоит рискованный вариант — паттерн "риск" активируется сильнее. Если вопрос сформулирован через "потери" — активируется другой паттерн, чем при "сохранении". Это не баг, это архитектура.
Сильная сторона conversational-LLM — чувствительность к структуре запроса. Именно поэтому "кратко обоснуй" работает: короткий формат вынуждает модель фокусироваться на главном сигнале — данных, — а не уходить в словесные петли. Чем более развёрнутое объяснение просишь от CM, тем больше шансов что она начнёт "сочинять" аргументы вместо того, чтобы просто посчитать.
Reasoning-модели (o1, o3, DeepSeek-R1) устойчивы ко всему этому, потому что обучены именно на математических рассуждениях. Для них порядок вариантов, формулировка, тип запрошенного объяснения — не меняют вывод. Они ближе к калькулятору, чем к собеседнику.
Рычаги: - Выбор модели → самый сильный рычаг. Если решение критично — используй RM - Формат данных → "из 100 случаев X" vs "вероятность X%" меняет поведение CM. Явные числа — рациональнее - Краткое обоснование → "обоснуй кратко" или "1-2 предложения почему" — якорь на рациональность для CM - Порядок вариантов → для CM важно: попробуй поменять местами и сравнить ответы
Шаблон промпта
Помоги принять взвешенное решение. Кратко обоснуй выбор (1-2 предложения).
Вариант A: {описание варианта A с конкретными числами}
Вариант B: {описание варианта B с конкретными числами}
Контекст: {ключевые факты о ситуации — возраст, ресурсы, горизонт, цель}
Дай краткое обоснование (1-2 предложения) выбора.
Плейсхолдеры:
- {описание варианта A/B} — конкретные числа, не общие слова. "350 тыс./мес" лучше чем "хорошая зарплата"
- {ключевые факты} — что реально влияет на решение: деньги, время, риск-профиль
- "Кратко обоснуй (1-2 предложения)" — не меняй, это ключевой элемент
Для важных решений — дублируй запрос в reasoning-модель (o1, o3, DeepSeek-R1) и сравни ответы. Если выводы сильно расходятся — это сигнал, что CM ответила под влиянием фрейминга.
🚀 Быстрый старт — вставь в чат:
Вот шаблон для взвешенного решения. Адаптируй под мою задачу: [твоя задача].
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит конкретные варианты, числа и контекст — потому что шаблон требует явных данных, а не общих описаний. Она возьмёт структуру и адаптирует под твою задачу.
Ограничения
⚠️ Субъективные решения: Метод работает для решений с измеримыми параметрами (деньги, время, вероятности). Для "куда поехать в отпуск" — другая история.
⚠️ Reasoning-модели не нейтральны: RMs рациональны, но это не значит "правы". Они игнорируют человеческие эвристики — в том числе полезные (например, интуицию о команде стартапа, которую числами не выразить).
⚠️ Небольшие RM нестабильны: Открытые reasoning-модели небольшого размера (7B) показывают большой DH-разрыв — то есть ведут себя нестабильно при разном формате данных. Маленький RM ≠ большой RM.
⚠️ Порядок вариантов остаётся риском: Даже с коротким обоснованием CM чувствительна к тому, какой вариант идёт первым. Критичное решение — проверь, поменяв A и B местами.
⚠️ Claude (Haiku) — исключение: Для этой модели оба формата объяснений (и краткое, и математическое) дают менее рациональный результат, чем запрос без объяснения вообще.
Как исследовали
Команда Washington University взяла 20 моделей — от GPT-4.1 до DeepSeek-R1 и Qwen — и дала им одни и те же задачи на выбор между рискованными вариантами. Задачи специально создавались близкими к классическим из поведенческой экономики, но не идентичными — чтобы исключить эффект "модель запомнила правильный ответ". Параллельно те же задачи решали 360 живых людей через Prolific.
Каждую задачу показывали двумя способами: явно (вот вариант A: 80% шанс получить 100 руб.) и через историю (вот 20 исходов прошлых выборов). Потом задавали три типа запроса: без объяснения, с коротким обоснованием, с математическим разбором. Каждую конфигурацию повторяли 10 раз и смотрели на разброс ответов.
Самая интересная находка пришла из сравнения открытых моделей. Взяли одну базовую модель (Qwen2.5-7B) и её версию, дообученную на математике. Базовая — типичный CM, математическая — типичный RM. Это напрямую показало, что именно математическое fine-tuning переключает модель из "чувствительной к фреймингу" в "устойчивую к нему". Не размер, не инструкции — именно тип тренировки.
Неожиданное: люди при показе исторических данных (а не явных вероятностей) становятся более рациональными — обратный эффект по сравнению с conversational-моделями, которые при том же условии сильно уходят в иррациональность.
Оригинал из исследования (опционально)
Исследователи использовали минималистичный шаблон запроса для провокации решения. Три варианта:
[No explanation]:
"Which prospect do you prefer? Output only 'A' or 'B'."
[Short explanation]:
"Which prospect do you prefer? Provide a one-sentence justification,
then output 'A' or 'B'."
[Math explanation]:
"Which prospect do you prefer? Provide a brief mathematical or
reasoning-style justification, then output 'A' or 'B'."
Контекст: Использовалось для тестирования того, как тип запрошенного объяснения меняет само решение модели. Ключевое открытие: short explanation → рост рациональности у CM; math explanation → снижение рациональности у CM.
Адаптации и экстраполяции
🔧 Техника: порядковый тест для фрейминг-аудита
Если решение важное — запусти один и тот же промпт дважды, поменяв местами варианты. Converging ответы = надёжно. Diverging = модель реагирует на порядок, а не на данные.
[Запрос 1]: Вариант A — {рискованный}, Вариант B — {консервативный}
[Запрос 2]: Вариант A — {консервативный}, Вариант B — {рискованный}
→ Если ответы разные — используй reasoning-модель
💡 Адаптация для переговоров и питчей
Находка про framing (gain/loss) напрямую применима при подготовке презентации для инвестора или клиента. CM реагирует на формулировку сильнее, чем человек. Если просишь LLM оценить питч — попробуй два варианта:
Вариант А для проверки фрейминга питча:
"Оцени этот питч кратко (1-2 предложения).
Версия 1: [питч через выгоды — 'зарабатываешь X']
Версия 2: [питч через потери — 'теряешь X без нас']
Какая версия убедительнее и почему?"
Если оценки кардинально расходятся — твой питч уязвим к фреймингу, и настоящий инвестор заметит обе версии.
💡 Экстраполяция: выбор модели по типу задачи
На основе исследования — простой личный фреймворк:
| Задача | Лучший выбор |
|---|---|
| Финансовое решение, оценка рисков | o1, o3, DeepSeek-R1 |
| Анализ с явными числами | Любая RM |
| Текст, стратегия, идеи | CM (чувствительность к контексту — плюс) |
| Нужна стабильность ответа | RM + добавь "кратко обоснуй" |
| Нужна человечность, эмпатия | CM |
Ресурсы
Работа: Mind the (DH) Gap! A Contrast in Risky Choices Between Reasoning and Conversational LLMs
Авторы: Luise Ge, Yongyan Zhang, Yevgeniy Vorobeychik — Washington University in St. Louis
Ключевые отсылки из исследования: Kahneman & Tversky (Prospect Theory), Hertwig et al. (Description-Experience Gap)
