3,583 papers
arXiv:2602.15173 76 16 фев. 2026 г. FREE

RM vs CM: Тип модели и формат запроса определяют, получите ли вы рациональный совет или эмоционально-предвзятый

КЛЮЧЕВАЯ СУТЬ
Парадокс: попросишь ChatGPT разобрать решение математически — ответ станет хуже, чем если написать "кратко в 1-2 предложениях". Больше рассуждений не равно лучше совет. Для разговорных моделей — наоборот. Три рычага позволяют получать от обычных LLM (GPT-4.1, Gemini Flash) взвешенные решения — вместо ответов, которые меняются от порядка слов и формулировки "потеря" против "выгода". Фишка: "кратко обоснуй выбор (1-2 предложения)" — якорит модель на данные, не даёт уйти в словесные петли. Reasoning-модели (o1, o3, DeepSeek-R1) к этому нечувствительны — стабильны при любом формате запроса.
Адаптировать под запрос

TL;DR

Reasoning-модели (o1, o3, DeepSeek-R1, Gemini Pro) и conversational-модели (GPT-4.1, Gemini Flash, DeepSeek-Chat) — это два принципиально разных класса поведения при принятии решений. Первые ведут себя как холодный аналитик: не реагируют на порядок вариантов, формулировку "потеря/выгода" и не меняют вывод, если попросить объяснение. Вторые — как человек в стрессе: меняют ответ в зависимости от того, что сказано первым, как сформулирован вопрос и что именно вы попросили объяснить.

Главная боль: вы спрашиваете у ChatGPT-4.1, какой вариант выбрать — и думаете, что получаете взвешенный анализ. На самом деле ответ мог измениться, потому что вы поставили рискованный вариант первым, или написали "можешь потерять 30%" вместо "шанс сохранить 70%". Та же задача, другой порядок слов — другой вывод.

Ключ к управлению: тип объяснения, которое вы просите, меняет само решение. Просьба дать короткое обоснование (1-2 предложения) делает ответ conversational-моделей заметно рациональнее. Просьба написать полный математический разбор — парадоксально снижает рациональность: модель начинает больше "болтать" и меньше считать. Reasoning-модели к этому нечувствительны.


🔬

Схема метода

Это не одна техника, а три независимых рычага, которые влияют на качество решений от LLM:

РЫЧАГ 1: Выбор модели
→ Нужна рациональность? → RM: o1, o3, DeepSeek-R1, Gemini 2.5 Pro
→ Хватает CM? → тогда учитывай рычаги 2 и 3

РЫЧАГ 2: Формат данных
→ Явные числа/вероятности → модель считает
→ Историческая выборка / "из 100 случаев X раз..." → CM сдвигается к человеческим эвристикам

РЫЧАГ 3: Тип запрошенного объяснения
→ Без объяснения → базовый ответ
→ "Кратко обоснуй (1-2 предложения)" → CM становится рациональнее
→ "Разбери математически / пошагово" → CM парадоксально становится менее рациональным
→ RM стабильны при любом варианте

Все три рычага работают в одном сообщении — отдельные запросы не нужны.

🚀

Пример применения

Задача: Ты выбираешь между двумя предложениями работы. Первое — стабильный оффер в Яндексе на 350 тыс./мес. Второе — стартап с зарплатой 250 тыс. + опционы, которые могут стоить 5-20 млн через 3 года, а могут ничего. Просишь ChatGPT (GPT-4.1, conversational) помочь решить.

Промпт:

Помоги мне принять взвешенное решение. Кратко обоснуй выбор (1-2 предложения).

Вариант A: Оффер в Яндексе — 350 000 руб./мес, стабильно, без рисков.

Вариант B: Стартап — 250 000 руб./мес + опционы.
Из 100 стартапов на похожей стадии:
- 60 закрываются или зависают — опционы = 0
- 25 выходят на умеренный рост — опционы = 1-3 млн руб.
- 15 выстреливают — опционы = 8-20 млн руб.

Горизонт: 3 года. Мне 29 лет, есть финансовая подушка на 8 месяцев.

Дай краткое обоснование (1-2 предложения) выбора.

Результат:

Модель выдаст конкретный совет с коротким обоснованием. Важно то, чего не будет: длинных рассуждений "с одной стороны... с другой стороны..." Именно этот формат — краткое обоснование — по данным исследования даёт наиболее рациональный вывод от conversational-моделей. Если переформулировать запрос с "разбери математически" — вероятнее всего получишь более развёрнутый текст, но менее чёткое решение.


🧠

Почему это работает

Слабость conversational-LLM — отсутствие устойчивого "взгляда на задачу". Модель генерирует текст, опираясь на паттерны, которые возникают прямо в момент генерации. Если в начале промпта стоит рискованный вариант — паттерн "риск" активируется сильнее. Если вопрос сформулирован через "потери" — активируется другой паттерн, чем при "сохранении". Это не баг, это архитектура.

Сильная сторона conversational-LLM — чувствительность к структуре запроса. Именно поэтому "кратко обоснуй" работает: короткий формат вынуждает модель фокусироваться на главном сигнале — данных, — а не уходить в словесные петли. Чем более развёрнутое объяснение просишь от CM, тем больше шансов что она начнёт "сочинять" аргументы вместо того, чтобы просто посчитать.

Reasoning-модели (o1, o3, DeepSeek-R1) устойчивы ко всему этому, потому что обучены именно на математических рассуждениях. Для них порядок вариантов, формулировка, тип запрошенного объяснения — не меняют вывод. Они ближе к калькулятору, чем к собеседнику.

Рычаги: - Выбор модели → самый сильный рычаг. Если решение критично — используй RM - Формат данных → "из 100 случаев X" vs "вероятность X%" меняет поведение CM. Явные числа — рациональнее - Краткое обоснование → "обоснуй кратко" или "1-2 предложения почему" — якорь на рациональность для CM - Порядок вариантов → для CM важно: попробуй поменять местами и сравнить ответы


📋

Шаблон промпта

Помоги принять взвешенное решение. Кратко обоснуй выбор (1-2 предложения).

Вариант A: {описание варианта A с конкретными числами}

Вариант B: {описание варианта B с конкретными числами}

Контекст: {ключевые факты о ситуации — возраст, ресурсы, горизонт, цель}

Дай краткое обоснование (1-2 предложения) выбора.

Плейсхолдеры: - {описание варианта A/B} — конкретные числа, не общие слова. "350 тыс./мес" лучше чем "хорошая зарплата" - {ключевые факты} — что реально влияет на решение: деньги, время, риск-профиль - "Кратко обоснуй (1-2 предложения)" — не меняй, это ключевой элемент

Для важных решений — дублируй запрос в reasoning-модель (o1, o3, DeepSeek-R1) и сравни ответы. Если выводы сильно расходятся — это сигнал, что CM ответила под влиянием фрейминга.


🚀 Быстрый старт — вставь в чат:

Вот шаблон для взвешенного решения. Адаптируй под мою задачу: [твоя задача]. 
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит конкретные варианты, числа и контекст — потому что шаблон требует явных данных, а не общих описаний. Она возьмёт структуру и адаптирует под твою задачу.


⚠️

Ограничения

⚠️ Субъективные решения: Метод работает для решений с измеримыми параметрами (деньги, время, вероятности). Для "куда поехать в отпуск" — другая история.

⚠️ Reasoning-модели не нейтральны: RMs рациональны, но это не значит "правы". Они игнорируют человеческие эвристики — в том числе полезные (например, интуицию о команде стартапа, которую числами не выразить).

⚠️ Небольшие RM нестабильны: Открытые reasoning-модели небольшого размера (7B) показывают большой DH-разрыв — то есть ведут себя нестабильно при разном формате данных. Маленький RM ≠ большой RM.

⚠️ Порядок вариантов остаётся риском: Даже с коротким обоснованием CM чувствительна к тому, какой вариант идёт первым. Критичное решение — проверь, поменяв A и B местами.

⚠️ Claude (Haiku) — исключение: Для этой модели оба формата объяснений (и краткое, и математическое) дают менее рациональный результат, чем запрос без объяснения вообще.


🔍

Как исследовали

Команда Washington University взяла 20 моделей — от GPT-4.1 до DeepSeek-R1 и Qwen — и дала им одни и те же задачи на выбор между рискованными вариантами. Задачи специально создавались близкими к классическим из поведенческой экономики, но не идентичными — чтобы исключить эффект "модель запомнила правильный ответ". Параллельно те же задачи решали 360 живых людей через Prolific.

Каждую задачу показывали двумя способами: явно (вот вариант A: 80% шанс получить 100 руб.) и через историю (вот 20 исходов прошлых выборов). Потом задавали три типа запроса: без объяснения, с коротким обоснованием, с математическим разбором. Каждую конфигурацию повторяли 10 раз и смотрели на разброс ответов.

Самая интересная находка пришла из сравнения открытых моделей. Взяли одну базовую модель (Qwen2.5-7B) и её версию, дообученную на математике. Базовая — типичный CM, математическая — типичный RM. Это напрямую показало, что именно математическое fine-tuning переключает модель из "чувствительной к фреймингу" в "устойчивую к нему". Не размер, не инструкции — именно тип тренировки.

Неожиданное: люди при показе исторических данных (а не явных вероятностей) становятся более рациональными — обратный эффект по сравнению с conversational-моделями, которые при том же условии сильно уходят в иррациональность.


📄

Оригинал из исследования (опционально)

Исследователи использовали минималистичный шаблон запроса для провокации решения. Три варианта:

[No explanation]:
"Which prospect do you prefer? Output only 'A' or 'B'."

[Short explanation]:
"Which prospect do you prefer? Provide a one-sentence justification, 
then output 'A' or 'B'."

[Math explanation]:
"Which prospect do you prefer? Provide a brief mathematical or 
reasoning-style justification, then output 'A' or 'B'."

Контекст: Использовалось для тестирования того, как тип запрошенного объяснения меняет само решение модели. Ключевое открытие: short explanation → рост рациональности у CM; math explanation → снижение рациональности у CM.


💡

Адаптации и экстраполяции

📌

🔧 Техника: порядковый тест для фрейминг-аудита

Если решение важное — запусти один и тот же промпт дважды, поменяв местами варианты. Converging ответы = надёжно. Diverging = модель реагирует на порядок, а не на данные.

[Запрос 1]: Вариант A — {рискованный}, Вариант B — {консервативный}
[Запрос 2]: Вариант A — {консервативный}, Вариант B — {рискованный}
→ Если ответы разные — используй reasoning-модель

📌

💡 Адаптация для переговоров и питчей

Находка про framing (gain/loss) напрямую применима при подготовке презентации для инвестора или клиента. CM реагирует на формулировку сильнее, чем человек. Если просишь LLM оценить питч — попробуй два варианта:

Вариант А для проверки фрейминга питча:
"Оцени этот питч кратко (1-2 предложения). 
Версия 1: [питч через выгоды — 'зарабатываешь X']
Версия 2: [питч через потери — 'теряешь X без нас']
Какая версия убедительнее и почему?"

Если оценки кардинально расходятся — твой питч уязвим к фреймингу, и настоящий инвестор заметит обе версии.


📌

💡 Экстраполяция: выбор модели по типу задачи

На основе исследования — простой личный фреймворк:

Задача Лучший выбор
Финансовое решение, оценка рисков o1, o3, DeepSeek-R1
Анализ с явными числами Любая RM
Текст, стратегия, идеи CM (чувствительность к контексту — плюс)
Нужна стабильность ответа RM + добавь "кратко обоснуй"
Нужна человечность, эмпатия CM

🔗

Ресурсы

Работа: Mind the (DH) Gap! A Contrast in Risky Choices Between Reasoning and Conversational LLMs

Авторы: Luise Ge, Yongyan Zhang, Yevgeniy Vorobeychik — Washington University in St. Louis

Ключевые отсылки из исследования: Kahneman & Tversky (Prospect Theory), Hertwig et al. (Description-Experience Gap)


📋 Дайджест исследования

Ключевая суть

Парадокс: попросишь ChatGPT разобрать решение математически — ответ станет хуже, чем если написать "кратко в 1-2 предложениях". Больше рассуждений не равно лучше совет. Для разговорных моделей — наоборот. Три рычага позволяют получать от обычных LLM (GPT-4.1, Gemini Flash) взвешенные решения — вместо ответов, которые меняются от порядка слов и формулировки "потеря" против "выгода". Фишка: "кратко обоснуй выбор (1-2 предложения)" — якорит модель на данные, не даёт уйти в словесные петли. Reasoning-модели (o1, o3, DeepSeek-R1) к этому нечувствительны — стабильны при любом формате запроса.

Принцип работы

Три рычага — и все три работают в одном сообщении. Рычаг 1: тип модели. Reasoning-модель (o1, o3, DeepSeek-R1) — это калькулятор: порядок вариантов, формулировка, тип объяснения — ничего не меняет. Разговорная модель (GPT-4.1, Gemini Flash) — как человек в стрессе: реагирует на всё. Рычаг 2: формат данных. "Из 100 случаев 60 закрываются" работает точнее, чем "вероятность 60%." Явные числа якорят разговорную модель на расчёт. Историческая выборка — тянет к человеческим эвристикам. Рычаг 3: тип запрошенного объяснения. "Разбери математически" — модель начинает сочинять аргументы под уже генерируемый текст. "Кратко обоснуй (1-2 предложения)" — модель фокусируется на данных. Reasoning-модели на это не реагируют вовсе.

Почему работает

Разговорная модель не думает — она генерирует текст по паттернам, которые возникают прямо в момент написания ответа. Рискованный вариант стоит первым — паттерн "риск" активируется сильнее. Написано "можешь потерять 30%" — другой паттерн, чем при "шанс сохранить 70%". Та же задача, другой порядок слов — другой вывод. Краткий формат — это принудительный фокус: когда модель укладывается в 2 предложения, словесных петель нет места. Остаётся только главное — данные. Длинное математическое рассуждение работает наоборот. Цепочка слов порождает новые паттерны, модель начинает обосновывать то, что уже написала, а не считать заново. Это не баг — это архитектура. Отдельный случай — Claude Haiku: для неё любой формат объяснения ухудшает ответ. Лучший вариант для этой модели — запрос совсем без просьбы что-то объяснять.

Когда применять

Финансовые, карьерные, инвестиционные решения → конкретно для задач с измеримыми параметрами (деньги, вероятности, временные горизонты), особенно когда рядом стоят рискованный и стабильный варианты. НЕ подходит для субъективных выборов без чисел ("куда поехать в отпуск", "какой дизайн лучше") — метод не даёт преимущества там, где нечего считать. Также не стоит доверять небольшим открытым reasoning-моделям (7B и меньше) — они ведут себя нестабильно даже при изменении формата данных. Маленький reasoning — не то же самое, что o1.

Мини-рецепт

1. Выбери тип модели: решение критично — используй reasoning-модель (o1, o3, DeepSeek-R1). Она стабильна к формулировкам и порядку вариантов. Хватает обычного ChatGPT — тогда шаги 2-4 особенно важны.

2. Дай конкретные числа: не "хорошая зарплата", а "350 тыс./мес". Не "рискованный вариант", а "из 100 похожих случаев 60 закрываются". Явные числа якорят модель на расчёт.

3. Попроси краткое обоснование: добавь в конец запроса: Дай краткое обоснование выбора (1-2 предложения). — именно этот формат даёт от разговорных моделей наиболее взвешенный ответ. Не "разбери математически", не "пошагово".

4. Проверь порядок вариантов: для важного решения — переставь A и B местами и задай вопрос ещё раз. Если выводы расходятся — модель ответила под влиянием порядка, а не данных.

5. Дублируй в reasoning-модель: скопируй тот же запрос в o1 или DeepSeek-R1. Если ответы сильно расходятся с разговорной моделью — это сигнал: разговорная модель дала эмоционально окрашенный ответ.

Примеры

[ПЛОХО] : Что лучше — оффер в Яндексе или стартап с опционами? Разбери математически и пошагово со всеми рассуждениями.
[ХОРОШО] : Помоги принять взвешенное решение. Кратко обоснуй выбор (1-2 предложения). Вариант A: Яндекс — 350 000 руб./мес, стабильно, без рисков. Вариант B: Стартап — 250 000 руб./мес + опционы. Из 100 стартапов на похожей стадии: — 60 закрываются или зависают — опционы = 0 — 25 выходят на умеренный рост — опционы 1-3 млн руб. — 15 выстреливают — опционы 8-20 млн руб. Контекст: мне 29 лет, финансовая подушка на 8 месяцев, горизонт 3 года. Дай краткое обоснование (1-2 предложения) выбора. Результат: конкретный совет без "с одной стороны... с другой стороны". Если переставить варианты местами и ответы расходятся — сигнал, что модель чувствительна к порядку. Дублируй в o1 для проверки.
Источник: Mind the (DH) Gap! A Contrast in Risky Choices Between Reasoning and Conversational LLMs
ArXiv ID: 2602.15173 | Сгенерировано: 2026-02-20 10:46

Проблемы LLM

ПроблемаСутьКак обойти
Разговорная модель меняет вывод от перефразировкиЗадаёшь вопрос про выбор. Меняешь порядок вариантов или пишешь "можешь потерять 30%" вместо "шанс сохранить 70%" — и модель даёт другой ответ. Задача та же. Данные те же. Только слова другие. Это не частный случай — работает на любых решениях с несколькими вариантамиУкажи явные числа и вероятности. Добавь "кратко обоснуй (1-2 предложения)" — это якорит модель на данных. Для важных решений поменяй варианты местами и сравни ответы

Методы

МетодСуть
Краткое обоснование — якорь на данныеДобавь в конец запроса: Дай краткое обоснование (1-2 предложения) выбора. Почему работает: Короткий формат не даёт модели уходить в словесные петли. Она вынуждена опираться на цифры, а не генерировать аргументы. Длинное объяснение — наоборот, даёт модели "разогнаться" и начать сочинять. Когда не работает: Claude Haiku — исключение. Для неё любое объяснение (и краткое, и подробное) снижает рациональность. Лучше спрашивать без запроса на обоснование. Когда применять: любое решение с измеримыми параметрами — деньги, вероятности, сроки

Тезисы

ТезисКомментарий
Больше объяснений от разговорной модели = хуже результатЛогика подсказывает: попросишь расписать математически — получишь более точный ответ. Нет. Разговорная модель при развёрнутом анализе начинает генерировать аргументы, а не считать. Чем длиннее текст — тем дальше от данных. Краткий ответ точнее развёрнутого. Применяй: не проси "разбери пошагово" или "подробно объясни математику". Проси "кратко обоснуй"
📖 Простыми словами

Mind the (DH) Gap! A Contrast in Risky Choices Between Reasoning and ConversationalLLMs

arXiv: 2602.15173

Разница между Reasoning-моделями (вроде o1 или DeepSeek-R1) и обычными чат-ботами — это не просто вопрос мощности, а фундаментальный сдвиг в «психике» нейронки. Обычные модели работают как генераторы текста, которые подбирают наиболее вероятное следующее слово, опираясь на сиюминутный контекст. А «рассуждающие» модели сначала строят внутреннюю логическую цепочку, прежде чем выдать ответ. В итоге мы получаем два разных типа поведения: холодный расчет против эмоциональных качелей, где результат зависит не от логики, а от того, как ты «подмигнул» модели в промпте.

Это как сравнивать опытного финансового аналитика с впечатлительным стажером. Стажеру можно сказать: «Мы потеряем миллион, если не рискнем», и он в панике подпишет любую авантюру. Но если сказать ему: «Мы сохраним текущие активы, если откажемся», он тут же станет консерватором. Conversational-модели ведут себя именно так: они патологически зависят от формулировок и порядка вариантов. Аналитик же посмотрит на цифры, проигнорирует твой тон и выдаст один и тот же вердикт, потому что его внутреннее рассуждение защищено от дешевых манипуляций текстом.

В работе это проявляется через три конкретных косяка обычных моделей: эффект порядка, фрейминг и ловушку объяснений. Если ты даешь GPT-4 выбор между стабильной зарплатой и рискованным стартапом, ее ответ может измениться просто от того, какой вариант ты упомянул первым. Она буквально «залипает» на начало текста. Более того, если попросить обычную модель сначала «объяснить свой выбор», она может сама себя переубедить в процессе написания текста, тогда как Reasoning-модели остаются верны логике, даже если их заставляют расписывать аргументы по шагам.

Исследование проводили на финансовых и жизненных дилеммах, но принцип универсален для любой аналитики. Если ты используешь AI для оценки рисков, выбора стратегии или найма людей, обычный чат-бот — это ненадежный советчик, который поддакивает твоим страхам. Этот же паттерн работает в маркетинге и юриспруденции: там, где важна объективность, обычные LLM лажают, потому что они слишком стараются быть «хорошими собеседниками» вместо того, чтобы быть точными калькуляторами.

Короче: если цена ошибки высока, забудь про обычные чаты и переходи на Reasoning-модели. Обычные нейронки слишком человечны в своих слабостях — они ведутся на манипуляции, путаются в показаниях и меняют мнение от перемены мест слагаемых. 10 из 10 когнитивных искажений остаются в силе для стандартных моделей, и только модели с «цепочкой рассуждений» способны выдать сухой, стабильный результат. Не пытайся лечить стажера — просто найми аналитика.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с