3,583 papers
arXiv:2602.10625 80 11 фев. 2026 г. FREE

Когда думать медленно вредит: провал reasoning-моделей в задачах на понимание людей

КЛЮЧЕВАЯ СУТЬ
Парадокс: Reasoning-модели (GPT-o3, DeepSeek-R1) умеют «медленно думать» — это помогает в математике и коде. Но в задачах на понимание людей (Theory of Mind) чем дольше модель думает, тем хуже результат. GPT-o3 упал с точности 84% до 69%, когда ему дали больше времени рассуждать. Qwen3-8B-Reasoning (специально обученный долго думать) проиграл обычному Qwen3-8B. Метод позволяет точнее понимать мотивы, намерения и реакции людей в переговорах, конфликтах, анализе отзывов. Фишка: ограничиваешь длину рассуждений до 1000-1500 токенов — модель не уходит в витиеватые размышления, держит фокус. Открытый вопрос без вариантов ответов даёт +14-26% точности — модель выводит смысл, а не матчит слова с готовыми опциями.
Адаптировать под запрос

TL;DR

Исследователи проверили, помогает ли способность "медленно думать" (как в GPT-o3, DeepSeek-R1) в задачах на Theory of Mind — понимание чужих мотивов, убеждений и намерений. Результат оказался противоположным ожиданиям: reasoning-модели проигрывают обычным на тех же задачах. Например, Qwen3-8B-Reasoning показал 0.648, а обычный Qwen3-8B — 0.705 на бенчмарке ToMATO.

Главная находка: чем дольше модель думает над ToM-задачей — тем хуже результат. Ошибки концентрируются в длинных ответах (8000-10000 символов). Когда GPT-o3 дали больший reasoning budget (параметр "reasoning effort"), точность упала с 0.838 до 0.693 на сложных задачах. Модели буксуют не потому что не умеют рассуждать, а потому что затянутое рассуждение становится ловушкой — модель уходит в долгие размышления и теряет фокус. При этом в математике и коде долгие рассуждения помогают — значит, ToM требует другой стратегии мышления.

Решение — умеренный и адаптивный reasoning. Когда обычные модели попросили "коротко объяснить логику" (CoT), их точность выросла. Когда reasoning-моделям ограничили длину рассуждений до 1000-2000 токенов — они обогнали сами себя в режиме без ограничений. Также обнаружили эффект шортката: когда убрали варианты ответов, DeepSeek-R1 вырос с 0.549 до 0.691 — значит модель не выводила ответ, а матчила с вариантами, ища поверхностные совпадения вместо глубокого вывода.


📌

Почему это важно

Проблема: В математике и коде работает принцип "больше рассуждений = лучше результат". Логично предположить, что то же самое сработает для понимания людей — их мотивов, убеждений, реакций. Но реальность оказалась противоположной.

Что обнаружили:

Длинное рассуждение = коллапс на ToM-задачах. Модели уходят в долгие витиеватые размышления и теряют нить. Ошибки концентрируются в ответах на 8000+ символов. Это особенно заметно на сложных задачах: чем выше порядок убеждений (Order 4 = "Аня думает, что Боря думает, что Вера думает, что Гена думает..."), тем сильнее проваливаются reasoning-модели.

Reasoning-модели матчат варианты, а не выводят ответ. Когда убрали multiple choice и попросили открытый ответ — точность подскочила на 14-26%. Значит модели искали в рассуждениях оправдания для готовых вариантов, а не строили логическую цепочку с нуля. С вариантами ответов модель якорится на поверхностных совпадениях слов ("упоминается сад → наверное ответ про сад"), а не на смысле.

Умеренное рассуждение работает лучше максимального. Когда обычным моделям добавили лёгкий CoT-промпт — они выросли (DeepSeek-V3: с 0.665 до 0.723). Когда reasoning-моделям ОГРАНИЧИЛИ длину мысли до 1000-1500 токенов — они обогнали себя безлимитных. Значит проблема не в отсутствии способности рассуждать, а в неумении остановиться вовремя.

Почему это происходит:

ToM-задачи принципиально отличаются от формальной логики. В математике больше шагов = меньше пропущенных деталей. В понимании людей интуиция часто точнее долгих размышлений — контекст размыт, однозначно правильного хода мысли нет, долгое обдумывание рождает параноидальные гипотезы. Модели RL-тренировали на задачах, где верификация = чёткий критерий (код запустился / уравнение сошлось). В ToM нет такого однозначного сигнала — модель не может проверить "правильно ли я понял мотив персонажа", поэтому уходит в бесконечные петли переосмысления.


📌

Что можно применить

📌

1. Для задач на понимание людей — короткие инструкции

Принцип: Когда просишь модель понять мотив, предсказать реакцию, оценить намерение — НЕ проси "думай глубоко" или "рассуждай пошагово". Проси короткий и интуитивный ответ.

Примеры задач: - Оценка бизнес-предложения партнёра (скрытый мотив?) - Предсказание реакции клиента на новость - Анализ намерений автора текста - Оценка искренности отзыва

Вместо:

Подробно рассуждая пошагово, оцени: что на самом деле хочет 
партнёр, предлагая такие условия сделки? Распиши все возможные 
мотивы, взвесь каждый, проанализируй скрытый контекст.

Лучше:

Прочитай переписку с партнёром. Какой его главный скрытый мотив? 
Ответ в 2-3 предложениях.

[переписка]

Почему работает: Модель склонна overthink'ать ToM-задачи. Ограничение длины заставляет выдать интуитивный вывод, который на таких задачах точнее витиеватых рассуждений.


⚖️

2. Убери варианты → открытый ответ → сравнение

Принцип: Когда модель видит варианты ответов (A, B, C), она матчит слова, а не рассуждает. Убери варианты — получишь честный вывод.

Задача: Понять позицию собеседника в переговорах

Вместо:

На основе диалога, что думает клиент?
A) Хочет снизить цену
B) Сомневается в качестве
C) Ищет других подрядчиков
D) Готов подписать договор

[диалог]

Лучше (двухшаговый промпт):

Шаг 1:

Прочитай диалог с клиентом. Что он на самом деле думает про наше 
предложение? Какая его главная мысль?

[диалог]

Шаг 2 (после получения ответа):

Теперь сравни свой вывод с вариантами:
A) Хочет снизить цену
B) Сомневается в качестве
C) Ищет других подрядчиков
D) Готов подписать договор

Какой вариант ближе к твоему выводу?

Почему работает: В первом запросе модель выводит смысл, не якорясь на формулировках вариантов. Во втором — сопоставляет уже готовый вывод, а не ищет оправдания для варианта.


📌

3. Ограничь длину рассуждений для социальных задач

Принцип: Для понимания людей короткое объяснение работает лучше длинного.

Примеры:

Для анализа конфликта:

Коллеги поспорили на встрече [описание]. 
Объясни в 3 предложениях: в чём суть конфликта и что каждый хочет?

Для оценки отклика аудитории:

Прочитай 15 комментариев под постом [текст].
В 50 словах: какая главная претензия аудитории?

Для предсказания реакции:

Я хочу предложить клиенту [описание].
Макс 100 слов: как он отреагирует и почему?

Почему работает: Жёсткий лимит блокирует уход в гипотезы и заставляет выделить суть. В ToM-задачах это даёт более точный результат, чем развёрнутые рассуждения.


📌

4. Умеренный CoT вместо максимального reasoning

Принцип: Лёгкая структура мысли полезна. Агрессивное "думай глубоко" — вредит.

Вместо:

Максимально подробно, шаг за шагом, рассуждая о каждой детали, 
оцени намерения автора этого письма.

Лучше:

Прочитай письмо. Коротко объясни логику: что хочет автор и 
почему ты так думаешь?

[письмо]

Или:

1. Какой главный мотив автора?
2. Какая одна деталь в тексте это подтверждает?

[текст]

Почему работает: Лёгкая структура (1-2-3) помогает не упустить важное, но не провоцирует уход в долгие размышления. Модель фокусируется на главном.


⚠️

Ограничения

⚠️ Только для ToM-задач: Эти принципы работают для понимания людей, мотивов, убеждений. Для математики, кода, формальной логики всё наоборот — там долгие рассуждения полезны.

⚠️ Не универсальное правило: Для простых ToM-задач (например, Order 0-1: "Аня видела как Боря взял яблоко") эффект слабее. Чем сложнее задача — тем сильнее помогает ограничение рассуждений.

⚠️ Зависит от модели: Разные модели показывают лучшую точность при разной длине рассуждений (от 1000 до 2000 токенов). Единой оптимальной границы нет — нужно тестировать под свои задачи.


🔍

Как исследовали

Исследователи взяли девять топовых моделей — reasoning (GPT-o3, GPT-o4-mini, DeepSeek-R1, Qwen3-Reasoning) и обычные (GPT-4o, DeepSeek-V3, Qwen3) — и прогнали по трём бенчмаркам ToM-задач. HiToM проверяет глубину: задачи на убеждения до 4-го порядка ("Аня думает, что Боря думает, что Вера думает, что Гена думает..."). ToMATO — реалистичные диалоги с информационной асимметрией. ToMBench — широкий охват: убеждения, желания, эмоции, интенции.

Результат оказался парадоксальным: reasoning-модели НЕ обгоняли обычные, а часто проигрывали. Например, на ToMATO все пары показали обратный паттерн — non-reasoning модели лучше. На HiToM — mixed results, большинство побед у non-reasoning.

Дальше копнули глубже. Проанализировали длину ответов — и обнаружили, что ошибки reasoning-моделей кучкуются в длинных ответах (8000-10000 символов). Построили heatmap ошибок DeepSeek-R1 по порядкам убеждений — чем сложнее Order, тем длиннее и чаще ошибки. Вывод: slow thinking коррелирует с провалом.

Чтобы проверить причинно-следственную связь, провели два эксперимента:

Эксперимент 1 — усилить reasoning: У GPT-o3 есть параметр "reasoning effort" (низкий/средний/высокий). Подняли на максимум — точность просела с 0.838 до 0.693 на HiToM. На простых задачах ToMATO эффекта почти нет. Вывод: чем сложнее задача, тем сильнее вредит долгое думание.

Эксперимент 2 — ограничить reasoning: Для Qwen-моделей установили лимиты токенов мышления (500, 1000, 1500, 2000). При лимите 1000-1500 токенов модели обгоняли сами себя в безлимитном режиме. Например, Qwen3-8B-Reasoning вырос с 0.481 до 0.706 на HiToM. Даже на простых задачах лимит давал преимущество.

Ещё один инсайт: на сложных задачах reasoning и non-reasoning модели дополняют друг друга. На Order 4 Qwen3-32B-Reasoning решил 49 уникальных задач, обычный Qwen3-32B — 39 других, совпадений всего 58. Это намекает, что нужна адаптивная стратегия: иногда думать, иногда нет.

Провели контрэксперимент: попросили обычные модели рассуждать через лёгкий CoT-промпт. DeepSeek-V3 вырос с 0.665 до 0.723 — умеренное рассуждение работает, агрессивное — нет.

Последний эксперимент — убрали варианты ответов (HiToM позволяет extractive evaluation). DeepSeek-R1 подскочил с 0.549 до 0.691. Qwen3-8B-Reasoning — с 0.481 до 0.629. А non-reasoning Qwen3-8B упал с 0.557 до 0.510. Заглянули в reasoning traces: с вариантами — хаотичный поиск оправданий для опций, без вариантов — структурный дедуктивный процесс. Вывод: модели не выводят ответ, а матчат варианты.

Разработали два intervention метода для проверки гипотез:

S2F (Slow-to-Fast): триггер по частоте слова "wait" в рассуждениях — если модель часто "ждёт", значит буксует. Принудительно обрываем slow thinking и просим быстрый ответ. На HiToM R1-Distill-Qwen-32B вырос с 0.571 до 0.701. На простых задачах эффект слабее — значит проблема актуальна именно для сложных ToM.

T2M (Think-to-Match): сначала модель думает БЕЗ вариантов (рассуждает честно), потом получает варианты для финального выбора. Это блокирует шорткат "матчинг слов".

Исследование показывает: успехи LRM в формальных доменах не переносятся на социальное рассуждение. ToM требует уникальных способностей, а не просто масштабирования reasoning capabilities.


🔗

Ресурсы

To Think or Not To Think, That is The Question for Large Reasoning Models in Theory of Mind Tasks Nanxu Gong, Haotian Li, Sixun Dong, Jianxun Lian, Yanjie Fu, Xing Xie Arizona State University, Microsoft Research Asia Preprint, February 2026


📋 Дайджест исследования

Ключевая суть

Парадокс: Reasoning-модели (GPT-o3, DeepSeek-R1) умеют «медленно думать» — это помогает в математике и коде. Но в задачах на понимание людей (Theory of Mind) чем дольше модель думает, тем хуже результат. GPT-o3 упал с точности 84% до 69%, когда ему дали больше времени рассуждать. Qwen3-8B-Reasoning (специально обученный долго думать) проиграл обычному Qwen3-8B. Метод позволяет точнее понимать мотивы, намерения и реакции людей в переговорах, конфликтах, анализе отзывов. Фишка: ограничиваешь длину рассуждений до 1000-1500 токенов — модель не уходит в витиеватые размышления, держит фокус. Открытый вопрос без вариантов ответов даёт +14-26% точности — модель выводит смысл, а не матчит слова с готовыми опциями.

Принцип работы

Не делай: «Подробно рассуждая пошагово, оцени скрытый мотив партнёра» Делай: «Прочитай переписку. Главный скрытый мотив? 2-3 предложения» Понимание людей работает через интуицию, а не формальную логику. Долгое обдумывание рождает параноидальные гипотезы — модель переосмысливает детали, уходит в петли «а может он имел в виду...», теряет суть. В математике больше шагов = меньше пропущенных деталей. В ToM-задачах (мотивы, убеждения, намерения) контекст размыт, однозначного хода мысли нет. Модель зацикливается на деталях вместо главного вывода. Ошибки концентрируются в ответах на 8000+ символов — чем длиннее рассуждение, тем сильнее коллапс.

Почему работает

Reasoning-модели учили на задачах с чёткой верификацией: код запустился или нет, уравнение сошлось или нет. В ToM нет однозначного сигнала «правильно ли я понял мотив персонажа». Модель не может проверить себя — поэтому уходит в бесконечные переосмысления. Обнаружен эффект шортката: когда убрали варианты ответов (A/B/C/D), DeepSeek-R1 вырос с 55% до 69% точности. Значит модель не выводила ответ, а искала совпадения слов между своим рассуждением и вариантами. Видела в тексте «сад» → выбирала вариант где упоминается сад, игнорируя смысл. Открытый вопрос заставляет строить логику с нуля. Жёсткий лимит на длину (50-100 слов) блокирует уход в гипотезы — модель выдаёт интуитивный вывод, который на ToM-задачах точнее витиеватых размышлений.

Когда применять

Понимание людей → оценка мотивов партнёра в сделке, предсказание реакции клиента на новость, анализ намерений автора текста, оценка искренности отзыва. Особенно когда контекст неоднозначный (переговоры, конфликты, скрытые мотивы). НЕ подходит для математики, кода, формальной логики — там долгие рассуждения помогают, здесь вредят.

Мини-рецепт

1. Убери «думай глубоко»: Вместо «подробно рассуждая пошагово» → «ответь в 2-3 предложениях». Жёсткий лимит на длину (50-100 слов для простых задач, 100-150 для сложных).

2. Открытый вопрос, потом сравнение: Сначала попроси вывод без вариантов: Прочитай диалог. Что на самом деле думает клиент? Потом дай варианты: Какой ближе к твоему выводу: A/B/C/D?

3. Лёгкая структура вместо глубокого анализа: Не «максимально подробно оцени намерения» → «1) Главный мотив? 2) Одна деталь которая подтверждает?»

Примеры

[ПЛОХО] : Максимально подробно, шаг за шагом, рассуждая о каждой детали, оцени: что на самом деле хочет партнёр, предлагая такие условия сделки? Распиши все возможные мотивы, взвесь каждый.
[ХОРОШО] : Прочитай переписку с партнёром ниже. Какой его главный скрытый мотив в предложении изменить условия? Ответ в 2-3 предложениях. [переписка] --- [ПЛОХО]: На основе диалога с клиентом, что он думает? A) Хочет снизить цену B) Сомневается в качестве C) Ищет других подрядчиков [ХОРОШО (двухшаговый)]: Шаг 1: Прочитай диалог. Что клиент на самом деле думает про наше предложение? Главная мысль в 50 словах. [диалог] → Шаг 2: Теперь сравни свой вывод с вариантами: A/B/C. Какой ближе?
Источник: To Think or Not To Think, That is The Question for Large Reasoning Models in Theory of Mind Tasks
ArXiv ID: 2602.10625 | Сгенерировано: 2026-02-12 05:29

Проблемы LLM

ПроблемаСутьКак обойти
Модель матчит варианты вместо выводаКогда даёшь multiple choice (A, B, C, D), модель не строит логику с нуля. Ищет какой вариант ближе по словам к тому что видит в контексте. Упоминается "сад" в тексте выбирает вариант где слово "сад". Не думает — матчит. Особенно сильно проявляется в reasoning-моделях: они тратят токены на оправдание поверхностного совпадения, а не на настоящий выводУбери варианты. Сначала попроси открытый ответ. Потом покажи варианты и попроси сопоставить. Модель сначала выведет смысл, потом сравнит — не будет якориться на формулировках

Методы

МетодСуть
Двухшаговый промпт для выбора — сначала вывод, потом матчингШаг 1: Задай вопрос БЕЗ вариантов. Получи открытый ответ. Шаг 2: Покажи варианты (A, B, C) и попроси "какой ближе к твоему выводу?". Почему работает: На первом шаге модель строит логику от контекста. На втором — сопоставляет готовый вывод, а не ищет оправдания для варианта через совпадение слов. Точность растёт на 14-26% для задач где важен смысл, а не формальная логика. Когда применять: Оценка мотивов, намерений, смысла текста — где модель склонна цепляться за поверхностные совпадения. Когда не нужно: Формальные задачи (математика, факты) где варианты чёткие и однозначные
📖 Простыми словами

To Think or Not To Think, That is The Question forLargeReasoningModelsin Theory of Mind Tasks

arXiv: 2602.10625

Модели с «длинными мыслями» вроде GPT-o3 или DeepSeek-R1 работают не на интуиции, а на логическом переборе вариантов. В математике или коде это спасение, но в Theory of Mind — способности понимать чужие мотивы и намерения — это становится костылем. Вместо того чтобы просто «почувствовать» контекст ситуации, модель начинает строить бесконечные цепочки рассуждений там, где нужно простое человеческое понимание. В итоге она закапывается в собственных доводах и выдает результат хуже, чем базовая версия без всяких «раздумий».

Это как если бы ты спросил друга: «Почему твоя бывшая злится?», а он вместо очевидного ответа начал бы выстраивать логическую схему на три часа, учитывая фазы луны и котировки акций. В процессе такого «анализа» он неизбежно теряет нить и делает ложный вывод, хотя ответ лежал на поверхности. Обычные модели выдают ответ на базе накопленного опыта и ассоциаций, а reasoning-модели пытаются вычислить психологию как уравнение, и это выглядит максимально нелепо.

Цифры подтверждают этот абсурд: на бенчмарке ToMATO модель Qwen3-8B-Reasoning набрала всего 0.648, в то время как её «глупая» версия без продвинутого мышления выдала 0.705. Получается, что дополнительные вычислительные мощности и время на раздумья не просто бесполезны, они буквально деградируют результат. Модель начинает видеть двойное дно там, где его нет, и приписывает персонажам мотивацию, которой не существует в тексте.

Этот эффект — не просто баг конкретной нейронки, а системная проблема. Исследование показывает, что логический вывод и социальный интеллект — это разные ветки развития. Мы привыкли думать, что если AI научился решать олимпиадные задачи по физике, то он и в людях разберется, но на деле всё наоборот. Чем больше модель «думает» над простым социальным взаимодействием, тем сильнее она галлюцинирует и уходит от реальности в дебри бесполезной логики.

Короче: не пытайся заставить «умную» модель анализировать чувства и скрытые смыслы — она перемудрит саму себя. Для задач на эмпатию и понимание контекста старые добрые LLM без reasoning-блока подходят лучше, потому что они не пытаются превратить психологию в высшую математику. Пока что длинные цепочки рассуждений — это инструмент для сухих вычислений, а в человеческих отношениях нейросети всё еще ведут себя как аутичные профессора, которые слишком много думают.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с