TL;DR
Исследователи проверили, помогает ли способность "медленно думать" (как в GPT-o3, DeepSeek-R1) в задачах на Theory of Mind — понимание чужих мотивов, убеждений и намерений. Результат оказался противоположным ожиданиям: reasoning-модели проигрывают обычным на тех же задачах. Например, Qwen3-8B-Reasoning показал 0.648, а обычный Qwen3-8B — 0.705 на бенчмарке ToMATO.
Главная находка: чем дольше модель думает над ToM-задачей — тем хуже результат. Ошибки концентрируются в длинных ответах (8000-10000 символов). Когда GPT-o3 дали больший reasoning budget (параметр "reasoning effort"), точность упала с 0.838 до 0.693 на сложных задачах. Модели буксуют не потому что не умеют рассуждать, а потому что затянутое рассуждение становится ловушкой — модель уходит в долгие размышления и теряет фокус. При этом в математике и коде долгие рассуждения помогают — значит, ToM требует другой стратегии мышления.
Решение — умеренный и адаптивный reasoning. Когда обычные модели попросили "коротко объяснить логику" (CoT), их точность выросла. Когда reasoning-моделям ограничили длину рассуждений до 1000-2000 токенов — они обогнали сами себя в режиме без ограничений. Также обнаружили эффект шортката: когда убрали варианты ответов, DeepSeek-R1 вырос с 0.549 до 0.691 — значит модель не выводила ответ, а матчила с вариантами, ища поверхностные совпадения вместо глубокого вывода.
Почему это важно
Проблема: В математике и коде работает принцип "больше рассуждений = лучше результат". Логично предположить, что то же самое сработает для понимания людей — их мотивов, убеждений, реакций. Но реальность оказалась противоположной.
Что обнаружили:
Длинное рассуждение = коллапс на ToM-задачах. Модели уходят в долгие витиеватые размышления и теряют нить. Ошибки концентрируются в ответах на 8000+ символов. Это особенно заметно на сложных задачах: чем выше порядок убеждений (Order 4 = "Аня думает, что Боря думает, что Вера думает, что Гена думает..."), тем сильнее проваливаются reasoning-модели.
Reasoning-модели матчат варианты, а не выводят ответ. Когда убрали multiple choice и попросили открытый ответ — точность подскочила на 14-26%. Значит модели искали в рассуждениях оправдания для готовых вариантов, а не строили логическую цепочку с нуля. С вариантами ответов модель якорится на поверхностных совпадениях слов ("упоминается сад → наверное ответ про сад"), а не на смысле.
Умеренное рассуждение работает лучше максимального. Когда обычным моделям добавили лёгкий CoT-промпт — они выросли (DeepSeek-V3: с 0.665 до 0.723). Когда reasoning-моделям ОГРАНИЧИЛИ длину мысли до 1000-1500 токенов — они обогнали себя безлимитных. Значит проблема не в отсутствии способности рассуждать, а в неумении остановиться вовремя.
Почему это происходит:
ToM-задачи принципиально отличаются от формальной логики. В математике больше шагов = меньше пропущенных деталей. В понимании людей интуиция часто точнее долгих размышлений — контекст размыт, однозначно правильного хода мысли нет, долгое обдумывание рождает параноидальные гипотезы. Модели RL-тренировали на задачах, где верификация = чёткий критерий (код запустился / уравнение сошлось). В ToM нет такого однозначного сигнала — модель не может проверить "правильно ли я понял мотив персонажа", поэтому уходит в бесконечные петли переосмысления.
Что можно применить
1. Для задач на понимание людей — короткие инструкции
Принцип: Когда просишь модель понять мотив, предсказать реакцию, оценить намерение — НЕ проси "думай глубоко" или "рассуждай пошагово". Проси короткий и интуитивный ответ.
Примеры задач: - Оценка бизнес-предложения партнёра (скрытый мотив?) - Предсказание реакции клиента на новость - Анализ намерений автора текста - Оценка искренности отзыва
Вместо:
Подробно рассуждая пошагово, оцени: что на самом деле хочет
партнёр, предлагая такие условия сделки? Распиши все возможные
мотивы, взвесь каждый, проанализируй скрытый контекст.
Лучше:
Прочитай переписку с партнёром. Какой его главный скрытый мотив?
Ответ в 2-3 предложениях.
[переписка]
Почему работает: Модель склонна overthink'ать ToM-задачи. Ограничение длины заставляет выдать интуитивный вывод, который на таких задачах точнее витиеватых рассуждений.
2. Убери варианты → открытый ответ → сравнение
Принцип: Когда модель видит варианты ответов (A, B, C), она матчит слова, а не рассуждает. Убери варианты — получишь честный вывод.
Задача: Понять позицию собеседника в переговорах
Вместо:
На основе диалога, что думает клиент?
A) Хочет снизить цену
B) Сомневается в качестве
C) Ищет других подрядчиков
D) Готов подписать договор
[диалог]
Лучше (двухшаговый промпт):
Шаг 1:
Прочитай диалог с клиентом. Что он на самом деле думает про наше
предложение? Какая его главная мысль?
[диалог]
Шаг 2 (после получения ответа):
Теперь сравни свой вывод с вариантами:
A) Хочет снизить цену
B) Сомневается в качестве
C) Ищет других подрядчиков
D) Готов подписать договор
Какой вариант ближе к твоему выводу?
Почему работает: В первом запросе модель выводит смысл, не якорясь на формулировках вариантов. Во втором — сопоставляет уже готовый вывод, а не ищет оправдания для варианта.
3. Ограничь длину рассуждений для социальных задач
Принцип: Для понимания людей короткое объяснение работает лучше длинного.
Примеры:
Для анализа конфликта:
Коллеги поспорили на встрече [описание].
Объясни в 3 предложениях: в чём суть конфликта и что каждый хочет?
Для оценки отклика аудитории:
Прочитай 15 комментариев под постом [текст].
В 50 словах: какая главная претензия аудитории?
Для предсказания реакции:
Я хочу предложить клиенту [описание].
Макс 100 слов: как он отреагирует и почему?
Почему работает: Жёсткий лимит блокирует уход в гипотезы и заставляет выделить суть. В ToM-задачах это даёт более точный результат, чем развёрнутые рассуждения.
4. Умеренный CoT вместо максимального reasoning
Принцип: Лёгкая структура мысли полезна. Агрессивное "думай глубоко" — вредит.
Вместо:
Максимально подробно, шаг за шагом, рассуждая о каждой детали,
оцени намерения автора этого письма.
Лучше:
Прочитай письмо. Коротко объясни логику: что хочет автор и
почему ты так думаешь?
[письмо]
Или:
1. Какой главный мотив автора?
2. Какая одна деталь в тексте это подтверждает?
[текст]
Почему работает: Лёгкая структура (1-2-3) помогает не упустить важное, но не провоцирует уход в долгие размышления. Модель фокусируется на главном.
Ограничения
⚠️ Только для ToM-задач: Эти принципы работают для понимания людей, мотивов, убеждений. Для математики, кода, формальной логики всё наоборот — там долгие рассуждения полезны.
⚠️ Не универсальное правило: Для простых ToM-задач (например, Order 0-1: "Аня видела как Боря взял яблоко") эффект слабее. Чем сложнее задача — тем сильнее помогает ограничение рассуждений.
⚠️ Зависит от модели: Разные модели показывают лучшую точность при разной длине рассуждений (от 1000 до 2000 токенов). Единой оптимальной границы нет — нужно тестировать под свои задачи.
Как исследовали
Исследователи взяли девять топовых моделей — reasoning (GPT-o3, GPT-o4-mini, DeepSeek-R1, Qwen3-Reasoning) и обычные (GPT-4o, DeepSeek-V3, Qwen3) — и прогнали по трём бенчмаркам ToM-задач. HiToM проверяет глубину: задачи на убеждения до 4-го порядка ("Аня думает, что Боря думает, что Вера думает, что Гена думает..."). ToMATO — реалистичные диалоги с информационной асимметрией. ToMBench — широкий охват: убеждения, желания, эмоции, интенции.
Результат оказался парадоксальным: reasoning-модели НЕ обгоняли обычные, а часто проигрывали. Например, на ToMATO все пары показали обратный паттерн — non-reasoning модели лучше. На HiToM — mixed results, большинство побед у non-reasoning.
Дальше копнули глубже. Проанализировали длину ответов — и обнаружили, что ошибки reasoning-моделей кучкуются в длинных ответах (8000-10000 символов). Построили heatmap ошибок DeepSeek-R1 по порядкам убеждений — чем сложнее Order, тем длиннее и чаще ошибки. Вывод: slow thinking коррелирует с провалом.
Чтобы проверить причинно-следственную связь, провели два эксперимента:
Эксперимент 1 — усилить reasoning: У GPT-o3 есть параметр "reasoning effort" (низкий/средний/высокий). Подняли на максимум — точность просела с 0.838 до 0.693 на HiToM. На простых задачах ToMATO эффекта почти нет. Вывод: чем сложнее задача, тем сильнее вредит долгое думание.
Эксперимент 2 — ограничить reasoning: Для Qwen-моделей установили лимиты токенов мышления (500, 1000, 1500, 2000). При лимите 1000-1500 токенов модели обгоняли сами себя в безлимитном режиме. Например, Qwen3-8B-Reasoning вырос с 0.481 до 0.706 на HiToM. Даже на простых задачах лимит давал преимущество.
Ещё один инсайт: на сложных задачах reasoning и non-reasoning модели дополняют друг друга. На Order 4 Qwen3-32B-Reasoning решил 49 уникальных задач, обычный Qwen3-32B — 39 других, совпадений всего 58. Это намекает, что нужна адаптивная стратегия: иногда думать, иногда нет.
Провели контрэксперимент: попросили обычные модели рассуждать через лёгкий CoT-промпт. DeepSeek-V3 вырос с 0.665 до 0.723 — умеренное рассуждение работает, агрессивное — нет.
Последний эксперимент — убрали варианты ответов (HiToM позволяет extractive evaluation). DeepSeek-R1 подскочил с 0.549 до 0.691. Qwen3-8B-Reasoning — с 0.481 до 0.629. А non-reasoning Qwen3-8B упал с 0.557 до 0.510. Заглянули в reasoning traces: с вариантами — хаотичный поиск оправданий для опций, без вариантов — структурный дедуктивный процесс. Вывод: модели не выводят ответ, а матчат варианты.
Разработали два intervention метода для проверки гипотез:
S2F (Slow-to-Fast): триггер по частоте слова "wait" в рассуждениях — если модель часто "ждёт", значит буксует. Принудительно обрываем slow thinking и просим быстрый ответ. На HiToM R1-Distill-Qwen-32B вырос с 0.571 до 0.701. На простых задачах эффект слабее — значит проблема актуальна именно для сложных ToM.
T2M (Think-to-Match): сначала модель думает БЕЗ вариантов (рассуждает честно), потом получает варианты для финального выбора. Это блокирует шорткат "матчинг слов".
Исследование показывает: успехи LRM в формальных доменах не переносятся на социальное рассуждение. ToM требует уникальных способностей, а не просто масштабирования reasoning capabilities.
Ресурсы
To Think or Not To Think, That is The Question for Large Reasoning Models in Theory of Mind Tasks Nanxu Gong, Haotian Li, Sixun Dong, Jianxun Lian, Yanjie Fu, Xing Xie Arizona State University, Microsoft Research Asia Preprint, February 2026
