3,583 papers
arXiv:2510.12680 70 14 окт. 2025 г. FREE

Hybrid Thinking: почему LLM не умеют полностью выключать рассуждения

КЛЮЧЕВАЯ СУТЬ
LLM с гибридным мышлением (Qwen3, Gemini, DeepSeek V3) обещают гибкость: думай вслух через блок или сразу финальный ответ. Реальность: выключить рассуждения полностью нельзя. Модель протекает даже в режиме «без рассуждений» — генерирует слова-маркеры типа «подождите», «хмм», «или может» вне блока think. Qwen3-8B выдал 646 вхождений слова «wait» на датасете AIME24 в no-think режиме, хотя должен был давать сжатый ответ. Формально блок пуст, но рассуждения перетекли в основной текст. Исследование показывает как реально работают промпты «кратко, без объяснений» — и почему они не экономят токены как ожидаешь.
Адаптировать под запрос

TL;DR

Гибридное мышление — механизм в некоторых LLM (Qwen3, Gemini, DeepSeek V3), который позволяет переключаться между режимом рассуждения (генерирует развёрнутые цепочки мыслей в блоке <think>) и режимом прямого ответа (сразу финал, без объяснений) через специальные токены \think и \no_think в промпте. Идея — контролировать когда модель тратит токены на рассуждения, а когда выдаёт сразу результат.

Исследователи нашли критическую проблему: режимы не разделены полностью. Даже в no-think режиме модели «протекают» — генерируют слова-маркеры рассуждения вроде «подождите», «хмм», «или может», оставляя блок <think> формально пустым, но рассуждая в основном тексте. Например, Qwen3-8B на датасете AIME24 в no-think режиме сгенерировал 646 вхождений слова «wait», хотя должен был давать сжатый ответ. Выходит, модель понимает инструкцию лишь частично — сокращает объём, но не убирает логику рассуждений.

Анализ факторов обучения показал: модели легче учатся думать вслух, чем молчать. Think-режим стабилен при любых настройках тренировки, а no-think требует больших объёмов данных (140k+ примеров), специфической пропорции (больше no-think примеров) и двухфазного обучения (сначала только think, потом добавить no-think). Даже при оптимальных условиях полного разделения не происходит.

📌

Почему это важно

LLM обучены генерировать рассуждения — это основа их способности решать сложные задачи. Но рассуждения стоят токенов и времени. Гибридное мышление обещает гибкость: «думай когда надо, отвечай быстро когда можно».

Реальность: Модель не может полностью выключить рассуждения. Даже получив команду «без объяснений», она всё равно частично рассуждает — просто скрывает часть процесса. Это как попросить человека «не думать о белом медведе» — мысль всё равно появляется.

Для пользователя это значит:

  • Промпты типа «кратко, без рассуждений» не гарантируют сжатый ответ
  • Модель может генерировать «лишние» токены, даже если вы просили экономить
  • Явный контроль через структуру промпта важнее, чем расчёт на автоматическое переключение
🔍

Как исследовали

Команда взяла Qwen3-8B (модель с гибридным мышлением) и протестировала на математических задачах (MATH500), олимпиадных вопросах (AIME24) и научных тестах (GPQA). Сравнивали с Qwen2.5-7B-Instruct — чистой моделью без think-режима, которая всегда отвечает напрямую.

Метрики: точность ответов, длина генерации, количество слов-маркеров рассуждения («wait», «hmm», «alternatively»).

Результат на AIME24:

  • Think-режим: 63% точность, 11394 токена в среднем, 12184 «wait»
  • No-think режим: 24% точность, 4062 токена, 184 «wait»
  • Чистая Instruct: 6.67% точность, 1729 токенов, 0 «wait»

No-think у Qwen3 в 2.3 раза длиннее чистой Instruct-модели и содержит рассуждения, которых быть не должно.

Затем обучили несколько версий Qwen2.5-7B на разных датасетах (от 20k до 140k примеров), меняя четыре фактора:

  1. Объём данных: Чем больше примеров, тем короче выходы в no-think (при 140k длина упала с 2214 до 776 токенов на MATH500)
  2. Парность данных: Если think и no-think ответы взяты с разных вопросов, no-think контроль сильнее (942 токена vs 1438 при парных данных)
  3. Пропорция no-think: Увеличение доли no-think примеров с 1:1 до 1:2 сократило выходы с 1086 до 761 токена
  4. Двухфазное обучение: Сначала тренировка только на think-данных, потом добавление no-think — даёт выходы 586 токенов против 1086 при смешанном обучении

Удивительный результат: Даже при лучших условиях модель в no-think режиме генерирует в 1.3-2 раза больше текста, чем чистая no-think модель. Полного разделения не получается — think-данные «протекают» в no-think поведение.

💡

Применимые выводы

📋

1. Явный контроль через промпт работает лучше неявного

Вместо расчёта на автоматику:

[Просто задаёшь вопрос и надеешься что модель сама выберет режим]

Делай так:

Для сложной задачи:
"Реши задачу. Покажи все шаги рассуждений от начала до конца."

Для простого факта:
"Ответь одним предложением. Без объяснений и рассуждений."

Даже если модель поддерживает токены \think / \no_think (Qwen3, DeepSeek), усиливай их явными инструкциями.

📌

2. Понимай «протекание» как особенность, не баг

Когда просишь модель «кратко, без рассуждений», а получаешь что-то вроде:

"Хм, давайте подумаем... подождите, нужно учесть... окей, ответ: 42"

Это не сбой. Модель частично подавляет рассуждения (сократила с 10000 до 2000 токенов), но полностью выключить их не может. Думать — её природа.

Что делать:

  • Если нужна максимальная краткость — переформулируй вопрос так, чтобы он требовал факта, не анализа
  • Если получил «протекание» — извлеки только финальный ответ, проигнорируй вводные слова
  • Для критически коротких ответов используй форматирование: "Ответь строго в формате: Результат: [число]"
📌

3. Для российского контекста: модели с гибридным мышлением

Qwen3 (доступен через API и локально) поддерживает токены:

\think — включить рассуждения
\no_think — отключить рассуждения

DeepSeek V3.1 (API) — аналогично.

Claude и ChatGPT таких токенов не имеют, но можно симулировать через промпт-инструкции.

Для практики:

  • Если работаешь с Qwen/DeepSeek — используй токены напрямую
  • Если ChatGPT/Claude — пиши явные инструкции в промпте
⚠️

Ограничения

⚠️ Недоступность для базовых моделей: Токены \think / \no_think работают только в специфических моделях (Qwen3, Gemini, DeepSeek). В ChatGPT/Claude нужно эмулировать через текстовые инструкции.

⚠️ Применение выводов требует обучения: Основные находки (объём данных, пропорции, двухфазное обучение) полезны только если ты обучаешь собственную модель через fine-tuning. Для обычного использования в чате это теоретическое знание.

⚠️ Протекание неустранимо: Даже оптимально обученные модели не дают 100% разделения режимов. No-think всегда будет содержать элементы рассуждений.

🔗

Ресурсы

Demystifying Hybrid Thinking: Can LLMs Truly Switch Between Think and No-Think?

Shouren Wang, Wang Yang, Xianxuan Long (Case Western Reserve University), Qifan Wang (Meta AI)

GitHub с кодом


📋 Дайджест исследования

Ключевая суть

LLM с гибридным мышлением (Qwen3, Gemini, DeepSeek V3) обещают гибкость: думай вслух через блок или сразу финальный ответ. Реальность: выключить рассуждения полностью нельзя. Модель протекает даже в режиме «без рассуждений» — генерирует слова-маркеры типа «подождите», «хмм», «или может» вне блока think. Qwen3-8B выдал 646 вхождений слова «wait» на датасете AIME24 в no-think режиме, хотя должен был давать сжатый ответ. Формально блок пуст, но рассуждения перетекли в основной текст. Исследование показывает как реально работают промпты «кратко, без объяснений» — и почему они не экономят токены как ожидаешь.

Принцип работы

Формально два режима: think (развёрнутые цепочки в ) и no-think (сразу финал без пояснений). Реально — градация объёма, а не чёткий переключатель. No-think сжимает текст, но не убирает логику рассуждений. Модель понимает команду «не думай вслух», но рассуждения никуда не исчезают — просто маскируются в основном тексте через маркеры вроде «может быть», «сначала проверим». Это как попросить человека не думать о белом медведе — мысль всё равно всплывает.

Почему работает

LLM обучены генерировать рассуждения — это основа их способности решать сложные задачи. Убрать эту механику = переучить всю архитектуру с нуля. Think-режим стабилен при любых настройках тренировки — модель делает то, для чего создана. No-think требует 140k+ обучающих примеров, специфической пропорции данных (больше no-think образцов) и двухфазного обучения — сначала только think, потом добавить no-think. Но даже при оптимальных условиях полного разделения не происходит. Модель легче учится думать вслух, чем молчать — архитектура заточена под генерацию логики, а не под её подавление.

Когда применять

Оптимизация токенов и скорости ответа → особенно когда платишь за объём генерации или нужен быстрый результат без длинных цепочек. Понимание ограничения критично: промпт «кратко» сократит видимый объём, но не уберёт скрытые рассуждения полностью. НЕ подходит если ожидаешь строгого переключателя «думай только когда я скажу» — такого уровня контроля гибридное мышление не даёт.

Мини-рецепт

1. Проверь утечку рассуждений: попроси no-think ответ на сложную задачу, ищи маркеры «wait», «hmm», «let me think», «or maybe», «first we need» в основном тексте вне блока
2. Структурируй формат вывода жёстко: используй JSON-схему или табличный формат вместо расплывчатого «ответь кратко» — структура физически блокирует лишний текст
3. Ограничь явно и конкретно: пиши «ответ одним числом без текста» или «только да/нет» вместо общего «без объяснений» — чем жёстче рамка, тем меньше утечка

Примеры

[ПЛОХО] : Реши математическую задачу: найди X в уравнении 3X + 5 = 20. Ответь кратко, без объяснений (модель всё равно сгенерирует «подождите, сначала вычтем 5 из обеих частей, затем...» — формальный запрет не работает)
[ХОРОШО] : Реши уравнение 3X + 5 = 20. Формат ответа строго: {"answer": число, "confidence": 1-10, "steps_count": число_шагов}. Текстовые пояснения и рассуждения вне JSON-структуры запрещены. (JSON-схема физически ограничивает утечку — модели некуда вставить «подождите» внутри структуры)
Источник: Demystifying Hybrid Thinking: Can LLMs Truly Switch Between Think and No-Think?
ArXiv ID: 2510.12680 | Сгенерировано: 2026-01-12 00:35

Проблемы LLM

ПроблемаСутьКак обойти
Модель не умеет отключать рассуждения полностьюПишешь в промпте: "кратко, без объяснений", "сразу ответ, не думай вслух". Модель сокращает текст. Но всё равно генерирует слова-маркеры рассуждения: "подождите", "хмм", "или может быть". Она убирает явные объяснения, но логика рассуждений остаётся. Получается псевдократкий ответ — короче по объёму, но не по процессуНе полагайся на текстовые команды "кратко". Используй жёсткие структурные ограничения: {"answer": "X"} для JSON, таблицу с одной ячейкой, шаблон "Ответ: ___". Формат не даёт модели места для рассуждений физически
📖 Простыми словами

Hybrid Thinking: почему LLM не умеют полностью выключать рассуждения

arXiv: 2510.12680

Суть гибридного мышления в том, что современные нейронки вроде DeepSeek V3 или Gemini научились имитировать человеческую избирательность. Раньше модель либо тупо выдавала ответ, либо бесконечно «жевала сопли» в блоке рассуждений, тратя твои деньги и время. Теперь в архитектуру вшили переключатель: через токены think и no_think мы буквально приказываем модели либо включить мозги на полную, либо заткнуться и выдать результат. Это не просто экономия, это попытка заставить AI осознанно выбирать глубину анализа под конкретную задачу.

Это как езда на автомобиле с ручной коробкой передач. Когда ты катишься по пустой трассе, тебе не нужно перебирать передачи и вслушиваться в мотор — ты просто едешь на автомате, это режим no_think. Но как только начинается сложный подъем или обгон, ты втыкаешь пониженную, чтобы выжать максимум мощности. Формально машина та же, но режим работы двигателя меняется кардинально. Без этого переключателя ты либо сожжешь сцепление там, где это не нужно, либо заглохнешь в самый ответственный момент.

В реальности это работает через явную активацию цепочки рассуждений (Chain-of-Thought). Если промпт помечен токеном think, модель принудительно генерирует скрытый лог размышлений, выстраивая логические связи перед тем, как открыть рот. Исследование показывает, что это не просто косметическая фишка: точность ответов в сложных задачах растет в разы, когда модель заставляют «подумать» через \think, в то время как простые вопросы в этом режиме — это просто бессмысленная трата токенов и времени.

Хотя тесты проводили на топовых моделях вроде Qwen3 и Gemini, принцип применим к любой серьезной автоматизации. Это база для будущего агентского софта: вместо того чтобы на каждый чих запускать тяжелые вычисления, система будет сама решать, где нужен глубокий анализ, а где хватит шаблонного ответа. Это позволяет строить гибкие пайплайны, где ты не переплачиваешь за «интеллект» там, где нужно просто переложить данные из одной таблицы в другую.

Короче, эпоха, когда AI просто «угадывал» следующее слово, заканчивается — начинается эпоха управляемой когнитивной нагрузки. Главный вывод: если хочешь адекватный результат, учись сам расставлять эти триггеры, иначе модель будет либо тупить на элементарщине, либо галлюцинировать в сложных вычислениях. Гибридное мышление — это инструмент контроля, и если ты его не используешь, ты просто сжигаешь ресурсы впустую.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с