3,583 papers
arXiv:2508.16695 77 21 авг. 2025 г. FREE

Dual-Output Reasoning: разделяй рассуждения для модели и объяснения для человека

КЛЮЧЕВАЯ СУТЬ
Парадокс: исследователи из Arizona State University обучили 4 модели на разных типах пошаговых рассуждений и обнаружили — то, что делает модель точнее (подробные развёрнутые рассуждения), оказалось наименее понятным для человека. 100 участников оценили детальные цепочки рассуждений DeepSeek R1 как самые непонятные, хотя дообучение на них дало лучшую точность у 3 из 4 моделей. Dual-Output Reasoning решает этот разрыв: модель сначала рассуждает подробно для себя (это повышает качество ответа), потом сжимает в краткий вывод для человека. Два блока в одном промптеподробный анализ для точности + краткое резюме для понимания. Ты получаешь и глубину рассуждений, и читаемый результат.
Адаптировать под запрос

TL;DR

Dual-Output Reasoning — техника, которая разделяет подробное рассуждение модели (для качества ответа) и краткое объяснение (для понимания человеком). Модель сначала verbose рассуждает для себя, потом суммирует для читателя.

Исследователи из Arizona State University проверили гипотезу: "Должны ли CoT-рассуждения быть понятными человеку, чтобы улучшать работу LLM?" Обучили 4 модели (LLaMA и Qwen) на разных типах reasoning traces: (1) DeepSeek R1 traces (подробные, verbose), (2) их краткие саммари, (3) post-hoc объяснения, (4) алгоритмически сгенерированные корректные traces. Парадокс: fine-tuning на R1 traces дал лучшую точность (3 из 4 моделей), но 100 участников оценили эти же traces как наименее понятные по всем критериям — предсказуемость, понятность, логичность.

Это раскрывает фундаментальный разрыв: что помогает модели ≠ что понятно человеку. Verbose подробные рассуждения работают как сильный тренировочный сигнал для LLM, но перегружают читателя. Краткие саммари или объяснения — наоборот: понятнее людям, но дают модели меньше пользы. Отсюда вывод: разделяй цели — пусть модель рассуждает подробно для точности, а человеку покажи summary.

🔬

Схема метода

ШАГ 1: Модель проводит verbose рассуждение → подробный CoT trace (для качества ответа)
ШАГ 2: Модель генерирует краткий summary → понятное объяснение (для человека)

Оба шага в одном промпте. Модель выдает два блока: рассуждение (можно длинное и сложное) + краткий вывод.

🚀

Пример применения

Задача: Ты создаешь нишевой онлайн-курс по контент-маркетингу для инженеров. Нужно решить: делать акцент на SEO-оптимизацию или на storytelling для технической аудитории? С одной стороны, инженеры ценят данные и структуру (= SEO), с другой — хорошие истории цепляют даже скептиков (= storytelling). Конкуренты идут вразброс, чёткого паттерна нет.

Промпт:

Мне нужно выбрать направление для курса по контент-маркетингу: 
SEO-оптимизация vs storytelling для технической аудитории.

Проанализируй подробно (можешь рассуждать verbose, главное — тщательность).
Потом дай мне краткий, понятный вывод с рекомендацией.

Формат ответа:

<Рассуждение>
[твой подробный анализ — можно длинно, со всеми "за" и "против", 
edge cases, психологией аудитории, примерами]


<Вывод для меня>
[2-3 абзаца: что выбрать и почему, конкретная рекомендация]
</Вывод>

Результат: Модель выдаст два блока. В <Рассуждение> — развернутый анализ: разберёт психотип инженерной аудитории, сравнит как работают SEO vs storytelling для technical folks, рассмотрит edge cases (что если курс для junior vs senior инженеров?), покажет примеры успешных проектов в обеих нишах. Этот блок может быть на 2-3 экрана — verbose и подробный. В <Вывод> — сжатая рекомендация: что выбрать, 2-3 ключевых аргумента, план действий. Читаешь только вывод, если нужны детали — лезешь в рассуждение.

🧠

Почему это работает

Слабость LLM: Модель не разделяет "рассуждение для качества" и "объяснение для человека". По умолчанию она либо выдаёт краткий ответ (теряет глубину), либо многословный trace (перегружает читателя).

Сильная сторона LLM: Модель отлично работает с явной структурой и может генерировать контент для разных целевых аудиторий в одном ответе. XML-теги (<Рассуждение>, <Вывод>) задают чёткую рамку: "здесь думай подробно, здесь — сжато".

Механика: Verbose рассуждение даёт модели "пространство" для thorough analysis — она проходит все шаги логической цепочки, рассматривает edge cases, сравнивает альтернативы. Это работает как внутренний Chain-of-Thought — модель "думает вслух" и приходит к более точному выводу. Потом она дистиллирует это в краткий summary для человека. Ты получаешь и качество (от подробного reasoning), и удобство (краткий понятный вывод).

Рычаги управления:

  • Длина reasoning — можешь разрешить модели быть максимально подробной ("можешь на 5 экранов") или ограничить ("не больше 10 предложений")
  • Тон вывода — попроси вывод "как для CEO" (цифры, выводы) или "как для друга" (простым языком, с примерами)
  • Видимость рассуждения — если не нужны детали, пиши "рассуждай про себя, покажи только вывод"
  • Глубина анализ — добавь "рассмотри edge cases" или "найди слабые места в каждом варианте" для более thorough reasoning
📋

Шаблон промпта

Задача: {описание задачи или вопрос}

Проанализируй подробно (можешь рассуждать verbose, главное — тщательность).
Потом дай краткий, понятный вывод.

Формат ответа:

<Рассуждение>
{твой подробный анализ — можно длинно, со всеми аргументами, 
edge cases, альтернативами}


<Вывод для меня>
{2-3 абзаца: итог, рекомендация, план действий}
</Вывод>

Что подставлять:

  • {описание задачи} — твоя проблема, вопрос или ситуация для анализа
  • Можешь добавить контекст: "у меня есть [ограничения/условия]"
  • Можешь уточнить формат вывода: "рекомендация + 3 аргумента" или "список действий"

🚀 Быстрый старт — вставь в чат:

Вот шаблон Dual-Output Reasoning. Адаптируй под мою задачу: [твоя задача]. 
Задавай вопросы, чтобы уточнить детали.

[вставить шаблон выше]

LLM спросит про суть задачи, какой формат вывода тебе удобнее, нужны ли edge cases в рассуждении — всё это влияет на глубину анализа в блоке <Рассуждение> и структуру <Вывод>. Она возьмёт паттерн двух блоков из шаблона и подстроит под твой запрос.

⚠️

Ограничения

⚠️ Простые вопросы: Для быстрых фактических вопросов ("столица Франции?") dual-output избыточен — модель потратит токены на пустое рассуждение. Используй для задач где нужна глубина — решения, анализ, сравнения, неоднозначные вопросы.

⚠️ Токены: Verbose рассуждение съедает больше токенов. Если бюджет ограничен — используй для критичных задач, для мелких вопросов обходись без структуры.

⚠️ Не для всех моделей: Слабые модели (старые GPT-3.5 или мелкие open-source) могут игнорировать структуру XML-тегов или делать её формально. Работает надёжно на GPT-4, Claude, современных больших моделях.

🔍

Как исследовали

Команда взяла CoTemp QA — бенчмарк про temporal reasoning (вопросы типа "что случилось раньше?"). 3798 примеров для обучения, 950 для теста. Обучили 4 модели (LLaMA-3.2-1B, LLaMA-3.1-8B, Qwen3-1.7B, Qwen3-8B) на 4 типах reasoning traces:

  1. R1 traces — verbose подробные рассуждения от DeepSeek R1
  2. Саммари R1 — GPT-4o-mini сжал R1 traces
  3. Post-hoc объяснения — GPT-4o-mini написал объяснения ПОСЛЕ R1 trace
  4. Алгоритмически корректные traces — сгенерированные программно, гарантированно правильные

Результат по точности: R1 traces выиграли на 3 из 4 моделей. Biggest boost — на LLaMA-3.2-1B. Корректные traces и саммари — хуже всех.

Потом провели пользовательское исследование (100 человек на Prolific, по 25 на каждый тип traces). Показывали 5 вопросов с ответами и reasoning traces. Участники оценивали по шкале 1-5:

  • Interpretability: предсказуемость, понятность, логичность, соответствие фактам
  • Cognitive workload: mental demand, усилия, фрустрация (NASA-TLX метрика)

Парадокс результатов: R1 traces (которые дали лучшую точность) получили самые низкие оценки по interpretability (медиана 3.31-3.48 из 5) и самую высокую когнитивную нагрузку (медиана 4.54-4.65 из 5). Алгоритмически корректные traces — наоборот: самые понятные (4.56-4.86) и лёгкие (2.31-2.86). Саммари и объяснения R1 — посередине.

Статистика: Mann-Whitney U test с поправкой Бонферрони (p < 0.05) подтвердил: разница между R1 и корректными traces значима по всем параметрам. Это не случайность, это паттерн.

Вывод исследования: Reasoning traces которые лучше всего работают для модели — не те что понятнее человеку. Это раскрывает фундаментальный разрыв между "тренировочный сигнал для LLM" и "объяснение для пользователя".

💡

Адаптации и экстраполяции

💡 Адаптация: Hidden reasoning + Clean output

Если тебе вообще не нужно видеть рассуждение, а нужен только чистый результат:

Задача: {твоя задача}

Рассуждай подробно про себя (в теге <thinking>), но не показывай мне.
Покажи только финальный ответ.

<thinking>
[твоё подробное рассуждение — сюда я не смотрю]


Ответ: {чистый результат}

Пример: "Придумай 5 идей для YouTube-канала про финансовую грамотность для студентов. Рассуждай про себя, покажи только список идей с краткими описаниями."

Эффект: Модель пройдёт весь reasoning (= качество), но ты получишь только clean output без verbose текста.


💡 Адаптация: Multi-level summary

Для сложных задач можно попросить несколько уровней детализации:

Задача: {твоя задача}

Выдай 3 уровня:

1.  — одно предложение, суть
2.  — 3-4 абзаца, ключевые моменты 
3. <Подробное рассуждение> — full analysis

Я сам решу что читать.

Пример: Анализ инвестиции в недвижимость. TL;DR — "брать или не брать", Executive Summary — цифры + 3 аргумента, Подробное — расчёты, риски, альтернативы.

Эффект: Ты выбираешь глубину в зависимости от времени — быстро глянул TL;DR или залез в детали.


🔧 Техника: Явный критерий завершения рассуждения

Если хочешь контролировать когда модель останавливается:

<Рассуждение>
Анализируй пока не найдёшь явное противоречие ИЛИ не рассмотришь 
минимум 3 альтернативы ИЛИ не пройдёшь 5 итераций проверки.
</Рассуждение>

Эффект: Модель не остановится на первой идее, будет копать глубже. Но рискуешь verbose output — регулируй под задачу.

🔗

Ресурсы

Do Cognitively Interpretable Reasoning Traces Improve LLM Performance? — Siddhant Bhambri, Upasana Biswas, Subbarao Kambhampati (Arizona State University). Preprint 2025.

Упоминание GPT-OSS (OpenAI) — модель которая генерирует CoT trace + summary, показывает пользователю только summary.

Исследование на бенчмарке CoTemp QA — temporal reasoning задачи.


📋 Дайджест исследования

Ключевая суть

Парадокс: исследователи из Arizona State University обучили 4 модели на разных типах пошаговых рассуждений и обнаружили — то, что делает модель точнее (подробные развёрнутые рассуждения), оказалось наименее понятным для человека. 100 участников оценили детальные цепочки рассуждений DeepSeek R1 как самые непонятные, хотя дообучение на них дало лучшую точность у 3 из 4 моделей. Dual-Output Reasoning решает этот разрыв: модель сначала рассуждает подробно для себя (это повышает качество ответа), потом сжимает в краткий вывод для человека. Два блока в одном промптеподробный анализ для точности + краткое резюме для понимания. Ты получаешь и глубину рассуждений, и читаемый результат.

Принцип работы

Не заставляй модель выбирать между точностью и понятностью — разделяй цели. Модель работает в два этапа внутри одного промпта: 1. Рассуждение для себя — подробный анализ со всеми аргументами, альтернативами, edge cases (можешь разрешить ей написать на 2-3 экрана) 2. Вывод для человека — сжатое резюме с рекомендацией (2-3 абзаца) Используй XML-теги как рамку структуры: <Рассуждение> — здесь модель думает вслух и глубоко, <Вывод> — здесь даёт тебе суть. Подробное рассуждение работает как внутренний Chain-of-Thought — модель проходит все шаги логики, сравнивает варианты, находит слабые места. Это даёт ей «пространство» для thorough analysis, поэтому ответ точнее. Потом она дистиллирует всё это в понятный вывод.

Почему работает

Подробные развёрнутые рассуждения создают сильный тренировочный сигнал для модели — она «думает» глубже и приходит к более точным выводам. Но они же перегружают человека. Краткие объяснения — наоборот: читать легко, но модель получает мало пользы для качества. Суть открытия: что помогает модели улучшить точность ≠ что понятно человеку. Эксперимент показал этот разрыв чётко — самые подробные цепочки рассуждений (R1 traces) дали лучшую точность при дообучении, но люди оценили их как наименее понятные по всем критериям: предсказуемость, логичность, читаемость. Dual-Output закрывает оба фронта одновременно. Модель получает «пространство» для развёрнутого анализа (это повышает качество), а ты читаешь только краткий вывод. Если нужны детали — залезаешь в блок рассуждения. Платишь токенами за подробность, но не временем на чтение.

Когда применять

Для задач где нужна глубина — решения с неоднозначными вариантами, анализ сложных ситуаций, сравнение альтернатив, поиск edge cases. Особенно когда ты хочешь чтобы модель рассмотрела проблему со всех сторон, но читать простыню рассуждений нет времени. НЕ подходит для простых фактических вопросов типа «столица Франции?» — модель потратит токены на пустое рассуждение. Для быстрых запросов структура избыточна.

Мини-рецепт

1. Задай структуру двух блоков: в промпте пропиши что модель должна выдать <Рассуждение> (подробный анализ) и <Вывод> (краткое резюме для тебя)
2. Разреши быть подробной: напиши «можешь рассуждать развёрнуто, главное — тщательность» или «можно на 2-3 экрана» — это даёт модели сигнал что глубина важнее краткости
3. Опиши формат вывода: укажи что хочешь в кратком блоке — «рекомендация + 3 аргумента», «список действий», «итог как для CEO» (влияет на структуру резюме)
4. Опционально управляй глубиной: добавь «рассмотри edge cases» или «найди слабые места в каждом варианте» если нужен максимально thorough анализ в блоке рассуждения

Примеры

[ПЛОХО] : Помоги выбрать направление для курса: SEO или storytelling для инженеров? Модель выдаст либо поверхностный однозначный ответ (потеряешь глубину), либо простыню текста (замучаешься читать)
[ХОРОШО] : Мне нужно выбрать направление для курса по контент-маркетингу: SEO-оптимизация vs storytelling для технической аудитории. Проанализируй подробно (можешь рассуждать развёрнуто, главное — тщательность). Потом дай краткий понятный вывод с рекомендацией. Формат ответа: <Рассуждение> [твой подробный анализ — можно длинно, со всеми "за" и "против", edge cases, психологией аудитории] <Вывод для меня> [2-3 абзаца: что выбрать и почему, конкретная рекомендация] Модель развернёт в <Рассуждение> полный анализ: психотип инженерной аудитории, как работают SEO vs storytelling для technical folks, что если курс для junior vs senior инженеров, примеры успешных проектов. Это может быть на 2-3 экрана — подробно и глубоко. В <Вывод> даст сжатую рекомендацию: что выбрать, 2-3 ключевых аргумента, план действий. Читаешь только вывод, за деталями — в рассуждение.
Источник: Do Cognitively Interpretable Reasoning Traces Improve LLM Performance?
ArXiv ID: 2508.16695 | Сгенерировано: 2026-01-12 02:30

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с