TL;DR
Dual-Output Reasoning — техника, которая разделяет подробное рассуждение модели (для качества ответа) и краткое объяснение (для понимания человеком). Модель сначала verbose рассуждает для себя, потом суммирует для читателя.
Исследователи из Arizona State University проверили гипотезу: "Должны ли CoT-рассуждения быть понятными человеку, чтобы улучшать работу LLM?" Обучили 4 модели (LLaMA и Qwen) на разных типах reasoning traces: (1) DeepSeek R1 traces (подробные, verbose), (2) их краткие саммари, (3) post-hoc объяснения, (4) алгоритмически сгенерированные корректные traces. Парадокс: fine-tuning на R1 traces дал лучшую точность (3 из 4 моделей), но 100 участников оценили эти же traces как наименее понятные по всем критериям — предсказуемость, понятность, логичность.
Это раскрывает фундаментальный разрыв: что помогает модели ≠ что понятно человеку. Verbose подробные рассуждения работают как сильный тренировочный сигнал для LLM, но перегружают читателя. Краткие саммари или объяснения — наоборот: понятнее людям, но дают модели меньше пользы. Отсюда вывод: разделяй цели — пусть модель рассуждает подробно для точности, а человеку покажи summary.
Схема метода
ШАГ 1: Модель проводит verbose рассуждение → подробный CoT trace (для качества ответа)
ШАГ 2: Модель генерирует краткий summary → понятное объяснение (для человека)
Оба шага в одном промпте. Модель выдает два блока: рассуждение (можно длинное и сложное) + краткий вывод.
Пример применения
Задача: Ты создаешь нишевой онлайн-курс по контент-маркетингу для инженеров. Нужно решить: делать акцент на SEO-оптимизацию или на storytelling для технической аудитории? С одной стороны, инженеры ценят данные и структуру (= SEO), с другой — хорошие истории цепляют даже скептиков (= storytelling). Конкуренты идут вразброс, чёткого паттерна нет.
Промпт:
Мне нужно выбрать направление для курса по контент-маркетингу:
SEO-оптимизация vs storytelling для технической аудитории.
Проанализируй подробно (можешь рассуждать verbose, главное — тщательность).
Потом дай мне краткий, понятный вывод с рекомендацией.
Формат ответа:
<Рассуждение>
[твой подробный анализ — можно длинно, со всеми "за" и "против",
edge cases, психологией аудитории, примерами]
Рассуждение>
<Вывод для меня>
[2-3 абзаца: что выбрать и почему, конкретная рекомендация]
</Вывод>
Результат: Модель выдаст два блока. В <Рассуждение> — развернутый анализ: разберёт психотип инженерной аудитории, сравнит как работают SEO vs storytelling для technical folks, рассмотрит edge cases (что если курс для junior vs senior инженеров?), покажет примеры успешных проектов в обеих нишах. Этот блок может быть на 2-3 экрана — verbose и подробный. В <Вывод> — сжатая рекомендация: что выбрать, 2-3 ключевых аргумента, план действий. Читаешь только вывод, если нужны детали — лезешь в рассуждение.
Почему это работает
Слабость LLM: Модель не разделяет "рассуждение для качества" и "объяснение для человека". По умолчанию она либо выдаёт краткий ответ (теряет глубину), либо многословный trace (перегружает читателя).
Сильная сторона LLM: Модель отлично работает с явной структурой и может генерировать контент для разных целевых аудиторий в одном ответе. XML-теги (<Рассуждение>, <Вывод>) задают чёткую рамку: "здесь думай подробно, здесь — сжато".
Механика: Verbose рассуждение даёт модели "пространство" для thorough analysis — она проходит все шаги логической цепочки, рассматривает edge cases, сравнивает альтернативы. Это работает как внутренний Chain-of-Thought — модель "думает вслух" и приходит к более точному выводу. Потом она дистиллирует это в краткий summary для человека. Ты получаешь и качество (от подробного reasoning), и удобство (краткий понятный вывод).
Рычаги управления:
- Длина reasoning — можешь разрешить модели быть максимально подробной ("можешь на 5 экранов") или ограничить ("не больше 10 предложений")
- Тон вывода — попроси вывод "как для CEO" (цифры, выводы) или "как для друга" (простым языком, с примерами)
- Видимость рассуждения — если не нужны детали, пиши "рассуждай про себя, покажи только вывод"
- Глубина анализ — добавь "рассмотри edge cases" или "найди слабые места в каждом варианте" для более thorough reasoning
Шаблон промпта
Задача: {описание задачи или вопрос}
Проанализируй подробно (можешь рассуждать verbose, главное — тщательность).
Потом дай краткий, понятный вывод.
Формат ответа:
<Рассуждение>
{твой подробный анализ — можно длинно, со всеми аргументами,
edge cases, альтернативами}
Рассуждение>
<Вывод для меня>
{2-3 абзаца: итог, рекомендация, план действий}
</Вывод>
Что подставлять:
{описание задачи}— твоя проблема, вопрос или ситуация для анализа- Можешь добавить контекст: "у меня есть [ограничения/условия]"
- Можешь уточнить формат вывода: "рекомендация + 3 аргумента" или "список действий"
🚀 Быстрый старт — вставь в чат:
Вот шаблон Dual-Output Reasoning. Адаптируй под мою задачу: [твоя задача].
Задавай вопросы, чтобы уточнить детали.
[вставить шаблон выше]
LLM спросит про суть задачи, какой формат вывода тебе удобнее, нужны ли edge cases в рассуждении — всё это влияет на глубину анализа в блоке <Рассуждение> и структуру <Вывод>. Она возьмёт паттерн двух блоков из шаблона и подстроит под твой запрос.
Ограничения
⚠️ Простые вопросы: Для быстрых фактических вопросов ("столица Франции?") dual-output избыточен — модель потратит токены на пустое рассуждение. Используй для задач где нужна глубина — решения, анализ, сравнения, неоднозначные вопросы.
⚠️ Токены: Verbose рассуждение съедает больше токенов. Если бюджет ограничен — используй для критичных задач, для мелких вопросов обходись без структуры.
⚠️ Не для всех моделей: Слабые модели (старые GPT-3.5 или мелкие open-source) могут игнорировать структуру XML-тегов или делать её формально. Работает надёжно на GPT-4, Claude, современных больших моделях.
Как исследовали
Команда взяла CoTemp QA — бенчмарк про temporal reasoning (вопросы типа "что случилось раньше?"). 3798 примеров для обучения, 950 для теста. Обучили 4 модели (LLaMA-3.2-1B, LLaMA-3.1-8B, Qwen3-1.7B, Qwen3-8B) на 4 типах reasoning traces:
- R1 traces — verbose подробные рассуждения от DeepSeek R1
- Саммари R1 — GPT-4o-mini сжал R1 traces
- Post-hoc объяснения — GPT-4o-mini написал объяснения ПОСЛЕ R1 trace
- Алгоритмически корректные traces — сгенерированные программно, гарантированно правильные
Результат по точности: R1 traces выиграли на 3 из 4 моделей. Biggest boost — на LLaMA-3.2-1B. Корректные traces и саммари — хуже всех.
Потом провели пользовательское исследование (100 человек на Prolific, по 25 на каждый тип traces). Показывали 5 вопросов с ответами и reasoning traces. Участники оценивали по шкале 1-5:
- Interpretability: предсказуемость, понятность, логичность, соответствие фактам
- Cognitive workload: mental demand, усилия, фрустрация (NASA-TLX метрика)
Парадокс результатов: R1 traces (которые дали лучшую точность) получили самые низкие оценки по interpretability (медиана 3.31-3.48 из 5) и самую высокую когнитивную нагрузку (медиана 4.54-4.65 из 5). Алгоритмически корректные traces — наоборот: самые понятные (4.56-4.86) и лёгкие (2.31-2.86). Саммари и объяснения R1 — посередине.
Статистика: Mann-Whitney U test с поправкой Бонферрони (p < 0.05) подтвердил: разница между R1 и корректными traces значима по всем параметрам. Это не случайность, это паттерн.
Вывод исследования: Reasoning traces которые лучше всего работают для модели — не те что понятнее человеку. Это раскрывает фундаментальный разрыв между "тренировочный сигнал для LLM" и "объяснение для пользователя".
Адаптации и экстраполяции
💡 Адаптация: Hidden reasoning + Clean output
Если тебе вообще не нужно видеть рассуждение, а нужен только чистый результат:
Задача: {твоя задача}
Рассуждай подробно про себя (в теге <thinking>), но не показывай мне.
Покажи только финальный ответ.
<thinking>
[твоё подробное рассуждение — сюда я не смотрю]
Ответ: {чистый результат}
Пример: "Придумай 5 идей для YouTube-канала про финансовую грамотность для студентов. Рассуждай про себя, покажи только список идей с краткими описаниями."
Эффект: Модель пройдёт весь reasoning (= качество), но ты получишь только clean output без verbose текста.
💡 Адаптация: Multi-level summary
Для сложных задач можно попросить несколько уровней детализации:
Задача: {твоя задача}
Выдай 3 уровня:
1. — одно предложение, суть
2. — 3-4 абзаца, ключевые моменты
3. <Подробное рассуждение> — full analysis
Я сам решу что читать.
Пример: Анализ инвестиции в недвижимость. TL;DR — "брать или не брать", Executive Summary — цифры + 3 аргумента, Подробное — расчёты, риски, альтернативы.
Эффект: Ты выбираешь глубину в зависимости от времени — быстро глянул TL;DR или залез в детали.
🔧 Техника: Явный критерий завершения рассуждения
Если хочешь контролировать когда модель останавливается:
<Рассуждение>
Анализируй пока не найдёшь явное противоречие ИЛИ не рассмотришь
минимум 3 альтернативы ИЛИ не пройдёшь 5 итераций проверки.
</Рассуждение>
Эффект: Модель не остановится на первой идее, будет копать глубже. Но рискуешь verbose output — регулируй под задачу.
Ресурсы
Do Cognitively Interpretable Reasoning Traces Improve LLM Performance? — Siddhant Bhambri, Upasana Biswas, Subbarao Kambhampati (Arizona State University). Preprint 2025.
Упоминание GPT-OSS (OpenAI) — модель которая генерирует CoT trace + summary, показывает пользователю только summary.
Исследование на бенчмарке CoTemp QA — temporal reasoning задачи.
