TL;DR
Chain-of-Thought (CoT) — инструкция «думай шаг за шагом» — не универсальное улучшение. На фактических вопросах, задачах здравого смысла и открытых творческих запросах CoT снижает точность и съедает токены впустую. Причина не в сложности задачи — а в том, есть ли у неё структурированный путь к ответу, по которому модель может «сужать неопределённость» шаг за шагом.
Главная находка исследования: полезность CoT — не свойство задачи или модели по отдельности, а свойство их связки. Одна и та же модель на математике выигрывает от CoT, а на вопросах здравого смысла — проигрывает. Модель побольше решает задачу напрямую там, где меньшая нуждается в пошаговом разборе. Добавляя «думай шаг за шагом» ко всему подряд, пользователи не улучшают, а портят часть ответов — при этом тратя в несколько раз больше токенов.
EDRM решает это через автоматическую маршрутизацию: система смотрит на ранние сигналы генерации модели и выбирает один из трёх режимов — прямой ответ, стандартный или CoT. Для пользователя чата это переводится в простое правило: классифицируй задачу перед тем, как выбирать формат промпта.
Схема метода
Исследователи выделяют три режима и три паттерна:
РЕЖИМ 1 — DIRECT (прямой ответ)
Когда: неопределённость модели РАСТЁТ или КОЛЕБЛЕТСЯ с первых шагов
Признак задачи: факт, воспоминание, знание, творческий текст
Промпт: просто вопрос, без CoT-инструкций
РЕЖИМ 2 — STANDARD (модель решает сама)
Когда: нет чёткого сигнала куда идти
Признак задачи: неоднозначная, смешанная сложность
Промпт: вопрос + минимальный контекст
РЕЖИМ 3 — COT (цепочка рассуждений)
Когда: неопределённость модели СНИЖАЕТСЯ стабильно с первых шагов
Признак задачи: математика, логика, многошаговый вывод, формальные задачи
Промпт: "думай шаг за шагом" / "рассуждай подробно"
Маршрутизация через мониторинг энтропии требует API. Но принцип классификации задач применим вручную в любом чате — об этом ниже.
Пример применения
Задача: Максим готовится к разговору с инвестором. За час ему нужно: узнать актуальные ставки по депозитам в Сбере, придумать питч для стартапа, и решить — брать ли соучредителя с долей 15%.
Интуитивный порыв — везде написать «подумай подробно». Но это ошибка для первых двух задач.
Промпт для диагностики задач перед написанием промпта:
У меня три задачи. Для каждой скажи: нужен ли пошаговый разбор
или лучше сразу ответ. Объясни коротко — почему.
Задача 1: Какие сейчас ставки по вкладам в Сбере на 6 месяцев?
Задача 2: Придумай 3 варианта питча для B2B SaaS стартапа в HR-tech.
Задача 3: Стоит ли брать соучредителя с долей 15%,
если он даёт связи, но нет денег?
Для каждой задачи: [ПРЯМОЙ ОТВЕТ] или [ПОШАГОВО] — и одно предложение почему.
Результат: Модель классифицирует: задача 1 — прямой ответ (фактический вопрос, рассуждение не добавляет ценности), задача 2 — прямой ответ с вариантами (генеративная, CoT создаёт шаблонность), задача 3 — пошаговый разбор (многофакторное решение с trade-off'ами, где цепочка аргументов важна). После этого Максим формулирует три разных промпта — каждый в нужном режиме.
Почему это работает
Слабость LLM: Модель не сопротивляется формату промпта. Если написать «думай шаг за шагом», она будет думать шаг за шагом — даже когда это вредит. На фактических вопросах многошаговое рассуждение создаёт длинные пути к простым ответам, где каждый шаг — шанс ошибиться или уйти в сторону.
Что умеет LLM хорошо: Модель отлично знает, когда задача требует структурированного вывода. Математическая задача имеет шаги, которые сужают пространство ответов. Вопрос «Кто написал Войну и мир?» — не имеет. Активируя CoT на втором типе задач, мы заставляем модель искать шаги там, где их нет.
Как метод использует это: EDRM смотрит на ранние сигналы генерации (падает ли неопределённость или растёт) и делает вывод: идёт ли модель к ответу или блуждает. Для пользователя чата аналог — предварительная классификация задачи по типу: есть ли у неё структурированный путь решения или нет.
Рычаги управления для пользователя:
| Тип задачи | Сигнал | Режим | Как писать |
|---|---|---|---|
| Математика, логика, код | Путь к ответу структурирован | CoT | «Реши шаг за шагом» |
| Факт, определение, перевод | Один ответ, без шагов | Direct | Просто вопрос |
| Стратегическое решение с trade-off | Много факторов, взвешивание | CoT | «Разбери плюсы и минусы» |
| Креатив, текст, варианты | Нет правильного ответа | Direct | Просто задача |
| Здравый смысл, бытовое | Интуитивный ответ точнее | Direct | Просто вопрос |
Шаблон промпта
Ты — эксперт по постановке задач для AI.
Вот моя задача: {описание_задачи}
Прежде чем отвечать — определи тип:
- СТРУКТУРИРОВАННАЯ: есть шаги, вывод, логический путь → думай подробно
- ФАКТИЧЕСКАЯ: один ответ, нет разветвлений → отвечай сразу
- ГЕНЕРАТИВНАЯ: нужны варианты/идеи, нет правильного ответа → отвечай сразу
- ВЗВЕШИВАЮЩАЯ: несколько факторов, trade-off → разбери пошагово
Назови тип. Затем ответь в соответствующем формате.
Что подставлять:
- {описание_задачи} — любая задача: вопрос, запрос на текст, решение, анализ
Шаблон работает как встроенный маршрутизатор прямо в промпте — модель сама определяет режим и переключается.
🚀 Быстрый старт — вставь в чат:
Вот шаблон для автоматического выбора режима рассуждения.
Адаптируй под мою задачу: {твоя задача здесь}.
Задавай вопросы, если нужно уточнить контекст.
[вставить шаблон выше]
LLM спросит тип задачи и ключевые параметры — потому что маршрутизатор работает лучше, когда задача описана чётко. Модель возьмёт структуру классификации из шаблона и применит к твоей ситуации.
Ограничения
⚠️ Граница применимости ручного метода: Классификация задачи вручную требует понимания — «структурированная ли это задача?». Это не всегда очевидно. Граница между «взвешивающей» и «генеративной» задачей размыта.
⚠️ Зависимость от модели и размера: Более сильные модели меньше нуждаются в CoT — они решают напрямую то, что слабым требует цепочки. Правило «сложная задача → CoT» работает хуже с GPT-4o/Claude Sonnet, чем с более слабыми моделями.
⚠️ EDRM как система — только через API: Автоматическая маршрутизация через мониторинг энтропии требует доступа к распределению токенов. В обычном чате ChatGPT/Claude это недоступно.
⚠️ CoT всё равно может ошибаться даже в «правильных» задачах: Принудительное пошаговое рассуждение снижает риск ошибки, но не убирает его. Длинная цепочка рассуждений накапливает ошибки на каждом шаге.
Как исследовали
Команда из Пекинского университета и Samsung Research проверила простую идею: если задать модели одинаковый вопрос в трёх режимах (прямой ответ, стандарт, цепочка рассуждений) и посмотреть на первые 64 токена генерации — можно ли предсказать, какой режим даст лучший результат?
Оказалось — да. Они измеряли энтропию (неопределённость) распределения токенов на каждом шаге и смотрели на три паттерна: падает ли она стабильно (сигнал «CoT поможет»), растёт или колеблется (сигнал «CoT навредит»), или изначально слишком высокая (сигнал «модель не знает — ничего не поможет»).
Проверяли на 15 бенчмарках, 4 моделях (от Llama 3B до Qwen3-4B reasoning-модели). Результат удивил: CoT на математике давал большой прирост точности, а на вопросах здравого смысла — снижал её. Самое интересное: одна и та же модель вела себя по-разному на разных задачах. Это разрушило популярное представление, что «CoT всегда лучше для сложных задач» — оказалось, сложность не главный фактор, главное — есть ли у задачи структурированный путь вывода.
EDRM с автоматической маршрутизацией сэкономил от 27% до 55% токенов при сохранении или улучшении точности. Причём для старта нужно всего 50 примеров для калибровки — это почти ничего.
Адаптации и экстраполяции
🔧 Техника: явная инструкция режима в системном промпте
Вместо того чтобы каждый раз думать — поставь правило в начале диалога:
Системная инструкция:
Перед каждым ответом определяй тип задачи:
- Если задача требует вычислений, логического вывода или
многошагового рассуждения — думай развёрнуто, показывай шаги.
- Если задача фактическая, творческая или предполагает
прямой ответ — отвечай кратко, без рассуждений.
- Не добавляй цепочку рассуждений там, где она не нужна.
Это переносит маршрутизацию на уровень системного промпта. Модель берёт классификацию на себя — пользователь просто задаёт вопросы.
🔧 Техника: «анти-CoT» для ускорения простых задач
Если знаешь, что задача фактическая — явно запрещай рассуждение:
Ответь одним предложением, без объяснений.
{простой_фактический_вопрос}
Многие пользователи никогда не пишут этого — получают длинные объяснения там, где нужна одна строка. EDRM формализует то, что работает интуитивно.
🔧 Комбинация с Chain-of-Thought для проверки
Если не уверен, нужен ли CoT — попроси модель обосновать выбор режима:
Тебе нужно ответить на этот вопрос: {вопрос}
Сначала одним предложением: это задача, где пошаговое рассуждение
поможет или нет? Почему?
Затем ответь соответственно.
Ресурсы
When Do LLMs Reason? A Dynamical Systems View via Entropy Phase Transitions
Wei Xia, Haoqing Wang, Yehui Tang, Zhi-Hong Deng
Пекинский университет (State Key Laboratory of General Artificial Intelligence) + Samsung Research, Beijing
Май 2026
Связанные концепции из исследования: Chain-of-Thought (Wei et al., 2022), Token Signature (Liu et al., 2025), BEST-Route (Ding et al., 2025), семантическая энтропия (Farquhar et al., 2024)
