3,583 papers
arXiv:2605.22873 74 20 мая 2026 г. FREE

EDRM: когда «думай шаг за шагом» вредит — и как выбирать режим рассуждения под задачу

КЛЮЧЕВАЯ СУТЬ
Парадокс: «думай шаг за шагом» — самый популярный трюк промптинга — снижает точность на фактических вопросах, задачах здравого смысла и творческих запросах. EDRM позволяет выбирать нужный режим рассуждения под задачу — вместо того чтобы лепить пошаговую цепочку рассуждений (CoT) на всё подряд. Полезность CoT — не свойство задачи самой по себе, а свойство пары «модель + задача»: если у задачи нет пути, каждый шаг которого сужает пространство ответов, пошаговое рассуждение создаёт длинную дорогу к ошибке. Лепишь CoT везде — портишь часть ответов и тратишь в разы больше токенов.
Адаптировать под запрос

TL;DR

Chain-of-Thought (CoT) — инструкция «думай шаг за шагом» — не универсальное улучшение. На фактических вопросах, задачах здравого смысла и открытых творческих запросах CoT снижает точность и съедает токены впустую. Причина не в сложности задачи — а в том, есть ли у неё структурированный путь к ответу, по которому модель может «сужать неопределённость» шаг за шагом.

Главная находка исследования: полезность CoT — не свойство задачи или модели по отдельности, а свойство их связки. Одна и та же модель на математике выигрывает от CoT, а на вопросах здравого смысла — проигрывает. Модель побольше решает задачу напрямую там, где меньшая нуждается в пошаговом разборе. Добавляя «думай шаг за шагом» ко всему подряд, пользователи не улучшают, а портят часть ответов — при этом тратя в несколько раз больше токенов.

EDRM решает это через автоматическую маршрутизацию: система смотрит на ранние сигналы генерации модели и выбирает один из трёх режимов — прямой ответ, стандартный или CoT. Для пользователя чата это переводится в простое правило: классифицируй задачу перед тем, как выбирать формат промпта.


🔬

Схема метода

Исследователи выделяют три режима и три паттерна:

РЕЖИМ 1 — DIRECT (прямой ответ)
  Когда: неопределённость модели РАСТЁТ или КОЛЕБЛЕТСЯ с первых шагов
  Признак задачи: факт, воспоминание, знание, творческий текст
  Промпт: просто вопрос, без CoT-инструкций

РЕЖИМ 2 — STANDARD (модель решает сама)
  Когда: нет чёткого сигнала куда идти
  Признак задачи: неоднозначная, смешанная сложность
  Промпт: вопрос + минимальный контекст

РЕЖИМ 3 — COT (цепочка рассуждений)
  Когда: неопределённость модели СНИЖАЕТСЯ стабильно с первых шагов
  Признак задачи: математика, логика, многошаговый вывод, формальные задачи
  Промпт: "думай шаг за шагом" / "рассуждай подробно"

Маршрутизация через мониторинг энтропии требует API. Но принцип классификации задач применим вручную в любом чате — об этом ниже.


🚀

Пример применения

Задача: Максим готовится к разговору с инвестором. За час ему нужно: узнать актуальные ставки по депозитам в Сбере, придумать питч для стартапа, и решить — брать ли соучредителя с долей 15%.

Интуитивный порыв — везде написать «подумай подробно». Но это ошибка для первых двух задач.

Промпт для диагностики задач перед написанием промпта:

У меня три задачи. Для каждой скажи: нужен ли пошаговый разбор 
или лучше сразу ответ. Объясни коротко — почему.

Задача 1: Какие сейчас ставки по вкладам в Сбере на 6 месяцев?
Задача 2: Придумай 3 варианта питча для B2B SaaS стартапа в HR-tech.
Задача 3: Стоит ли брать соучредителя с долей 15%, 
          если он даёт связи, но нет денег?

Для каждой задачи: [ПРЯМОЙ ОТВЕТ] или [ПОШАГОВО] — и одно предложение почему.

Результат: Модель классифицирует: задача 1 — прямой ответ (фактический вопрос, рассуждение не добавляет ценности), задача 2 — прямой ответ с вариантами (генеративная, CoT создаёт шаблонность), задача 3 — пошаговый разбор (многофакторное решение с trade-off'ами, где цепочка аргументов важна). После этого Максим формулирует три разных промпта — каждый в нужном режиме.


🧠

Почему это работает

Слабость LLM: Модель не сопротивляется формату промпта. Если написать «думай шаг за шагом», она будет думать шаг за шагом — даже когда это вредит. На фактических вопросах многошаговое рассуждение создаёт длинные пути к простым ответам, где каждый шаг — шанс ошибиться или уйти в сторону.

Что умеет LLM хорошо: Модель отлично знает, когда задача требует структурированного вывода. Математическая задача имеет шаги, которые сужают пространство ответов. Вопрос «Кто написал Войну и мир?» — не имеет. Активируя CoT на втором типе задач, мы заставляем модель искать шаги там, где их нет.

Как метод использует это: EDRM смотрит на ранние сигналы генерации (падает ли неопределённость или растёт) и делает вывод: идёт ли модель к ответу или блуждает. Для пользователя чата аналог — предварительная классификация задачи по типу: есть ли у неё структурированный путь решения или нет.

Рычаги управления для пользователя:

Тип задачи Сигнал Режим Как писать
Математика, логика, код Путь к ответу структурирован CoT «Реши шаг за шагом»
Факт, определение, перевод Один ответ, без шагов Direct Просто вопрос
Стратегическое решение с trade-off Много факторов, взвешивание CoT «Разбери плюсы и минусы»
Креатив, текст, варианты Нет правильного ответа Direct Просто задача
Здравый смысл, бытовое Интуитивный ответ точнее Direct Просто вопрос

📋

Шаблон промпта

Ты — эксперт по постановке задач для AI.

Вот моя задача: {описание_задачи}

Прежде чем отвечать — определи тип:
- СТРУКТУРИРОВАННАЯ: есть шаги, вывод, логический путь → думай подробно
- ФАКТИЧЕСКАЯ: один ответ, нет разветвлений → отвечай сразу  
- ГЕНЕРАТИВНАЯ: нужны варианты/идеи, нет правильного ответа → отвечай сразу
- ВЗВЕШИВАЮЩАЯ: несколько факторов, trade-off → разбери пошагово

Назови тип. Затем ответь в соответствующем формате.

Что подставлять: - {описание_задачи} — любая задача: вопрос, запрос на текст, решение, анализ

Шаблон работает как встроенный маршрутизатор прямо в промпте — модель сама определяет режим и переключается.


🚀 Быстрый старт — вставь в чат:

Вот шаблон для автоматического выбора режима рассуждения. 
Адаптируй под мою задачу: {твоя задача здесь}.
Задавай вопросы, если нужно уточнить контекст.

[вставить шаблон выше]

LLM спросит тип задачи и ключевые параметры — потому что маршрутизатор работает лучше, когда задача описана чётко. Модель возьмёт структуру классификации из шаблона и применит к твоей ситуации.


⚠️

Ограничения

⚠️ Граница применимости ручного метода: Классификация задачи вручную требует понимания — «структурированная ли это задача?». Это не всегда очевидно. Граница между «взвешивающей» и «генеративной» задачей размыта.

⚠️ Зависимость от модели и размера: Более сильные модели меньше нуждаются в CoT — они решают напрямую то, что слабым требует цепочки. Правило «сложная задача → CoT» работает хуже с GPT-4o/Claude Sonnet, чем с более слабыми моделями.

⚠️ EDRM как система — только через API: Автоматическая маршрутизация через мониторинг энтропии требует доступа к распределению токенов. В обычном чате ChatGPT/Claude это недоступно.

⚠️ CoT всё равно может ошибаться даже в «правильных» задачах: Принудительное пошаговое рассуждение снижает риск ошибки, но не убирает его. Длинная цепочка рассуждений накапливает ошибки на каждом шаге.


🔍

Как исследовали

Команда из Пекинского университета и Samsung Research проверила простую идею: если задать модели одинаковый вопрос в трёх режимах (прямой ответ, стандарт, цепочка рассуждений) и посмотреть на первые 64 токена генерации — можно ли предсказать, какой режим даст лучший результат?

Оказалось — да. Они измеряли энтропию (неопределённость) распределения токенов на каждом шаге и смотрели на три паттерна: падает ли она стабильно (сигнал «CoT поможет»), растёт или колеблется (сигнал «CoT навредит»), или изначально слишком высокая (сигнал «модель не знает — ничего не поможет»).

Проверяли на 15 бенчмарках, 4 моделях (от Llama 3B до Qwen3-4B reasoning-модели). Результат удивил: CoT на математике давал большой прирост точности, а на вопросах здравого смысла — снижал её. Самое интересное: одна и та же модель вела себя по-разному на разных задачах. Это разрушило популярное представление, что «CoT всегда лучше для сложных задач» — оказалось, сложность не главный фактор, главное — есть ли у задачи структурированный путь вывода.

EDRM с автоматической маршрутизацией сэкономил от 27% до 55% токенов при сохранении или улучшении точности. Причём для старта нужно всего 50 примеров для калибровки — это почти ничего.


💡

Адаптации и экстраполяции

🔧 Техника: явная инструкция режима в системном промпте

Вместо того чтобы каждый раз думать — поставь правило в начале диалога:

Системная инструкция:

Перед каждым ответом определяй тип задачи:
- Если задача требует вычислений, логического вывода или 
  многошагового рассуждения — думай развёрнуто, показывай шаги.
- Если задача фактическая, творческая или предполагает 
  прямой ответ — отвечай кратко, без рассуждений.
- Не добавляй цепочку рассуждений там, где она не нужна.

Это переносит маршрутизацию на уровень системного промпта. Модель берёт классификацию на себя — пользователь просто задаёт вопросы.


🔧 Техника: «анти-CoT» для ускорения простых задач

Если знаешь, что задача фактическая — явно запрещай рассуждение:

Ответь одним предложением, без объяснений. 
{простой_фактический_вопрос}

Многие пользователи никогда не пишут этого — получают длинные объяснения там, где нужна одна строка. EDRM формализует то, что работает интуитивно.


🔧 Комбинация с Chain-of-Thought для проверки

Если не уверен, нужен ли CoT — попроси модель обосновать выбор режима:

Тебе нужно ответить на этот вопрос: {вопрос}

Сначала одним предложением: это задача, где пошаговое рассуждение 
поможет или нет? Почему?

Затем ответь соответственно.

🔗

Ресурсы

When Do LLMs Reason? A Dynamical Systems View via Entropy Phase Transitions

Wei Xia, Haoqing Wang, Yehui Tang, Zhi-Hong Deng

Пекинский университет (State Key Laboratory of General Artificial Intelligence) + Samsung Research, Beijing

Май 2026

Связанные концепции из исследования: Chain-of-Thought (Wei et al., 2022), Token Signature (Liu et al., 2025), BEST-Route (Ding et al., 2025), семантическая энтропия (Farquhar et al., 2024)


📋 Дайджест исследования

Ключевая суть

Парадокс: «думай шаг за шагом» — самый популярный трюк промптинга — снижает точность на фактических вопросах, задачах здравого смысла и творческих запросах. EDRM позволяет выбирать нужный режим рассуждения под задачу — вместо того чтобы лепить пошаговую цепочку рассуждений (CoT) на всё подряд. Полезность CoT — не свойство задачи самой по себе, а свойство пары «модель + задача»: если у задачи нет пути, каждый шаг которого сужает пространство ответов, пошаговое рассуждение создаёт длинную дорогу к ошибке. Лепишь CoT везде — портишь часть ответов и тратишь в разы больше токенов.

Принцип работы

Перед написанием промпта задай себе один вопрос: «Есть ли у этой задачи шаги, каждый из которых сужает пространство ответов?» Математика — да. Вопрос про факт — нет. Стратегическое решение с несколькими факторами — да. Придумать три идеи для поста — нет. Если структурированный путь есть — добавляй «думай шаг за шагом». Если нет — убирай CoT-инструкции и спрашивай напрямую. Три режима: прямой ответ → стандартный → CoT. Большинство запросов в обычном рабочем чате — первые два.

Почему работает

Модель не сопротивляется формату промпта. Попросишь «думай шаг за шагом» на вопросе «кто написал Войну и мир» — она будет думать. Каждый шаг — ещё один шанс уйти в сторону. На фактическом вопросе рассуждение не добавляет ценности, оно добавляет риск. Технический сигнал из исследования: если с первых токенов генерации неопределённость модели падает — задача структурирована, CoT поможет. Если неопределённость растёт или скачет — модель блуждает, а CoT только усилит блуждание. Ещё одна неочевидная деталь: сильные модели меньше нуждаются в CoT. Они решают напрямую то, что слабым требует цепочки. Правило «сложная задача → CoT» хуже работает с GPT-4o и Claude Sonnet, чем с компактными моделями.

Когда применять

Математика, логика, многошаговый вывод, код с отладкой → CoT обязателен. Стратегические решения с несколькими противоречащими факторами (взять партнёра или нет, запустить продукт сейчас или подождать) → CoT. Фактические вопросы, определения, переводы, пересказы → прямой ответ без CoT. Генеративные задачи — идеи, варианты текстов, заголовки → прямой ответ, CoT создаёт шаблонность. Бытовые вопросы и здравый смысл → прямой ответ. НЕ подходит для автоматической маршрутизации без API — EDRM через анализ вероятностей токенов требует прямого доступа к модели, в обычном чате ChatGPT или Claude это недоступно.

Мини-рецепт

1. Классифицируй задачу вручную: Спроси себя — есть ли у неё структурированный путь, где каждый шаг сужает возможные варианты? Математика, логика, код — да. Факт, творчество, здравый смысл — нет.
2. Если путь есть — добавь CoT-инструкцию: Думай шаг за шагом или Разбери подробно, покажи рассуждение — для математики, кода, решений с несколькими факторами.
3. Если пути нет — убери лишнее: Пиши просто вопрос без инструкций. Никакого «поразмышляй» и «объясни подробно», если задача фактическая или генеративная.
4. Встрой маршрутизатор прямо в промпт: Дай модели шаблон классификации — пусть сама определяет тип и переключается. Пример: Сначала определи тип задачи: СТРУКТУРИРОВАННАЯ (есть логический путь) или ФАКТИЧЕСКАЯ / ГЕНЕРАТИВНАЯ (нет шагов, нет правильного ответа). Затем ответь в соответствующем режиме. Задача: {твой запрос}.

Примеры

[ПЛОХО]: `Придумай 3 идеи для постов про личные финансы. Думай шаг за шагом и обоснуй каждую.` [ХОРОШО]: `Определи тип задачи — СТРУКТУРИРОВАННАЯ (есть логический путь к ответу) или ГЕНЕРАТИВНАЯ (нужны варианты, нет правильного ответа). Задача: придумай 3 идеи для постов про личные финансы для аудитории 25-35 лет. Назови тип задачи одним словом — и затем сразу дай результат в подходящем формате.` Второй пример — задача где CoT нужен: [ПЛОХО]: `Стоит ли брать соучредителя с долей 15%, если он даёт связи, но не вкладывает деньги? Ответь быстро.` [ХОРОШО]: `Стоит ли брать соучредителя с долей 15%, если он даёт связи, но не вкладывает деньги? Разбери пошагово: что я получаю, что теряю, какие риски на горизонте двух лет, и какой вывод из этого следует.`
Источник: When Do LLMs Reason? A Dynamical Systems View via Entropy Phase Transitions
ArXiv ID: 2605.22873 | Сгенерировано: 2026-05-25 06:33

Проблемы LLM

ПроблемаСутьКак обойти
«Думай шаг за шагом» снижает точность на части задачИнструкция «думай шаг за шагом» заставляет модель искать шаги там, где их нет. Фактический вопрос имеет один прямой ответ. Задача на генерацию вариантов — тоже. Когда модель строит цепочку рассуждений на таких задачах, каждый шаг — шанс уйти в сторону или ошибиться. Точность падает. Токенов тратится в несколько раз большеПеред тем как добавлять «думай шаг за шагом», задай вопрос: есть ли у задачи структурированный путь к ответу? Математика — есть. Фактический вопрос — нет. Совет или творческий текст — нет. Если пути нет — убирай CoT-инструкцию

Методы

МетодСуть
Маршрутизатор внутри запроса — модель сама выбирает режимДобавь в начало запроса инструкцию: сначала определи тип задачи, потом отвечай в нужном формате. Пример: Определи тип задачи: СТРУКТУРИРОВАННАЯ (есть шаги, логический путь) думай подробно / ФАКТИЧЕСКАЯ или ГЕНЕРАТИВНАЯ (один ответ или варианты) отвечай сразу. Назови тип. Затем ответь. Почему работает: модель хорошо распознаёт структуру задачи. Когда ты явно разрешаешь ей самой выбрать режим — она выбирает точнее, чем если ты навязываешь формат. Когда применять: смешанные задачи, пакет разных вопросов в одном запросе, неочевидный тип задачи. Когда не нужен: если тип задачи очевиден — сразу пиши нужный формат запроса
📖 Простыми словами

When DoLLMsReason? A Dynamical Systems View via Entropy Phase Transitions

arXiv: 2605.22873

Суть в том, что магическая фраза «думай шаг за шагом» — это не волшебная таблетка, а инструмент с узким допуском. Исследователи посмотрели на работу LLM через физику и энтропию: модель либо постепенно сужает хаос вариантов до одного верного ответа, либо плодит лишние сущности. Если у задачи есть четкая логическая цепочка, CoT работает как рельсы. Но если ты просишь модель выдать факт или креатив, эти рельсы ведут в кювет. Модель просто не умеет вовремя заткнуться и начинает высасывать «рассуждения» из пальца там, где нужен короткий выстрел в цель.

Это как если бы ты спросил друга: «Который час?», а он вместо взгляда на циферблат начал вслух рассуждать о вращении Земли, устройстве кварцевых резонаторов и положении солнца над горизонтом. Формально он рассуждает, но по факту — просто тянет время и рискует ошибиться в расчетах. В итоге вместо «пять вечера» ты получаешь лекцию с кучей фактических ошибок. Там, где ответ лежит на поверхности, многошаговость превращается в испорченный телефон, где каждое лишнее слово — это лишний шанс для модели «галлюцинировать» на ровном месте.

В работе четко разделяют три режима. Первый — когда CoT реально тащит: это математика и жесткая логика, где каждый шаг сужает неопределенность. Второй — когда он бесполезен: это факты и здравый смысл. Если ты спросишь, какая столица у Франции, «пошаговое мышление» только сожрет токены и снизит точность. Третий — открытое творчество, где жесткая структура вообще убивает полет фантазии. Главный маркер здесь не сложность, а наличие структурированного пути к ответу. Если пути нет, модель начинает имитировать логику, превращаясь в болтливого дурака.

Возьмем пример с подготовкой к питчу. Если нужно посчитать налоги или долю инвестора — включай CoT, тут цифры любят порядок. Но если ты просишь модель узнать ставку в банке или набросать идеи для стартапа, заставлять её «думать шагами» — полный провал. В первом случае она может запутаться в собственных рассуждениях о банковской системе и выдать неверную цифру, во втором — выдаст скучный, шаблонный список вместо живого креатива. Принцип универсален: структура помогает только там, где она заложена в самой сути задачи, в остальном она — балласт.

Короче: хватит пихать «step-by-step» в каждый промпт, это признак дилетанта. Если задача не требует вычислений или многоэтажной логики, прямой запрос работает лучше и дешевле. Модель не сопротивляется твоему формату и будет послушно «рассуждать» даже над вопросом «как тебя зовут», но это прямой путь к деградации результата. 10 из 15 сценариев не требуют CoT, и использование его там — это просто слив бюджета и качества. Кто научится разделять задачи на «логические» и «фактологические», тот получит от AI максимум, пока остальные будут тонуть в бесполезных рассуждениях.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с