3,583 papers
arXiv:2511.20836 78 25 нояб. 2025 г. FREE

Chain-of-Thought как "стабилизатор": почему после CoT промпт почти не важен

КЛЮЧЕВАЯ СУТЬ
Парадокс: Переход от обычного промпта к CoT даёт +3.6% точности, а вся дальнейшая оптимизация формулировок (few-shot примеры, автоматические оптимизаторы) — всего +0.1%. Метод позволяет получать стабильные результаты без мучительного подбора "идеальной" формулировки промпта — достаточно добавить "рассуждай пошагово". CoT работает как буфер между промптом и ответом: модель сначала генерирует цепочку рассуждений, и уже из неё выводит финальный ответ. Когда цепочка сформирована, конкретные слова в промпте почти не влияют — результат стабилен даже при переформулировках.
Адаптировать под запрос

TL;DR

Исследование показало, что главный драйвер улучшения ответов LLM — добавление Chain-of-Thought (пошаговых рассуждений). После этого дальнейшая оптимизация промпта (подбор формулировок, few-shot примеры, автоматические оптимизаторы) даёт минимальный эффект. Переход от обычного промпта к CoT дал +3.6% точности, а переход от CoT к продвинутым оптимизаторам — всего +0.1%.

Стандартные бенчмарки занижают возможности моделей в среднем на 4%. Без CoT модели чувствительны к формулировке промпта — небольшие изменения в инструкциях меняют результат. Это создаёт иллюзию, что нужно долго подбирать "идеальный промпт". На самом деле проблема не в формулировке, а в отсутствии пространства для рассуждений.

CoT работает как буфер между промптом и ответом: модель сначала генерирует цепочку мыслей, и уже из неё выводит финальный ответ. Когда цепочка рассуждений сформирована, конкретные слова в промпте почти не влияют на результат. Это объясняет, почему после добавления CoT сложные оптимизаторы промптов дают ничтожный прирост.


🔬

Схема метода

БЕЗ CoT:
Промпт → Ответ
(ответ сильно зависит от формулировки промпта)

С CoT:
Промпт → Цепочка рассуждений (τ) → Ответ
(цепочка "поглощает" вариативность промпта, ответ стабилен)

Практический вывод: Не трать время на подбор формулировок — добавь "рассуждай пошагово".


🚀

Пример применения

Задача: Маркетолог готовит обоснование бюджета на рекламу для директора. Нужно рассчитать ROI кампании.

Было (без CoT):

Рассчитай ROI рекламной кампании: потратили 150 000 ₽, получили 47 заявок, средний чек 12 000 ₽, конверсия в продажу 30%.

Стало (с CoT):

Рассчитай ROI рекламной кампании. Рассуждай пошагово, показывай каждый этап расчёта.

Данные:
- Бюджет: 150 000 ₽
- Заявки: 47
- Средний чек: 12 000 ₽
- Конверсия в продажу: 30%

Результат: Модель покажет цепочку: количество продаж (47 × 0.3 = 14), выручка (14 × 12 000 = 168 000 ₽), прибыль (168 000 − 150 000 = 18 000 ₽), ROI ((18 000 / 150 000) × 100% = 12%). С CoT ответ стабилен даже если переформулировать промпт — добавить синонимы, поменять порядок данных, убрать форматирование.


🧠

Почему это работает

Слабость LLM: Без пространства для рассуждений модель "прыгает" сразу к ответу. При этом она чувствительна к формулировке — синонимы, порядок слов, даже пунктуация могут изменить результат. Это создаёт иллюзию, что нужен "идеальный промпт".

Сильная сторона LLM: Модели хорошо следуют явной структуре. Когда инструкция требует показать шаги — модель их показывает. И эти шаги создают контекст, из которого логично следует ответ.

Как CoT использует это: Цепочка рассуждений становится "промежуточным представлением" задачи. Она фиксирует суть проблемы независимо от того, как был сформулирован промпт. Математически: p(ответ | вход, промпт) ≈ p(ответ | вход, цепочка_рассуждений) — после генерации цепочки промпт почти не влияет на финальный ответ.

Рычаги управления:

  • Уровень детализации рассуждений: "кратко" vs "подробно" — влияет на длину и глубину цепочки
  • Формат вывода: "покажи шаги" vs "только финальный ответ" — для отладки полезно видеть шаги
  • Структура: пронумерованные шаги vs свободная форма — нумерация помогает на сложных задачах

📋

Шаблон промпта

{задача}

Рассуждай пошагово. Покажи каждый этап решения, затем дай финальный ответ.

Плейсхолдеры:

  • {задача} — описание задачи с исходными данными

Вариация для сложных задач:

{задача}

Реши задачу пошагово:
1. Определи, что нужно найти
2. Выпиши известные данные
3. Выбери метод решения
4. Выполни расчёты
5. Проверь результат
6. Дай финальный ответ

⚠️

Ограничения

⚠️ Потолок знаний: Если модель не знает факты — CoT не поможет. На бенчмарке Medec (обнаружение медицинских ошибок) CoT дал минимальный прирост, потому что задача упирается в знания, а не в рассуждения.

⚠️ Уже высокий baseline: Если модель и так справляется на 90%+ (HeadQA), CoT почти не улучшает результат — модель уже близка к потолку.

⚠️ Модели с встроенным reasoning: o3 Mini (с нативным режимом рассуждений) получает меньший прирост от CoT (+2% vs +5% у других моделей) — рассуждения уже "встроены".

⚠️ Токены: CoT увеличивает длину ответа. Zero-Shot CoT добавляет ~164 токена к промпту, а few-shot оптимизаторы — до 1700+ токенов. Для простых задач это избыточно.


🔍

Как исследовали

Команда из Стэнфорда интегрировала DSPy (фреймворк для структурированных промптов) с HELM (стандартная система бенчмарков). Проверяли 4 модели (Claude 3.7 Sonnet, Gemini 2.0 Flash, GPT-4o, o3 Mini) на 7 бенчмарках — от математики (GSM8K) до медицинских расчётов (MedCalc-Bench).

Ключевое открытие: Переход от baseline к Zero-Shot CoT дал основной прирост (64.9% → 68.5%). Дальнейшая оптимизация через BFRS и MIPROv2 — практически ничего (68.5% → 68.6%). Это означает, что сложные оптимизаторы промптов становятся бесполезны после добавления CoT.

Интересная находка: на 3 из 7 бенчмарков рейтинги моделей перевернулись при использовании CoT. Например, на MMLU-Pro o3 Mini был лучше Claude на baseline, но Claude обогнал o3 Mini с CoT. Это показывает, что без CoT бенчмарки искажают реальные возможности моделей.

Теоретическое объяснение: авторы доказали через information bottleneck, что цепочка рассуждений создаёт марковскую цепь (промпт → цепочка → ответ), где ответ условно независим от промпта при фиксированной цепочке. Проще говоря: CoT "поглощает" вариативность промпта.


🔗

Ресурсы

Работа: "Structured Prompting Enables More Robust Evaluation of Language Models"

Код:

  • DSPy+HELM интеграция: github.com/stanford-crfm/helm/pull/3893
  • Pipeline оптимизации: github.com/StanfordMIMI/dspy-helm

Авторы: Asad Aali, Muhammad Ahmed Mohsin, Vasiliki Bikia и др., Stanford University

Связанные работы: DSPy (Khattab et al., 2023), HELM (Liang et al., 2022), Chain-of-Thought (Wei et al., 2022)


💡

Адаптации и экстраполяции

💡 Адаптация для проверки гипотез: Принцип "CoT стабилизирует ответ" можно использовать для проверки надёжности своих промптов. Если без CoT ответ меняется от переформулировки — промпт нестабилен. Добавь CoT и проверь снова.

# Тест стабильности промпта

Вариант А: {твой промпт, версия 1}
Вариант Б: {твой промпт, версия 2 — переформулирован}

Если ответы разные → добавь "рассуждай пошагово" и повтори тест.

🔧 Техника: минимальный CoT для экономии токенов

Вместо развёрнутых инструкций:

# Было (много токенов):
Реши задачу пошагово. На каждом этапе объясни свои действия. Покажи промежуточные результаты.

# Стало (минимум токенов):
Рассуждай кратко, затем ответ.

Даже минимальная инструкция на CoT даёт основной эффект стабилизации.

🔧 Техника: CoT для задач с неочевидным решением

Когда не знаешь, какой метод использовать:

{задача}

Сначала определи, какой подход лучше для этой задачи. Затем примени его пошагово.

Модель сама выберет метод в цепочке рассуждений — это надёжнее, чем пытаться угадать "правильную" формулировку промпта.


📋 Дайджест исследования

Ключевая суть

Парадокс: Переход от обычного промпта к CoT даёт +3.6% точности, а вся дальнейшая оптимизация формулировок (few-shot примеры, автоматические оптимизаторы) — всего +0.1%. Метод позволяет получать стабильные результаты без мучительного подбора "идеальной" формулировки промпта — достаточно добавить "рассуждай пошагово". CoT работает как буфер между промптом и ответом: модель сначала генерирует цепочку рассуждений, и уже из неё выводит финальный ответ. Когда цепочка сформирована, конкретные слова в промпте почти не влияют — результат стабилен даже при переформулировках.

Принцип работы

Без CoT: промпт → ответ (результат плывёт от малейших изменений формулировки). С CoT: промпт → цепочка рассуждений → ответ (цепочка "поглощает" вариативность промпта, финальный ответ зависит от рассуждений, а не от синонимов). Меняешь "рассчитай" на "вычисли" — без CoT результат может измениться, с CoT — останется тем же.

Почему работает

Без пространства для рассуждений модель "прыгает" сразу к ответу и чувствительна к формулировке — синонимы, порядок слов, пунктуация меняют результат. Цепочка рассуждений фиксирует суть задачи независимо от того, как сформулирован промпт. Математически: вероятность ответа зависит от цепочки рассуждений, а не от исходного промпта — p(ответ | промпт) ≈ p(ответ | цепочка). Это объясняет почему сложные оптимизаторы промптов дают ничтожный прирост после добавления CoT — вся работа уже сделана на этапе генерации цепочки.

Когда применять

Задачи требующие расчётов, анализа, многошаговой логики → финансовые модели, обоснование бюджетов, технические расчёты, разбор кейсов. Особенно когда нужна стабильность результата при разных формулировках (например, для API где запросы приходят от разных пользователей). НЕ подходит: для задач на фактические знания (медицинская диагностика, исторические факты) — если модель не знает факт, CoT не поможет, только добавит токенов.

Мини-рецепт

1. Опиши задачу: исходные данные и что нужно найти
2. Добавь инструкцию: Рассуждай пошагово. Покажи каждый этап решения, затем дай финальный ответ
3. Для сложных задач: структурируй через нумерацию — 1. Определи что искать, 2. Выпиши данные, 3. Выбери метод, 4. Выполни расчёты, 5. Дай ответ

Примеры

[ПЛОХО] : Рассчитай рентабельность инвестиций для рекламной кампании: вложили 150 тысяч, получили 47 заявок, средний чек 12 тысяч, конверсия в продажу 30 процентов (без CoT результат проседает при переформулировках — замена "рассчитай" на "вычисли" или изменение порядка данных меняет ответ)
[ХОРОШО] : Рассчитай окупаемость инвестиций (ROI) рекламной кампании. Рассуждай пошагово, покажи каждый этап расчёта. Данные: Бюджет 150 000 ₽, заявки 47, средний чек 12 000 ₽, конверсия в продажу 30% (модель показывает: продажи = 47 × 0.3 = 14, выручка = 14 × 12 000 = 168 000 ₽, прибыль = 18 000 ₽, ROI = 12%. Результат стабилен даже если переформулировать или поменять порядок данных)
Источник: Structured Prompting Enables More Robust Evaluation of Language Models
ArXiv ID: 2511.20836 | Сгенерировано: 2026-01-11 20:12

Проблемы LLM

ПроблемаСутьКак обойти
Без рассуждений ответ зависит от случайных деталей промптаМодель чувствительна к формулировке. Меняешь синонимы, порядок слов, пунктуацию — меняется ответ. Промпт напрямую влияет на результат. Каждая мелочь может сдвинуть модель в другую сторону. Это делает результаты нестабильнымиДобавь пространство для рассуждений: "Рассуждай пошагово" или "Покажи каждый этап решения". Модель сначала генерирует цепочку мыслей, потом выводит ответ. Цепочка фиксирует суть задачи. После этого конкретная формулировка промпта почти не влияет на результат

Методы

МетодСуть
Chain-of-Thought как стабилизатор промптаДобавь в промпт: "Рассуждай пошагово. Покажи каждый этап решения, затем дай финальный ответ". Почему работает: Цепочка рассуждений становится промежуточным слоем между промптом и ответом. Модель фиксирует суть проблемы в явных шагах. Финальный ответ выводится из этих шагов, а не напрямую из промпта. Формулировка промпта влияет на цепочку, но после её генерации конкретные слова перестают быть важны. Когда применять: расчёты, логические задачи, многоступенчатые решения. Когда не работает: задачи упираются в фактические знания (а не рассуждения), модель уже справляется на 90%+, нужен короткий ответ (CoT добавляет токены)

Тезисы

ТезисКомментарий
Цепочка рассуждений нейтрализует влияние формулировки промптаБез рассуждений модель "прыгает" от промпта к ответу. Синонимы и порядок слов меняют результат. С рассуждениями схема другая: промпт цепочка шагов ответ. Цепочка фиксирует логику задачи. Ответ строится из цепочки, а не из промпта. Поэтому конкретные слова в промпте перестают сильно влиять. Разница: основной прирост даёт переход к рассуждениям, дальнейшая оптимизация формулировок даёт минимум. Применяй: Не трать время на подбор "идеальной" формулировки. Добавь "рассуждай пошагово" — этого достаточно
📖 Простыми словами

Chain-of-Thought как "стабилизатор": почему после CoT промпт почти не важен

arXiv: 2511.20836

Вся индустрия промпт-инжиниринга годами кормила нас сказками о «магических словах», которые заставляют нейронку умнеть. На деле же корень адекватности LLM — это Chain-of-Thought или просто цепочка рассуждений. Если ты заставляешь модель думать по шагам, она перестает гадать и начинает вычислять. Без этого пространства для маневра нейронка просто выплевывает статистически вероятный ответ, который рассыпается от малейшей смены формулировки.

Это как пытаться заставить пьяного математика решить сложное уравнение в уме за одну секунду. Если ты просто крикнешь ему «реши правильно!», он, скорее всего, ляпнет чушь. Но если ты дашь ему листок бумаги и карандаш, чтобы он расписывал каждое действие, шансы на успех взлетают. Исследование четко говорит: CoT дает +3.6% к точности, а все остальные танцы с бубном вокруг формулировок — это статистическая погрешность в 0.1%.

Методы вроде few-shot примеров или автоматических оптимизаторов промптов — это просто попытки отполировать ржавое ведро. Если в промпте нет структуры рассуждения, модель остается патологически чувствительной к любому чиху: поменял синоним, переставил запятую — и всё, результат поплыл. Структурированный промптинг убивает эту нестабильность на корню, потому что логика становится важнее синтаксиса.

Этот принцип универсален: неважно, считаешь ты ROI для маркетолога или пишешь код. Тестировали на сложных бенчмарках, но в жизни это работает так же — любая задача, требующая больше одного логического перехода, требует явного указания «думай по шагам». Попытки найти «идеальное слово» вместо внедрения CoT — это пустая трата времени, которая дает иллюзию контроля, но не реальный результат.

Короче, хватит заниматься шаманством и подбирать эпитеты в промптах. Главный вывод исследования: добавь цепочку рассуждений, и ты получишь 99% возможного качества. Все остальное — это интеллектуальный онанизм, который почти не влияет на итоговую точность, но сжирает кучу времени. Либо ты строишь логический каркас, либо твоя модель продолжает играть в угадайку.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с