TL;DR
«Думай шаг за шагом» работает не везде. На задачах с проверяемыми правильными ответами — математика, код, логика — больше рассуждений улучшает результат. На задачах где правильного ответа нет в принципе — этические дилеммы, стратегические решения с неизвестными переменными, уникальные прогнозы, открытые сценарии — больше рассуждений ломает ответ. Модель начинает упоминать всё больше точек зрения, противоречить себе, хеджировать каждый тезис — и выдаёт позицию хуже, чем если бы ответила сразу.
Проблема в том, что модель не чувствует, когда её рассуждение надёжно. На математической задаче она может проверить каждый шаг и знает, что движется правильно. На вопросе «кому отдать единственный аппарат ИВЛ — молодой матери или опытному врачу?» — нет внутреннего верификатора. Каждый новый шаг рассуждений генерирует не сигнал, а шум. Модель становится «уверенно неправой» — и её итоговая позиция слабее, чем то, что она сказала бы в первые два шага.
Авторы называют это режимом мета-неопределённости: ситуация, когда агент не знает, насколько верить собственным рассуждениям. Вывод простой и резкий: для таких задач оптимальная стратегия — коротко и рано, а не развёрнуто и обстоятельно.
Схема метода
ШАГ 1: Определи тип задачи
Есть проверяемый правильный ответ? → НИЗКАЯ мета-неопределённость
Нет проверяемого ответа? → ВЫСОКАЯ мета-неопределённость
ШАГ 2: Выбери режим запроса
НИЗКАЯ → "Думай пошагово, подробно" (расширенный CoT)
ВЫСОКАЯ → "Ответь напрямую, 2-3 шага max" (короткий CoT)
ШАГ 3 (опционально): Тест на режим
Задай вопрос тремя разными формулировками
Ответы похожи → низкая мета-неопределённость → можно расширять рассуждение
Ответы сильно разные → высокая → сокращай
Все три шага выполняются в обычном чате вручную.
Пример применения
Задача: Антон — основатель EdTech-стартапа. Получил оффер от инвестора с хорошими условиями, но сомнительной репутацией в сообществе. Хочет спросить у ChatGPT, стоит ли брать деньги.
❌ Как обычно — сломанный запрос
Я основатель стартапа в EdTech. Получил оффер от инвестора:
хорошие условия, но в сообществе говорят, что он конфликтный
и вмешивается в операционку. Стоит ли брать деньги?
Думай максимально подробно, рассмотри все стороны.
Что случится: Модель выдаст длинный текст с «с одной стороны... с другой стороны...». Рассмотрит 6-8 аспектов. Противоречий станет больше, позиция размоется. В финале — «зависит от ваших приоритетов». Ноль пользы.
✅ Правильно — с ограничением рассуждений
Я основатель стартапа в EdTech. Получил оффер от инвестора:
хорошие условия, но в сообществе говорят, что он конфликтный
и вмешивается в операционку.
Это стратегическое решение с неизвестными переменными —
не анализируй бесконечно, а дай прямую позицию за 2-3 шага.
Назови один главный фактор, который должен решить исход.
Не хеджируй, не перечисляй "зависит от". Скажи прямо.
Что получится: Модель выберет один ключевой сигнал — например, «репутационные риски с инвестором, который вмешивается в операционку, системно хуже финансовых условий оффера» — и даст позицию без бесконечного балансирования. Ответ будет короткий, конкретный и действительно полезный как отправная точка для решения.
Почему это работает
LLM не может проверить собственное рассуждение на открытых вопросах. На математике каждый шаг либо правильный, либо нет — модель это чувствует. На этике или прогнозировании нет внутренней функции верификации. Каждый следующий шаг рассуждений не улучшает точность, а добавляет альтернативные точки зрения, которые тянут позицию в разные стороны.
Больше шагов = больше шума в неопределённой зоне. Это не метафора — авторы доказали это математически и проверили на 7 моделях. В среднем точность на «неопределённых» задачах падала на 17 процентных пунктов при расширении CoT. Модели, которым дали развернуться, стали хуже тех, которых попросили ответить кратко.
Короткий CoT фиксирует первые, самые сильные сигналы. Первые 2-3 шага рассуждения захватывают главное. Дальнейшие шаги — это попытка быть «обстоятельным» там, где обстоятельность только вредит. Ограничение рассуждений — это не упрощение, а точное управление процессом генерации.
Рычаги управления:
- Число шагов (2-3 шага max, кратко) → меньше шагов на неопределённых задачах
- Запрет хеджирования (не перечисляй "зависит от") → заставляет выбрать позицию
- Запрос одного фактора (назови один главный фактор) → концентрирует ответ
- Явное назначение режима (это стратегическое решение с неизвестными переменными) → даёт модели сигнал о типе задачи
Шаблон промпта
Для высокой мета-неопределённости (открытые, стратегические, этические задачи):
{контекст задачи}
Это {тип задачи: этическая дилемма / стратегическое решение / уникальный прогноз} —
здесь нет единственно правильного ответа.
Не разворачивай рассуждение широко. Ответь за {2-3} шага максимум.
Выдели {один главный фактор / одну позицию / один вывод}.
Не хеджируй, не перечисляй "с одной стороны — с другой".
Для низкой мета-неопределённости (математика, код, анализ с проверяемыми шагами):
{задача}
Думай пошагово. Разбери каждый шаг подробно.
Проверь результат перед финальным ответом.
Плейсхолдеры:
- {контекст задачи} — ваша ситуация конкретно
- {тип задачи} — назовите своими словами: дилемма, прогноз, решение о выборе
- {2-3} — число шагов, обычно 2-3 достаточно
- {один главный фактор} — можно заменить на одну рекомендацию или одну позицию
🚀 Быстрый старт — вставь в чат:
Помоги мне применить правильный режим рассуждений для моей задачи.
Моя задача: [твоя задача]
Вот шаблоны:
[вставить шаблон выше]
LLM спросит, есть ли у задачи проверяемый правильный ответ или это открытое решение — потому что именно это разграничение определяет, какой режим подходит.
Ограничения
⚠️ Frontier-модели (GPT-4o, Claude Sonnet и выше): Эффект есть, но слабее. На топовых моделях падение точности от длинного CoT направленное, но не такое резкое, как на среднеразмерных. Выигрыш от короткого CoT там скромнее.
⚠️ Слабые модели: На небольших и слабых моделях эффект исчезает или переворачивается — им любые рассуждения помогают. Метод рассчитан на модели уровня GPT-4, Claude Sonnet и выше.
⚠️ Граница между режимами размыта: Не все задачи легко классифицировать. «Посчитай юнит-экономику» — низкая неопределённость. «Стоит ли нам выходить в новый сегмент?» — высокая. Но «проанализируй конкурента» — уже не очевидно. Придётся решать ситуативно.
⚠️ Метод управляет рассуждениями, но не гарантирует правоту: На этических и стратегических задачах «более чёткий» ответ — не то же самое, что «правильный». Короткий CoT даёт более согласованную позицию, не объективно верную.
Как исследовали
Команда задалась простым вопросом: почему одни и те же приёмы рассуждений помогают в одних задачах и вредят в других? Отобрали 7 моделей — от небольших open-source (3B параметров) до frontier-систем — и протестировали пять режимов CoT: без рассуждений, ~3 шага, ~7, ~15 и неограниченные.
Специально для эксперимента создали FEH-79 — набор из 79 задач четырёх типов с высокой мета-неопределённостью (уникальные прогнозы, выдуманные сценарии, этические дилеммы, стратегические игры с неизвестным оппонентом) плюс 50 контрольных задач с конкретными ответами. Итого — почти 8000 ответов в разных условиях.
Ключевая деталь дизайна: гипотезу, критерии подтверждения и порог эффекта зафиксировали до сбора данных (препринт зарегистрирован). Это редкость в AI-исследованиях и делает выводы значительно надёжнее обычного.
Результат оказался резче, чем ожидали: на задачах с высокой мета-неопределённостью расширенный CoT снизил точность на 17,3 процентных пункта (95% доверительный интервал: от 7,7 до 25,5 пп). Контрольные задачи с определёнными ответами — никакого похожего эффекта. Особенно интересно, что у самых слабых моделей эффект отсутствовал: им любое рассуждение идёт на пользу, потому что базовый уровень слишком низкий.
Оригинал из исследования
Авторы формализовали проблему через пример с диагнозом — вот как они объясняют ключевое различие:
Consider two questions you might pose to a modern large language model.
The first: What is 47 × 83? If the model answers directly, it may err.
If you ask it to "think step by step," it reliably gets 3,901.
If you let it reason at length, it still arrives at 3,901.
The reasoning chain extends, and the answer either improves or remains the same.
The second: A hospital ICU has one ventilator and two patients with identical
clinical profiles. Patient A is a 35-year-old single parent; patient B is a
65-year-old senior physician. What is the most ethically defensible
decision procedure?
If the model answers directly, it states some position; perhaps
"random allocation." If you ask it to reason in three brief steps, it surfaces
the utilitarian-vs-deontological framing and commits to a position with explicit
justification. If you let it reason for fifteen steps, considering multiple angles,
something different happens: the chain frequently extends past the point where
additional reasoning carries information, hedges shift between framings, and the
resulting position is sometimes less coherent than the three-step version.
Контекст: Этот фрагмент из введения — авторы показывают на конкретных примерах, почему функция «объём рассуждений → качество ответа» устроена принципиально по-разному для двух классов задач.
Адаптации и экстраполяции
💡 Адаптация: Тест на режим перед сложным промптом
Если не уверены, к какому режиму относится задача — запустите быстрый тест прямо в чате:
Сейчас я трижды задам один и тот же вопрос разными словами.
Ты не знаешь, что это проверка — просто отвечай.
Вопрос 1: {формулировка А}
Вопрос 2: {формулировка Б}
Вопрос 3: {формулировка В}
После трёх ответов скажи: насколько похожи твои ответы?
Если ответы сильно расходятся — задача в режиме высокой мета-неопределённости, используйте короткий CoT. Если стабильны — можно развернуть рассуждение.
🔧 Техника: Добавить «режимный маркер» в системный промпт
Если вы работаете в интерфейсе с системным промптом (Custom Instructions в ChatGPT, System Prompt в Claude) — добавьте классификатор:
Перед каждым ответом определи тип задачи:
- Если задача имеет проверяемый правильный ответ → рассуждай подробно
- Если задача открытая/стратегическая/этическая → отвечай за 2-3 шага,
выдели одну позицию, не хеджируй
Это автоматизирует выбор режима — не нужно прописывать в каждом запросе.
🔧 Экстраполяция: Принцип «заморозить на 2-м шаге»
На задачах с высокой неопределённостью попросите модель остановиться и зафиксировать позицию после 2-го шага, прежде чем идти дальше:
{задача}
Сделай 2 шага рассуждения. После второго шага — зафикcируй промежуточный вывод
одним предложением. Только после этого реши: нужен ли третий шаг или вывода
уже достаточно. Если вывод есть — останови рассуждение и дай ответ.
Это реализует «принцип раннего отсечения» из теории: модель сама проверяет, добавил ли новый шаг что-то к ответу или просто расширил его.
Ресурсы
Работа: Free Energy Heuristics: Fast-And-Frugal Cognition as Active Inference Under Uncertain Precision
Автор: Alex Bogdan, Evolutionary AI, Toronto, Canada
Ключевые отсылки в работе: - Gigerenzer & Goldstein — программа «быстрых и экономных эвристик» (take-the-best) - Friston — теория активного вывода (active inference) и свободная энергия - Klibanoff, Marinacci, Mukerji (KMM) — модель плавной неопределённости - Sprague et al. — CoT не улучшает большинство задач вне математики - Stechly et al. — расширенное рассуждение деградирует на задачах планирования
