TL;DR
Глубокое «обдумывание» LLM — это театр. Когда модель пишет многошаговые рассуждения — «если я сделаю X, потом Y, потом Z» — она реально не использует эти глубокие шаги при принятии решения. Анализ показал: финальный выбор модели определяется исключительно тем, что модель увидела на первом уровне оценки — при беглом сравнении вариантов. Всё, что написано глубже, почти не влияет на результат.
Проблема: вы просите модель «подумать стратегически» и видите длинные рассуждения о последствиях второго, третьего, пятого порядка. Кажется, что всё учтено. Но эти рассуждения — декорация. Причинный эксперимент подтвердил: убери из рассуждений все глубокие шаги — ответ почти не изменится (4% смена решения). Убери только первый уровень анализа — ответ меняется в 32% случаев. Решение принимается по верхушке, не по глубине.
При этом количество рассмотренных вариантов (ширина) — реально влияет на качество. Модели, которые перебирают больше кандидатов на первом шаге, побеждают чаще. Значит, правильный запрос — «рассмотри больше вариантов», а не «думай глубже».
Схема находки
ПРОБЛЕМА: LLM пишет глубокие рассуждения [N шагов вперёд]
↓
РЕАЛЬНОСТЬ: решение принимается только по первому уровню оценки
↓
ЧТО РАБОТАЕТ: ширина поиска (количество вариантов) → качество
ЧТО НЕ РАБОТАЕТ: глубина поиска (шаги вперёд) → не влияет
Работает в одном промпте:
→ Явно запросить перебор вариантов (ширина)
→ Сделать ключевые соображения видимыми на первом уровне
→ Разбить глубокое планирование на явные последовательные шаги
Все шаги — в одном промпте. Это не многоагентная схема, это изменение структуры запроса.
Пример применения
Задача: Андрей запускает EdTech-стартап. Просит ChatGPT помочь с выходом на рынок. Обычно пишет: «Подумай стратегически о нашем выходе на рынок, учти долгосрочные последствия». Получает красивые рассуждения о «сетевых эффектах через 3 года» — но ответ не помогает принять решение сейчас.
Промпт:
Я запускаю онлайн-школу по финансовой грамотности для людей 25-40 лет.
Нужно выбрать канал первых продаж.
Шаг 1: Перечисли 6-8 разных каналов первых продаж — не оценивай, просто перечисли.
Учти и очевидные, и нестандартные варианты.
Шаг 2: Для каждого канала оцени ТРИ параметра прямо сейчас:
- Скорость первых продаж (быстро/медленно)
- Стоимость привлечения (дорого/дёшево)
- Масштабируемость (легко/сложно масштабировать)
Шаг 3: На основе шага 2 — выбери топ-2 канала для теста на первый месяц.
Объясни выбор в 2-3 предложениях.
Результат:
Модель пройдёт три явных шага. На первом шаге — выдаст 6-8 реальных вариантов (Telegram-каналы, партнёрства с HR-командами, Wildberries-продавцы как ЦА, контент в ВК и т.д.). На втором — сравнит их по конкретным критериям в виде мини-таблицы или структурированного списка. На третьем — даст конкретную рекомендацию. Ответ будет опираться на сравнение из шага 2, а не на абстрактные долгосрочные сценарии.
Почему это работает
LLM не держит «счётчик шагов» в голове. Когда модель пишет «если сделать X, потом Y, потом Z» — она не строит настоящее дерево решений. Она генерирует текст, похожий на дерево решений. При этом финальный выбор формируется раньше — при первом «беглом взгляде» на варианты. Глубокие шаги пишутся уже после того, как решение де-факто принято — они его обосновывают, но не меняют.
Зато модель хорошо умеет сравнивать варианты. Именно это — её сильная сторона: взять набор кандидатов и оценить каждый по явным критериям. Когда вы просите «рассмотри больше вариантов», качество реально растёт. Когда просите «думай глубже» — качество не растёт, просто ответ становится длиннее.
Рычаги управления промптом: - Явный список вариантов перед оценкой → заставляет модель сформировать широкий кандидатный набор до того, как она начнёт оценивать — это и есть ключевой шаг - Разбивка на явные шаги → делает «первый уровень оценки» прозрачным и контролируемым - Конкретные критерии оценки в шаге 2 → всё важное — на поверхности, а не спрятано в глубоких рассуждениях - Ограничение итогового выбора (топ-2, топ-3) → не даёт модели уйти в абстракцию
Шаблон промпта
{Контекст задачи — кто, что, для кого}
Шаг 1: Перечисли {число} разных {тип вариантов} — не оценивай, просто перечисли.
Включи как очевидные, так и нестандартные.
Шаг 2: Для каждого варианта оцени прямо сейчас:
- {Критерий 1}
- {Критерий 2}
- {Критерий 3}
Шаг 3: На основе шага 2 — выбери топ-{число} для {действие}.
Объясни выбор кратко — {число} предложений.
Плейсхолдеры:
- {число} — количество вариантов: 5-8 для тактических задач, 8-12 для стратегических
- {тип вариантов} — каналов продаж / гипотез / подходов / форматов / аргументов
- {Критерий} — конкретные параметры важные для вашей задачи (скорость, стоимость, риск, трудоёмкость)
- {действие} — теста / запуска / презентации / следующего шага
🚀 Быстрый старт — вставь в чат:
Вот шаблон для задач, где нужно выбрать из нескольких вариантов.
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить все поля.
[вставить шаблон выше]
LLM спросит какие критерии важны для твоей задачи и сколько вариантов рассматривать — потому что без этого она не сможет правильно настроить шаг 2, который и делает финальный выбор обоснованным.
Ограничения
⚠️ Задачи с реально сложной многошаговой зависимостью: Эта техника помогает выбрать лучший из кандидатов на первом шаге. Но если задача требует настоящей стратегии на несколько ходов вперёд (шахматная партия, сложные переговоры с ветвящимися сценариями) — LLM и с этим шаблоном будет слабее человека-эксперта. Модель лучше справляется с оценкой «что сделать сейчас», чем с «что произойдёт через 5 ходов».
⚠️ Длинные CoT — не всегда пустые. Исследование проводилось на игровом сценарии. В математических задачах и коде глубокие шаги рассуждений могут работать иначе. Миопия — надёжная закономерность для стратегических/планировочных задач, но не универсальный закон для всех типов рассуждений.
⚠️ «Думай глубже» не работает: Просьба «думать на 5 шагов вперёд» не делает модель стратегически сильнее — она просто пишет больше текста. Реальный прирост качества — от явного расширения кандидатного набора, не от глубины.
Как исследовали
Идея была элегантной: взять настольную игру, в которой человеческое планирование уже хорошо изучено, и сравнить, как играют люди и LLM. Исследователи устроили round-robin турнир — 27 моделей (GPT-5, Claude Opus 4, DeepSeek-R1, Qwen и другие) сыграли 1404 партии в «четыре в ряд» на доске 4×9. Почему именно эта игра? Шахматы и Go слишком популярны в обучающих данных — модель может просто «вспоминать» партии вместо того, чтобы планировать. «Четыре в ряд» встречается в интернете редко — пришлось думать с нуля.
Из 9696 рассуждений (CoT) для каждого хода с помощью GPT-5 как «судьи» вытащили структурированные деревья поиска: какие ходы модель явно обдумывала, на какую глубину, как широко. Дальше подогнали четыре когнитивных модели — от «полного дерева» (учитывает все глубокие шаги) до «миопичной» (смотрит только на первый шаг) — и проверили, какая лучше предсказывает реальные ходы моделей.
Результат удивил: миопичная модель предсказывала ходы точнее полного дерева у каждой без исключения модели. Когда они расходились во мнениях, миопичная оказывалась права более чем в два раза чаще. Потом провели каузальный эксперимент — буквально обрезали куски рассуждений и смотрели, меняется ли решение. Убрали глубокие шаги → ответ почти не изменился. Убрали верхний (первый) шаг → ответ поменялся в трети случаев. Это причинное доказательство, а не корреляция: решение живёт в поверхностном слое рассуждений.
Интересный случай с GPT-OSS-120B: та же модель на двух уровнях «усилий» при рассуждении. Высокий уровень → больше токенов → шире поиск (больше вариантов) → выше винрейт. Не глубже — шире.
Оригинал из исследования (опционально)
Пример промпта, который использовался в турнире (из бумаги):
System prompt: [Describes four-in-a-row rules, FEN-style board notation,
move submission format: m ]
User message:
Current board state: 1WBB6/2BW1W4/1W1BW5/10
Active player: Black
Please reason about the board position and submit your move.
Контекст: Так давали задачу моделям-игрокам. Пример FEN-нотации 1WBB6/2BW1W4 — каждый ряд кодируется строкой: цифра = пустые клетки, W/B = фигуры. Это минимальный структурированный промпт — никаких подсказок по стратегии, только правила и позиция.
Адаптации и экстраполяции
💡 Адаптация: «Якорь решения» — сделай ключевое соображение первым
Если нужно, чтобы модель точно учла конкретный фактор в финальном ответе — помести его в первый уровень оценки явно, не надейся, что он «всплывёт» из глубоких рассуждений.
❌ Слабый запрос: «Предложи стратегию роста для моего телеграм-канала, учти что у меня нет бюджета на рекламу»
✅ Сильный запрос: «Предложи 6 стратегий роста для телеграм-канала. Для КАЖДОЙ первым делом укажи: требует бюджет на рекламу или нет. Потом — оцени потенциал. В финале — топ-2 только из бесплатных вариантов.»
Разница: «нет бюджета» теперь — явный критерий на первом уровне оценки, а не условие, которое модель «учтёт» где-то в глубине рассуждений.
🔧 Техника: «Принудительная ширина» → больше кандидатов до оценки
Вместо "Предложи лучший вариант" → "Сначала перечисли 7 вариантов, потом выбери лучший"
Правило: число вариантов в Шаге 1 ≥ 5.
Меньше 5 — модель «сужает» сразу, до реальной оценки.
7-10 — оптимальная ширина для большинства задач.
💡 Экстраполяция: глубокий план → цепочка явных шагов
Если задача реально требует многошагового планирования (запуск продукта, карьерный переход, переговорная стратегия) — не просите модель «планировать глубоко». Вместо этого экстернализуйте глубину: разбейте на явные последовательные промпты.
Промпт 1: "Какой первый шаг и почему? Перечисли 5 вариантов, выбери лучший."
Промпт 2: "Допустим, я сделал [выбранный шаг]. Что теперь? Снова 5 вариантов."
Промпт 3: [и так далее]
Так каждый «глубокий» шаг становится отдельным «первым уровнем» — именно там, где модель реально сильна.
Ресурсы
Extracting Search Trees from LLM Reasoning Traces Reveals Myopic Planning — Sixing Chen, Sinan Akcali, Ji-An Li, Kayla Lee, Saner Cakir, Marcelo G. Mattar. Department of Psychology, New York University + Generality, Inc. Preprint, 2025.
Референсная работа по человеческому планированью (baseline): Van Opheusden et al. — модель дерева поиска для четырёх в ряд.
