3,583 papers
arXiv:2605.06840 80 7 мая 2026 г. FREE

LLM-планирование — миопия: модели пишут глубокий анализ, но решения принимают только по первому шагу

КЛЮЧЕВАЯ СУТЬ
Убери из рассуждений модели все 'глубокие шаги вперёд' — ответ изменится в 4% случаев. Убери только первый уровень оценки — в 32%. Всё многостраничное 'стратегическое мышление' LLM — это текст, написанный уже после того, как решение де-факто принято. Понимание этого позволяет строить промпты так, чтобы нужные соображения оказывались именно там, где модель реально принимает решения — на первом уровне, а не на пятом. Фишка: замени 'думай глубже' на 'рассмотри больше вариантов' — ширина кандидатного набора реально влияет на качество, глубина рассуждений почти нет. Явный трёхшаговый шаблон (список → оценка по критериям → выбор топа) делает первый уровень прозрачным и управляемым.
Адаптировать под запрос

TL;DR

Глубокое «обдумывание» LLM — это театр. Когда модель пишет многошаговые рассуждения — «если я сделаю X, потом Y, потом Z» — она реально не использует эти глубокие шаги при принятии решения. Анализ показал: финальный выбор модели определяется исключительно тем, что модель увидела на первом уровне оценки — при беглом сравнении вариантов. Всё, что написано глубже, почти не влияет на результат.

Проблема: вы просите модель «подумать стратегически» и видите длинные рассуждения о последствиях второго, третьего, пятого порядка. Кажется, что всё учтено. Но эти рассуждения — декорация. Причинный эксперимент подтвердил: убери из рассуждений все глубокие шаги — ответ почти не изменится (4% смена решения). Убери только первый уровень анализа — ответ меняется в 32% случаев. Решение принимается по верхушке, не по глубине.

При этом количество рассмотренных вариантов (ширина) — реально влияет на качество. Модели, которые перебирают больше кандидатов на первом шаге, побеждают чаще. Значит, правильный запрос — «рассмотри больше вариантов», а не «думай глубже».


📌

Схема находки

ПРОБЛЕМА: LLM пишет глубокие рассуждения [N шагов вперёд]
                          ↓
РЕАЛЬНОСТЬ: решение принимается только по первому уровню оценки
                          ↓
ЧТО РАБОТАЕТ: ширина поиска (количество вариантов) → качество
ЧТО НЕ РАБОТАЕТ: глубина поиска (шаги вперёд) → не влияет

Работает в одном промпте:
→ Явно запросить перебор вариантов (ширина)
→ Сделать ключевые соображения видимыми на первом уровне
→ Разбить глубокое планирование на явные последовательные шаги

Все шаги — в одном промпте. Это не многоагентная схема, это изменение структуры запроса.


🚀

Пример применения

Задача: Андрей запускает EdTech-стартап. Просит ChatGPT помочь с выходом на рынок. Обычно пишет: «Подумай стратегически о нашем выходе на рынок, учти долгосрочные последствия». Получает красивые рассуждения о «сетевых эффектах через 3 года» — но ответ не помогает принять решение сейчас.

Промпт:

Я запускаю онлайн-школу по финансовой грамотности для людей 25-40 лет.
Нужно выбрать канал первых продаж.

Шаг 1: Перечисли 6-8 разных каналов первых продаж — не оценивай, просто перечисли. 
Учти и очевидные, и нестандартные варианты.

Шаг 2: Для каждого канала оцени ТРИ параметра прямо сейчас:
- Скорость первых продаж (быстро/медленно)
- Стоимость привлечения (дорого/дёшево)
- Масштабируемость (легко/сложно масштабировать)

Шаг 3: На основе шага 2 — выбери топ-2 канала для теста на первый месяц.
Объясни выбор в 2-3 предложениях.

Результат:

Модель пройдёт три явных шага. На первом шаге — выдаст 6-8 реальных вариантов (Telegram-каналы, партнёрства с HR-командами, Wildberries-продавцы как ЦА, контент в ВК и т.д.). На втором — сравнит их по конкретным критериям в виде мини-таблицы или структурированного списка. На третьем — даст конкретную рекомендацию. Ответ будет опираться на сравнение из шага 2, а не на абстрактные долгосрочные сценарии.


🧠

Почему это работает

LLM не держит «счётчик шагов» в голове. Когда модель пишет «если сделать X, потом Y, потом Z» — она не строит настоящее дерево решений. Она генерирует текст, похожий на дерево решений. При этом финальный выбор формируется раньше — при первом «беглом взгляде» на варианты. Глубокие шаги пишутся уже после того, как решение де-факто принято — они его обосновывают, но не меняют.

Зато модель хорошо умеет сравнивать варианты. Именно это — её сильная сторона: взять набор кандидатов и оценить каждый по явным критериям. Когда вы просите «рассмотри больше вариантов», качество реально растёт. Когда просите «думай глубже» — качество не растёт, просто ответ становится длиннее.

Рычаги управления промптом: - Явный список вариантов перед оценкой → заставляет модель сформировать широкий кандидатный набор до того, как она начнёт оценивать — это и есть ключевой шаг - Разбивка на явные шаги → делает «первый уровень оценки» прозрачным и контролируемым - Конкретные критерии оценки в шаге 2 → всё важное — на поверхности, а не спрятано в глубоких рассуждениях - Ограничение итогового выбора (топ-2, топ-3) → не даёт модели уйти в абстракцию


📋

Шаблон промпта

{Контекст задачи — кто, что, для кого}

Шаг 1: Перечисли {число} разных {тип вариантов} — не оценивай, просто перечисли.
Включи как очевидные, так и нестандартные.

Шаг 2: Для каждого варианта оцени прямо сейчас:
- {Критерий 1}
- {Критерий 2}  
- {Критерий 3}

Шаг 3: На основе шага 2 — выбери топ-{число} для {действие}.
Объясни выбор кратко — {число} предложений.

Плейсхолдеры: - {число} — количество вариантов: 5-8 для тактических задач, 8-12 для стратегических - {тип вариантов} — каналов продаж / гипотез / подходов / форматов / аргументов - {Критерий} — конкретные параметры важные для вашей задачи (скорость, стоимость, риск, трудоёмкость) - {действие} — теста / запуска / презентации / следующего шага

🚀 Быстрый старт — вставь в чат:

Вот шаблон для задач, где нужно выбрать из нескольких вариантов.
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить все поля.

[вставить шаблон выше]

LLM спросит какие критерии важны для твоей задачи и сколько вариантов рассматривать — потому что без этого она не сможет правильно настроить шаг 2, который и делает финальный выбор обоснованным.


⚠️

Ограничения

⚠️ Задачи с реально сложной многошаговой зависимостью: Эта техника помогает выбрать лучший из кандидатов на первом шаге. Но если задача требует настоящей стратегии на несколько ходов вперёд (шахматная партия, сложные переговоры с ветвящимися сценариями) — LLM и с этим шаблоном будет слабее человека-эксперта. Модель лучше справляется с оценкой «что сделать сейчас», чем с «что произойдёт через 5 ходов».

⚠️ Длинные CoT — не всегда пустые. Исследование проводилось на игровом сценарии. В математических задачах и коде глубокие шаги рассуждений могут работать иначе. Миопия — надёжная закономерность для стратегических/планировочных задач, но не универсальный закон для всех типов рассуждений.

⚠️ «Думай глубже» не работает: Просьба «думать на 5 шагов вперёд» не делает модель стратегически сильнее — она просто пишет больше текста. Реальный прирост качества — от явного расширения кандидатного набора, не от глубины.


🔍

Как исследовали

Идея была элегантной: взять настольную игру, в которой человеческое планирование уже хорошо изучено, и сравнить, как играют люди и LLM. Исследователи устроили round-robin турнир — 27 моделей (GPT-5, Claude Opus 4, DeepSeek-R1, Qwen и другие) сыграли 1404 партии в «четыре в ряд» на доске 4×9. Почему именно эта игра? Шахматы и Go слишком популярны в обучающих данных — модель может просто «вспоминать» партии вместо того, чтобы планировать. «Четыре в ряд» встречается в интернете редко — пришлось думать с нуля.

Из 9696 рассуждений (CoT) для каждого хода с помощью GPT-5 как «судьи» вытащили структурированные деревья поиска: какие ходы модель явно обдумывала, на какую глубину, как широко. Дальше подогнали четыре когнитивных модели — от «полного дерева» (учитывает все глубокие шаги) до «миопичной» (смотрит только на первый шаг) — и проверили, какая лучше предсказывает реальные ходы моделей.

Результат удивил: миопичная модель предсказывала ходы точнее полного дерева у каждой без исключения модели. Когда они расходились во мнениях, миопичная оказывалась права более чем в два раза чаще. Потом провели каузальный эксперимент — буквально обрезали куски рассуждений и смотрели, меняется ли решение. Убрали глубокие шаги → ответ почти не изменился. Убрали верхний (первый) шаг → ответ поменялся в трети случаев. Это причинное доказательство, а не корреляция: решение живёт в поверхностном слое рассуждений.

Интересный случай с GPT-OSS-120B: та же модель на двух уровнях «усилий» при рассуждении. Высокий уровень → больше токенов → шире поиск (больше вариантов) → выше винрейт. Не глубже — шире.


📄

Оригинал из исследования (опционально)

Пример промпта, который использовался в турнире (из бумаги):

System prompt: [Describes four-in-a-row rules, FEN-style board notation, 
move submission format: m  ]

User message:
Current board state: 1WBB6/2BW1W4/1W1BW5/10
Active player: Black

Please reason about the board position and submit your move.

Контекст: Так давали задачу моделям-игрокам. Пример FEN-нотации 1WBB6/2BW1W4 — каждый ряд кодируется строкой: цифра = пустые клетки, W/B = фигуры. Это минимальный структурированный промпт — никаких подсказок по стратегии, только правила и позиция.


💡

Адаптации и экстраполяции

📌

💡 Адаптация: «Якорь решения» — сделай ключевое соображение первым

Если нужно, чтобы модель точно учла конкретный фактор в финальном ответе — помести его в первый уровень оценки явно, не надейся, что он «всплывёт» из глубоких рассуждений.

❌ Слабый запрос: «Предложи стратегию роста для моего телеграм-канала, учти что у меня нет бюджета на рекламу»

✅ Сильный запрос: «Предложи 6 стратегий роста для телеграм-канала. Для КАЖДОЙ первым делом укажи: требует бюджет на рекламу или нет. Потом — оцени потенциал. В финале — топ-2 только из бесплатных вариантов.»

Разница: «нет бюджета» теперь — явный критерий на первом уровне оценки, а не условие, которое модель «учтёт» где-то в глубине рассуждений.


📌

🔧 Техника: «Принудительная ширина» → больше кандидатов до оценки

Вместо "Предложи лучший вариант""Сначала перечисли 7 вариантов, потом выбери лучший"

Правило: число вариантов в Шаге 1 ≥ 5.
Меньше 5 — модель «сужает» сразу, до реальной оценки.
7-10 — оптимальная ширина для большинства задач.

📌

💡 Экстраполяция: глубокий план → цепочка явных шагов

Если задача реально требует многошагового планирования (запуск продукта, карьерный переход, переговорная стратегия) — не просите модель «планировать глубоко». Вместо этого экстернализуйте глубину: разбейте на явные последовательные промпты.

Промпт 1: "Какой первый шаг и почему? Перечисли 5 вариантов, выбери лучший."
Промпт 2: "Допустим, я сделал [выбранный шаг]. Что теперь? Снова 5 вариантов."
Промпт 3: [и так далее]

Так каждый «глубокий» шаг становится отдельным «первым уровнем» — именно там, где модель реально сильна.


🔗

Ресурсы

Extracting Search Trees from LLM Reasoning Traces Reveals Myopic Planning — Sixing Chen, Sinan Akcali, Ji-An Li, Kayla Lee, Saner Cakir, Marcelo G. Mattar. Department of Psychology, New York University + Generality, Inc. Preprint, 2025.

Референсная работа по человеческому планированью (baseline): Van Opheusden et al. — модель дерева поиска для четырёх в ряд.


📋 Дайджест исследования

Ключевая суть

Убери из рассуждений модели все 'глубокие шаги вперёд' — ответ изменится в 4% случаев. Убери только первый уровень оценки — в 32%. Всё многостраничное 'стратегическое мышление' LLM — это текст, написанный уже после того, как решение де-факто принято. Понимание этого позволяет строить промпты так, чтобы нужные соображения оказывались именно там, где модель реально принимает решения — на первом уровне, а не на пятом. Фишка: замени 'думай глубже' на 'рассмотри больше вариантов' — ширина кандидатного набора реально влияет на качество, глубина рассуждений почти нет. Явный трёхшаговый шаблон (список → оценка по критериям → выбор топа) делает первый уровень прозрачным и управляемым.

Принцип работы

Модель не строит дерево решений — она генерирует текст, похожий на дерево решений. Финальный выбор складывается при первом беглом взгляде на варианты. Потом идёт обоснование — уже после того как всё решено. Просишь 'думать стратегически на 5 ходов вперёд' — получаешь длинный текст без влияния на итог. Простое правило: всё важное — в шаг 1, не в глубину. Просишь 'перечисли 8 вариантов и сравни по трём критериям' — получаешь реально лучший выбор, потому что широкий кандидатный набор формируется до оценки, а не после.

Почему работает

LLM — это не шахматный движок. Движок реально просчитывает каждую ветку. Модель предсказывает следующий токен — никакого внутреннего 'счётчика шагов' нет. Когда она пишет 'если сделать X, потом Y, потом Z' — это не вычисление, это имитация вычисления. Зато модель хорошо умеет сравнивать варианты: дай ей набор кандидатов и явные критерии — и она покажет реальный прирост качества. Именно это и есть её сильная сторона. Причинный эксперимент исследования это подтвердил:影响 не в глубине, а в ширине первого уровня.

Когда применять

Стратегические и тактические задачи выбора → для любой ситуации 'нужно выбрать лучшее из нескольких': канал первых продаж, гипотеза для проверки, формат контента, подход к проблеме, аргументы для презентации. Особенно когда после промпта 'подумай стратегически' модель выдаёт красивые рассуждения о последствиях пятого порядка, но конкретного ответа нет. НЕ подходит для задач с настоящей многошаговой зависимостью (шахматная партия, разветвлённые переговоры с ветвящимися сценариями) — там модель и с этим шаблоном слабее живого эксперта. Также не замена для математических задач и кода, где глубокие шаги рассуждений работают иначе.

Мини-рецепт

1. Задай контекст: кто ты, что за задача, для кого, какое решение нужно принять — 3-4 предложения без воды.
2. Потребуй список первым: 'Перечисли 6-8 вариантов — не оценивай, просто перечисли. Включи нестандартные.' Это заставляет модель сформировать широкий набор до того, как она начнёт оценивать. Именно здесь рост качества.
3. Добавь явные критерии оценки вторым шагом: 'Для каждого варианта оцени: [критерий 1] / [критерий 2] / [критерий 3].' Всё важное теперь на первом уровне — там, где модель реально принимает решения.
4. Ограничь финальный выбор третьим шагом: 'Выбери топ-2 и объясни кратко — 2 предложения.' Без этого ограничения модель уйдёт в абстрактные рассуждения вместо конкретного ответа.

Примеры

[ПЛОХО] : Подумай стратегически о каналах продаж нашего EdTech-стартапа, учти долгосрочные последствия
[ХОРОШО] : Запускаю онлайн-школу по финансовой грамотности для людей 25-40 лет. Ищу канал первых продаж. Шаг 1: Перечисли 7 разных каналов первых продаж — не оценивай, просто список. Включи нестандартные варианты. Шаг 2: Для каждого канала оцени три параметра: скорость первых продаж (быстро/медленно) / стоимость привлечения клиента (дорого/дёшево) / возможность масштабировать (легко/сложно). Шаг 3: Выбери топ-2 канала для теста в первый месяц. Объясни выбор в 2 предложениях. Результат: модель пройдёт три явных шага. На первом выдаст реальные варианты — включая неочевидные. На втором сравнит их по конкретным критериям. На третьем даст рекомендацию, опирающуюся на сравнение из шага 2, а не на абстрактные сценарии через три года.
Источник: Extracting Search Trees from LLM Reasoning Traces Reveals Myopic Planning
ArXiv ID: 2605.06840 | Сгенерировано: 2026-05-11 05:37

Проблемы LLM

ПроблемаСутьКак обойти
Просьба «думай глубже» не улучшает ответПросишь: «подумай стратегически», «учти долгосрочные последствия». Получаешь длинный текст о шагах 2, 3, 5 вперёд. Кажется — всё учтено. На деле решение уже принято раньше. По первому беглому взгляду на варианты. Всё написанное глубже — обоснование готового выбора, а не его источник. Убери глубокие рассуждения — ответ изменится лишь в 4% случаев. Убери только первый уровень оценки — ответ изменится в 32% случаевВместо «думай глубже» — «рассмотри больше вариантов». Явно попроси перечислить 6–8 кандидатов до начала оценки. Потом — оцени каждый по конкретным критериям. Потом — выбери лучший. Так первый уровень становится широким и контролируемым

Методы

МетодСуть
Явный перебор до оценки — ширина вместо глубиныРаздели запрос на три явных шага. Шаг 1: Перечисли {N} вариантов — не оценивай, просто перечисли. Включи очевидные и нестандартные. Шаг 2: Для каждого оцени: {критерий 1}, {критерий 2}, {критерий 3}. Шаг 3: На основе шага 2 — выбери топ-{N}. Объясни выбор кратко. Почему работает: Модель принимает решение на первом уровне оценки. Если на этом уровне — широкий набор кандидатов с явными критериями, качество выбора растёт. Если там только один-два варианта — глубина рассуждений ниже ничего не исправит. Когда применять: выбор канала, гипотезы, подхода, формата — любая задача «выбери из многих». Когда не поможет: задачи с настоящей многошаговой зависимостью (шахматы, ветвящиеся переговоры) — там модель в любом случае слабее живого эксперта
📖 Простыми словами

Extracting Search Trees fromLLMReasoning Traces Reveals Myopic Planning

arXiv: 2605.06840

Все эти длинные рассуждения нейросетей в духе «давайте подумаем пошагово» — по большей части театральная постановка. Когда модель выстраивает цепочку мыслей, расписывая последствия на три шага вперед, она на самом деле не анализирует глубину. В реальности LLM работает как близорукий шахматист: она смотрит только на один ход вперед, принимает решение, а всё остальное полотно текста генерирует просто потому, что это похоже на логичное обоснование. Фундаментально нейронка не строит дерево решений, она просто имитирует процесс планирования, оставаясь в плену первого впечатления.

Это похоже на то, как ты выбираешь арбуз на рынке. Ты тыкаешь пальцем в самый симпатичный, а потом, когда жена спрашивает «почему этот?», начинаешь на ходу придумывать аргументы про сухой хвостик, звонкий звук и правильное пятнышко. Формально ты звучишь как эксперт, но выбор был сделан в первую секунду чисто по внешке. Ты не проводил глубокий анализ — ты просто обосновал свою интуицию задним числом. Вот и нейросеть делает ровно то же самое: сначала выбирает «красивый» вариант, а потом пишет под него убедительный сценарий.

Исследователи применили метод извлечения деревьев поиска из логов рассуждений и выяснили неприятную правду: финальный выбор модели на 90% коррелирует с первым уровнем оценки. Если на первом шаге вариант показался модели «ок», она выберет его, даже если на третьем шаге её собственного рассуждения там маячит полный провал. Глубокие слои логики почти не имеют веса — это просто текст, который идет следом за уже принятым решением. Модель буквально игнорирует собственные выводы, сделанные в конце длинного монолога.

Принцип универсален и касается не только сложных стратегий, но и написания кода или планирования отпуска. Если ты просишь ChatGPT составить план на пять лет, она выдаст тебе красивую простыню, но само ядро совета будет базироваться на поверхностных ассоциациях, а не на глубоком просчете рисков. Это работает везде, где требуется многошаговая логика: от юридических консультаций до выбора стека технологий. Глубокое обдумывание — это иллюзия, за которой скрывается обычный статистический подбор слов.

Главный вывод: не ведись на объемные рассуждения нейронки и не надейся, что она «продумала всё до конца». Если тебе нужно реально глубокое решение, не проси её «подумать», а заставляй проверять каждый шаг отдельно или используй внешние инструменты верификации. Доверять итоговому выводу после длинного текста — это риск купить гнилой арбуз с очень красивой историей. LLM не планирует, она просто очень убедительно галлюцинирует логикой.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с