TL;DR
LLM умеет делать А, умеет В, умеет С — но не умеет А+В+С+Д последовательно. Это ключевой вывод исследования: модели отлично решают изолированные пространственные задачи (куда повернуть на развилке, тупик это или нет, в какую сторону цель), но когда нужно всё это удерживать одновременно в длинной цепочке шагов — рассыпаются. Причём рассыпаются катастрофически и рано.
Главная боль: ты просишь LLM спланировать сложный многошаговый процесс, она уверенно выдаёт план — а в реальности он разваливается на середине. Кажется, что модель "не умеет". Но это не так. Она умеет каждый шаг по отдельности. Проблема в агрегации — удержании нескольких уровней рассуждения в одной длинной последовательности. Думай об этом как о жонглировании: подбросить один предмет легко, три одновременно — уже нет.
Исследование предлагает конкретный обходной путь: не давай LLM планировать весь маршрут целиком — только спрашивай её в точках ветвления. Механические связующие шаги выполняй сам (или явно описывай их модели), а сложные решения на развилках делегируй LLM с явным контекстом текущей точки. Это даёт кратный прирост качества.
Схема метода
ПРИНЦИП: Не весь план сразу → только решения на развилках
ШАГ 1: Выяви "развилки" задачи → точки где нужен нетривиальный выбор
ШАГ 2: Механические шаги между развилками → опиши явно, не делегируй LLM
ШАГ 3: На каждой развилке → отдельный запрос с контекстом + историей
Ключевой параметр: чем явнее тип текущей точки ("ты на развилке с 3-мя путями,
уже известно что левый — тупик"), тем лучше решение.
Все шаги выполняются через отдельные запросы в диалоге.
Пример применения
Задача: Ты запускаешь небольшой онлайн-курс и застрял на этапе продвижения. Вместо "составь мне стратегию продвижения курса" — идёшь по развилкам.
Промпт (для первой развилки):
Я запускаю онлайн-курс по Excel для бухгалтеров. Аудитория — небольшие компании,
цена курса 4 900 руб.
Я уже определился: буду продвигаться через контент, не через платную рекламу.
Органику через платные объявления не рассматриваю.
ТЕКУЩАЯ РАЗВИЛКА: выбираю канал для контента. Варианты:
— ВКонтакте (там сидит моя аудитория, но органика слабая)
— Telegram (проще вести, аудитория активнее)
— YouTube Shorts (дольше делать, но дольше живёт контент)
Что известно: у меня есть 3 часа в неделю на контент, я хорошо пишу,
видео пока не пробовал.
Какой канал выбрать для старта и почему? Не расписывай стратегию целиком —
только эту развилку.
Результат: Модель даст аргументированный выбор по конкретной развилке — без уклона в абстрактные советы "зависит от аудитории". После ответа ты переходишь к следующей развилке (тип контента, частота, формат) с новым запросом, добавляя в контекст уже принятые решения.
Почему это работает
LLM не держит длинный план в голове. Когда ты просишь "спланируй всё", модель генерирует текст, который выглядит как план. Но она не симулирует реальное состояние системы на каждом шаге — она предсказывает следующий токен. На коротких задачах это совпадает с реальным планированием. На длинных — нет. Ошибки накапливаются, потому что нет механизма их отслеживать.
LLM отлично работает на изолированных решениях. Тот же эксперимент показал: спроси "на этой развилке куда идти?" — и модель отвечает правильно в 30-75% случаев даже на самых сложных лабиринтах. Спроси "пройди весь лабиринт" — уже на средних размерах успех падает к нулю. Способность есть, агрегация её ломает.
Явное описание типа точки удваивает качество. В исследовании разница между "просто навигируй" и "ты сейчас на развилке, левый путь — тупик, вот история твоих решений" давала до 92 процентных пунктов прироста у GPT-4o. Это не мелкая оптимизация — это смена режима работы. Модели не нужно угадывать контекст — ты ей его даёшь явно.
Рычаги управления: - Детальность контекста развилки → чем точнее описан текущий момент + история предыдущих решений, тем точнее следующий выбор - Размер шагов между развилками → крупнее шаг = больше агрегации = ниже качество; дроби агрессивнее - Формат условия задачи → структурированный список вариантов лучше, чем свободное описание
Шаблон промпта
{Краткое описание ситуации и цели}
Уже решено: {список ранее принятых решений — что уже не рассматриваем}
ТЕКУЩАЯ РАЗВИЛКА: {что именно нужно выбрать сейчас}
Варианты:
— {Вариант А}: {краткое описание}
— {Вариант Б}: {краткое описание}
— {Вариант В}: {краткое описание}
Известные ограничения: {ресурсы, опыт, контекст}
Что выбрать и почему? Отвечай только по этой развилке,
не расписывай весь дальнейший план.
Плейсхолдеры:
- {ситуация} — продукт, задача, проект (1-2 предложения)
- {список решений} — что уже зафиксировано, чтобы LLM не предлагала это снова
- {текущая развилка} — конкретный выбор этого шага
- {варианты} — 2-4 реальных варианта с кратким описанием
- {ограничения} — время, бюджет, навыки, контекст
🚀 Быстрый старт — вставь в чат:
Вот шаблон для принятия решений по шагам. Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит о ситуации, уже принятых решениях и текущей точке выбора — потому что именно контекст "где я сейчас и что уже зафиксировано" критичен для точного ответа на развилке.
Ограничения
⚠️ Простые задачи: Техника не нужна для коротких планов в 2-3 шага. Разбивка на развилки — это накладные расходы, которые окупаются только при реально длинных цепочках решений (5+ шагов с разветвлением).
⚠️ Нужно знать развилки заранее: Метод требует, чтобы ты сам понимал структуру задачи и умел выделить точки ветвления. Если задача совсем неструктурированная — сначала попроси LLM выявить ключевые решения, а потом работай по одной.
⚠️ Изображения и карты — слабый формат: Если даёшь LLM пространственную или схематичную информацию, картинка даёт худший результат, чем структурированный текст с координатами или списком. Это применимо не только к лабиринтам — схемы и скриншоты хуже, чем текстовое описание структуры.
⚠️ Масштабируемость: Даже с разбивкой на развилки — на очень больших задачах (аналог лабиринта 30×30) качество снова падает. Метод сдвигает предел, но не убирает его.
Как исследовали
Команда из MIT и Технического университета Мюнхена сгенерировала 1 050 лабиринтов семи размеров — от крошечного 3×3 до огромного 30×30 — и скормила их трём моделям: GPT-4o, DeepSeek-V3, Llama-3.3-70B. Идея была остроумной: не просто проверить "умеет или не умеет", а вскрыть где именно ломается.
Для этого каждую задачу гоняли в двух режимах: сначала "пройди весь лабиринт целиком", потом тот же лабиринт, но с изолированными вопросами — "куда можно пойти отсюда?", "это тупик или нет?", "в какую сторону цель?". Один и тот же контекст, разные вопросы.
Результат оказался резким. DeepSeek-V3 проходит 96% маленьких лабиринтов — и 6% на чуть большем. При этом в изоляции те же вопросы она решает на 30-75% правильно на любом размере. Это и есть доказательство: не слепота, а потеря при сборке. Особенно наглядно видно на "связанном вопросе" — когда спрашивали сразу про развилку + направление к цели, точность падала резче, чем каждый вопрос по отдельности.
Второй интересный момент: сложность лабиринта почти не влияла на провал — только размер. Лёгкий и сложный лабиринты 7×7 рассыпаются с одинаковой скоростью. Стена — в размере, а не в ветвлении.
Адаптации и экстраполяции
Применение принципа агрегации к диагностике своих промптов
🔧 Техника: Тест на агрегацию → понять где именно ломается LLM
Если LLM плохо справляется с задачей — проверь, умеет ли она каждый компонент отдельно. Задай изолированные вопросы по каждому шагу. Если изолированно работает — проблема в агрегации, не в "незнании". Дроби задачу сильнее.
Задача провалилась: попросил LLM составить коммерческое предложение — получилась вода.
Диагностика:
→ "Опиши боль клиента для [ситуация]" — работает?
→ "Сформулируй УТП для [продукт]" — работает?
→ "Напиши призыв к действию для [контекст]" — работает?
Если каждое работает → проблема в том, что ты просишь всё сразу.
Решение: собери КП из отдельных блоков, каждый — отдельным запросом.
Экстраполяция: явный тип точки для любого контекста
Принцип "скажи LLM что именно за точка сейчас" работает за пределами навигации. В любой итеративной задаче — правка текста, код-ревью, переговорная стратегия — добавление фразы "ты сейчас на этапе X, предыдущие решения: Y, текущий вопрос: Z" даёт заметно лучший ответ, чем просто "продолжай".
Ресурсы
Статья: Lost in Aggregation: A Multi-Scale Diagnostic Benchmark for LLM Spatial Navigation
Сайт с бенчмарком и данными: https://yuhanjiang415.github.io/lost-in-aggregation/
Авторы: Yuhan Jiang, Peng Luo, Liqiu Meng — Technical University of Munich и Massachusetts Institute of Technology
