3,583 papers
arXiv:2606.22219 70 20 июня 2026 г. FREE

Lost in Aggregation: LLM разваливается не на шагах, а на их сумме

КЛЮЧЕВАЯ СУТЬ
LLM не тупит на каждом шагу — она тупит когда шагов становится много. Каждый уровень по отдельности решает нормально: что рядом, куда свернуть, верная ли сторона. Но удержать три уровня одновременно на длинной цепочке — рассыпается. Метод иерархической делегации позволяет получать точные решения по сложным многоуровневым задачам — где один большой промпт даёт кашу. Задача делится на три изолированных запроса — Fine (что есть), Meso (куда идти), Macro (верный ли курс). Вы управляете переходами, модель отвечает только в точках выбораточность растёт на десятки процентов при том же наборе знаний.
Адаптировать под запрос

TL;DR

LLM умеет делать А, умеет В, умеет С — но не умеет А+В+С+Д последовательно. Это ключевой вывод исследования: модели отлично решают изолированные пространственные задачи (куда повернуть на развилке, тупик это или нет, в какую сторону цель), но когда нужно всё это удерживать одновременно в длинной цепочке шагов — рассыпаются. Причём рассыпаются катастрофически и рано.

Главная боль: ты просишь LLM спланировать сложный многошаговый процесс, она уверенно выдаёт план — а в реальности он разваливается на середине. Кажется, что модель "не умеет". Но это не так. Она умеет каждый шаг по отдельности. Проблема в агрегации — удержании нескольких уровней рассуждения в одной длинной последовательности. Думай об этом как о жонглировании: подбросить один предмет легко, три одновременно — уже нет.

Исследование предлагает конкретный обходной путь: не давай LLM планировать весь маршрут целиком — только спрашивай её в точках ветвления. Механические связующие шаги выполняй сам (или явно описывай их модели), а сложные решения на развилках делегируй LLM с явным контекстом текущей точки. Это даёт кратный прирост качества.


🔬

Схема метода

ПРИНЦИП: Не весь план сразу → только решения на развилках

ШАГ 1: Выяви "развилки" задачи → точки где нужен нетривиальный выбор
ШАГ 2: Механические шаги между развилками → опиши явно, не делегируй LLM
ШАГ 3: На каждой развилке → отдельный запрос с контекстом + историей

Ключевой параметр: чем явнее тип текущей точки ("ты на развилке с 3-мя путями, 
уже известно что левый — тупик"), тем лучше решение.

Все шаги выполняются через отдельные запросы в диалоге.

🚀

Пример применения

Задача: Ты запускаешь небольшой онлайн-курс и застрял на этапе продвижения. Вместо "составь мне стратегию продвижения курса" — идёшь по развилкам.

Промпт (для первой развилки):

Я запускаю онлайн-курс по Excel для бухгалтеров. Аудитория — небольшие компании, 
цена курса 4 900 руб.

Я уже определился: буду продвигаться через контент, не через платную рекламу. 
Органику через платные объявления не рассматриваю.

ТЕКУЩАЯ РАЗВИЛКА: выбираю канал для контента. Варианты:
— ВКонтакте (там сидит моя аудитория, но органика слабая)
— Telegram (проще вести, аудитория активнее)
— YouTube Shorts (дольше делать, но дольше живёт контент)

Что известно: у меня есть 3 часа в неделю на контент, я хорошо пишу, 
видео пока не пробовал.

Какой канал выбрать для старта и почему? Не расписывай стратегию целиком — 
только эту развилку.

Результат: Модель даст аргументированный выбор по конкретной развилке — без уклона в абстрактные советы "зависит от аудитории". После ответа ты переходишь к следующей развилке (тип контента, частота, формат) с новым запросом, добавляя в контекст уже принятые решения.


🧠

Почему это работает

LLM не держит длинный план в голове. Когда ты просишь "спланируй всё", модель генерирует текст, который выглядит как план. Но она не симулирует реальное состояние системы на каждом шаге — она предсказывает следующий токен. На коротких задачах это совпадает с реальным планированием. На длинных — нет. Ошибки накапливаются, потому что нет механизма их отслеживать.

LLM отлично работает на изолированных решениях. Тот же эксперимент показал: спроси "на этой развилке куда идти?" — и модель отвечает правильно в 30-75% случаев даже на самых сложных лабиринтах. Спроси "пройди весь лабиринт" — уже на средних размерах успех падает к нулю. Способность есть, агрегация её ломает.

Явное описание типа точки удваивает качество. В исследовании разница между "просто навигируй" и "ты сейчас на развилке, левый путь — тупик, вот история твоих решений" давала до 92 процентных пунктов прироста у GPT-4o. Это не мелкая оптимизация — это смена режима работы. Модели не нужно угадывать контекст — ты ей его даёшь явно.

Рычаги управления: - Детальность контекста развилки → чем точнее описан текущий момент + история предыдущих решений, тем точнее следующий выбор - Размер шагов между развилками → крупнее шаг = больше агрегации = ниже качество; дроби агрессивнее - Формат условия задачи → структурированный список вариантов лучше, чем свободное описание


📋

Шаблон промпта

{Краткое описание ситуации и цели}

Уже решено: {список ранее принятых решений — что уже не рассматриваем}

ТЕКУЩАЯ РАЗВИЛКА: {что именно нужно выбрать сейчас}

Варианты:
— {Вариант А}: {краткое описание}
— {Вариант Б}: {краткое описание}
— {Вариант В}: {краткое описание}

Известные ограничения: {ресурсы, опыт, контекст}

Что выбрать и почему? Отвечай только по этой развилке, 
не расписывай весь дальнейший план.

Плейсхолдеры: - {ситуация} — продукт, задача, проект (1-2 предложения) - {список решений} — что уже зафиксировано, чтобы LLM не предлагала это снова - {текущая развилка} — конкретный выбор этого шага - {варианты} — 2-4 реальных варианта с кратким описанием - {ограничения} — время, бюджет, навыки, контекст

🚀 Быстрый старт — вставь в чат:

Вот шаблон для принятия решений по шагам. Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит о ситуации, уже принятых решениях и текущей точке выбора — потому что именно контекст "где я сейчас и что уже зафиксировано" критичен для точного ответа на развилке.


⚠️

Ограничения

⚠️ Простые задачи: Техника не нужна для коротких планов в 2-3 шага. Разбивка на развилки — это накладные расходы, которые окупаются только при реально длинных цепочках решений (5+ шагов с разветвлением).

⚠️ Нужно знать развилки заранее: Метод требует, чтобы ты сам понимал структуру задачи и умел выделить точки ветвления. Если задача совсем неструктурированная — сначала попроси LLM выявить ключевые решения, а потом работай по одной.

⚠️ Изображения и карты — слабый формат: Если даёшь LLM пространственную или схематичную информацию, картинка даёт худший результат, чем структурированный текст с координатами или списком. Это применимо не только к лабиринтам — схемы и скриншоты хуже, чем текстовое описание структуры.

⚠️ Масштабируемость: Даже с разбивкой на развилки — на очень больших задачах (аналог лабиринта 30×30) качество снова падает. Метод сдвигает предел, но не убирает его.


🔍

Как исследовали

Команда из MIT и Технического университета Мюнхена сгенерировала 1 050 лабиринтов семи размеров — от крошечного 3×3 до огромного 30×30 — и скормила их трём моделям: GPT-4o, DeepSeek-V3, Llama-3.3-70B. Идея была остроумной: не просто проверить "умеет или не умеет", а вскрыть где именно ломается.

Для этого каждую задачу гоняли в двух режимах: сначала "пройди весь лабиринт целиком", потом тот же лабиринт, но с изолированными вопросами — "куда можно пойти отсюда?", "это тупик или нет?", "в какую сторону цель?". Один и тот же контекст, разные вопросы.

Результат оказался резким. DeepSeek-V3 проходит 96% маленьких лабиринтов — и 6% на чуть большем. При этом в изоляции те же вопросы она решает на 30-75% правильно на любом размере. Это и есть доказательство: не слепота, а потеря при сборке. Особенно наглядно видно на "связанном вопросе" — когда спрашивали сразу про развилку + направление к цели, точность падала резче, чем каждый вопрос по отдельности.

Второй интересный момент: сложность лабиринта почти не влияла на провал — только размер. Лёгкий и сложный лабиринты 7×7 рассыпаются с одинаковой скоростью. Стена — в размере, а не в ветвлении.


💡

Адаптации и экстраполяции

🚀

Применение принципа агрегации к диагностике своих промптов

🔧 Техника: Тест на агрегацию → понять где именно ломается LLM

Если LLM плохо справляется с задачей — проверь, умеет ли она каждый компонент отдельно. Задай изолированные вопросы по каждому шагу. Если изолированно работает — проблема в агрегации, не в "незнании". Дроби задачу сильнее.

Задача провалилась: попросил LLM составить коммерческое предложение — получилась вода.

Диагностика:
→ "Опиши боль клиента для [ситуация]" — работает?
→ "Сформулируй УТП для [продукт]" — работает?
→ "Напиши призыв к действию для [контекст]" — работает?

Если каждое работает → проблема в том, что ты просишь всё сразу.
Решение: собери КП из отдельных блоков, каждый — отдельным запросом.
📌

Экстраполяция: явный тип точки для любого контекста

Принцип "скажи LLM что именно за точка сейчас" работает за пределами навигации. В любой итеративной задаче — правка текста, код-ревью, переговорная стратегия — добавление фразы "ты сейчас на этапе X, предыдущие решения: Y, текущий вопрос: Z" даёт заметно лучший ответ, чем просто "продолжай".


🔗

Ресурсы

Статья: Lost in Aggregation: A Multi-Scale Diagnostic Benchmark for LLM Spatial Navigation

Сайт с бенчмарком и данными: https://yuhanjiang415.github.io/lost-in-aggregation/

Авторы: Yuhan Jiang, Peng Luo, Liqiu Meng — Technical University of Munich и Massachusetts Institute of Technology


📋 Дайджест исследования

Ключевая суть

LLM не тупит на каждом шагу — она тупит когда шагов становится много. Каждый уровень по отдельности решает нормально: что рядом, куда свернуть, верная ли сторона. Но удержать три уровня одновременно на длинной цепочке — рассыпается. Метод иерархической делегации позволяет получать точные решения по сложным многоуровневым задачам — где один большой промпт даёт кашу. Задача делится на три изолированных запроса — Fine (что есть), Meso (куда идти), Macro (верный ли курс). Вы управляете переходами, модель отвечает только в точках выбораточность растёт на десятки процентов при том же наборе знаний.

Принцип работы

Не давай модели «анализируй всё подряд» — она начнёт конкурировать уровнями внутри одного потока. Дай ей один уровень за раз: — Fine (локальная): что есть прямо сейчас — Meso (развилка): какой из вариантов ведёт к цели — Macro (направление): верным ли курсом идёт решение в целом Переходы между уровнями — ваша задача, не модели. Вы вставляете итог предыдущего блока в следующий запрос явно: «на основе таблицы выше...». Агрегация происходит под вашим управлением, а не стихийно внутри одного огромного ответа.

Почему работает

LLM строит ответ последовательно — каждый токен зависит от предыдущего. Когда задача длинная и требует трёх уровней сразу — приоритеты конкурируют внутри одного потока. Модель начинает терять нити. Не потому что забывает — а потому что тянет в разные стороны одновременно. Изолированные запросы убирают конкуренцию уровней: каждый запрос короткий и конкретный — меньше дрейф, выше точность. Дополнительно: если явно назвать тип решения («это развилка, вот история предыдущих шагов») — точность поднимается ещё. Контекст плюс тип задачи работают сильнее, чем просто «что делать».

Когда применять

Сложные многошаговые решения с зависимыми уровнями — анализ сделок, стратегический разбор, планирование проектов, диагностика проблем. Особенно когда задача требует сначала собрать факты, потом выбрать вариант, потом дать рекомендацию. НЕ подходит для простых задач в 3-5 шагов — три изолированных уровня только замедлят. Если задача умещается в один экран — не дроби.

Мини-рецепт

1. Найди три уровня своей задачи: что зафиксировать без оценок (Fine), что выбрать из вариантов (Meso), что решить итого (Macro)
2. Пиши промпт с явными паузами: добавь между уровнями «жди моей команды» — модель не побежит вперёд
3. Называй тип решения явно: «это только сбор фактов, без оценок», «это момент выбора — только карта вариантов, без рекомендации», «только теперь — финальный вывод»
4. Каждый следующий запрос начинай с итога предыдущего: вставляй фразу «на основе таблицы выше / сценариев выше» — модель строит следующий шаг на конкретных данных, а не на памяти о них
5. Для данных с пространственной структурой (карты, схемы, адреса): давай координаты и текстовые метки — не картинки. Изображения работают значительно хуже для логических выводов о структуре

Примеры

[ПЛОХО] : Проанализируй EdTech-стартап Skillpath: рынок, команда, финансы, риски, стоит ли покупать
[ХОРОШО] : Анализируй в три изолированных шага — жди моей команды между ними. ШАГ 1 — только факты (без оценок): Продукт, клиенты, выручка, команда. Таблица двумя колонками: «Есть» и «Неизвестно». [Жди «продолжай»] ШАГ 2 — на основе таблицы выше: Три сценария развития. Для каждого: условие реализации + вероятность + главный риск. Не давай рекомендацию — только карта вариантов. [Жди «продолжай»] ШАГ 3 — только теперь: Стоит ли покупать? Одна рекомендация + одна главная причина. Исходи из шагов 1 и 2.
Источник: Lost in Aggregation: A Multi-Scale Diagnostic Benchmark for LLM Spatial Navigation
ArXiv ID: 2606.22219 | Сгенерировано: 2026-06-28 20:53

Проблемы LLM

ПроблемаСутьКак обойти
Модель ломается когда три уровня мышления работают одновременноЕсть задачи с тремя слоями: что есть сейчас куда двигаться правильная ли сторона. Каждый слой по отдельности модель решает хорошо. Когда все три идут в одном длинном потоке — точность падает. Не потому что модель глупая. А потому что три уровня конкурируют за один поток токенов. Чем длиннее цепочка — тем хужеРазбей задачу на три отдельных запроса. Явно скажи модели какой тип решения сейчас нужен: "сейчас только собери факты" / "сейчас только карта вариантов" / "сейчас только итоговый вывод". Каждый следующий запрос начинай с итога предыдущего

Методы

МетодСуть
Явное название типа решения — убирает конкуренцию уровнейПеред вопросом скажи модели что именно она сейчас делает. Не просто "что дальше?" — а "это точка выбора, нужно решить куда двигаться". Добавь историю: "вот что уже известно". Это момент выбора X. Вот что мы знаем: [итог прошлого шага]. Какой путь ведёт к цели? Почему работает: без явного типа решения модель одновременно оценивает детали, варианты и глобальный вектор. Это и есть конкуренция уровней. Когда ты называешь тип — модель фокусируется только на нём. Работает: длинные аналитические задачи, многошаговые решения, планирование. Не работает: простые одношаговые вопросы
📖 Простыми словами

Lost in Aggregation: A Multi-Scale Diagnostic Benchmark forLLMSpatial Navigation

arXiv: 2606.22219

Проблема в том, что современные нейронки — это гениальные тактики, но абсолютно беспомощные стратеги. На уровне фундаментальной механики LLM не строят внутреннюю карту мира, они просто предсказывают следующий шаг, опираясь на то, что видят прямо сейчас. Если дать модели одну задачу — например, определить, тупик перед ней или нет — она справится блестяще. Но как только нужно собрать цепочку из десяти таких решений, чтобы выйти из лабиринта, система идет вразнос. Модель не «видит» маршрут целиком, она каждый раз гадает заново, и любая мелкая ошибка в начале превращается в неизбежный провал в конце.

Это как пытаться дойти до незнакомого адреса в чужом городе, глядя только себе под ноги. Ты отлично понимаешь, как перешагнуть через лужу или обойти столб, но понятия не имеешь, в ту ли сторону ты вообще идешь. Формально ты двигаешься, и каждый твой шаг выглядит логичным, но через пять минут ты обнаруживаешь себя в глухом тупике, потому что не соотносил свои действия с общей картой. LLM ведут себя именно так: они имитируют планирование, выдавая текст, который звучит складно, но внутри этой конструкции нет реальной симуляции пространства.

Исследователи проверили это на бенчмарке Multi-Scale Diagnostic, где заставляли модели решать задачи разного масштаба. Выяснилось, что на коротких дистанциях всё ок, но стоит добавить пару лишних поворотов, и качество решений падает по экспоненте. Модели лажают не потому, что они глупые, а потому что у них нет механизма отслеживания ошибок. Если на третьем шаге из десяти нейронка чуть-чуть свернула не туда, на восьмом она будет абсолютно уверена, что всё идет по плану, хотя на самом деле она уже давно «бьется головой о стену».

Этот принцип универсален и выходит далеко за рамки навигации в лабиринтах. Точно так же LLM ломаются при написании длинного кода, создании сложных маркетинговых стратегий или планировании курсов. Пока задача умещается в один экран — всё круто. Как только проект требует удержания контекста и контроля состояния на длинной дистанции, модель начинает галлюцинировать. SEO-стратегия на год или архитектура сложного приложения рассыплются ровно по той же причине: нейронка просто «забывает» начало пути, пока дописывает конец.

Короче: не проси нейронку «спланировать всё и сразу», она гарантированно облажается. Вместо этого разбивай задачу на микро-этапы и заставляй её проверять каждый шаг отдельно. Длинные цепочки — это смерть для LLM, поэтому единственный способ получить адекватный результат — это ручное управление на каждой развилке. Кто пытается делегировать модели стратегию целиком, в итоге получает красиво написанную чушь, которая не имеет ничего общего с реальностью.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с