TL;DR
LLM не может отслеживать более 20–30 параллельных промежуточных результатов одновременно — и это жёсткое архитектурное ограничение, которое не зависит от размера модели. GPT-4o Mini и Qwen3 235B падают на одном и том же пороге. Это не баг конкретной модели — это устройство трансформерного внимания: в нём нет «регистров» для хранения независимых значений.
Проблема в том, что пользователь не чувствует этого порога. Модель продолжает уверенно отвечать — просто неправильно. Попросить «посчитай сумму 30 независимых подзадач» или «веди учёт 25 критериев параллельно» — значит тихо загнать задачу в зону, где точность близка к нулю.
Зная пять конкретных порогов, по которым рассыпаются все модели, можно перестроить свои запросы так, чтобы не попадать в эти зоны — разбивать задачи, выводить промежуточные результаты, оставаться в безопасной глубине вложенности.
Карта ограничений
Исследователи выделили 9 измерений сложности. Пять из них — критические и независимые:
D2 — Глубина вложенности
Каждый уровень вложенности удваивает нагрузку на память
Безопасно: до глубины 4-5 → Опасно: 6+ уровней
D4 — Рабочая память (главный ограничитель)
Количество независимых результатов, которые нужно держать "в голове" одновременно
Безопасно: до 12 параллельных веток → Коллапс: 20-30+
⚠️ Не зависит от размера модели — одинаково для всех
D5 — Ветвление внутри ветвей
Сложность каждой отдельной ветки задачи
Безопасно: 0-3 операции в ветке → Коллапс у слабых моделей: 3+
D7 — Счёт повторяющихся элементов
Модели теряют подсчёт одинаковых токенов
Лайфхак: попроси использовать умножение вместо перечисления
D8 — Длина последовательной цепочки
Цепочка зависимых шагов, где каждый результат нужен для следующего
Безопасно: 1-4 шага → Катастрофа: 7+ шагов, 12 = 0% точности у всех
Четыре оставшихся (D1 длина, D3 тип операторов, D6 неоднозначность, D9 размер чисел) — либо следствия пяти главных, либо не влияют монотонно.
Пример применения
Задача: Ты готовишь инвестиционный анализ стартапа для Артемия Лебедева или любого другого инвестора. Просишь Claude оценить проект по 30 критериям параллельно — рынок, команда, финансы, конкуренты, риски, технологии и т.д. — и вынести итоговое суждение.
Это классический D4-коллапс: 30 независимых веток нужно держать одновременно.
Промпт (неправильный):
Оцени этот стартап по 30 критериям и дай итоговую оценку.
[описание стартапа]
Промпт (с учётом ограничений):
Буду передавать тебе блоки критериев для анализа стартапа.
Каждый блок — отдельный запрос.
По каждому блоку выдавай краткий вывод в 2-3 предложениях + оценку 1-10.
Итоговый синтез сделаем после всех блоков.
Блок 1 — Рынок и спрос:
[3-5 критериев]
Результат: Модель анализирует 3–5 критериев за раз — в пределах безопасной зоны D4. Промежуточные выводы сохраняешь сам, финальный синтез передаёшь отдельным запросом. Точность вырастет, потому что модель не теряет нить на 25-м пункте.
Почему это работает
Слабость LLM: Трансформерное внимание — это не «память», а механизм взвешивания токенов. Когда нужно держать 25 независимых значений одновременно, у модели нет «полочки» для каждого. Она начинает терять одни значения, пока фокусируется на других. Это не вопрос «умности» — это архитектура.
Сильная сторона LLM: Модели хорошо работают с последовательной обработкой и синтезом небольшого числа готовых блоков. Они умеют брать 5–7 выводов и строить из них итоговое суждение. Именно эта сила остаётся нетронутой, если не перегружать параллельный трекинг.
Как использовать сильное против слабого: Разбивай задачи на маленькие параллельные блоки (≤12 критериев), собирай промежуточные результаты сам, передавай синтез отдельным запросом. Модель работает в своей зоне силы — ты управляешь структурой снаружи.
Рычаги управления:
| Что менять | Эффект |
|---|---|
| Размер блока < 12 пунктов | Остаёшься в безопасной зоне D4 |
| Цепочка зависимых шагов > 5 | Разрежь: выведи промежуточный результат, начни новый запрос |
| Задача со счётом повторений | Попроси использовать умножение вместо перечисления |
| Глубоко вложенные условия | Разверни в линейный список шагов |
Шаблон промпта
Универсальный аудитор задачи — сам проверяет, не попадает ли твоя задача в опасную зону:
Я собираюсь дать тебе сложную задачу.
Прежде чем начать — проверь её структуру по четырём критериям:
1. Сколько независимых результатов нужно держать одновременно?
Если больше 12 — предложи разбить на блоки.
2. Есть ли цепочка зависимых шагов длиннее 5?
Если да — предложи точки для сохранения промежуточных результатов.
3. Есть ли глубокая вложенность условий (больше 4 уровней)?
Если да — предложи развернуть в линейную последовательность.
4. Есть ли задача на счёт повторяющихся элементов?
Если да — используй умножение вместо перечисления.
Если задача безопасна — выполни сразу.
Если нет — покажи переструктурированную версию и спроси, начинать ли.
Задача: {описание_задачи}
Плейсхолдеры:
- {описание_задачи} — любая сложная задача: анализ, расчёт, сравнение вариантов, оценка по критериям
🚀 Быстрый старт — вставь в чат:
Вот шаблон аудита задачи перед выполнением.
Адаптируй под мою ситуацию: {твоя задача}.
Задавай вопросы, чтобы правильно заполнить поля.
[вставить шаблон выше]
LLM спросит сколько критериев/шагов в задаче и есть ли зависимости между ними — потому что именно это определяет, в какую опасную зону попадает запрос. Она возьмёт паттерн и подскажет, как безопасно структурировать.
Ограничения
⚠️ Математика специфична: Исследование тестировало алгебраические задачи с числами. Перенос на текстовые/аналитические задачи — логичный, но не проверенный экстраполяцией авторов.
⚠️ Пороги приблизительны: "20–30 веток" — не жёсткая граница. Реальный коллапс зависит от сложности самих веток. Ориентируйся на ≤12 как безопасную зону с запасом.
⚠️ Claude Haiku — исключение по счёту: Эта модель держит 100% точности при счёте до 300 повторений, распознавая паттерн как умножение. Другие модели — нет. Не обобщай этот трюк на все модели автоматически.
⚠️ Размер модели не спасает от D4: Если ты используешь GPT-4o или Qwen3 235B и думаешь "эta модель мощнее, справится с 30 параллелями" — нет. Этот порог одинаков для всех.
Как исследовали
Команда из BITS Pilani (Индия) сделала элегантную вещь: взяли тестовые задачи и разделили источники сложности на 9 полностью независимых факторов. Каждый раз, проверяя один фактор, они замораживали остальные восемь на минимуме. Это как в аптеке — тестировать одно лекарство, не давая никаких других.
Протестировали 7 моделей от Llama 3 8B до Qwen3 235B. Все задачи генерировались автоматически и проверялись математической системой SymPy — никакого человеческого суждения, никаких спорных оценок. Ключевое: задачи давались в стандартном алгебраическом формате, без кода.
Самый неожиданный результат — рабочая память одинакова у всех. Исследователи ожидали, что модели побольше справятся лучше. Нет: Qwen3 235B и Llama 3 8B падают на том же числе параллельных веток. Это прямое свидетельство того, что проблема архитектурная, а не масштабная. Для пользователя вывод жёсткий: покупка более мощной модели не решит эту конкретную проблему.
Ещё любопытная деталь: Claude 3.5 Haiku обогнал DeepSeek V3 по глубине вложенности, несмотря на меньший размер — что намекает на качество обучения, а не количество параметров.
Адаптации
🔧 Техника: Счёт → Умножение
Когда нужно посчитать количество повторяющихся элементов, явно попроси модель использовать умножение:
❌ "Сколько раз встречается слово 'риск' в этом тексте?"
✅ "Найди все вхождения слова 'риск', сгруппируй по разделам, посчитай умножением (разделы × среднее по разделу), дай итог"
🔧 Техника: Чекпоинт для длинных цепочек
Если задача требует больше 5 зависимых шагов — явно останови и зафиксируй результат:
"Останови выполнение после шага 4. Выведи промежуточный результат. Я подтвержу, и мы продолжим с шага 5."
Это разрезает D8-цепочку на безопасные отрезки и даёт тебе контроль над качеством промежуточных звеньев.
🔧 Техника: Аудит перед выполнением для командных задач
Если ты ставишь задачи через LLM нескольким участникам (AI-агентам или просто несколькими запросами), сначала попроси:
"Прежде чем начать — опиши структуру задачи: сколько параллельных веток, сколько зависимых шагов, есть ли глубокая вложенность. Оцени сложность по каждому параметру."
Это заставляет модель явно визуализировать структуру ДО начала работы — и часто она сама предложит более безопасный план.
Ресурсы
Статья: Beyond Accuracy: Diagnosing Algebraic Reasoning Failures in LLMs Across Nine Complexity Dimensions
Статус: Under review, COLM 2026
Авторы: Parth Patil, Dhruv Kumar, Yash Sinha — BITS Pilani; Murari Mandal — KIIT Bhubaneswar
Связанные работы, которые цитируют: Dziri et al. (2024) — механика коллапса умножения; Gong & Zhang (2024) — формальное доказательство лимита рабочей памяти в self-attention; Merrill & Sabharwal (2023) — мультипликативное нарастание ошибок в цепочках
