3,583 papers
arXiv:2604.06799 78 8 апр. 2026 г. FREE

9 измерений сложности: где и почему LLM ломается на логических задачах

КЛЮЧЕВАЯ СУТЬ
12 шагов в цепочке зависимых вычислений — и точность падает до 0% у ВСЕХ моделей. GPT-4o Mini и Qwen3 235B рассыпаются на одном и том же пороге. Размер модели здесь ничего не решает. Исследование даёт возможность знать точные числовые пороги — когда задача безопасна, а когда ты уже в зоне, где модель уверенно врёт. Фишка: трансформерное внимание — это не память, а механизм взвешивания токенов. Нет «полочек» для 25 независимых значений одновременно. Когда параллельных веток больше 20-30, модель теряет одни значения, пока фокусируется на других. Это не баг — это архитектура. И ровно поэтому знание пяти конкретных порогов меняет то, как ты формулируешь задачи.
Адаптировать под запрос

TL;DR

LLM не может отслеживать более 20–30 параллельных промежуточных результатов одновременно — и это жёсткое архитектурное ограничение, которое не зависит от размера модели. GPT-4o Mini и Qwen3 235B падают на одном и том же пороге. Это не баг конкретной модели — это устройство трансформерного внимания: в нём нет «регистров» для хранения независимых значений.

Проблема в том, что пользователь не чувствует этого порога. Модель продолжает уверенно отвечать — просто неправильно. Попросить «посчитай сумму 30 независимых подзадач» или «веди учёт 25 критериев параллельно» — значит тихо загнать задачу в зону, где точность близка к нулю.

Зная пять конкретных порогов, по которым рассыпаются все модели, можно перестроить свои запросы так, чтобы не попадать в эти зоны — разбивать задачи, выводить промежуточные результаты, оставаться в безопасной глубине вложенности.


📌

Карта ограничений

Исследователи выделили 9 измерений сложности. Пять из них — критические и независимые:

D2 — Глубина вложенности
     Каждый уровень вложенности удваивает нагрузку на память
     Безопасно: до глубины 4-5 → Опасно: 6+ уровней

D4 — Рабочая память (главный ограничитель)
     Количество независимых результатов, которые нужно держать "в голове" одновременно
     Безопасно: до 12 параллельных веток → Коллапс: 20-30+
     ⚠️ Не зависит от размера модели — одинаково для всех

D5 — Ветвление внутри ветвей
     Сложность каждой отдельной ветки задачи
     Безопасно: 0-3 операции в ветке → Коллапс у слабых моделей: 3+

D7 — Счёт повторяющихся элементов
     Модели теряют подсчёт одинаковых токенов
     Лайфхак: попроси использовать умножение вместо перечисления

D8 — Длина последовательной цепочки
     Цепочка зависимых шагов, где каждый результат нужен для следующего
     Безопасно: 1-4 шага → Катастрофа: 7+ шагов, 12 = 0% точности у всех

Четыре оставшихся (D1 длина, D3 тип операторов, D6 неоднозначность, D9 размер чисел) — либо следствия пяти главных, либо не влияют монотонно.


🚀

Пример применения

Задача: Ты готовишь инвестиционный анализ стартапа для Артемия Лебедева или любого другого инвестора. Просишь Claude оценить проект по 30 критериям параллельно — рынок, команда, финансы, конкуренты, риски, технологии и т.д. — и вынести итоговое суждение.

Это классический D4-коллапс: 30 независимых веток нужно держать одновременно.

Промпт (неправильный):

Оцени этот стартап по 30 критериям и дай итоговую оценку.
[описание стартапа]

Промпт (с учётом ограничений):

Буду передавать тебе блоки критериев для анализа стартапа. 
Каждый блок — отдельный запрос. 
По каждому блоку выдавай краткий вывод в 2-3 предложениях + оценку 1-10.
Итоговый синтез сделаем после всех блоков.

Блок 1 — Рынок и спрос:
[3-5 критериев]

Результат: Модель анализирует 3–5 критериев за раз — в пределах безопасной зоны D4. Промежуточные выводы сохраняешь сам, финальный синтез передаёшь отдельным запросом. Точность вырастет, потому что модель не теряет нить на 25-м пункте.


🧠

Почему это работает

Слабость LLM: Трансформерное внимание — это не «память», а механизм взвешивания токенов. Когда нужно держать 25 независимых значений одновременно, у модели нет «полочки» для каждого. Она начинает терять одни значения, пока фокусируется на других. Это не вопрос «умности» — это архитектура.

Сильная сторона LLM: Модели хорошо работают с последовательной обработкой и синтезом небольшого числа готовых блоков. Они умеют брать 5–7 выводов и строить из них итоговое суждение. Именно эта сила остаётся нетронутой, если не перегружать параллельный трекинг.

Как использовать сильное против слабого: Разбивай задачи на маленькие параллельные блоки (≤12 критериев), собирай промежуточные результаты сам, передавай синтез отдельным запросом. Модель работает в своей зоне силы — ты управляешь структурой снаружи.

Рычаги управления:

Что менять Эффект
Размер блока < 12 пунктов Остаёшься в безопасной зоне D4
Цепочка зависимых шагов > 5 Разрежь: выведи промежуточный результат, начни новый запрос
Задача со счётом повторений Попроси использовать умножение вместо перечисления
Глубоко вложенные условия Разверни в линейный список шагов

📋

Шаблон промпта

Универсальный аудитор задачи — сам проверяет, не попадает ли твоя задача в опасную зону:

Я собираюсь дать тебе сложную задачу. 
Прежде чем начать — проверь её структуру по четырём критериям:

1. Сколько независимых результатов нужно держать одновременно? 
   Если больше 12 — предложи разбить на блоки.

2. Есть ли цепочка зависимых шагов длиннее 5? 
   Если да — предложи точки для сохранения промежуточных результатов.

3. Есть ли глубокая вложенность условий (больше 4 уровней)? 
   Если да — предложи развернуть в линейную последовательность.

4. Есть ли задача на счёт повторяющихся элементов? 
   Если да — используй умножение вместо перечисления.

Если задача безопасна — выполни сразу.
Если нет — покажи переструктурированную версию и спроси, начинать ли.

Задача: {описание_задачи}

Плейсхолдеры: - {описание_задачи} — любая сложная задача: анализ, расчёт, сравнение вариантов, оценка по критериям


🚀 Быстрый старт — вставь в чат:

Вот шаблон аудита задачи перед выполнением. 
Адаптируй под мою ситуацию: {твоя задача}. 
Задавай вопросы, чтобы правильно заполнить поля.

[вставить шаблон выше]

LLM спросит сколько критериев/шагов в задаче и есть ли зависимости между ними — потому что именно это определяет, в какую опасную зону попадает запрос. Она возьмёт паттерн и подскажет, как безопасно структурировать.


⚠️

Ограничения

⚠️ Математика специфична: Исследование тестировало алгебраические задачи с числами. Перенос на текстовые/аналитические задачи — логичный, но не проверенный экстраполяцией авторов.

⚠️ Пороги приблизительны: "20–30 веток" — не жёсткая граница. Реальный коллапс зависит от сложности самих веток. Ориентируйся на ≤12 как безопасную зону с запасом.

⚠️ Claude Haiku — исключение по счёту: Эта модель держит 100% точности при счёте до 300 повторений, распознавая паттерн как умножение. Другие модели — нет. Не обобщай этот трюк на все модели автоматически.

⚠️ Размер модели не спасает от D4: Если ты используешь GPT-4o или Qwen3 235B и думаешь "эta модель мощнее, справится с 30 параллелями" — нет. Этот порог одинаков для всех.


🔍

Как исследовали

Команда из BITS Pilani (Индия) сделала элегантную вещь: взяли тестовые задачи и разделили источники сложности на 9 полностью независимых факторов. Каждый раз, проверяя один фактор, они замораживали остальные восемь на минимуме. Это как в аптеке — тестировать одно лекарство, не давая никаких других.

Протестировали 7 моделей от Llama 3 8B до Qwen3 235B. Все задачи генерировались автоматически и проверялись математической системой SymPy — никакого человеческого суждения, никаких спорных оценок. Ключевое: задачи давались в стандартном алгебраическом формате, без кода.

Самый неожиданный результат — рабочая память одинакова у всех. Исследователи ожидали, что модели побольше справятся лучше. Нет: Qwen3 235B и Llama 3 8B падают на том же числе параллельных веток. Это прямое свидетельство того, что проблема архитектурная, а не масштабная. Для пользователя вывод жёсткий: покупка более мощной модели не решит эту конкретную проблему.

Ещё любопытная деталь: Claude 3.5 Haiku обогнал DeepSeek V3 по глубине вложенности, несмотря на меньший размер — что намекает на качество обучения, а не количество параметров.


📌

Адаптации

🔧 Техника: Счёт → Умножение

Когда нужно посчитать количество повторяющихся элементов, явно попроси модель использовать умножение:

❌ "Сколько раз встречается слово 'риск' в этом тексте?"

✅ "Найди все вхождения слова 'риск', сгруппируй по разделам, посчитай умножением (разделы × среднее по разделу), дай итог"

🔧 Техника: Чекпоинт для длинных цепочек

Если задача требует больше 5 зависимых шагов — явно останови и зафиксируй результат:

"Останови выполнение после шага 4. Выведи промежуточный результат. Я подтвержу, и мы продолжим с шага 5."

Это разрезает D8-цепочку на безопасные отрезки и даёт тебе контроль над качеством промежуточных звеньев.

🔧 Техника: Аудит перед выполнением для командных задач

Если ты ставишь задачи через LLM нескольким участникам (AI-агентам или просто несколькими запросами), сначала попроси:

"Прежде чем начать — опиши структуру задачи: сколько параллельных веток, сколько зависимых шагов, есть ли глубокая вложенность. Оцени сложность по каждому параметру."

Это заставляет модель явно визуализировать структуру ДО начала работы — и часто она сама предложит более безопасный план.


🔗

Ресурсы

Статья: Beyond Accuracy: Diagnosing Algebraic Reasoning Failures in LLMs Across Nine Complexity Dimensions

Статус: Under review, COLM 2026

Авторы: Parth Patil, Dhruv Kumar, Yash Sinha — BITS Pilani; Murari Mandal — KIIT Bhubaneswar

Связанные работы, которые цитируют: Dziri et al. (2024) — механика коллапса умножения; Gong & Zhang (2024) — формальное доказательство лимита рабочей памяти в self-attention; Merrill & Sabharwal (2023) — мультипликативное нарастание ошибок в цепочках


📋 Дайджест исследования

Ключевая суть

12 шагов в цепочке зависимых вычислений — и точность падает до 0% у ВСЕХ моделей. GPT-4o Mini и Qwen3 235B рассыпаются на одном и том же пороге. Размер модели здесь ничего не решает. Исследование даёт возможность знать точные числовые пороги — когда задача безопасна, а когда ты уже в зоне, где модель уверенно врёт. Фишка: трансформерное внимание — это не память, а механизм взвешивания токенов. Нет «полочек» для 25 независимых значений одновременно. Когда параллельных веток больше 20-30, модель теряет одни значения, пока фокусируется на других. Это не баг — это архитектура. И ровно поэтому знание пяти конкретных порогов меняет то, как ты формулируешь задачи.

Принцип работы

Стандартный подход: дать модели всё сразу — и надеяться что вывезет. Правильный подход: управлять структурой снаружи — ты контролируешь размер блоков, модель работает в своей зоне силы. Пять порогов, которые стоит знать: — Рабочая память (D4): безопасно до 12 параллельных веток. Коллапс — при 20-30+. Не зависит от размера модели. — Цепочка зависимых шагов (D8): безопасно до 4 шагов. 7+ — катастрофа. 12 шагов — 0% точности у всех без исключения. — Глубина вложенности (D2): до 4-5 уровней — терпимо. 6+ — каждый новый уровень удваивает нагрузку на память. — Счёт повторений (D7): модели теряют подсчёт одинаковых элементов. Решение простое: попроси использовать умножение вместо перечисления. — Ветвление внутри веток (D5): до 3 операций в ветке — норм. Больше — слабые модели начинают сыпаться.

Почему работает

Трансформерное внимание работает через взвешивание токенов. Модель не «хранит» значения. Она «смотрит» на разные части входных данных. При 25 независимых ветках внимание начинает перекрываться: одни значения вытесняют другие. Именно поэтому размер модели не спасает — это не вопрос «мощности», это устройство механизма. Большая модель точнее в пределах безопасной зоны. Но за порогом рассыпаются все одинаково. Где модели реально сильны — это последовательная обработка и синтез небольшого числа готовых блоков. Дай 5-7 готовых выводов и попроси итоговое суждение — справится отлично. Эта сила остаётся нетронутой, если не грузить параллельный трекинг сверх меры.

Когда применять

Аналитика и оценка → конкретно для задач с большим числом критериев одновременно: инвестиционный анализ, оценка проекта по чек-листу из 20+ пунктов, сравнение вариантов по множеству параметров. Длинные расчёты → когда каждый шаг зависит от предыдущего: финансовые модели, пошаговые алгоритмы, сложные логические цепочки. НЕ нужно применять для коротких задач без зависимостей — разбивка на блоки там просто лишняя работа.

Мини-рецепт

1. Посчитай параллельные ветки: Сколько независимых критериев нужно держать одновременно? Больше 12 — дели на блоки, каждый отдельным запросом.

2. Проверь длину цепочки: Есть зависимые шаги, где каждый результат нужен для следующего? Больше 5 шагов — найди точку, где выведешь промежуточный итог. Начнёшь новый запрос с этого итога на входе.

3. Разверни вложенность: Условия вложены больше 4 уровней — перепиши как линейный список шагов. Модель будет следовать по порядку, а не держать структуру в голове.

4. Синтез — отдельным запросом: Собери промежуточные выводы сам. Передай их модели одним сообщением. Попроси итоговое заключение. Это то, что модели делают хорошо — и здесь они не подведут.

Примеры

[ПЛОХО] : Оцени этот стартап по 30 критериям: рынок, команда, финансы, конкуренты, риски, технологии — и вынеси итоговое заключение.
[ХОРОШО] : Буду передавать блоки критериев по стартапу. Каждый блок — отдельный запрос. По каждому: вывод 2-3 предложения + оценка 1-10. Финальный синтез сделаем после всех блоков. Блок 1 — Рынок и спрос: [3-5 критериев]
Источник: Beyond Accuracy: Diagnosing Algebraic Reasoning Failures in LLMs Across Nine Complexity Dimensions
ArXiv ID: 2604.06799 | Сгенерировано: 2026-04-09 04:31

Проблемы LLM

ПроблемаСутьКак обойти
Модель теряет нить при 20+ параллельных задачахПросишь оценить 30 критериев одновременно. Или отслеживать 25 переменных параллельно. Модель не бросает задачу и не предупреждает. Просто начинает ошибаться — незаметно. Архитектура трансформера не хранит независимые значения как отдельные ячейки. Нет «полочек» для каждого критерия. Модель начинает терять одни, пока работает с другими. Граница — 12 параллельных веток безопасно, 20–30 — коллапсРазбивай задачу на блоки по 3–10 пунктов. Промежуточные выводы записывай сам. Финальный синтез передавай отдельным запросом
Длинная цепочка зависимых шагов рушитсяКаждый шаг зависит от предыдущего. Шаги 1–4 — всё хорошо. На шаге 7+ точность падает резко. При 12 зависимых шагах подряд — ноль правильных ответов у всех моделей. Модель не хранит промежуточные результаты как надёжные якоря — они «размываются» по мере роста цепочкиРазрежь цепочку на отрезки по 4–5 шагов. После каждого отрезка выведи промежуточный результат явно. Следующий запрос начинай с этого результата как с входных данных

Методы

МетодСуть
Блочная разбивка параллельных задачБольшую задачу с N критериями дели на блоки по 3–10 пунктов. Пример: вместо «оцени по 30 параметрам» пиши «оцени по 5 параметрам — рынок» следующий запрос «оцени по 5 параметрам — команда» итоговый запрос «вот 6 блоков выводов — синтезируй итог». Промежуточные результаты храни сам. Почему работает: каждый запрос остаётся в безопасной зоне 12 параллельных веток. Модель работает в своей зоне силы — последовательная обработка малого числа готовых блоков. Когда применять: оценка по многим критериям, анализ вариантов, сравнение объектов по большому числу свойств
Явный вывод промежуточных результатов в цепочкеДля задач с зависимыми шагами: не давай модели держать всё в голове. После каждых 4–5 шагов пиши Зафиксируй промежуточный результат: [X]. Следующий запрос начинай с Исходные данные: [X]. Продолжай с шага N. Почему работает: каждый новый запрос начинает цепочку заново. Счётчик глубины сбрасывается. Модель не накапливает ошибку по длинной зависимой цепи. Когда применять: многошаговые вычисления, пошаговый анализ, задачи где каждый вывод нужен для следующего

Тезисы

ТезисКомментарий
Ограничение рабочей памяти одинаково для всех моделейЭто не вопрос «умности» модели. Маленькая и самая большая модель рушатся на одном и том же пороге параллельного отслеживания. Причина — архитектура трансформерного внимания: там нет отдельных ячеек для хранения независимых значений. Большее число параметров не добавляет «полочек». Применяй: не рассчитывай что мощная модель вытянет задачу с 30 параллельными ветками. Перестраивай структуру запроса — это единственный рычаг
📖 Простыми словами

Beyond Accuracy: Diagnosing Algebraic Reasoning Failures inLLMsAcross Nine Complexity Dimensions

arXiv: 2604.06799

Суть проблемы в том, что у нейросетей есть жесткий потолок «оперативной памяти», и он гораздо ниже, чем мы привыкли думать. Когда LLM решает сложную задачу, она не просто думает, она жонглирует промежуточными данными. Исследование показало, что как только количество этих данных переваливает за 20–30 переменных, любая модель — будь то крошечная или гигантская — просто выключается. Это фундаментальный баг самой архитектуры: в механизме внимания нет отдельных «ячеек» для хранения независимых чисел, поэтому информация начинает перемешиваться в кашу.

Это как если бы ты заставил профессионального повара готовить 30 разных блюд одновременно на одной конфорке. Неважно, насколько он гениален и какой у него опыт, — у него всего две руки и ограниченное пространство. В какой-то момент он неизбежно забудет посолить суп или сожжет стейк, просто потому что физически невозможно удерживать фокус на тридцати таймерах сразу. Модель ведет себя так же: она не тупеет, ей просто некуда складывать результаты.

В работе это проявляется через девять измерений сложности, но главное — это порог параллельных вычислений. Если ты просишь модель проанализировать стартап по 30 критериям сразу, она начнет выдавать галлюцинации или терять логику не из-за нехватки знаний, а из-за перегруза «регистров». Причем GPT-4o Mini и огромная Qwen 235B лажают на одном и том же месте. Размер модели здесь не роляет — это архитектурный тупик, где количество параметров не переходит в качество логики.

Этот принцип универсален для любой аналитики, будь то аудит кода, юридический разбор контракта или планирование логистики. Если в задаче нужно одновременно учитывать десятки независимых факторов, модель гарантированно поплывет. Тестировали на алгебре, но эффект домино сработает везде: как только цепочка рассуждений становится слишком ветвистой, нейронка превращается в забывчивого золотую рыбку. Сложность — это не про трудность формул, а про количество объектов в уме.

Короче: не пытайся скормить нейронке всё и сразу, надеясь на её «мощность». Если задача требует удержания более 20 переменных, разбивай её на части, иначе получишь уверенный бред. Архитектура трансформеров имеет предел, и пока мы его не перешагнем, даже самая умная модель будет спотыкаться там, где нужно просто ничего не забыть. Кто умеет дробить задачи — получает результат, остальные продолжают жаловаться, что AI тупит на ровном месте.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с