3,583 papers
arXiv:2602.16069 74 17 фев. 2026 г. FREE

Контекстная ловушка: почему длинный контекст убивает качество ответа

КЛЮЧЕВАЯ СУТЬ
0–7% успеха — вот что происходит при загрузке 64–128 тысяч токенов в один запрос. Для сравнения: в нормальных условиях та же модель даёт 30%. И вот что совсем убивает: успешные решения сложных задач используют вдвое меньше токенов, чем неудачные — не вдвое больше, а вдвое меньше. Метод декомпозиции позволяет работать с огромными документами без потери качества: вместо одного жирного запроса — цепочка коротких, каждый со своей чёткой задачей. Фишка: у каждой модели есть «номинальная» длина контекста — сколько токенов технически влезает — и «рабочая» — при какой длине модель реально соображает. Разрыв огромный. Маркетинговые «128k токенов» — это первая цифра, а не вторая.
Адаптировать под запрос

TL;DR

Чем больше текста вы вкладываете в один запрос — тем хуже AI справляется. Это не интуиция, а измеренный факт: успешные решения сложных задач занимают в среднем вдвое меньше токенов, чем неудачные. Модели, которые «поддерживают 128 тысяч токенов», при реальной нагрузке в 64–128k токенов дают 0–7% успеха — против 30% в нормальных условиях.

Причина в том, что у AI есть номинальная длина контекста (сколько текста технически влезает) и рабочая длина контекста (при какой длине AI реально соображает). Разрыв между ними огромный — и большинство пользователей об этом не знает. Когда модель тонет в длинном контексте, она начинает галлюцинировать: придумывает детали, путает разделы, смешивает части задания.

Решение — декомпозиция: разбивай большой запрос на серию коротких, сфокусированных шагов. Не один гигантский промпт со всем материалом, а несколько точных запросов — каждый со своей чёткой задачей. Именно так работают лучшие AI-агенты: не «длинный контекст», а «много коротких шагов».


📌

Схема принципа

ВМЕСТО ЭТОГО:
[Весь материал] + [Всё задание] → один запрос → слабый результат

ДЕЛАЙ ТАК:
ШАГ 1: Передай часть материала → получи промежуточный вывод
ШАГ 2: Передай следующую часть + вывод шага 1 → следующий вывод
ШАГ 3: Собери итог из промежуточных выводов → финальный результат

Каждый шаг — отдельный запрос.
Каждый запрос — сфокусирован на одной задаче.

🚀

Пример применения

Задача: Разобрать большой инвестиционный меморандум (50 страниц) и решить — вкладывать ли деньги в стартап. Классический сценарий: хочется вставить всё в ChatGPT и получить ответ «да/нет».

Как делают большинство (и почему это не работает):

Вот меморандум [вставить 50 страниц]. Проанализируй и скажи, 
стоит ли инвестировать.

AI «читает» всё, но на 50 страницах начинает путаться в деталях, упускать противоречия, галлюцинировать цифры.


Как работает декомпозиция:

Запрос 1 — только команда и продукт:

Вот раздел о команде и продукте из меморандума:
[страницы 1–10]

Твоя задача: только этот раздел. Выяви:
1. Ключевые сильные стороны команды
2. Ключевые риски команды
3. Насколько продукт решает реальную проблему

Выдай структурированный список. Только то, что есть в тексте.

Запрос 2 — только финансы:

Вот финансовый раздел:
[страницы 11–25]

Твоя задача: только финансы. Найди:
1. Юнит-экономика — сходится или нет
2. Допущения, которые выглядят агрессивно
3. Ключевые риски в финмодели

Запрос 3 — итог:

Вот два анализа, которые ты уже сделал:
[вставить результаты запросов 1 и 2]

Теперь сделай инвестиционное заключение: 
стоит ли входить, при каких условиях, какие красные флаги.

Результат: В каждом запросе AI работает с небольшим, управляемым объёмом информации. Итоговый анализ получается точнее, потому что каждый шаг — это сфокусированное задание, а не «разберись сам во всём».


🧠

Почему это работает

Слабость AI: Модель генерирует текст последовательно — слово за словом. К концу длинного контекста она «помнит» начало хуже, чем конец. При 64–128 тысячах токенов важный факт из начала документа просто теряет вес в генерации. Результат — AI придумывает детали вместо того, чтобы их находить.

Что AI умеет хорошо: Держать в голове небольшой, чёткий контекст и выдавать точные ответы на конкретные вопросы. Именно поэтому работает аналогия с умным сотрудником: дай ему один документ и одно задание — справится отлично. Дай сто документов и скажи «разберись» — потеряется.

Как декомпозиция использует эту сильную сторону: Каждый запрос — короткий, сфокусированный. AI работает в своей «зоне уверенности» (до 20 тысяч токенов). Промежуточные выводы передаются в следующий шаг уже в сжатом виде. Накопления «мусора» не происходит.

Рычаги управления: - Размер чанка (chunk — кусок текста для одного запроса): уменьши для сложных технических текстов, увеличь для простых нарративных - Промежуточные форматы: попроси AI выдавать промежуточные результаты в виде маркированного списка — так их удобнее вставлять в следующий запрос - Финальный синтез: можно сделать несколько итераций — сначала черновой итог, потом попросить его улучшить с фокусом на конкретный вопрос


📋

Шаблон промпта

# Шаг {номер_шага} из {всего_шагов}

Контекст задачи: {общая_задача}

Твой фокус на этом шаге: {конкретная_подзадача}

Материал для анализа:
{текст_фрагмента}

{если_не_первый_шаг: "Результаты предыдущих шагов:
{предыдущие_выводы}"}

Выдай:
- {что_нужно_получить_1}
- {что_нужно_получить_2}
- {что_нужно_получить_3}

Только то, что есть в материале. Не добавляй то, чего нет.

Что подставлять: - {общая_задача} — итоговая цель всей цепочки: "инвестиционное решение", "редактура текста", "стратегия продукта" - {конкретная_подзадача} — что делает именно этот шаг: "анализ финансов", "проверка логики аргументов", "оценка рисков" - {текст_фрагмента} — только та часть материала, которая нужна на этом шаге - {что_нужно_получить} — конкретный формат вывода: список рисков, оценка по критериям, резюме

🚀 Быстрый старт — вставь в чат:

Вот шаблон для пошаговой работы с большим материалом. 
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля и определить сколько шагов нужно.

[вставить шаблон выше]

LLM спросит про общую задачу, как разбить материал на части и что должно быть на выходе каждого шага — потому что без этого она не сможет правильно структурировать цепочку.


⚠️

Ограничения

⚠️ Не панацея для коротких задач: Декомпозиция создаёт накладные расходы. Для простых запросов на 1–2 страницы текста — лишний шаг без выгоды.

⚠️ Нелинейные задачи: Если фрагменты текста сильно взаимосвязаны и нельзя понять часть без целого — декомпозиция сложнее. Нужна дополнительная передача контекста между шагами.

⚠️ Иллюзия «большой контекст = умнее»: Почти все современные LLM, включая топовые, падают при реально длинных контекстах. Это системная проблема архитектуры, а не конкретной модели. Маркетинговые «128k токенов» — не обещание качества на этой длине.

⚠️ Длинный ответ AI = сигнал тревоги: Когда AI выдаёт очень длинный, развёрнутый ответ на сложную задачу — это чаще признак того, что он запутался, а не того, что мыслит глубоко. Исследование показало: у неудачных попыток токенов вдвое больше, чем у успешных.


🔍

Как исследовали

Команда из SambaNova Systems поставила честный эксперимент: взяла одни и те же задачи (отладка реального кода из GitHub) и прогнала их через два разных режима. Первый режим — агентный: AI сам решает, что запрашивать, делает несколько коротких шагов, накапливает историю диалога. Второй режим — один большой запрос: все нужные файлы загружены сразу, AI должен выдать решение за один раз.

Хитрость второго режима: исследователи убрали проблему поиска нужных файлов — они сами положили в контекст всё необходимое. То есть модели дали «идеальные условия» для длинного контекста. Оказалось, это не помогло — при 64 тысячах токенов одна модель решила 7% задач, другая — 0%. В агентном режиме те же модели давали 15–30%.

Параллельно исследователи замерили длину токенов в успешных и неудачных агентных сессиях. Вывод оказался неожиданным: неудачные сессии длиннее успешных в среднем вдвое (8.5k токенов в успешных vs 15.5k в неудачных для DeepSeek R1). Это перевернуло привычную логику — не «чем больше анализа, тем лучше», а ровно наоборот.


🔗

Ресурсы

The Limits of Long-Context Reasoning in Automated Bug Fixing — препринт, на рецензии.

Авторы: Ravi Raju, Mengmeng Ji, Shubhangi Upasani, Bo Li, Urmish Thakker — SambaNova Systems, Сан-Хосе, США.

Бенчмарк: SWE-bench Verified Связанная работа: LongCodeBench / LongSWE-Bench


💡

Адаптации и экстраполяции

💡 Адаптация для длинных рабочих переписок: Если тебе нужно проанализировать переписку с клиентом за месяц или историю переговоров — не вставляй всё сразу. Раздели по неделям или по темам. В каждом запросе — один период, одна задача.

Вот переписка за [период].
Задача этого шага: найти все обещания, которые дала наша сторона.
Выдай нумерованный список: что обещали, когда, кому.
Только то, что прямо написано в тексте.

🔧 Техника: добавь явный «контрольный вопрос» в финальный шаг

Исследование показало, что одна из главных ошибок AI в длинном контексте — обращение к деталям, которых нет в материале (галлюцинация). Это можно частично купировать:

После анализа ответь на контрольный вопрос:
"Есть ли в моих выводах утверждения, которых нет в исходном тексте?"
Если есть — убери их и обозначь это явно.

💡 Адаптация принципа "меньше = лучше" для написания текстов:

Если просишь AI написать длинный текст (статью, отчёт, коммерческое предложение) — не проси его сразу написать всё. Попроси сначала структуру, потом каждый раздел отдельно. Качество каждого блока будет выше, чем у «напиши сразу всё на 3000 слов».


📋 Дайджест исследования

Ключевая суть

0–7% успеха — вот что происходит при загрузке 64–128 тысяч токенов в один запрос. Для сравнения: в нормальных условиях та же модель даёт 30%. И вот что совсем убивает: успешные решения сложных задач используют вдвое меньше токенов, чем неудачные — не вдвое больше, а вдвое меньше. Метод декомпозиции позволяет работать с огромными документами без потери качества: вместо одного жирного запроса — цепочка коротких, каждый со своей чёткой задачей. Фишка: у каждой модели есть «номинальная» длина контекста — сколько токенов технически влезает — и «рабочая» — при какой длине модель реально соображает. Разрыв огромный. Маркетинговые «128k токенов» — это первая цифра, а не вторая.

Принцип работы

Стандартный подход: вставить всё сразу и попросить «разберись». Это как дать сотруднику сто папок и сказать «прочитай всё и реши к утру». Результат предсказуем — путаница, выдуманные детали, пропущенные противоречия. Декомпозиция строит конвейер: один шаг — одна задача — один короткий запрос. Промежуточные выводы каждого шага передаются в следующий уже в сжатом виде. «Мусор» не накапливается, важное не тускнеет. Структура проста: [кусок материала] + [конкретная подзадача] → промежуточный вывод в виде списка → следующий запрос берёт этот список плюс следующий кусок → и так до финального синтеза.

Почему работает

Модель генерирует текст последовательно — слово за словом. К концу длинного контекста начало документа теряет вес. Важный факт из первой страницы 50-страничного файла просто «тускнеет» к моменту генерации. Модель начинает придумывать детали вместо того чтобы их находить. Рабочая зона уверенности большинства LLM — до 20 тысяч токенов. В этой зоне модель точна. За ней галлюцинации нарастают, а длинный ответ становится не признаком глубокого мышления, а сигналом что модель поплыла. Декомпозиция держит каждый запрос внутри этой зоны. AI работает точно — потому что контекст управляемый, задача чёткая, объём небольшой.

Когда применять

Анализ больших документов — инвестиционные меморандумы, юридические тексты, техническая документация — особенно когда объём превышает 20–30 тысяч токенов. Многошаговые задачи — оценка кода, редактура длинных текстов, разбор сложных кейсов — когда нужен промежуточный вывод на каждом этапе. НЕ подходит для коротких задач на 1–2 страницы: декомпозиция создаёт лишние шаги без выгоды. Осторожно с задачами, где фрагменты сильно переплетены — нужно передавать дополнительный контекст между шагами, иначе AI потеряет связь между частями.

Мини-рецепт

1. Раздели материал на части: найди естественные разделы документа. Финансы отдельно, команда отдельно, рынок отдельно. Один раздел = один запрос.
2. Дай каждому шагу конкретную задачу: не «проанализируй», а «найди три главных риска в финансовой модели» — чем конкретнее, тем точнее ответ.
3. Зафикси промежуточный вывод: попроси маркированный список из 3–5 пунктов — так удобно вставлять в следующий шаг без лишнего балласта.
4. Передавай выводы, не исходник: в следующий запрос идёт не сам документ, а сжатый список из предыдущего шага плюс новый кусок материала.
5. Финальный синтез последним: только когда все части разобраны — собери промежуточные выводы в один запрос и попроси итог.

Примеры

[ПЛОХО] : Вот документ на 50 страниц. Проанализируй и скажи, стоит ли инвестировать в этот стартап.
[ХОРОШО] : три отдельных запроса: Запрос 1: Шаг 1 из 3. Общая задача: инвестиционное решение по стартапу. Твой фокус сейчас: только команда и продукт. Текст: [страницы 1–10]. Выдай списком: 1) сильные стороны команды, 2) риски команды, 3) решает ли продукт реальную проблему. Только то что есть в тексте, ничего лишнего. Запрос 2: Шаг 2 из 3. Твой фокус: только финансы. Текст: [страницы 11–25]. Результаты шага 1: [вставить список]. Найди: сходится ли юнит-экономика, какие допущения выглядят агрессивно, ключевые риски в финансовой модели. Запрос 3: Шаг 3 из 3. Вот анализы из шагов 1 и 2: [вставить оба списка]. Сделай инвестиционное заключение: стоит ли входить, при каких условиях, какие красные флаги критичны.
Источник: The Limits of Long-Context Reasoning in Automated Bug Fixing
ArXiv ID: 2602.16069 | Сгенерировано: 2026-02-20 10:44

Проблемы LLM

ПроблемаСутьКак обойти
Паспортный и рабочий контекст — разные вещиМодель заявляет поддержку 128 тысяч токенов. Но это технический предел, не рабочий. При реальной нагрузке в 64–128 тысяч токенов точность падает с 30% до 0–7%. Эффективная зона — примерно до 20 тысяч токенов. Дальше модель начинает путать разделы, галлюцинировать детали и терять информацию из начала текста. Маркетинговые цифры контекста — не обещание качестваДели большой материал на части. Каждую часть — в отдельный запрос. Передавай промежуточные выводы в следующий шаг в сжатом виде

Методы

МетодСуть
Цепочка коротких запросов вместо одного длинногоРаздели задачу на шаги. Каждый шаг — отдельный запрос с одной чёткой подзадачей. Шаблон: # Шаг {N} из {всего} / Общая цель: {задача} / Фокус этого шага: {подзадача} / Материал: {только нужный фрагмент} / Результаты прошлых шагов: {сжатые выводы} / Выдай: {конкретный формат}. Почему работает: модель генерирует последовательно. К концу длинного текста начало теряет вес. При коротком запросе весь контекст остаётся в рабочей зоне — путаницы нет. Когда да: анализ больших документов, многоэтапный разбор, задачи где материал можно нарезать логически. Когда нет: текст 1–2 страницы, фрагменты сильно зависят друг от друга и непонятны без целого
📖 Простыми словами

The Limits of Long-Context Reasoning in Automated Bug Fixing

arXiv: 2602.16069

Современные LLM работают не как суперкомпьютеры с бесконечной памятью, а как уставшие студенты на экзамене. Фундаментальная проблема в том, что длинный контекст — это ловушка. Когда ты скармливаешь модели огромный массив данных, она не анализирует его целиком и сразу. Она генерирует ответ последовательно, и чем дальше она уходит от начала текста, тем сильнее размывается фокус. В итоге важные детали просто тонут в информационном шуме, и вместо логического вывода модель начинает галлюцинировать, выдавая уверенную чушь.

Это как пытаться прочитать «Войну и мир» за одну ночь, чтобы утром сдать по ней сложнейший тест на знание мелких деталей. Формально ты всё прочитал, но в голове осталась каша из имен и дат. В итоге на вопрос о цвете пуговиц на мундире Болконского ты не отвечаешь по фактам, а начинаешь сочинять на ходу, потому что мозг просто не может удержать такой объем данных в активной зоне. С моделями та же история: при нагрузке в 128 тысяч токенов их эффективность падает до жалких 0–7% успеха.

Исследование The Limits of Long-Context Reasoning четко показывает: успешные решения задач в среднем занимают в два раза меньше места, чем провальные. Работают не «длинные простыни», а сжатая конкретика. Если задача сложная, например, поиск бага в коде или аудит контракта, лишние данные становятся ядом. Модели, которые хвастаются поддержкой огромных контекстов, на деле лажают в 4-5 раз чаще, чем когда им дают короткую и четкую выжимку. Размер не равен качеству, и это главный облом для тех, кто верил в магию «запихну всё в один промпт».

Этот принцип универсален и касается не только программирования. Хочешь проанализировать инвестиционный меморандум на 50 страниц или годовой отчет корпорации? Если засунуть всё целиком в ChatGPT или Claude, ты получишь поверхностный пересказ, а не глубокую аналитику. Чтобы выжать из AI максимум, нужно дробить данные на куски или использовать RAG, подсовывая модели только те фрагменты, которые реально важны в данный момент. Пихать всё подряд в одно окно — верный способ получить ответ, который выглядит красиво, но не имеет отношения к реальности.

Короче: хватит верить маркетинговым обещаниям про «миллион токенов контекста». На практике краткость — это не просто вежливость, а залог адекватности AI. Если хочешь результат, а не случайный набор слов, фильтруй входящие данные и не перегружай модель мусором. Либо ты тратишь время на подготовку четкого контекста, либо тратишь деньги на исправление ошибок, которые AI наплодил из-за информационного передоза. Кто научится подавать данные порциями, тот и получит работающие решения, пока остальные тонут в галлюцинациях.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с