3,583 papers
arXiv:2601.02023 87 5 янв. 2026 г. FREE

Архитектура длинного контекста: где модели теряют информацию и почему "Don't Make It Up" убивает точность

КЛЮЧЕВАЯ СУТЬ
ChatGPT-5-mini проваливается ровно на половине длинного контекста — точность падает с 100% до 80%. Claude-4.5 показывает U-образный провал: начало и конец работают, середина (участок 20-60% длины) сыпется до 50% для логических выводов. Gemini и Deepseek держатся стабильно на всех позициях. Это позволяет избежать потери информации в длинных промптах через правильное размещение критических данных и выбор модели под задачу. Механизм внимания размазывается по токенам — чем длиннее контекст, тем меньше "когнитивных ресурсов" на каждый кусок. Модели тренировали на текстах где важное обычно в начале (введение) или конце (выводы), поэтому паттерн внимания смещён к краям. Середина воспринимается как развитие и детали — получает меньше веса.
Адаптировать под запрос

TL;DR

Модели плохо работают с информацией в середине длинного контекста. ChatGPT-5-mini проваливается ровно на 50% глубины — точность падает с 100% до 80%. Claude-4.5-haiku показывает классический U-образный провал: начало и конец работают хорошо, середина (20-60% контекста) проваливается до 50% точности для логического вывода. Gemini-2.5-flash и Deepseek-v3.2-chat держатся стабильно на всех позициях.

Эффективная длина контекста значительно меньше максимальной. ChatGPT-5-mini работает стабильно до ~100к токенов, потом резко деградирует — хотя заявленный лимит 272к. При максимальной загрузке точность падает с 96% до 89% для извлечения фактов. Claude начинает терять стабильность уже после 100к токенов. Только Gemini-2.5-flash (1М токенов) и Deepseek-v3.2-chat (128к) держат производительность до самого лимита. Длинный контекст ≠ работающий контекст.

"Don't Make It Up" снижает галлюцинации, но убивает точность извлечения и вывода. У ChatGPT-5-mini этот промпт на максимальной длине роняет точность с 89% до 72% для фактов и с 88% до 68% для логического вывода — модель начинает отказываться отвечать даже когда информация есть. Это safety tax (цена безопасности). Deepseek и Gemini почти не страдают: падение 1-2%, зато галлюцинации снижаются на 5-7%.


📌

Ключевые находки для практики

📌

1. Позиционные эффекты: куда класть важное

Lost in the middle — не миф, а архитектурная особенность некоторых моделей:

  • ChatGPT-5-mini: провал ровно на 50% глубины контекста
  • Claude-4.5-haiku: U-образная кривая — середина (20-60%) проваливается
  • Gemini-2.5-flash и Deepseek-v3.2-chat: стабильны на всех позициях

Практический вывод: Если работаешь с ChatGPT или Claude — не клади критическую информацию в середину длинного промпта. Размещай в начале или конце.

⚖️

2. Эффективная длина vs максимальная длина

Модели принимают больше токенов, чем могут эффективно использовать:

Модель Max токены Стабильна до Падение на максимуме
ChatGPT-5-mini 272k ~100k 89% → 72% (с "Don't Make It Up")
Claude-4.5-haiku 175k ~100k 78% → 68%
Gemini-2.5-flash 1M 1M стабильна
Deepseek-v3.2-chat 128k 128k стабильна

Практический вывод: Если используешь ChatGPT или Claude для длинных документов — не загружай до предела. Лучше разбить на части или выбрать Gemini/Deepseek для задач с реально длинными контекстами.

📌

3. Safety tax: цена "Don't Make It Up"

Промпт "Не выдумывай, если не знаешь" снижает галлюцинации, но вызывает избыточный отказ (модель не отвечает, даже когда информация есть):

ChatGPT-5-mini (на максимальной длине): - Извлечение фактов: 89% → 72% (-17%) - Логический вывод: 88% → 68% (-20%) - Галлюцинации: 73% → 90% (+17% верности)

Deepseek-v3.2-chat: - Извлечение фактов: 99% → 97% (-2%) - Логический вывод: 92% → 94% (+2%) - Галлюцинации: 84% → 87% (+3% верности)

Практический вывод: - Для ChatGPT/Claude: используй "Don't Make It Up" только если критична верность, готов потерять 15-20% правильных ответов - Для Deepseek/Gemini: можно использовать смело, trade-off минимален

📌

4. Распределение информации важнее длины

Исследователи тестировали разные распределения фактов по контексту (нормальное, экспоненциальное, равномерное). Модели страдают не от длины контекста, а от разреженности фактов.

Когда 10 фактов разбросаны по 200к токенов — даже сильные модели начинают пропускать. Когда те же факты сконцентрированы в одном блоке — извлечение почти идеальное.

Практический вывод: Если вставляешь в промпт длинный документ, группируй релевантную информацию — не полагайся на способность модели найти иголку в стоге сена. Либо предварительно извлеки нужные куски (вручную или через отдельный запрос), либо используй RAG.


🚀

Пример применения

📌

Задача: Извлечь ключевые тезисы из длинного транскрипта подкаста

У тебя есть 2-часовой транскрипт подкаста "Ещенепознер" с Олегом Тиньковым (условно, ~150к токенов). Нужно извлечь все конкретные советы по бизнесу, которые Тиньков упомянул в разговоре.

❌ Плохой подход (теряем информацию):

Вот транскрипт подкаста. Найди все советы по бизнесу.

[весь транскрипт 150к токенов]

Проблемы: - Советы разбросаны по всему тексту - Модель может пропустить факты в середине (lost in the middle) - ChatGPT на такой длине начнёт деградировать

✅ Хороший подход (используем находки исследования):

Вариант 1: Структурированная экстракция в два шага

Шаг 1. Прочитай транскрипт и найди ВСЕ фрагменты, где Олег Тиньков даёт советы по бизнесу, делится опытом или критикует чужие подходы. 

Выпиши номера минут где это происходит в формате:
- 05:23 — про найм
- 12:45 — про конкурентов
...

Если не уверен — лучше включи. Не пропускай ничего.

[транскрипт с таймкодами]
Шаг 2. Вот список фрагментов где есть советы. Извлеки из транскрипта ВСЕ эти фрагменты и сформулируй советы в формате:

**Тезис:** [короткая формулировка]
**Цитата:** [что сказал Тиньков дословно]
**Таймкод:** [минуты]

[список из шага 1]
[транскрипт]

Вариант 2: Если модель Deepseek/Gemini — можно в один промпт

Ты — аналитик, который изучает бизнес-мышление успешных предпринимателей.

Задача: Извлечь ВСЕ советы по бизнесу из транскрипта. 

Критически важно:
1. НЕ ПРОПУСКАЙ советы из середины разговора — читай весь текст внимательно
2. Включай конкретные действия, принципы, критику чужих подходов
3. Если совет неявный — извлекай логически из контекста

Формат вывода:
**[Таймкод]** — **[Короткий тезис]**
Цитата: "..."
Контекст: [зачем это нужно / к чему относится]

[транскрипт]

Результат:

При двухшаговом подходе или использовании Deepseek/Gemini ты получишь полный список советов с цитатами и таймкодами. При использовании ChatGPT/Claude на длинном транскрипте без структурирования — высокий риск пропустить советы из середины разговора (участок 20-60% длины).


🧠

Почему это работает

LLM используют механизм внимания (attention), который распределяет "когнитивные ресурсы" по токенам. В длинных контекстах внимание разбавляется — каждый токен получает меньше веса.

Архитектурная особенность: модели тренировали на текстах, где важная информация обычно в начале (введение) или конце (выводы). Середина — это развитие, детали, переходы. Поэтому паттерн внимания смещён к краям контекста. Это не баг, это результат обучения на реальных текстах.

"Don't Make It Up" работает как порог уверенности. Модель генерирует ответ с вероятностью. Если добавить "не выдумывай" — порог растёт. Но у моделей типа ChatGPT этот порог становится слишком высоким: модель отказывается отвечать даже когда информация есть, но не в топ-позициях внимания (середина контекста, разбросанные факты).

Deepseek и Gemini лучше калиброваны: их порог уверенности точнее отражает реальное наличие информации. ChatGPT и Claude более консервативны — safety tax выше.

Рычаги управления:

  1. Позиция информации → Размести критическое в начале или конце
  2. Длина контекста → Не загружай до лимита, оставь запас 30-40%
  3. Использование anti-hallucination → Включай только если верность критична, понимая trade-off
  4. Выбор модели → Для длинных контекстов: Deepseek/Gemini. Для коротких: ChatGPT/Claude достаточно
  5. Структурирование информации → Группируй релевантное, не разбрасывай факты по всему тексту

📋

Рекомендации по структуре длинных промптов

Основываясь на находках исследования, вот универсальный шаблон для работы с длинным контекстом:

{чёткая инструкция — что извлечь / проанализировать}

{критические ограничения и требования — если есть}

{формат вывода — структурированный}

ВАЖНО: {если нужна полнота — явно укажи "читай весь документ, не пропускай середину"}

{если критична верность — добавь: "Если информации нет — так и скажи. Не выдумывай."}

---

{ДОКУМЕНТ / КОНТЕКСТ}

---

{повтор ключевых инструкций — для recency bias}

Ключевые принципы:

  1. Sandwich-структура: инструкция ДО документа + повтор ПОСЛЕ

    • Recency bias: модель лучше помнит последнее
    • Primacy bias: модель лучше помнит первое
    • Используй оба
  2. Визуальные разделители: ---, ===, ### между секциями

    • Помогает модели различить инструкцию и данные
    • Особенно важно для длинных контекстов
  3. Явные указания на полноту:

    • "Читай ВЕСЬ документ внимательно"
    • "НЕ ПРОПУСКАЙ информацию из середины"
    • Это калибрует внимание модели
  4. Структурированный вывод:

    • Таблицы, списки, нумерация
    • Проще проверить полноту
    • Сложнее для модели пропустить элемент
  5. Anti-hallucination — выборочно:

    • Добавляй только если критична верность
    • Понимай что потеряешь 5-20% точности (зависит от модели)
    • Для Deepseek/Gemini trade-off минимален

📌

Выбор модели под задачу

Основываясь на результатах исследования:

📌

Для задач с длинными контекстами (100k+ токенов):

✅ Gemini-2.5-flash: - Стабильна до 1М токенов - Минимальный safety tax - Нет positional bias - Лучший выбор для: анализ больших документов, длинные транскрипты, множественные файлы

✅ Deepseek-v3.2-chat: - Стабильна до 128к токенов - Отличная калибровка anti-hallucination - Нет positional bias - Лучший выбор для: задачи где важна и полнота, и верность

📌

Для задач с умеренными контекстами (до 50k токенов):

✅ ChatGPT-5-mini: - Отлично работает до 100к - Но высокий safety tax - Провал на 50% глубины - Используй когда: контекст короткий, информация в начале/конце, верность не критична

⚠️ Claude-4.5-haiku: - U-образный провал (lost in the middle) - Деградация после 100к - Используй с осторожностью: только для коротких контекстов с информацией в начале/конце


⚠️

Ограничения

⚠️ Специфика исследования: Тестировали на литературном нарративе (романы Бальзака). Структурированные документы (таблицы, код, JSON) могут вести себя иначе — там паттерны внимания могут быть другими.

⚠️ Модели обновляются: Результаты для конкретных версий (GPT-5-mini, Claude-4.5-haiku, etc). Следующие версии могут улучшить обработку длинных контекстов. Принципы остаются, но конкретные цифры могут измениться.

⚠️ Не тестировали RAG: Исследование про чистый длинный контекст. Для реальных задач с очень длинными документами RAG (Retrieval-Augmented Generation) может быть эффективнее — сначала найти релевантные куски, потом анализировать. Но это требует настройки системы, не работает "из коробки" в чате.

⚠️ Safety tax зависит от задачи: Падение точности при "Don't Make It Up" сильнее проявляется на максимальной длине контекста и при разбросанных фактах. На коротких промптах с компактной информацией эффект слабее.


🔍

Как исследовали

Команда провела расширенный needle-in-a-haystack тест (иголка в стоге сена), но гораздо сложнее стандартной версии. Взяли 38 романов Бальзака (~2М токенов) как "стог сена" — это связный нарратив, сложнее чем случайный текст. Внедряли 30 фактов-"иголок" и задавали вопросы.

Два протокола:

  1. Uniform sweep: 200 тестов на модель — варьировали длину контекста (10-100% от максимума модели) и позицию факта (10-100% глубины). Это дало карту провалов: где именно модель теряет информацию.

  2. Probabilistic distributions: 18 тестов на модель — раскидывали 10 фактов по контексту согласно 9 статистическим распределениям (нормальное, экспоненциальное, etc). Это симулировало реальные документы, где информация не в одном месте.

Каждый тест прогоняли в двух режимах промптинга: - Standard: "Ответь на вопросы по тексту" - Anti-Hallucination: + "Не выдумывай, если не знаешь — скажи что не знаешь"

Измеряли три метрики: - Literal Extraction — модель нашла факт "как есть" - Logical Inference — модель сделала вывод из нескольких фактов - Faithfulness — модель не выдумала (100% = нет галлюцинаций)

Все модели тестировали с одинаковыми гиперпараметрами (temperature=0, top_p=1.0) для воспроизводимости. Ответы проверял независимый LLM-судья по чёткому ключу.

Почему результаты получились такими:

Обнаружили три паттерна провала:

  1. U-shaped memory (Claude): Архитектура внимания смещена к краям контекста — так модели обучались на реальных текстах, где важное обычно в начале/конце.

  2. 50%-cliff (ChatGPT): Специфическая уязвимость ровно на половине контекста — возможно артефакт архитектуры или обучения.

  3. Conservative failure (все модели с anti-hallucination): "Don't Make It Up" повышает порог уверенности. Если факт в середине контекста (низкий вес внимания) → модель не уверена → отказывается отвечать. У ChatGPT/Claude этот порог слишком высокий, у Deepseek/Gemini — калиброван лучше.

Удивительно: Длина контекста сама по себе не главная проблема. Gemini держит 1М токенов, Deepseek — 128к. Проблема в распределении внимания по этой длине. Когда факты разбросаны — даже короткий контекст вредит, когда сгруппированы — длинный не мешает.

Инсайт для практики: Не спрашивай "поддерживает ли модель N токенов", спрашивай "при какой длине она стабильно извлекает информацию с позиций 20-60%". Это и есть эффективная длина.


🔗

Ресурсы

Not All Needles Are Found: How Fact Distribution and "Don't Make It Up" Prompts Shape Literal Extraction, Logical Inference, and Hallucination Risks in Long-Context LLMs

Амирали Эбрахимзаде (University of Michigan), Сейед М. Салили (Independent Researcher)

Исследование тестировало Gemini-2.5-flash, ChatGPT-5-mini, Claude-4.5-haiku, Deepseek-v3.2-chat на расширенном needle-in-a-haystack бенчмарке с корпусом из романов Оноре де Бальзака.


📋 Дайджест исследования

Ключевая суть

ChatGPT-5-mini проваливается ровно на половине длинного контекста — точность падает с 100% до 80%. Claude-4.5 показывает U-образный провал: начало и конец работают, середина (участок 20-60% длины) сыпется до 50% для логических выводов. Gemini и Deepseek держатся стабильно на всех позициях. Это позволяет избежать потери информации в длинных промптах через правильное размещение критических данных и выбор модели под задачу. Механизм внимания размазывается по токенам — чем длиннее контекст, тем меньше "когнитивных ресурсов" на каждый кусок. Модели тренировали на текстах где важное обычно в начале (введение) или конце (выводы), поэтому паттерн внимания смещён к краям. Середина воспринимается как развитие и детали — получает меньше веса.

Принцип работы

Заявленная длина контекста ≠ рабочая длина. ChatGPT принимает 272к токенов, но стабильно работает только до ~100к — дальше точность проседает с 96% до 89% для извлечения фактов. Claude начинает плыть после 100к из заявленных 175к. Только Gemini (1М токенов) и Deepseek (128к) держат производительность до самого лимита. Фишка: используй sandwich-структуру для длинных промптов — инструкция ДО документа + повтор ключевых указаний ПОСЛЕ. Это использует два когнитивных эффекта: recency bias (модель лучше помнит последнее) и primacy bias (модель лучше помнит первое). Для ChatGPT и Claude критически важно: размещай ключевую информацию в начале или конце контекста, не в середине. Для Gemini и Deepseek позиция не важна — внимание распределено равномерно.

Почему работает

Модели используют механизм внимания (attention), который распределяет вычислительные ресурсы по токенам. В длинных контекстах внимание разбавляется — каждый токен получает меньше веса. Архитектурная особенность: модели тренировали на реальных текстах, где важная информация обычно в начале (введение, тезис) или конце (выводы, резюме). Середина — это развитие мысли, детали, переходы. Поэтому паттерн внимания эволюционно смещён к краям контекста. Safety tax (цена безопасности): промпт "Don't Make It Up" работает как порог уверенности. У ChatGPT этот порог становится слишком высоким — модель отказывается отвечать даже когда информация есть, но не в топ-позициях внимания (середина контекста, разбросанные факты). Падение: 89% → 72% для фактов, 88% → 68% для логики на максимальной длине. Deepseek и Gemini лучше откалиброваны: падение всего 1-2%, зато галлюцинации снижаются на 5-7%.

Когда применять

Работа с длинными документами → конкретно для извлечения фактов из текстов >50k токенов, анализа транскриптов интервью, обработки больших отчётов. Особенно критично когда информация разбросана по всему тексту (не сконцентрирована в одном месте) и нужна полнота извлечения — все факты, не пропуская середину. НЕ подходит для структурированных данных (таблицы, JSON, код) — там паттерны внимания могут работать иначе. Для очень длинных документов (>500k токенов) лучше использовать RAG (поиск релевантных кусков + анализ), а не чистый длинный контекст.

Мини-рецепт

1. Оцени реальную длину: Если контекст >100k токенов — выбирай Gemini-2.5-flash (до 1М) или Deepseek-v3.2 (до 128к). ChatGPT и Claude стабильны только до ~100k, дальше деградируют.

2. Структурируй промпт (sandwich): Инструкция с форматом вывода → разделитель --- → документ → разделитель --- → повтор ключевых требований. Добавь явное указание: Читай ВЕСЬ документ внимательно, не пропускай информацию из середины.

3. Размести критическое правильно: Для ChatGPT/Claude — ключевая информация в начало или конец контекста (не в середину 20-60%). Для Gemini/Deepseek — позиция не важна.

4. Группируй релевантное: Не разбрасывай факты по всему тексту. Если можешь — собери релевантные куски в один блок. Модели страдают не от длины, а от разреженности информации.

5. Anti-hallucination выборочно: Добавляй Если информации нет — так и скажи. Не выдумывай только если критична верность. Для ChatGPT это −15-20% точности, для Deepseek/Gemini −1-2%. Понимай trade-off.

Примеры

[ПЛОХО] : Вот транскрипт подкаста на 150k токенов. Найди все советы по бизнесу. — факты разбросаны, ChatGPT пропустит середину, нет структуры.
[ХОРОШО] : Задача: Извлечь ВСЕ советы по бизнесу из транскрипта. Критически важно: 1. НЕ ПРОПУСКАЙ советы из середины разговора — читай весь текст 2. Включай конкретные действия, принципы, критику подходов 3. Если совет неявный — извлекай логически Формат: [Таймкод][Тезис] | Цитата: "..." | Контекст: [зачем] --- [транскрипт с таймкодами] --- Ещё раз: извлеки ВСЕ советы, не пропуская середину. Формат строго как выше. — sandwich-структура, явное указание на полноту, визуальные разделители, повтор требований после документа.
Источник: Not All Needles Are Found: How Fact Distribution and Don't Make It Up Prompts Shape Literal Extraction, Logical Inference, and Hallucination Risks in Long-Context LLMs
ArXiv ID: 2601.02023 | Сгенерировано: 2026-01-17 23:32

Проблемы LLM

ПроблемаСутьКак обойти
Провал внимания в середине длинного контекстаВ длинных текстах модель хуже видит информацию из середины. ChatGPT-5-mini проваливается на 50% глубины: точность падает с 100% до 80%. Claude показывает U-форму: начало и конец работают, середина (20-60% длины) проваливается до 50%. Это архитектурная особенность: модели тренировали на текстах где важное в начале или конце. Середина — детали и переходы. Паттерн внимания смещён к краям. Gemini и Deepseek не страдают от этогоРазмещай критическую информацию в начале или конце промпта. Не клади важное в середину. Для ChatGPT и Claude: делай sandwich-структуру — инструкция ДО текста + повтор ключевого ПОСЛЕ. Или используй Gemini/Deepseek для длинных текстов
"Не выдумывай" блокирует правильные ответыПромпт "Don't Make It Up" снижает галлюцинации. Но одновременно роняет точность. ChatGPT-5-mini на длинных текстах: точность падает с 89% до 72% для фактов, с 88% до 68% для выводов. Модель начинает отказываться отвечать даже когда информация есть. Это цена за безопасность (safety tax). Причина: порог уверенности растёт слишком сильно. Модель требует от себя большей уверенности. Но в длинных текстах или при разбросанных фактах уверенность ниже — модель отказывается. Deepseek и Gemini теряют только 1-2% точностиДля ChatGPT и Claude: добавляй "не выдумывай" только если критична верность. Готовься потерять 15-20% правильных ответов. Для Deepseek и Gemini: можно использовать без опаски, потери минимальны. Альтернатива: не пиши "не выдумывай", а проси "если не уверен — скажи прямо, не уверен на X%"
📖 Простыми словами

Not All Needles Are Found: How Fact Distribution and Don't Make It UpPromptsShape Literal Extraction, Logical Inference, and Hallucination Risks in Long-ContextLLMs

arXiv: 2601.02023

Современные нейронки работают с огромными текстами, но их внимание устроено как память золотой рыбки: они отлично помнят, с чего все началось и чем закончилось, но напрочь забывают середину. Это фундаментальный баг механизма внимания (attention). Когда ты скармливаешь модели лонгрид, она буквально размазывает свои когнитивные ресурсы по буквам, и в центре текста этот «слой масла» становится слишком тонким. В итоге информационная плотность падает, и модель начинает тупить там, где нужно не просто найти факт, а связать две мысли воедино.

Это как если бы ты читал детектив на 500 страниц, где убийцу называют в первой главе, улику дают в середине, а арест происходит в конце. Если ты обычная LLM, то к финалу ты помнишь имя преступника и наручники, но в упор не видишь ту самую улику, которая их связывает. Формально ты прочитал всё, но логическая цепочка рассыпалась, потому что середина книги для тебя превратилась в белый шум. Исследование четко показывает: чем сложнее задача — например, не просто вытащить дату, а сделать вывод, — тем быстрее модель «выключается» на экваторе текста.

Цифры подтверждают этот позор: ChatGPT-5-mini стабильно лажает ровно на 50% глубины контекста, теряя 20% точности. У Claude-4.5-haiku ситуация еще ироничнее — у него классическая U-образная кривая: он бодро стартует и финиширует, но в промежутке от 20% до 60% текста его точность падает до жалких 50%. Это буквально подбрасывание монетки. На этом фоне Gemini-2.5-flash и Deepseek-v3.2-chat выглядят как отличники, которые умудряются держать фокус на всей дистанции, не теряя нить повествования.

Этот принцип универсален и касается не только академических тестов. Если ты закидываешь в чат часовой транскрипт подкаста или договор на 40 страниц, помни: самое важное нельзя прятать в центре. Если ключевое условие контракта зарыто на 20-й странице, нейронка его либо проигнорирует, либо начнет галлюцинировать, выдумывая удобный ей ответ. SEO для AI теперь требует иного подхода: хочешь, чтобы модель тебя «поняла» — пихай главные тезисы в начало или дублируй в конце, иначе они просто исчезнут в «черной дыре» контекстного окна.

Короче, не надейся на магию длинного контекста — большинство моделей все еще страдают от эффекта края. Если задача требует логики, а не простого поиска слова, середина текста — это зона смерти. Либо используй топовые модели вроде Gemini или Deepseek, которые научились не терять фокус, либо структурируй данные так, чтобы критически важные факты не болтались в середине. Иначе вместо анализа получишь уверенный бред, потому что модель просто поленилась дотянуться до нужной строчки.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с