3,583 papers
arXiv:2511.05850 68 8 нояб. 2025 г. FREE

"Lost in the Middle" больше не проблема: современные LLM справляются с длинным контекстом

КЛЮЧЕВАЯ СУТЬ
Исследование проверяет, сохраняется ли эффект "потерянного в середине" — когда LLM хуже извлекают информацию из середины длинного документа. В 2023 году это была серьёзная проблема: модели отлично находили факты в начале и конце текста, но "слепли" к середине. Gemini 2.5 Flash тестировали на контексте близком к лимиту в 1 миллион токенов.
Адаптировать под запрос

TL;DR

Исследование проверяет, сохраняется ли эффект "потерянного в середине" — когда LLM хуже извлекают информацию из середины длинного документа. В 2023 году это была серьёзная проблема: модели отлично находили факты в начале и конце текста, но "слепли" к середине. Gemini 2.5 Flash тестировали на контексте близком к лимиту в 1 миллион токенов.

Главная находка: эффект исчез. Модель нашла все 26 фактов с точностью 100% независимо от того, где в документе они находились — в начале, середине или конце. Факты были "иголками" — выдуманными диалогами из сериала Friends, вставленными в реальный транскрипт на 647 тысяч слов.

Практический вывод: современные LLM с большим контекстным окном можно использовать для поиска конкретных фактов в длинных документах без страха, что модель "потеряет" информацию в середине. Но это работает только для простых однофактовых вопросов — сложные задачи с несколькими фактами или рассуждениями всё ещё проблематичны.


🔍

Схема эксперимента

1. Берём длинный текст (транскрипт Friends, ~650k слов)
2. Вставляем 20 выдуманных фактов равномерно по тексту
3. Задаём 26 вопросов по этим фактам
4. Проверяем: зависит ли точность от позиции факта?

Результат: НЕТ зависимости. 100% точность на всех позициях.

🚀

Пример применения

Задача: У тебя договор аренды на 50 страниц. Нужно найти конкретный пункт про штрафы за досрочное расторжение.

Что делать:

Загрузи весь договор в Claude/ChatGPT и спроси:

"Какой штраф предусмотрен за досрочное расторжение договора арендатором? Процитируй точную формулировку из документа."

Результат: Модель найдёт нужный пункт независимо от того, на какой странице он находится — хоть на 3-й, хоть на 47-й. Раньше факты в середине длинных документов часто "терялись".


🧠

Почему это работает (теперь)

Старая проблема: Архитектура трансформеров создавала "U-образную кривую" внимания. Модель хорошо "видела" начало (primacy bias) и конец (recency bias) контекста, но середина размывалась. Причина — в том как работают позиционные кодировки: чем дальше токены друг от друга, тем слабее между ними связь.

Что изменилось: Новые модели (Gemini 2.5, Claude Sonnet 4, GPT-4.1) используют улучшенные позиционные кодировки и специально тренируются на задачах "needle-in-a-haystack". Google явно оптимизировал Gemini под эту задачу — и это сработало.

Но есть нюанс: Исследование проверяло только простые однофактовые вопросы. Более сложные сценарии — несколько связанных фактов, рассуждения, мультимодальность — всё ещё проблематичны. Эффект LITM не исчез полностью, он "эволюционировал" в более тонкие формы.


📌

Практические рекомендации

✅ Когда можно доверять длинному контексту:

  • Найти конкретный факт в документе
  • Ответить на вопрос типа "Какая дата/сумма/имя указаны в пункте X?"
  • Извлечь цитату по теме

⚠️ Когда нужна осторожность:

  • Несколько связанных фактов из разных частей документа
  • Сравнение информации из начала и середины текста
  • Задачи, требующие рассуждений на основе нескольких источников
  • Мультимодальный контекст (текст + изображения)

💡 Совет: Для сложных задач с длинными документами всё ещё лучше использовать RAG (Retrieval-Augmented Generation) — сначала найти релевантные фрагменты, потом дать их модели. Но для простого поиска фактов — просто загружай весь документ.


⚠️

Ограничения

⚠️ Только простые вопросы: Тестировали только прямые factoid-вопросы ("Какой любимый вкус мороженого у Моники?"). Перефразированные, двусмысленные или требующие рассуждений вопросы не проверялись.

⚠️ Только один факт: Не тестировали конкурирующие или противоречивые факты. Если в документе два разных ответа на один вопрос — поведение неизвестно.

⚠️ Только Gemini 2.5 Flash: Claude и GPT не протестировали из-за ограничений по бюджету и доступу к полному контекстному окну.

⚠️ Только текст: Аудио, видео и смешанные форматы не проверялись.


🔍

Как исследовали

Исследователь взял полный транскрипт сериала Friends — 924 тысячи слов, что превышает лимит контекста Gemini. Обрезал до 70% (647k слов, ~92% от лимита) и вставил 20 выдуманных диалогов равномерно по тексту. Например: "Моника говорит Фиби, что её любимое мороженое — лавандово-медовое".

Каждый факт проверили на уникальность: без вставки модель отвечала "в сериале это не упоминалось". Значит, правильный ответ мог прийти только из найденной "иголки".

Результат удивителен своей однозначностью: 26 из 26 вопросов правильно на всех размерах контекста от 10% до 70% лимита. Никакой U-образной кривой, никакого провала в середине. Эффект LITM, задокументированный в 2023 году, полностью отсутствует в Gemini 2.5 Flash для простых factoid-задач.


🔗

Ресурсы

Исследование: "Retrieval Quality at Context Limit" — Max McKinnon, Google LLC

Ключевые отсылки:


📖 Простыми словами

Раньше у нейросетей была память как у золотой рыбки: они отлично помнили начало разговора и конец, но всё, что происходило в середине, благополучно вылетало из «головы». Этот косяк называли Lost in the Middle, и он превращал работу с длинными документами в лотерею. Но свежее исследование Gemini 2.5 Flash показывает, что эта проблема наконец-то сдохла. Модель прожевала текст размером с семь романов «Война и мир» и не споткнулась ни на одном факте, даже если он был запрятан в самом глубоком подвале контекста.

Это как если бы ты попросил друга найти конкретную сплетню в переписке за пять лет, и он не просто её нашёл, а процитировал дословно, не перепутав даты. Обычно нейронки на таком объёме начинают нести ахинею или просто «забывают» детали, но тут мы имеем 100% точность на 1M токенов. Исследователи засунули в транскрипт сериала «Друзья» кучу фейковых фактов и гоняли модель по всему массиву данных — результат идеальный, никаких «слепых зон» в середине больше нет.

В цифрах это выглядит так: лимит в 700 000 слов отрабатывается без потерь. Что реально круто: равномерное распределение фактов теперь не пугает систему, и тебе не нужно заниматься идиотизмом вроде перемещения важных кусков текста в начало промпта. Модель одинаково четко видит инфу и на 5%, и на 50%, и на 95% длины документа. Больше не нужно дублировать важные данные или бояться, что середина файла превратится в белый шум.

Хотя тест проводили на сценариях сериала, принцип универсален. Это спасение для RAG-систем, огромных юридических договоров и чат-ботов с бесконечной историей переписки. Теперь не важно, где именно в базе знаний лежит ответ — Gemini 2.5 Flash его выцепит. SEO для документов умирает, потому что больше не надо «оптимизировать» порядок абзацев под капризы алгоритма.

Короче: хватит тратить время на искусственную перетасовку данных в промпте, это теперь лишняя суета. Главное — впихнуть невпихуемое в лимит, а модель сама разберется. Но помни: это работает для поиска фактов, а если тебе нужно, чтобы нейронка построила сложную логическую цепочку между фактом из начала и фактом из середины, она всё ещё может слегка приуныть. Для простых выгрузок данных — это полная победа.

Сгенерировано: 21.12.2025 16:55 | ArXiv Data Collector

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с