TL;DR
Исследование проверяет, сохраняется ли эффект "потерянного в середине" — когда LLM хуже извлекают информацию из середины длинного документа. В 2023 году это была серьёзная проблема: модели отлично находили факты в начале и конце текста, но "слепли" к середине. Gemini 2.5 Flash тестировали на контексте близком к лимиту в 1 миллион токенов.
Главная находка: эффект исчез. Модель нашла все 26 фактов с точностью 100% независимо от того, где в документе они находились — в начале, середине или конце. Факты были "иголками" — выдуманными диалогами из сериала Friends, вставленными в реальный транскрипт на 647 тысяч слов.
Практический вывод: современные LLM с большим контекстным окном можно использовать для поиска конкретных фактов в длинных документах без страха, что модель "потеряет" информацию в середине. Но это работает только для простых однофактовых вопросов — сложные задачи с несколькими фактами или рассуждениями всё ещё проблематичны.
Схема эксперимента
1. Берём длинный текст (транскрипт Friends, ~650k слов)
2. Вставляем 20 выдуманных фактов равномерно по тексту
3. Задаём 26 вопросов по этим фактам
4. Проверяем: зависит ли точность от позиции факта?
Результат: НЕТ зависимости. 100% точность на всех позициях.
Пример применения
Задача: У тебя договор аренды на 50 страниц. Нужно найти конкретный пункт про штрафы за досрочное расторжение.
Что делать:
Загрузи весь договор в Claude/ChatGPT и спроси:
"Какой штраф предусмотрен за досрочное расторжение договора арендатором? Процитируй точную формулировку из документа."
Результат: Модель найдёт нужный пункт независимо от того, на какой странице он находится — хоть на 3-й, хоть на 47-й. Раньше факты в середине длинных документов часто "терялись".
Почему это работает (теперь)
Старая проблема: Архитектура трансформеров создавала "U-образную кривую" внимания. Модель хорошо "видела" начало (primacy bias) и конец (recency bias) контекста, но середина размывалась. Причина — в том как работают позиционные кодировки: чем дальше токены друг от друга, тем слабее между ними связь.
Что изменилось: Новые модели (Gemini 2.5, Claude Sonnet 4, GPT-4.1) используют улучшенные позиционные кодировки и специально тренируются на задачах "needle-in-a-haystack". Google явно оптимизировал Gemini под эту задачу — и это сработало.
Но есть нюанс: Исследование проверяло только простые однофактовые вопросы. Более сложные сценарии — несколько связанных фактов, рассуждения, мультимодальность — всё ещё проблематичны. Эффект LITM не исчез полностью, он "эволюционировал" в более тонкие формы.
Практические рекомендации
✅ Когда можно доверять длинному контексту:
- Найти конкретный факт в документе
- Ответить на вопрос типа "Какая дата/сумма/имя указаны в пункте X?"
- Извлечь цитату по теме
⚠️ Когда нужна осторожность:
- Несколько связанных фактов из разных частей документа
- Сравнение информации из начала и середины текста
- Задачи, требующие рассуждений на основе нескольких источников
- Мультимодальный контекст (текст + изображения)
💡 Совет: Для сложных задач с длинными документами всё ещё лучше использовать RAG (Retrieval-Augmented Generation) — сначала найти релевантные фрагменты, потом дать их модели. Но для простого поиска фактов — просто загружай весь документ.
Ограничения
⚠️ Только простые вопросы: Тестировали только прямые factoid-вопросы ("Какой любимый вкус мороженого у Моники?"). Перефразированные, двусмысленные или требующие рассуждений вопросы не проверялись.
⚠️ Только один факт: Не тестировали конкурирующие или противоречивые факты. Если в документе два разных ответа на один вопрос — поведение неизвестно.
⚠️ Только Gemini 2.5 Flash: Claude и GPT не протестировали из-за ограничений по бюджету и доступу к полному контекстному окну.
⚠️ Только текст: Аудио, видео и смешанные форматы не проверялись.
Как исследовали
Исследователь взял полный транскрипт сериала Friends — 924 тысячи слов, что превышает лимит контекста Gemini. Обрезал до 70% (647k слов, ~92% от лимита) и вставил 20 выдуманных диалогов равномерно по тексту. Например: "Моника говорит Фиби, что её любимое мороженое — лавандово-медовое".
Каждый факт проверили на уникальность: без вставки модель отвечала "в сериале это не упоминалось". Значит, правильный ответ мог прийти только из найденной "иголки".
Результат удивителен своей однозначностью: 26 из 26 вопросов правильно на всех размерах контекста от 10% до 70% лимита. Никакой U-образной кривой, никакого провала в середине. Эффект LITM, задокументированный в 2023 году, полностью отсутствует в Gemini 2.5 Flash для простых factoid-задач.
Ресурсы
Исследование: "Retrieval Quality at Context Limit" — Max McKinnon, Google LLC
Ключевые отсылки:
- Liu et al., 2023 — "Lost in the Middle" — оригинальное исследование эффекта LITM
- Gemini 1.5 Technical Report — документация needle-in-a-haystack тестов Google
- LangChain — Multi-needle in a haystack — о более сложных формах проблемы
