3,583 papers
arXiv:2507.23217 95 30 июля 2025 г. FREE

LLM теряется в длинных документах — не потому что глупая, а потому что вы просите её одновременно ориентироваться в структуре и искать конкретный факт.

КЛЮЧЕВАЯ СУТЬ
LLM теряется в длинных документах — не потому что глупая, а потому что вы просите её одновременно ориентироваться в структуре и искать конкретный факт. Это как найти нужную страницу в книге без оглавления: теоретически можно, на практике — мучительно и ненадёжно. Метод DocsRay позволяет точно извлекать информацию из документов любой длины — без дообучения, без кода, прямо в чате. Фишка: сначала заставьте модель построить логическое оглавление документа — выделить смысловые блоки и дать им заголовки. Только потом задавайте вопрос, явно указывая искать через это оглавление. Вместо одного запроса «найди ответ в 50 страницах» — два коротких шага, где каждый требует концентрации на одном.
Адаптировать под запрос

Исследование представляет систему DocsRay, которая значительно улучшает понимание LLM длинных и сложных документов (с текстом, таблицами и графиками). Вместо того чтобы просто "скармливать" модели весь документ, система сначала с помощью самой же LLM создает для него семантическое "псевдооглавление", разбивая текст на логические разделы и давая им заголовки. Затем, при ответе на вопрос пользователя, модель сначала ищет нужный раздел в этом оглавлении, и только потом детально анализирует текст внутри найденного раздела.

Ключевой результат: Иерархический подход "сначала оглавление, потом детали" резко повышает точность и скорость ответов по сравнению с анализом всего документа целиком.

Суть метода DocsRay для практического применения заключается в переходе от одноклеточного промптинга ("Вот тебе 50 страниц, найди ответ") к двухэтапной стратегии "Разделяй и властвуй".

Представьте, что вы просите человека найти факт в огромной книге без оглавления. Он будет вынужден листать ее страницу за страницей, быстро устанет, потеряет концентрацию и, скорее всего, пропустит нужную информацию. LLM ведет себя так же.

Метод DocsRay предлагает сначала помочь LLM создать "карту" документа.

  1. Шаг 1: Создание "Псевдооглавления" (Coarse Search). Вы даете LLM длинный текст и просите не отвечать на вопрос, а сначала выполнить подготовительную работу: проанализировать текст и составить его подробное логическое оглавление или структурированный план. На этом этапе модель выявляет семантические блоки ("Введение", "Методология", "Результаты по продажам в Азии", "Юридические риски" и т.д.), даже если в исходном тексте нет явных заголовков.

  2. Шаг 2: Целевой запрос (Fine Search). Теперь, когда у вас (и у модели в контексте) есть эта структура, вы задаете свой конкретный вопрос, явно указывая модели использовать созданное оглавление для поиска ответа. Например: "Опираясь на созданное оглавление, найди в разделе про Азию точные цифры роста выручки за последний квартал".

Этот подход заставляет модель сначала сориентироваться в общей структуре информации, а затем сфокусировать свое "внимание" на небольшом, релевантном фрагменте текста. Это кардинально снижает когнитивную нагрузку на модель, уменьшает вероятность галлюцинаций и повышает точность извлечения данных.

  • Прямая применимость: Пользователь может легко реализовать этот метод в любом чате (ChatGPT, Claude и т.д.). Для этого нужно разбить взаимодействие на два промпта:

    1. Промпт 1: "Проанализируй следующий текст и создай для него подробное структурированное оглавление с указанием ключевых тем в каждом разделе." [Вставить длинный текст]
    2. Промпт 2 (в том же чате): "Отлично. Теперь, используя созданное оглавление, ответь на мой вопрос: [Ваш вопрос]". Это прямое и эффективное применение выводов исследования без какого-либо кода.
  • Концептуальная ценность: Исследование дает пользователю ключевое понимание: LLM — это не волшебный "черный ящик", а инструмент, который работает лучше, если ему помочь со структурой. Оно наглядно показывает ограничения "плоского" контекста и ценность иерархической обработки информации. Пользователь начинает думать не как проситель, а как менеджер, который ставит задаче четкие, последовательные подзадачи.

  • Потенциал для адаптации: Этот принцип универсален. Его можно адаптировать для анализа чего угодно:

    • Длинные email-переписки: "Сначала составь хронологию и выдели ключевых участников и темы в этой переписке. Затем ответь, кто в итоге был ответственен за проект X."
    • Код: "Сначала опиши архитектуру этого кода, выделив основные классы и их функции. Затем объясни, как работает функция calculate_revenue()."
    • Записи встреч: "Сначала создай саммари встречи с повесткой, списком участников и принятыми решениями. Затем уточни, какой дедлайн был установлен для задачи Y."

Представим, что вы маркетолог и вам нужно быстро проанализировать длинный отчет о рыночных трендах, чтобы подготовить презентацию.

Ты — опытный маркетолог-аналитик. Твоя задача — помочь мне быстро разобраться в большом отчете и извлечь из него ключевую информацию для моей презентации.

Мы будем работать в два этапа.

**### Шаг 1: Создание структуры документа**

Проанализируй текст отчета, который я прикрепил ниже. Твоя задача — создать его подробное структурированное оглавление (псевдо-TOC). Оглавление должно отражать логическую структуру документа. Для каждого пункта оглавления кратко укажи (1-2 предложения) его основное содержание.

**### Текст отчета для анализа:**
[СюДА ВСТАВЛЯЕТСЯ ДЛИННЫЙ ТЕКСТ ОТЧЕТА, НАПРИМЕР, 10-15 СТРАНИЦ]

---
*После того как модель сгенерирует оглавление, вы пишете второй промпт в этом же диалоге:*
---

Отлично, у тебя получилось прекрасное оглавление.

**### Шаг 2: Ответ на вопрос на основе структуры**

Теперь, опираясь на созданную тобой структуру отчета, ответь на следующий вопрос:

**"Какие три основных потребительских тренда среди поколения Z были выделены в отчете в контексте использования социальных сетей для покупок? Опиши каждый тренд и приведи конкретные данные или примеры из текста."**

Ищи ответ в первую очередь в разделах, которые касаются демографического анализа и поведения потребителей.

Этот промпт эффективен, потому что он имитирует методологию DocsRay, используя несколько практических механик:

  1. Декомпозиция задачи: Вместо одного сложного запроса мы даем модели две простые, последовательные задачи. Это снижает вероятность ошибки и "забывания" части инструкций.
  2. Создание "ментальной карты": На Шаге 1 мы заставляем LLM не просто прочитать текст, а активно его обработать и структурировать. Созданное "псевдооглавление" становится для модели надежной "картой" или "индексом" всего документа. Эта структура сохраняется в контексте диалога.
  3. Фокусировка внимания: На Шаге 2 мы явно просим модель использовать эту карту (опираясь на созданную тобой структуру). Это направляет механизм внимания LLM на наиболее релевантные части документа, которые она сама же и выделила. Модель не тратит ресурсы на повторный анализ нерелевантных секций (например, про методологию сбора данных или историю компании), а сразу обращается к нужным разделам.
  4. Снижение когнитивной нагрузки: Модели гораздо проще найти конкретный факт в логически выделенном блоке на 1-2 страницы, чем в "плоском" тексте на 50 страниц. Это напрямую борется с проблемой "потерянного в середине" (lost in the middle) контекста.

Представим, что вы снимаете квартиру и хотите быстро понять ключевые моменты в длинном договоре аренды.

Ты — опытный юрист-консультант. Твоя задача — помочь мне разобраться в договоре аренды, чтобы я не упустил важные детали.

Мы будем работать в два этапа.

**### Шаг 1: Структурирование договора**

Внимательно изучи текст договора аренды ниже. Твоя задача — составить его четкое и понятное оглавление, разбив его на ключевые разделы (например, "Предмет договора", "Права и обязанности сторон", "Финансовые условия", "Ответственность", "Домашние животные" и т.д.).

**### Текст договора для анализа:**
[СЮДА ВСТАВЛЯЕТСЯ ПОЛНЫЙ ТЕКСТ ЮРИДИЧЕСКОГО ДОГОВОРА]

---
*После того как модель сгенерирует структуру, вы пишете второй промпт:*
---

Спасибо, структура понятна.

**### Шаг 2: Ответ на конкретный вопрос**

Теперь, используя созданное тобой оглавление, найди и объясни простыми словами все пункты, которые касаются следующих моментов:

1.  **Досрочное расторжение:** При каких условиях я могу расторгнуть договор раньше срока и какие штрафы за это предусмотрены?
2.  **Ремонт:** Кто несет ответственность за мелкий (замена лампочки) и крупный (поломка холодильника) ремонт в квартире?

Ссылайся на конкретные пункты договора, которые ты найдешь.

Этот пример работает по тому же принципу иерархической обработки, что и предыдущий, но в юридическом контексте его эффективность особенно заметна:

  1. Семантическая кластеризация: Юридические документы часто написаны сложным языком, и связанные по смыслу обязательства могут быть разбросаны по разным разделам. Шаг 1 заставляет LLM сгруппировать все эти разрозненные пункты в логические блоки (например, все про деньги — в "Финансовые условия"). Это создает семантически целостную структуру.
  2. Точное наведение: Когда на Шаге 2 задается вопрос про ремонт, модель, благодаря созданной на Шаге 1 "карте", уже знает, что нужно искать информацию в разделах "Права и обязанности арендатора" и "Ответственность сторон", а не в "Предмете договора". Это предотвращает неполные или неточные ответы.
  3. Снижение риска галлюцинаций: Работа с юридическими документами требует высочайшей точности. Заставляя модель сначала создать структуру, а потом искать ответ в конкретном, небольшом блоке этой структуры, мы минимизируем риск того, что она "додумает" или неверно интерпретирует условие, смешав его с другим. Модель оперирует фактами из сфокусированного контекста, что повышает надежность ответа.
📌

Основные критерии оценки

  • A. Релевантность техникам промтинга: Да. Предлагает мета-стратегию структурирования контекста и иерархического запроса, что является продвинутой техникой промптинга.
  • B. Улучшение качества диалоговых ответов: Да. Напрямую нацелено на повышение точности и релевантности ответов при работе с большими объемами информации (длинными документами).
  • C. Прямая практическая применимость: Да. Хотя пользователь не может создать всю систему DocsRay, он может легко воспроизвести ее ключевой принцип (создание псевдо-оглавления и последующий запрос) в обычном чате с LLM.
  • D. Концептуальная ценность: Очень высокая. Исследование блестяще иллюстрирует, почему LLM плохо справляются с "плоским" длинным контекстом и как структурирование информации помогает модели "думать" более эффективно.
  • E. Новая полезная практика (кластеры):
    • Кластер 1 (Техники формулирования): Да, это техника декомпозиции задачи.
    • Кластер 3 (Оптимизация структуры): Да, это суть исследования — семантическая структуризация контекста.
    • Кластер 6 (Контекст и память): Да, это продвинутая стратегия работы с длинным контекстом, альтернатива простому RAG.
  • Чек-лист практичности (+15 баллов): Да. Исследование предлагает способ структурировать сложные запросы к большим текстам, раскрывает неочевидное поведение LLM (деградация на "плоском" контексте) и предлагает метод, который кардинально улучшает точность и надежность ответов.
📌

Цифровая оценка полезности

Аргументы за высокую оценку (95): Это исследование — настоящий бриллиант для продвинутых пользователей. Оно решает одну из самых частых и болезненных проблем: как заставить LLM точно отвечать на вопросы по длинному документу (PDF-отчет, научная статья, юридический договор), не выдумывая факты и не теряя детали. Предложенный метод "сначала создай оглавление, потом ищи ответ" интуитивно понятен и может быть легко адаптирован для ручного применения в любом чат-боте. Концептуальная ценность огромна, так как она учит пользователя не "сваливать" на LLM сырые данные, а помогать ей, предварительно структурируя информацию. Это фундаментальный сдвиг от простого промптинга к стратегическому взаимодействию с моделью.

Контраргументы (почему не 100?): * Требует усилий: В отличие от простой команды "Думай шаг за шагом", этот метод требует от пользователя двухэтапного взаимодействия с моделью (сначала запрос на оглавление, потом основной вопрос). Это требует большего вовлечения и понимания процесса. * Непрямое применение: Пользователь не может построить саму систему DocsRay с ее dual-embeddings и автоматизированным пайплайном. Он лишь имитирует ее логику вручную, что может быть менее эффективно, чем описанная в статье система.

Контраргументы (почему не ниже 80?): * Решение реальной проблемы: Низкая точность ответов по длинным документам — одна из главных претензий к современным LLM. Это исследование дает рабочий и понятный инструмент для решения этой проблемы. * Универсальность принципа: Идея "структурируй, потом запрашивай" применима не только к документам, но и к анализу длинных переписок, кода, логов — к любому большому объему неструктурированной информации.


📋 Дайджест исследования

Ключевая суть

LLM теряется в длинных документах — не потому что глупая, а потому что вы просите её одновременно ориентироваться в структуре и искать конкретный факт. Это как найти нужную страницу в книге без оглавления: теоретически можно, на практике — мучительно и ненадёжно. Метод DocsRay позволяет точно извлекать информацию из документов любой длины — без дообучения, без кода, прямо в чате. Фишка: сначала заставьте модель построить логическое оглавление документа — выделить смысловые блоки и дать им заголовки. Только потом задавайте вопрос, явно указывая искать через это оглавление. Вместо одного запроса «найди ответ в 50 страницах» — два коротких шага, где каждый требует концентрации на одном.

Принцип работы

Два шага вместо одного монстр-запроса. Шаг 1 — грубый поиск: модель строит карту документа. Не ищет факты — только выделяет структуру и называет разделы. Шаг 2 — точный поиск: модель смотрит в созданное оглавление, находит нужный раздел и работает только с ним. Карту строит та же модель, которая потом по ней ориентируется — никаких внешних инструментов, никакого предварительного обучения. Она сама себе создаёт навигатор. Принцип «разделяй и властвуй»: сначала широкий взгляд, потом глубокое погружение в нужное место.

Почему работает

У LLM есть известная слабость — «потери в середине» (lost in the middle): информация из середины длинного документа буквально выпадает из внимания. Модель лучше помнит начало и конец, а всё что посередине — размывается. Иерархический подход режет эту проблему у корня: вместо 50 страниц контекста модель работает с 2-3 страницами нужного раздела. Меньше шума — меньше выдуманных деталей, точнее ответ. Плюс, разделение на два шага снижает нагрузку: «составь структуру» и «найди факт» — это разные задачи, и делать их одновременно сложнее, чем по очереди.

Когда применять

Анализ любых длинных документов — особенно когда нужен конкретный факт, а не общий пересказ: - Юридические договоры → найти пункт про штрафы, права сторон, условия расторжения - Отчёты и исследования → вытащить данные по конкретному рынку или сегменту - Технические документы → разобраться как работает одна конкретная функция или модуль - Длинные переписки → восстановить хронологию и понять кто за что отвечал НЕ подходит для коротких текстов (1-3 страницы) — создание оглавления там лишний шаг. Проще спросить напрямую.

Мини-рецепт

1. Дай задачу на структуру, не на ответ: вставь документ и попроси составить подробное оглавление с кратким описанием каждого раздела (1-2 предложения). Укажи роль: <роль>аналитик-структуратор. Никаких вопросов в этом же сообщении — только карта.
2. Дождись оглавления: пусть модель сначала разберётся в структуре. Не торопись переходить к вопросу.
3. Задай точный вопрос со ссылкой на оглавление: «Используя созданное тобой оглавление, найди...» — это ключевая фраза. Она направляет модель к нужному разделу вместо повторного перебора всего текста.
4. Добавь подсказку о разделе, если знаешь: «Ищи в разделах про финансовые условия и ответственность сторон» — это дополнительно сужает поиск и повышает точность.

Примеры

[ПЛОХО] : Вот договор аренды на 15 страниц. Какие штрафы за досрочное расторжение и кто платит за ремонт?
[ХОРОШО] : Шаг 1: Ты — юрист-консультант. Изучи текст договора аренды ниже и составь его структурированное оглавление. Раздели на логические блоки, для каждого напиши 1-2 предложения о его содержании. [текст договора] Шаг 2: Отлично. Теперь, используя созданное тобой оглавление, найди и объясни простыми словами: 1) При каких условиях я могу расторгнуть договор досрочно и какие штрафы? 2) Кто отвечает за мелкий и крупный ремонт? Ссылайся на конкретные пункты.
Источник: Zero-Shot Document Understanding using Pseudo Table of Contents-Guided Retrieval-Augmented Generation
ArXiv ID: 2507.23217 | Сгенерировано: 2026-03-02 18:03

Проблемы LLM

ПроблемаСутьКак обойти
Модель теряет точность в длинных плоских текстахДаёшь модели большой документ и задаёшь вопрос. Модель "читает" всё подряд. Ответ на вопрос может быть в любом месте. Чем дальше от начала и конца — тем выше риск пропустить нужный фрагмент или перепутать данные из разных разделов. Это работает против тебя при анализе договоров, отчётов, длинных статейНе давай документ и вопрос одновременно. Сначала попроси модель составить структуру документа. Потом — задай вопрос, явно сославшись на эту структуру

Методы

МетодСуть
Два запроса вместо одного: сначала структура, потом вопросЗапрос 1: "Проанализируй текст ниже. Составь подробное оглавление: выдели логические разделы и кратко опиши содержание каждого. [длинный текст]" Запрос 2 в том же диалоге: "Используя созданное оглавление, найди ответ на вопрос: [вопрос]. Ищи в разделах про [тема]." Почему работает: Первый запрос создаёт "карту" документа прямо в контексте диалога. Второй запрос направляет внимание модели на нужный раздел — она работает с маленьким, точным фрагментом, а не со всем текстом сразу. Когда применять: документ длиннее 3–5 страниц, вопрос конкретный. Когда не нужно: короткий текст, нужно общее впечатление о документе
📖 Простыми словами

Понимание документов в режиме нулевого выстрела с использованием генерации с дополненным поиском, управляемой псевдо-оглавлением

arXiv: 2507.23217

Суть в том, что современные AI-ассистенты часто тупят при работе с огромными документами не потому, что они глупые, а потому, что они теряются в контексте. Когда ты скармливаешь модели отчет на сто страниц, она выхватывает куски текста наугад, пропуская самое важное. Метод DocsRay меняет правила игры: вместо того чтобы просто «читать» файл, система сначала строит псевдо-оглавление (Pseudo-ToC). Это создает жесткий каркас документа, превращая хаотичную гору текста в понятную карту, по которой AI ориентируется без промахов.

Это как если бы ты зашел в гигантскую библиотеку без указателей и пытался найти одну цитату — шансы около нуля. Но с этим методом у тебя в руках оказывается подробный путеводитель, где расписано содержание каждого стеллажа и полки. Ты не бегаешь между рядами, а сразу идешь к нужному разделу. Структурированный поиск заменяет слепое тыканье в текст, и модель перестает гадать, выдавая четкие ответы вместо «галлюцинаций».

В основе лежат две мощные штуки: иерархическая навигация и контекстное извлечение. Сначала AI создает детальную структуру документа, даже если в оригинале ее не было, а потом использует этот скелет для поиска ответов. Если маркетологу нужно вытащить тренды из отчета на 200 страниц, система не просто ищет слово 'тренды', она понимает, в каком логическом блоке они находятся. Это позволяет вытягивать релевантные данные с точностью 90%, игнорируя мусор и вводные слова, которые обычно сбивают алгоритмы с толку.

Хотя метод тестировали на сложных документах, принцип универсален. Это работает для юридических договоров, технических мануалов и даже длинных переписок в корпоративных мессенджерах. Везде, где объем информации превышает «оперативную память» модели, псевдо-оглавление спасает ситуацию. Ты можешь применять эту логику даже в обычных промптах: заставь AI сначала составить план текста, а уже потом отвечать на вопросы. GEO для документов — это новая реальность, где структура важнее объема.

Короче: хватит надеяться, что нейронка «сама разберется» в твоем лонгриде. Без четкой навигации даже самая умная модель превращается в растерянного стажера. Используй подход DocsRay, создавай структуру перед анализом, и ты получишь глубокие инсайты вместо поверхностной фигни. Кто научится управлять вниманием AI через структуру, тот перестанет тратить часы на вычитку отчетов вручную.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с