3,583 papers
arXiv:2505.15291 95 1 мая 2025 г. FREE

Галлюцинации на Последнем этапе Генерации Долгих Ответов Исследование кейса по Резюмированию Долгих Документов

КЛЮЧЕВАЯ СУТЬ
LLM склонны к ГАЛЛЮЦИНАЦИЯМ преимущественно в конце длинных ответов из-за смещения внимания с исходного документа на уже сгенерированный текст. Чем длиннее ответ, тем выше риск выдуманных фактов в финале. Решение: разбивай сложные задачи на короткие этапы с высокой точностью, затем синтезируй результат.
Адаптировать под запрос
📌

1. Ключевые аспекты исследования:

Исследование эмпирически доказывает, что при генерации длинных ответов (например, подробных саммари) языковые модели склонны допускать фактические ошибки и галлюцинации преимущественно вконцесгенерированного текста. Этот феномен, названный "Hallucinate at the Last", усиливается с увеличением длины ответа. Причиной является механизм внимания: по мере генерации модель начинает больше "смотреть" на уже написанный ею текст, а не на исходный документ, теряя связь с первоисточником.

Ключевой результат: Чем длиннее ответ генерирует модель, тем выше вероятность появления выдуманных фактов в его заключительной части.

🔬

2. Объяснение всей сути метода:

Суть исследования заключается в выявлении и объяснении поведенческой слабости LLM: их неспособности сохранять высокую фактическую точность на протяжении всей генерации длинного текста.

Основной вывод: Модели "устают". В начале генерации они строго придерживаются исходного документа. Но по мере написания ответа контекстное окно заполняется не только исходным текстом, но и уже сгенерированными предложениями. Механизм внимания начинает смещаться в сторону этого нового, "внутреннего" контекста. В результате модель начинает развивать идеи, которые она сама только что написала, вместо того чтобы возвращаться к фактам из первоисточника. Это приводит к постепенному "дрейфу" от фактов к вымыслу, который достигает пика в конце ответа.

Практическая методика, вытекающая из исследования:

  1. "Презумпция виновности конца": Относитесь к последним 20-30% любого длинного ответа LLM с повышенным скепсисом. Именно там, скорее всего, скрываются неточности и "галлюцинации". Это зона, требующая обязательной проверки фактов.
  2. "Разбей и властвуй" (Chunk & Synthesize): Для критически важных задач, требующих длинного и точного ответа (например, анализ документа на 20 страниц), не запрашивайте результат одним промптом. Вместо этого:
    • Шаг 1 (Разбиение): Разделите исходный длинный текст на логические части (чанки).
    • Шаг 2 (Короткая генерация): Попросите модель сделать краткую и точную выжимку из каждой части по отдельности. Короткие ответы имеют высокую фактическую точность.
    • Шаг 3 (Синтез): Соберите все полученные точные выжимки и в новом промпте попросите модель объединить их в единый, связный отчет. На этом этапе модель работает уже не с огромным первоисточником, а с коротким набором проверенных фактов, что резко снижает риск галлюцинаций.
📌

3. Анализ практической применимости:

*Прямая применимость:

* **Для всех пользователей:** Немедленно применимо как правило "безопасности". При получении длинного отчета, статьи или анализа от LLM, нужно в первую очередь проверять факты, цифры и утверждения в последней части текста.
* **Для продвинутых пользователей:** Можно напрямую использовать метод "Разбей и властвуй" для получения надежных саммари из больших документов, статей или отчетов, реализуя его через серию последовательных запросов в чате.
  • Концептуальная ценность:

    • Исследование дает важнейшую концепцию: "Внимание LLM — это иссякающий и смещающийся ресурс". Пользователь начинает понимать, что модель не "помнит" весь контекст одинаково хорошо на протяжении всей генерации. Это помогает интуитивно предсказывать, где могут возникнуть проблемы, и не доверять LLM слепо.
  • Потенциал для адаптации:

    • Принцип декомпозиции можно адаптировать для любых сложных задач. Например, вместо "Напиши мне бизнес-план" (длинная генерация), можно разбить задачу: "1. Проанализируй целевую аудиторию", "2. Опиши конкурентов", "3. Предложи маркетинговые каналы", а затем "4. Собери все это в единый документ". Каждый шаг — это короткая генерация с низким риском галлюцинаций.

🚀

4. Практически пример применения:

Представим, что вам нужно составить коммерческое предложение для клиента на основе длинного внутреннего брифа (описание проекта, цели, бюджет, технические требования).

Ты — опытный менеджер по продажам. Твоя задача — подготовить основу для коммерческого предложения на основе нашего внутреннего брифа.
Чтобы избежать ошибок и неточностей, мы будем работать в 2 этапа.

**ЭТАП 1: Извлечение ключевых фактов**

Проанализируй текст брифа ниже и СТРОГО на его основе, без домыслов, извлеки следующую информацию в виде коротких списков.

**Бриф:**
<Здесь вставляется очень длинный текст брифа на несколько страниц: описание компании клиента, история взаимодействия, цели нового проекта "Альфа", технические требования к платформе, ограничения по бюджету в 2 млн, желаемые сроки - 6 месяцев, упоминание их главного конкурента "Бета" и т.д.>

**Твоя задача на этом этапе — только извлечь факты:**
1. **Цели проекта "Альфа":** (списком)
2. **Ключевые технические требования:** (списком)
3. **Бюджет и сроки:** (одной строкой)

## После получения ответа от LLM, пользователь проверяет эти короткие, точные факты. Затем переходит к следующему промпту.

**ЭТАП 2: Синтез коммерческого предложения**

Отлично, факты верны. Теперь, используя ТОЛЬКО информацию, которую ты извлек на Этапе 1, напиши черновик вовлекающего и убедительного коммерческого предложения.

**Ключевые факты для использования:**
- **Цели:** <вставить проверенный список целей с этапа 1>
- **Требования:** <вставить проверенный список требований с этапа 1>
- **Бюджет и сроки:** <вставить проверенные данные с этапа 1>

**Структура коммерческого предложения:**
1. **Введение:** Кратко покажи, что мы понимаем цели проекта "Альфа".
2. **Наше решение:** Опиши, как наши услуги отвечают их техническим требованиям.
3. **Условия:** Аккуратно впиши информацию о бюджете и сроках.
4. **Заключение:** Призыв к действию (обсудить детали на встрече).

🧠

5. Почему это работает:

Этот промпт напрямую использует методологию, предложенную в исследовании, для митигации феномена "Hallucinate at the Last".

  1. Декомпозиция задачи: Вместо одного большого запроса "Напиши КП по брифу", мы разбиваем его на два: "Извлеки факты" и "Напиши текст на основе фактов".
  2. Короткая генерация для точности: Первый этап — это серия коротких генераций (извлечение фактов). Как показывает исследование, на коротких дистанциях LLM сохраняет высокую точность и не галлюцинирует. Мы получаем надежный, проверенный "фундамент".
  3. Снижение когнитивной нагрузки на LLM: На втором этапе модели не нужно держать в "памяти" весь длинный бриф. Она работает с коротким, структурированным набором данных, который мы ей предоставили. Это предотвращает "смещение внимания" и минимизирует риск того, что в конце коммерческого предложения она "придумает" несуществующую фичу или перепутает бюджет.

📌

6. Другой пример практического применения

Задача: Спланировать детальный маршрут 7-дневного путешествия по Италии для семьи с детьми на основе длинного текста с их предпочтениями.

Ты — эксперт по путешествиям по Италии. Помоги мне спланировать поездку для семьи с двумя детьми (7 и 12 лет).
Действуем в два шага, чтобы план получился точным и интересным.

**ШАГ 1: Анализ предпочтений и подбор вариантов**

Вот наши пожелания в виде сплошного текста:
<Здесь вставляется длинный абзац: "Мы прилетаем в Рим, хотим посмотреть Колизей, но не стоять в очередях. Дети любят пиццу и мороженое, поэтому нужно много аутентичных мест. Муж увлекается историей Ренессанса, так что Флоренция обязательна. Я хочу один день на шоппинг. Бюджет на отели - до 150 евро за ночь. Не любим переезжать каждый день, лучше по 3 дня в одном городе. Машину брать не хотим, будем пользоваться поездами. Дети не выдержат больше одного музея в день. Важно, чтобы были парки или места для отдыха.">

**Твоя задача:** На основе этих предпочтений, предложи короткие списки вариантов. Не составляй пока маршрут.
1. **Города для посещения:** (2-3 города)
2. **Развлечения для детей в Риме:** (3-4 варианта, кроме Колизея)
3. **Места для мужа во Флоренции:** (2-3 ключевых музея/галереи)
4. **Варианты для шоппинга:** (1-2 города или улицы)

## Пользователь получает короткие списки и может их скорректировать. Затем...

**ШАГ 2: Составление итогового маршрута**

Отлично, варианты мне нравятся. Теперь, пожалуйста, составь детальный 7-дневный маршрут, используя эти утвержденные пункты.

**Данные для маршрута:**
- **Города:** Рим (4 дня), Флоренция (3 дня).
- **Активности в Риме:** Колизей (билеты онлайн), Музей Леонардо да Винчи, парк Вилла Боргезе, мастер-класс по приготовлению пиццы.
- **Активности во Флоренции:** Галерея Уффици, Сады Боболи, шоппинг на Via de' Tornabuoni.
- **Прочее:** Переезд между городами на поезде.

**Задача:** Распиши маршрут по дням, логично группируя активности по местоположению и учитывая, что в день не больше одного музея.

🧠

7. Объяснение механизма почему этот пример работает.

Этот пример работает по тому же принципу "Chunk & Synthesize", что и предыдущий, эффективно борясь с "усталостью" модели.

  1. Изоляция фактов от генерации: На первом шаге модель решает простую задачу извлечения и категоризации фактов из длинного, неструктурированного текста. Генерация коротких списков — это операция с низкой вероятностью галлюцинаций.
  2. Верификация пользователем: Пользователь получает "строительные блоки" для своего путешествия и может их легко проверить или изменить, не перечитывая весь ответ.
  3. Фокусированная генерация: На втором шаге основная задача LLM — не вспомнить все детали изначальных предпочтений, а решить логистическую задачу: оптимально распределить уже утвержденные активности по дням. Это задача на структурирование и планирование, а не на извлечение из длинного контекста, что резко повышает точность и релевантность финального, длинного ответа (маршрута). Модель не "забудет" про любовь детей к пицце к седьмому дню планирования, потому что эта информация уже "запечена" в виде конкретной активности.

📌

Основные критерии оценки

  • Предварительный фильтр: Исследование полностью сфокусировано на генерации и анализе текстового контента (суммаризация). Проходит фильтр.
  • A. Релевантность техникам промтинга: Высокая. Исследование выявляет фундаментальную поведенческую закономерность LLM и тестирует структурный подход к промптингу (chunking, "разбей и властвуй"), который можно применить на практике.
  • B. Улучшение качества диалоговых ответов: Очень высокое. Понимание "галлюцинаций в конце" напрямую влияет на доверие к длинным ответам и помогает пользователю верифицировать информацию, повышая итоговую точность.
  • C. Прямая практическая применимость: Высокая. Основной вывод — это знание, которое можно применить немедленно без каких-либо инструментов. Рекомендованный метод (BOOOOKSCORE) можно реализовать вручную, разбивая задачу на последовательные промпты.
  • D. Концептуальная ценность: Очень высокая. Исследование даёт пользователю простую и мощную ментальную модель: "Внимание LLM иссякает". Это объясняет, почему модели "устают" и начинают выдумывать факты в длинных ответах, отвлекаясь от исходного контекста.
  • E. Новая полезная практика (кластеризация):
    • Кластер 2 (Поведенческие закономерности LLM): Главный вклад работы — выявление феномена "Hallucinate at the Last".
    • Кластер 6 (Контекст и память): Предложенный метод решения (BOOOOKSCORE) является, по сути, пользовательской RAG-стратегией (разбиение на чанки и последующий синтез), что напрямую относится к работе с длинным контекстом.
    • Кластер 7 (Надежность и стабильность): Вся работа посвящена повышению фактической точности (faithfulness) и снижению галлюцинаций.
  • Чек-лист практичности (+15 баллов): Да, работа раскрывает неочевидные особенности поведения LLM, показывает, как структурировать сложные запросы (через декомпозицию), предлагает способы улучшить точность и раскрывает эффективный метод суммаризации. Бонус в 15 баллов применяется.
📌

2 Цифровая оценка полезности

Аргументы за оценку 95:

Исследование имеет огромную практическую ценность для любого пользователя, работающего с задачами, требующими длинного ответа (суммаризация, анализ, написание отчетов). Оно дает не просто "совет", а фундаментальное понимание ограничения современных LLM.

  1. Неочевидный и критически важный инсайт: Знание о том, что ошибки концентрируются в конце ответа, кардинально меняет подход к верификации информации. Вместо того чтобы проверять весь текст, пользователь может сфокусироваться на последней трети/четверти ответа, экономя время и повышая надежность.
  2. Простая ментальная модель: Концепция "смещения внимания" с исходного документа на уже сгенерированный текст интуитивно понятна. Она объясняет, почему модель начинает "забывать" исходник и "фантазировать на тему" собственных предыдущих предложений.
  3. Прямое руководство к действию: Исследование не просто констатирует проблему, но и тестирует практический метод борьбы с ней — декомпозицию задачи ("разбей и властвуй"). Любой пользователь может применить этот подход, разбив большой документ на части, сделав краткие выжимки из каждой, а затем попросив модель собрать из них финальный отчет.

Контраргументы к оценке:

  • Почему оценка могла бы быть ниже? Основной фокус исследования — это суммаризация. Хотя принцип, скорее всего, применим и к другим задачам генерации длинных текстов (например, написание отчетов, креативных историй), прямые доказательства представлены только для суммаризации. Кроме того, предложенный ручной метод "chunking" (разбиения на части) может быть трудоемким для обычного пользователя.
  • Почему оценка могла бы быть выше (ближе к 100)? Это одно из тех исследований, выводы которого становятся частью базовой "грамотности" при работе с LLM, как и знание про "lost in the middle". Его концептуальная ценность настолько высока, что она помогает интерпретировать поведение LLM во множестве сценариев, а не только в одном. Это универсальный принцип, а не узкоспециализированный трюк.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с