LUMINA: Выявление галлюцинаций в RAG-системах с сигналами контекстных знаний

Исследование представляет метод LUMINA для обнаружения галлюцинаций в ответах LLM, работающих с внешними документами (RAG). Метод анализирует, насколько сильно ответ модели зависит от предоставленного текста по сравнению с ее собственными, "внутренними" знаниями. Ключевой результат: галлюцинации чаще всего возникают тогда, когда модель игнорирует предоставленный ей документ и генерирует ответ, основываясь на своей "памяти".

Представьте, что вы дали LLM-ассистенту инструкцию и документ, попросив сделать выжимку. В этот момент у модели есть два источника информации: 1. Внешний контекст: Ваш документ. 2. Внутренние знания: Вся информация из интернета, на которой модель обучалась.

Иногда эти два источника вступают в конфликт. Например, в вашем документе сказано, что "проект X будет запущен в 2025 году", а модель во время обучения "запомнила" из новостей, что "проект X запускается в 2024".

Суть исследования LUMINA — создать "детектор", который измеряет, какой источник победил в этой "борьбе". * Измерение использования контекста: Метод проверяет, как сильно изменится ответ модели, если подсунуть ей вместо вашего документа случайный, нерелевантный текст. Если ответ меняется кардинально — значит, модель внимательно читала исходный документ. Если почти не меняется — она его проигнорировала. * Измерение использования внутренних знаний: Метод анализирует "внутренние процессы" в нейросети и определяет, насколько "уверенно" и "быстро" модель пришла к ответу. Если ответ формировался долго и сложно на протяжении всех слоев нейросети, это указывает на активное использование внутренних знаний.

Практический вывод для пользователя: Галлюцинация — это ситуация, когда модель получает низкую оценку за использование контекста и высокую — за использование внутренних знаний. Хотя сам пользователь не может запустить этот "детектор", он может писать промпты, которые искусственно заставляют модель повысить первую оценку и понизить вторую. Ваша задача как промпт-инженера — не дать модели шанса обратиться к своим внутренним знаниям, если у вас есть точный внешний источник.

Прямая применимость: Нулевая. Пользователь не имеет доступа к внутренним механизмам LLM (скрытым слоям, вероятностям токенов) через стандартные чат-интерфейсы, поэтому не может вычислить метрики LUMINA.
Концептуальная ценность: Очень высокая. Исследование дает критически важное понимание: предоставление контекста не гарантирует его использование. LLM — не послушный исполнитель, а сложная система с собственными "убеждениями" (параметрическими знаниями), которые могут перевесить ваши инструкции. Это объясняет, почему модели иногда "додумывают" факты, даже когда им дан точный источник.
Потенциал для адаптации: Огромный. Концепцию "конфликта знаний" можно адаптировать в конкретные правила для написания промптов. Механизм адаптации — создание "ограничивающих инструкций" (guardrails), которые явно указывают модели на приоритетный источник информации и запрещают использовать альтернативные. Вместо того чтобы надеяться, что модель сама догадается, мы прямо приказываем ей, как действовать в случае информационного конфликта.

Представим, что вы менеджер по продукту и хотите быстро получить выжимку из отзывов пользователей о новом фитнес-трекере.

Ты — беспристрастный аналитик отзывов. Твоя задача — строго на основе предоставленного текста составить краткую сводку по продукту.


### Отзывы пользователей о фитнес-трекере "AuraFit v3"

**Отзыв 1 (Алексей):** "Купил трекер неделю назад. Шаги считает точно, пульс тоже. GPS иногда теряет сигнал в плотной городской застройке. Батарея держит 4 дня, а не 7, как обещали. Приложение удобное."

**Отзыв 2 (Мария):** "Очень нравится дизайн, легкий. Экран яркий, на солнце все видно. Сон отслеживает странно, показывает, что я сплю, когда я просто лежу и читаю. Уведомления с телефона приходят с задержкой."

**Отзыв 3 (Виктор):** "Водонепроницаемость отличная, плаваю с ним в бассейне. Пульсометр под водой работает с перебоями. Заряжается быстро, это плюс. Хотелось бы больше циферблатов."



Проанализируй отзывы из раздела  и заполни следующую структуру:

*   **Плюсы:** (список из 3-4 ключевых преимуществ)
*   **Минусы:** (список из 3-4 ключевых недостатков)
*   **Точность измерений:** (оценка точности разных датчиков)
*   **Время автономной работы:** (конкретные цифры из отзывов)


1.  **Строгое следование контексту:** Твой ответ должен на 100% основываться на информации из раздела .
2.  **Запрет на домысливание:** Не добавляй никакой информации, которой нет в отзывах (например, о цене, материалах корпуса или других функциях), даже если она кажется тебе известной или логичной.
3.  **Обработка отсутствующей информации:** Если в отзывах нет информации для какого-либо пункта (например, о цене), напиши: "В отзывах не упоминается".

Этот промпт напрямую решает проблему, описанную в исследовании LUMINA, не используя сам метод. Он работает за счет превентивного управления источниками знаний модели:

Механика 1 (Явное указание источника): Фраза <CONTEXT> и инструкция Твой ответ должен на 100% основываться на информации из раздела <CONTEXT> заставляют модель повысить "External Context Utilization". Мы не просто даем текст, а говорим: "Смотри только сюда!".
Механика 2 (Запрет на внутренние знания): Правило Не добавляй никакой информации, которой нет в отзывах... Не используй свои внутренние знания напрямую снижает "Internal Knowledge Utilization". Мы блокируем попытку модели вспомнить обзоры "AuraFit v3" из своей обучающей выборки.
Механика 3 (Инструкция на случай конфликта): Правило Если в отзывах нет информации... напиши: "В отзывах не упоминается" дает модели четкий алгоритм действий, когда внешний контекст недостаточен. Это предотвращает галлюцинацию, когда модель пытается "заполнить пробелы" из своей памяти.

По сути, промпт создает для LLM "информационный пузырь", заставляя ее работать в режиме анализатора текста, а не всезнающего эксперта.

Представим, что HR-специалист хочет сделать краткую памятку для нового сотрудника на основе длинного официального документа о политике отпусков.

Твоя роль — ассистент HR-отдела. Тебе нужно помочь новому сотруднику быстро разобраться в правилах компании.


### Положение об отпусках ООО "Инновация"

... (длинный юридический текст на 5 страниц) ...

Статья 5.1. Ежегодный оплачиваемый отпуск предоставляется сотрудникам продолжительностью 28 календарных дней.
Статья 5.2. Сотрудник имеет право на разделение отпуска на части. При этом хотя бы одна из частей этого отпуска должна быть не менее 14 календарных дней.
Статья 5.3. Заявление на отпуск должно быть подано не позднее чем за 14 календарных дней до его начала через систему "HR-портал".
Статья 7.1. Дополнительный неоплачиваемый отпуск по семейным обстоятельствам может быть предоставлен по согласованию с руководителем на срок до 5 календарных дней в год.

... (еще много текста) ...



Напиши короткую и понятную памятку для нового сотрудника, ответив на следующие вопросы. Используй простой и дружелюбный язык.

1.  Какова общая продолжительность ежегодного отпуска?
2.  Можно ли делить отпуск на части и какие есть правила?
3.  Как и когда нужно подавать заявление на отпуск?
4.  Что насчет отпуска за свой счет?


- **Приоритет документа:** Вся информация для ответа должна быть взята ИСКЛЮЧИТЕЛЬНО из предоставленного документа .
- **Никаких внешних знаний:** Не ссылайся на общие положения Трудового Кодекса или стандартные практики других компаний, если они не упомянуты в документе.
- **Прямота:** Если документ не содержит ответа на какой-либо вопрос, четко укажи: "Эта информация отсутствует в документе".

Этот пример работает по тому же принципу, что и предыдущий, адаптируя концепцию LUMINA для корпоративной задачи.

Механизм 1 (Изоляция контекста): Указание ИСКЛЮЧИТЕЛЬНО из предоставленного документа <DOCUMENT> создает жесткую рамку. Модель понимает, что ее задача — не дать юридическую консультацию по ТК РФ в целом (ее внутренние знания), а пересказать конкретный локальный акт.
Механизм 2 (Подавление "экспертности"): Ограничение Не ссылайся на общие положения Трудового Кодекса напрямую предотвращает конфликт между специфическими правилами компании (внешний контекст) и общими законами, которые модель знает (внутренние знания). Это снижает риск того, что модель "исправит" или "дополнит" политику компании на основе своих более общих знаний, что было бы галлюцинацией в данном контексте.

Таким образом, промпт заставляет модель работать как "переводчик" с юридического языка на человеческий, строго в пределах заданного текста, что минимизирует риск нерелевантных и неточных ответов.

📌

Основные критерии оценки

A. Релевантность техникам промтинга: Низкая. Исследование предлагает метод диагностики галлюцинаций, а не конкретные техники формулирования промптов для их предотвращения.
B. Улучшение качества диалоговых ответов: Косвенное. Понимание основной идеи исследования помогает пользователю осознанно конструировать промпты, которые снижают риск галлюцинаций, что в итоге улучшает качество ответов.
C. Прямая практическая применимость: Очень низкая. Метод LUMINA требует доступа к внутренним состояниям модели (скрытым слоям, вероятностям токенов), что недоступно обычному пользователю в веб-интерфейсах типа ChatGPT или Claude. Применить метод напрямую невозможно.
D. Концептуальная ценность: Очень высокая. Исследование блестяще раскрывает фундаментальный конфликт в работе RAG-систем: борьбу между предоставленным внешним контекстом и внутренними (параметрическими) знаниями модели. Это ключевая концепция для понимания причин сбоев LLM.
E. Новая полезная практика (кластеризация):
- Кластер 2 (Поведенческие закономерности LLM): Да, работа напрямую описывает ключевую поведенческую закономерность — склонность модели игнорировать контекст в пользу своих "внутренних убеждений".
- Кластер 6 (Контекст и память): Да, исследование целиком посвящено проблемам работы с контекстом в RAG-системах.
- Кластер 7 (Надежность и стабильность): Да, вся суть работы — в повышении надежности через обнаружение галлюцинаций.
Чек-лист практичности (+15 баллов):
- Дает готовые фразы/конструкции для промптов? → Нет.
- Объясняет, где в промпте размещать важную информацию? → Нет.
- Показывает, как структурировать сложные запросы? → Нет.
- Раскрывает неочевидные особенности поведения LLM? → Да. Основная ценность работы именно в этом.
- Раскрывает эффективные метода суммаризации текста → Нет.
- Предлагает способы улучшить consistency/точность ответов? → Да, через понимание корневой причины неточностей.
Итог: Базовая оценка в районе 50 (любопытно, но не очень практично) + 15 баллов за раскрытие неочевидных особенностей поведения LLM. Итоговая оценка: 65.

📌

Цифровая оценка полезности

Оценка 65 отражает баланс между огромной концептуальной ценностью и почти нулевой прямой применимостью.

Аргументы за оценку: * Исследование дает пользователю мощную ментальную модель: "LLM может проигнорировать мой документ, потому что его внутренние знания 'кричат' громче". * Понимание этого конфликта позволяет опытным пользователям превентивно строить промпты, которые "помогают" модели выбрать правильный источник информации. * Это объясняет, почему простая подача контекста (RAG) — не панацея, и почему инструкции вроде "основывайся только на тексте" так важны.

Контраргументы (почему оценка могла быть иной): * Выше (например, 75-80): Можно утверждать, что понимание этого фундаментального принципа настолько важно, что оно перевешивает отсутствие готовых "рецептов". Пользователь, усвоивший эту идею, сможет сам изобретать эффективные промпты для десятков разных задач, что ценнее, чем одна готовая техника. * Ниже (например, 40-50): С точки зрения новичка, который ищет ответ на вопрос "что мне написать, чтобы стало лучше?", статья не дает ничего. Она описывает проблему на техническом уровне, не предлагая готовых фраз для промпта. Без "перевода" на язык промпт-инжиниринга ее польза для нетехнического пользователя стремится к нулю.

Меню

LUMINA: Выявление галлюцинаций в RAG-системах с сигналами контекстных знаний

Основные критерии оценки

Цифровая оценка полезности

Работа с исследованием

Результат адаптации