3,583 papers
arXiv:2509.03531 65 26 авг. 2025 г. FREE

Обнаружение галлюцинированных сущностей в длинных текстах в реальном времени

КЛЮЧЕВАЯ СУТЬ
**Обнаружено:** LLM галлюцинирует не «вообще», а атомарно — вбрасывает в логичный текст вымышленные имена, даты, цитаты, модели устройств. Метод позволяет обнаруживать такие выдуманные сущности в реальном времени через анализ внутренних активаций модели. Ключевая находка: модель «знает», когда врёт — её внутренние состояния при генерации фейковой детали отличаются от генерации реального факта. Обученный *probe* (лёгкий классификатор на скрытых слоях) распознаёт этот сигнал и **подсвечивает галлюцинации с точностью 95% без обращения к Google**.
Адаптировать под запрос

Исследователи разработали метод, позволяющий в реальном времени обнаруживать выдуманные факты (имена, даты, цитаты) в длинных текстах, генерируемых LLM. Для этого они обучают специальный "датчик" (probe), который анализирует внутренние сигналы нейросети в момент генерации и с высокой точностью "подсвечивает" галлюцинации без необходимости обращаться к внешним источникам вроде Google. Это похоже на то, как если бы у модели появился внутренний "детектор лжи", сфокусированный на конкретных деталях.

Ключевой результат: Можно создать легковесный внутренний "детектор галлюцинаций", который работает значительно эффективнее, чем стандартные методы оценки неуверенности модели.

Суть исследования для практика промпт-инжиниринга не в том, чтобы повторить технический метод (это невозможно), а в том, чтобы использовать его главные выводы для построения более надежных промптов.

Исследование показывает две важные вещи: 1. Галлюцинации атомарны: LLM чаще всего не выдумывает концепции целиком, а "впрыскивает" в в целом логичный текст фальшивые, но правдоподобные детали: несуществующего эксперта, вымышленную дату исторического события, фейковую научную цитату или несуществующую модель телефона. 2. Модель "знает", когда галлюцинирует: Внутренние состояния (активации нейронов) модели в момент генерации выдуманной сущности отличаются от тех, когда она генерирует реальный факт. "Датчик" из исследования как раз и учится распознавать этот внутренний сигнал "неуверенности" или "выдумки".

Практическая методика для пользователя: Раз вы не можете встроить в LLM "датчик", вы можете заставить модель саму выступить в его роли с помощью промпта. Методика заключается в двухэтапном промптинге с принудительной верификацией сущностей:

  1. Этап 1: Генерация. Вы просите модель выполнить основную творческую или аналитическую задачу (написать статью, составить план).
  2. Этап 2: Экстракция и Верификация. Сразу после основной задачи вы даете вторую инструкцию: извлечь из только что сгенерированного текста все конкретные сущности (имена, названия, даты, цифры, источники) и представить их в структурированном виде (таблица, список) для легкой проверки.

Этот подход заставляет модель переключиться из режима "потока сознания" в режим "анализа и структурирования", что часто помогает выявить несоответствия или, как минимум, предоставляет пользователю удобный "чек-лист" для быстрой проверки фактов.

  • Прямая применимость: Нулевая. Пользователь не может обучать и применять LoRA-зонды на скрытых слоях LLM в чат-интерфейсе.
  • Концептуальная ценность: Очень высокая. Ключевая идея для пользователя — "атомарность галлюцинаций". Это понимание трансформирует процесс факт-чекинга: вместо того чтобы пытаться проверить истинность всего абзаца, пользователь учится вычленять и проверять конкретные "сущности" — имена, даты, цифры, цитаты. Это гораздо быстрее и эффективнее.
  • Потенциал для адаптации: Высокий. Технический метод детекции адаптируется в практику промптинга с само-верификацией. Пользователь может имитировать работу "детектора", заставляя модель саму извлекать и структурировать потенциально вымышленные сущности. Это переносит бремя первичной проверки с пользователя на саму модель и упрощает финальный контроль.
Ты — опытный маркетолог. Твоя задача — помочь мне, владельцу небольшой кофейни "Уютный Уголок" в спальном районе, разработать маркетинговый план на ближайшие 3 месяца.

### Шаг 1: Разработка маркетинговой стратегии

Создай подробный, пошаговый маркетинговый план. Включи в него:
- Анализ целевой аудитории.
- Предложения по уникальному торговому предложению (УТП).
- Конкретные онлайн-активности (соцсети, местные форумы, коллаборации с блогерами).
- Конкретные офлайн-активности (листовки, акции, мероприятия).
- Примерный бюджет и ожидаемые результаты.

Пиши убедительно, приводи примеры и ссылайся на успешные кейсы, если это уместно.

---

### Шаг 2: Верификация сущностей (Критически важный шаг)

Теперь, основываясь **только на тексте, который ты сгенерировал в Шаге 1**, создай таблицу для проверки фактов. Извлеки из своего ответа ВСЕ конкретные сущности и заполни таблицу по следующему формату:

| Тип сущности | Название/Значение | Источник/Контекст упоминания |
|---|---|---|
| Имя эксперта | [Имя] | [Где упомянуто] |
| Название компании/сервиса | [Название] | [Где упомянуто] |
| Статистические данные | [Цифра, процент] | [Где упомянуто] |
| Название книги/статьи | [Название] | [Где упомянуто] |
| Название ПО/инструмента | [Название] | [Где упомянуто] |

Если в твоем тексте не было сущностей определенного типа, оставь строку пустой. Эта таблица нужна мне для быстрой проверки всех приведенных тобой фактов.

Этот промпт работает, потому что он эксплуатирует ключевой вывод исследования на поведенческом уровне:

  1. Разделение задач: Промпт четко разделяет творческую задачу (генерация плана) и аналитическую (извлечение фактов). Это не дает модели "забыть" о необходимости быть точной.
  2. Принудительная рефлексия: "Шаг 2" заставляет модель вернуться к собственному тексту и проанализировать его на предмет конкретных, проверяемых данных. Этот процесс "самоанализа" может помочь модели обнаружить несостыковки.
  3. Упрощение факт-чекинга для пользователя: Самое главное, промпт создает "приборную панель" для пользователя. Вместо того чтобы выискивать в тексте потенциально выдуманные имена или статистику, пользователь получает их в удобной таблице. Проверить 2-3 имени из таблицы в Google гораздо проще, чем перечитывать и верифицировать весь текст. Это прямая адаптация идеи "детекции сущностей" из статьи.
Ты — эксперт по здоровому образу жизни и диетологии. Моя цель — сбросить 5 кг за 2 месяца без вреда для здоровья.

### Этап 1: Создай персонализированный план

Разработай для меня подробный план питания и тренировок.
- **Питание:** Предложи примерное меню на неделю с расчетом калорий. Укажи, какие продукты стоит добавить, а какие исключить.
- **Тренировки:** Опиши программу тренировок (3-4 раза в неделю), сочетающую кардио и силовые упражнения, которые можно делать дома.
- **Общие советы:** Дай рекомендации по режиму сна, потреблению воды и контролю стресса.

Ссылайся на научные исследования, известных диетологов или медицинские организации для подкрепления своих советов.

---

### Этап 2: Проверка фактов и сущностей

Отлично. Теперь создай отдельный блок под названием **"Факты для быстрой проверки"**.
В этом блоке, в виде простого списка, перечисли ВСЕ конкретные сущности, которые ты упомянул в своем плане выше:
- **Имена:** [Имена всех упомянутых врачей, диетологов, исследователей]
- **Организации:** [Названия всех упомянутых клиник, ассоциаций, институтов]
- **Исследования:** [Названия или краткое описание исследований, на которые ты ссылался]
- **Цифры и данные:** [Конкретные цифры, например, "норма потребления белка X г/кг", со ссылкой на источник]

Это поможет мне убедиться в надежности твоего плана.

Механизм аналогичен первому примеру и основан на выводах исследования:

  1. Фокус на критически важных данных: В сфере здоровья и диетологии цена ошибки особенно высока. Ссылка на вымышленного "доктора Смита" или несуществующее "исследование Гарварда" может ввести пользователя в заблуждение.
  2. Изоляция проверяемых элементов: Промпт заставляет модель изолировать самые важные "атомы" информации — имена, названия и цифры — от общего повествования. Это соответствует идее статьи о том, что галлюцинации часто являются именно такими "сущностями".
  3. Снижение когнитивной нагрузки: Пользователю не нужно быть экспертом в диетологии, чтобы проверить факты. Он может быстро найти в поиске "Американская ассоциация диетологов" или имя упомянутого исследователя. Промпт превращает сложную задачу верификации большого текста в простую серию поисковых запросов по готовому списку, делая пользователя более защищенным от дезинформации.
📌

Основные критерии оценки

  • A. Релевантность техникам промтинга: Низкая. Исследование не предлагает новых формулировок или структур промптов для предотвращения галлюцинаций.
  • B. Улучшение качества диалоговых ответов: Косвенное. Понимание природы галлюцинаций помогает пользователю критичнее оценивать ответы и формировать запросы на верификацию.
  • C. Прямая практическая применимость: Очень низкая. Метод (тренировка linear/LoRA probes на скрытых состояниях модели) абсолютно недоступен обычному пользователю. Он требует доступа к архитектуре модели и ее дообучения.
  • D. Концептуальная ценность: Очень высокая. Исследование блестяще раскрывает "анатомию" галлюцинаций. Оно показывает, что ошибки часто представляют собой конкретные, атомарные "сущности" (имена, даты, названия), а не общие смысловые искажения. Это дает пользователю мощную ментальную модель для проверки фактов.
  • E. Новая полезная практика: Работа попадает в кластер №7 (Надежность и стабильность), но не предлагает готовую практику для пользователя, а описывает технический метод для разработчиков.
  • Чек-лист практичности: Получает +15 баллов, так как раскрывает неочевидные особенности поведения LLM (гранулярный, "сущностный" характер галлюцинаций).
📌

Цифровая оценка полезности

Оценка 65 отражает высокий концептуальный вклад для пользователя, но почти нулевую прямую применимость самого метода.

Аргументы за оценку: * Концептуальный прорыв для пользователя: Главная ценность — в понимании, что галлюцинации — это не просто "ложь", а часто — вброс правдоподобно выглядящих, но вымышленных сущностей (имен, дат, цитат, моделей устройств). Это знание меняет подход к проверке информации: вместо вопроса "весь абзац правдив?" пользователь начинает задавать вопросы "существует ли 'Джонатан М. Мадеро'?", "выпускался ли 'BlackBerry Curve 8330'?". * Основа для новых техник промптинга: Хотя исследование не дает готовых промптов, оно вдохновляет на создание промптов с само-верификацией, где модель просят сначала сгенерировать текст, а затем извлечь из него все факты-сущности в отдельный список для проверки.

Контраргументы (почему оценка могла быть иной):

  • Почему могла быть выше (75-80): Если рассматривать "пользу" не как готовый инструмент, а как фундаментальное знание, меняющее парадигму взаимодействия с LLM, то это исследование — одно из самых полезных. Оно учит пользователя "цифровой гигиене" при работе с ИИ, что имеет огромную практическую ценность в долгосрочной перспективе. Это знание напрямую ведет к созданию более надежных промптов.
  • Почему могла быть ниже (30-40): Если пользователь ищет конкретные фразы или шаблоны промптов, которые можно скопировать и вставить для немедленного улучшения результата, то это исследование бесполезно. Оно описывает сложный технический процесс, недоступный 99.9% пользователей, и не содержит ни одной прямой инструкции по написанию промптов.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с