TL;DR
LLM галлюцинируют составно: когда модель выдумывает цитату или факт, она не просто ошибается — она создаёт многослойную ложь. 100% фальшивых цитат в исследовании использовали минимум две техники обмана одновременно: выдуманное название звучит профессионально для домена (семантическая правдоподобность), плюс рабочая ссылка на другую статью (ложная проверяемость), плюс знакомые имена авторов (узнавание паттернов). Читатель проверяет "ссылка работает?" — работает. "Звучит в тему?" — звучит. "Автор знакомый?" — знакомый. И пропускает фейк.
Реальный масштаб: 53 статьи на престижной AI-конференции NeurIPS 2025 (1% всех принятых) содержали 100 фальшивых цитат, которые прошли рецензирование 3-5 экспертами по AI. Эксперты по LLM не заметили галлюцинации LLM в своих собственных статьях. Проблема не в незнании — проблема в том, что проверка цитат не встроена в процесс. 66% галлюцинаций — тотальная выдумка (все элементы цитаты придуманы), но они маскировались под реальность через семантическую правдоподобность (63% как вторичная характеристика) и подмену идентификаторов (29%).
Таксономия из 5 типов классифицирует галлюцинации по механизму обмана: Total Fabrication (66%), Partial Attribute Corruption (27%), Identifier Hijacking (4%), Placeholder Hallucination (2%), Semantic Hallucination (1%). Но это только первичные коды — каждая галлюцинация использует комбинацию техник. Понимание этих паттернов даёт конкретный чеклист для проверки любого output от LLM.
Таксономия обмана: 5 механизмов галлюцинаций
1. Total Fabrication (TF) — 66% Всё выдумано: авторы, название, журнал, ссылки. Ноль пересечений с реальностью.
2. Partial Attribute Corruption (PAC) — 27% Смесь реального и фейкового: настоящие авторы + выдуманное название, или реальный журнал + неправильный год.
3. Identifier Hijacking (IH) — 4% Рабочая ссылка (arXiv ID или DOI) ведёт на другую статью. Проверка "ссылка работает" проходит, проверка "содержание совпадает" — нет.
4. Placeholder Hallucination (PH) — 2% Явные артефакты генерации: "Firstname Lastname", "arXiv:2305.XXXX", "URL to be updated".
5. Semantic Hallucination (SH) — 1% как первичный, 63% как вторичный Название звучит профессионально для домена, но статьи не существует. "Progress in mechanistic interpretability: Reverse-engineering induction heads in GPT-2" — идеально для темы, ноль в реальности.
Критически: Каждая галлюцинация использует минимум 2 механизма. Обычная комбинация: Total Fabrication (всё выдумано) + Semantic Hallucination (звучит в тему) + Identifier Hijacking (рабочая ссылка на другую статью).
Пример применения
Задача: Ты пишешь статью про применение LLM в продуктовой аналитике для e-commerce. ChatGPT дал 5 цитат на англоязычные исследования. Нужно проверить их перед публикацией.
Промпт:
Проверь эти цитаты на галлюцинации по таксономии NeurIPS 2025:
[вставить цитаты]
Для каждой цитаты проверь:
1. **Total Fabrication:** Есть ли авторы/статья в Google Scholar или arXiv?
2. **Partial Corruption:** Совпадают ли ВСЕ элементы (авторы + название + журнал + год)?
3. **Identifier Hijacking:** Если есть DOI/arXiv ID — открой ссылку и сверь название, авторов, год. Совпадение 100% или нет?
4. **Semantic Hallucination:** Название звучит слишком идеально для темы? Найди точное совпадение текста названия в поиске.
5. **Placeholder:** Есть ли незаполненные переменные, "XXXX", "to be updated"?
Выдай таблицу:
| Цитата | Статус | Тип проблемы | Действие |
Для подозрительных — дай точную формулировку поискового запроса для ручной проверки.
Результат: Модель пройдёт каждую цитату по чеклисту, укажет какие именно элементы не проверяются (например, "авторы существуют, но этой статьи у них нет" = PAC), и даст готовые поисковые запросы для финальной ручной верификации. Ты получаешь не просто "проверь сам", а конкретные точки риска.
Почему это работает (и почему LLM галлюцинирует составно)
LLM не может различить "знаю" vs "звучит правдоподобно". Когда модель генерирует цитату, она не проверяет базу данных — она композирует текст по паттернам: "после фамилии идёт инициал", "названия статей про transformers содержат слова attention, efficient, learning", "arXiv ID выглядит как 2107.13586". Каждый элемент статистически правдоподобен, но их комбинация может не существовать.
Составная структура — естественный результат генерации по паттернам. Модель одновременно:
- Подбирает знакомые имена авторов из домена (узнаваемость)
- Генерирует семантически корректное название (контекстная правдоподобность)
- Добавляет валидный формат идентификатора (структурная корректность)
- Может вставить реальный arXiv ID, который видела в тренировочных данных (ложная проверяемость)
Каждый слой проходит отдельную проверку эвристикой рецензента: "автор знакомый — ОК", "ссылка работает — ОК", "название в тему — ОК". Но никто не проверяет всё одновременно.
Почему эксперты по AI не заметили: рецензирование не включает систематическую проверку цитат. Ревьюер читает научное содержание, не кликает каждую ссылку и не сверяет метаданные. Галлюцинации эксплуатируют разрыв: между "выглядит легитимно" и "проверено пошагово".
Практический вывод: Доверяй LLM для генерации черновиков, но любой факт/цитату/ссылку проверяй через внешний источник. Модель не врёт намеренно — она просто не знает разницы между "видела похожий паттерн" и "это существует".
Шаблон промпта: Защита от галлюцинаций
Ты — критический верификатор. Твоя задача — найти галлюцинации в тексте.
Проверь следующие утверждения/цитаты/факты на достоверность:
{текст для проверки}
Для каждого утверждения:
1. **Прямая проверка:** Найди точное подтверждение в надёжных источниках (не пересказ, а точное совпадение данных)
2. **Красные флаги галлюцинации:**
- Все элементы звучат правдоподобно, но точного совпадения нет?
- Есть рабочая ссылка, но содержание не совпадает с описанием?
- Детали кажутся "слишком идеальными" для контекста?
- Названия/имена/цифры выглядят как типичные для домена, но не верифицируются?
3. **Compound check:** Если нашёл источник — проверь ВСЕ атрибуты совпадают (не только название или только автор)
Выдай:
- ✅ **Проверено:** [утверждение] — источник: [точная ссылка]
- ⚠️ **Подозрительно:** [что именно подозрительно] — требует ручной проверки: [поисковый запрос]
- ❌ **Галлюцинация:** [тип по таксономии] — почему не существует
Будь максимально скептичен. "Звучит правдоподобно" ≠ "существует".
Что подставлять:
- {текст для проверки} — цитаты, факты, статистика, ссылки на исследования, названия методов/инструментов
Критически важно: Этот промпт не делает LLM fault-proof верификатором — модель сама может галлюцинировать при проверке. Используй его как первый фильтр, который найдёт явные несоответствия и подозрительные паттерны. Финальную проверку подозрительных пунктов делай вручную через Google Scholar / прямой поиск.
🚀 Быстрый старт — вставь в чат:
Вот шаблон верификации на основе таксономии галлюцинаций NeurIPS 2025.
Адаптируй под мою задачу: проверить [тип контента: цитаты/факты/статистику] в [твой контекст].
Задай вопросы, чтобы настроить уровень строгости проверки.
[вставить шаблон выше]
LLM спросит какой уровень критичности нужен (научная публикация vs блог-пост), какие источники считать надёжными для твоего домена, нужна ли проверка ссылок. Она возьмёт логику compound check из шаблона и адаптирует критерии под задачу.
Ограничения
⚠️ Не универсальная защита: LLM, проверяющая галлюцинации другой LLM, сама может галлюцинировать при верификации. Промпт находит подозрительные паттерны, но финальную проверку критичных фактов делай вручную через поиск.
⚠️ Работает для проверяемых утверждений: Факты, цитаты, статистика, названия — можно верифицировать. Субъективные оценки, прогнозы, мнения — нельзя классифицировать как галлюцинации.
⚠️ Свежие данные: Если утверждение про события последних недель, LLM может не знать контекста из-за cut-off date. "Не нашла подтверждения" ≠ "галлюцинация", может быть "слишком свежее".
Как исследовали
Исследователи взяли 4,841 статью, принятую на NeurIPS 2025 (топовую AI-конференцию), и прогнали через автоматический детектор галлюцинаций от GPTZero. Инструмент проверял каждую цитату через Google Scholar, arXiv, CrossRef, PubMed — можно ли найти такую статью. Затем эксперты вручную перепроверили флаги: это реальная редкая публикация или фейк.
Нашли 100 галлюцинаций в 53 статьях (1% от всех принятых работ). Каждую проанализировали и закодировали по двум меткам: первичный механизм обмана (что бросается в глаза первым) и вторичный (какие ещё техники использованы). Вот тут и вылезла главная находка: 100% галлюцинаций оказались составными — ни одна не использовала только один механизм.
Почему это важно? Потому что объясняет, почему эксперты не заметили. Рецензенты видели знакомое имя автора и не проверяли название статьи полностью. Или кликали ссылку, видели рабочий arXiv ID и не сверяли совпадает ли содержание. Галлюцинации эксплуатируют частичную проверку — каждый элемент отдельно выглядит ОК, но их комбинация не существует.
Особенно любопытно: Total Fabrication (66%) почти всегда шла с Semantic Hallucination (63%). Модель выдумывала всё — авторов, журнал, год — но название звучало идеально для темы статьи. Пример: "Leveraging large language models for efficient neural architecture search" — звучит как миллион реальных статей, но именно такой не существует.
Распределение галлюцинаций: 92% заражённых статей содержали 1-2 фейковых цитаты (авторы использовали AI точечно, для "полировки"), но 8% содержали 4-13 галлюцинаций (тотальная зависимость от AI при написании). Рекорд — 13 фейков в одной статье "Efficient semantic uncertainty quantification in language models via diversity-steered sampling".
Вывод исследователей: peer review не включает систематическую проверку цитат. Ни у кого нет времени кликать 50 ссылок и сверять метаданные. Галлюцинации проходят не потому что незаметны, а потому что никто не проверяет пошагово.
Оригинал из исследования
Контекст: Реальный пример Total Fabrication с Semantic Hallucination из датасета — 100% выдуманная цитата, которая прошла рецензирование NeurIPS:
Zhipeng Zhang, Chang Liu, Shihan Wu, and Yan Zhao. EST: Event spatio-temporal
transformer for object recognition with event cameras. In ICASSP 2023 - 2023 IEEE
International Conference on Acoustics, Speech and Signal Processing (ICASSP),
pages 1-5. IEEE, 2023.
Проверка показала: ни одного элемента не существует. Авторы выдуманы, статьи с таким названием нет в ICASSP 2023, страниц 1-5 с таким содержанием нет. Но семантически цитата идеальна: "event spatio-temporal transformer" и "event cameras" — терминология компьютерного зрения, ICASSP — реальная конференция. Рецензент видит знакомые слова и пропускает.
Пример Identifier Hijacking:
Alex Wang, Rishi Bommasani, Dan Hendrycks, Daniel Song, and Zhilin Zhang.
Efficient few-shot learning with EFL: A single transformer for all tasks.
arXiv:2107.13586, 2021.
Проверка: arXiv:2107.13586 существует и открывается. Но статья по этой ссылке имеет совершенно другое название и других авторов. Рабочая ссылка создаёт иллюзию проверяемости — рецензент кликнул, увидел arXiv paper, решил "ОК" и не сверил метаданные.
Пример Partial Attribute Corruption:
Mario Paolone, Trevor Gaunt, Xavier Guillaud, Marco Liserre, Sakis Meliopoulos,
Antonello Monti, Thierry Van Cutsem, Vijay Vittal, and Costas Vournas. A benchmark
model for power system stability controls. IEEE Transactions on Power Systems,
35(5):3627–3635, 2020.
Проверка: Эти авторы действительно писали статью вместе в 2020 году в IEEE Transactions on Power Systems. Но название, том, выпуск, страницы — всё неправильно. Рецензент узнал знакомые имена из комьюнити и не проверил остальное.
Адаптации и экстраполяции
💡 Адаптация для бизнес-контента: проверка AI-generated отчётов
Если используешь Claude/ChatGPT для подготовки аналитических отчётов, презентаций для клиентов, экспертного контента — применяй таксономию для проверки:
Ты готовишь отчёт по рынку PropTech в России. ChatGPT дал статистику:
"По данным исследования ЦИАН Аналитики 2024, доля сделок через онлайн-платформы
выросла до 67% (+12 п.п. к 2023). Средний цикл сделки сократился до 28 дней
согласно отчёту Метриум Group."
Проверь на галлюцинации:
1. Существует ли исследование "ЦИАН Аналитика 2024" с такой статистикой?
2. Публиковал ли Метриум Group данные про 28 дней цикла сделок?
3. Если находишь похожие исследования — совпадают ли ТОЧНЫЕ цифры?
Compound check: даже если ЦИАН публиковал что-то в 2024, проверь именно эту
цифру 67% существует или "звучит правдоподобно"?
Для каждого факта: источник, дата, точное совпадение данных.
LLM часто генерирует "правдоподобную статистику" — реальная компания, реальный год, но цифры выдуманы. Проверка находит такие случаи.
🔧 Техника: Self-Critique Before Submit → снижение галлюцинаций
Перед отправкой финального текста добавь шаг самопроверки:
Ты написал текст выше. Теперь критически проверь его на галлюцинации:
1. Все факты/цифры/названия/имена — найди точное подтверждение
2. Для каждой ссылки — открой и сверь совпадает ли описание
3. Если что-то звучит "идеально в тему" — насторожись, проверь дважды
4. Отметь всё, в чём уверенность <100%
Выдай список подозрительных элементов до того как я отправлю это клиенту.
Модель в режиме самопроверки часто находит собственные галлюцинации — она знает свои слабые места (даты, статистика, цитаты). Не 100% защита, но снижает риск.
💡 Адаптация для контент-мейкеров: проверка экспертного контента
Используешь LLM для подготовки экспертных статей, разборов, кейсов:
Проверь этот абзац на фактические ошибки перед публикацией в Telegram-канале:
[вставить текст]
Найди галлюцинации:
- Цифры и статистика: источник?
- Названия инструментов/сервисов: правильное написание? Функции совпадают?
- Даты запуска/обновлений: точно такие?
- Имена основателей/авторов: верно?
Для каждого факта: ✅ проверено / ⚠️ требует уточнения / ❌ вероятная галлюцинация
Особенно критично для B2B-контента, где одна фактическая ошибка убивает доверие ко всему материалу.
Ресурсы
Оригинальная работа: Samar Ansari. _Compound Deception in Elite Peer Review: A Failure Mode Taxonomy of 100 Fabricated Citations at NeurIPS 2025_. February 2026.
GPTZero Hallucination Check: Публичный отчёт о детекции галлюцинаций в NeurIPS 2025 — https://gptzero.me/
NeurIPS 2025 Review Process Reflections: https://blog.neurips.cc/2025/09/30/reflections-on-the-2025-review-process-from-the-program-committee-chairs/
Автор: Samar Ansari, School of Computing and Engineering Sciences, University of Chester, UK
