TL;DR
Исследователи проверили 5,514 цитат из 50 обзорных статей по искусственному интеллекту. Обнаружили: 17% цитат — фантомы. Это не просто битые ссылки — это ссылки, которые невозможно проверить вообще. LLM правильно находит названия статей (семантика работает), но выдумывает метаданные — DOI, номера томов, страницы. Результат: цитата выглядит убедительно, но ведёт в никуда.
Диагностика показала: только 5% фантомов — чистые галлюцинации (выдуманные статьи). Остальные 95% — реальные статьи с испорченными идентификаторами. 78.5% — ошибки извлечения текста из PDF. 16.4% — реальная статья, но DOI выдуман. Модель знает что нужно процитировать, но не знает где это найти. Она действует как ленивый ассистент: вспоминает правильное название, но вместо проверки адреса — придумывает похожий.
Проблема устойчива. Данные за 16 месяцев (сентябрь 2024 — январь 2026) показывают плоский тренд: 17% остаются константой. Это не временная болезнь роста, это структурная особенность того, как LLM генерируют цитаты. Скорость генерации текста обогнала скорость верификации фактов.
Почему это происходит
LLM сильны в распознавании паттернов, слабы в точности деталей. Когда модель генерирует цитату, она работает с двумя типами информации:
Семантика — о чём статья, кто автор, какая тема. Это пространство смыслов, в котором LLM ориентируется отлично. Векторные представления текстов близки, модель находит правильную статью по контексту.
Идентификаторы — DOI, ISBN, URL, номера страниц. Это точные строки символов. Для модели это не смысл, а статистически правдоподобная последовательность. DOI
10.1145/3571730и10.1145/3571999— одинаково вероятны с точки зрения паттерна.
Когда у модели нет точного DOI в обучающих данных, она делает то, что умеет лучше всего — генерирует правдоподобную строку. Она видела миллионы DOI формата 10.XXXX/название, научилась воспроизводить структуру. Но конкретный номер — угадывает.
Почему модель не говорит "не знаю"?
Потому что в промпте нет явного разрешения сомневаться. Стандартный запрос "напиши обзор литературы" неявно требует полноты. Модель заполняет пробелы тем, что выглядит правильно.
Аналогия: Вы просите знакомого пересказать книгу. Он помнит сюжет, имена героев, главную идею — это семантика. Но когда вы спрашиваете "на какой странице эта цитата?", он говорит "на 187", хотя не помнит точно. Число 187 звучит убедительно для книги в 300 страниц. Он не врёт специально — он заполняет пробел правдоподобным ответом.
Что это значит для работы с LLM
Исследование не даёт готовую технику промптинга, но показывает где у LLM слепая зона. Это меняет подход к работе:
Принцип разделения задач
Доверяй семантику, проверяй метаданные.
Когда просишь LLM найти исследования, статьи, источники — используй её силу (поиск по смыслу), но компенсируй слабость (точность ссылок).
Как применить:
Шаг 1: Попроси найти релевантные работы по теме
Найди 10 ключевых исследований про [тема].
Для каждого укажи: название, авторов, год, главный вывод.
НЕ добавляй DOI или ссылки — только названия и суть.
Шаг 2: Проверь каждую работу отдельно
Статья "[название]" [авторы] [год] —
найди точную ссылку на эту работу.
Если не уверен в точности ссылки — скажи "не нашёл точный источник".
Разделяя запросы, ты снижаешь давление на модель генерировать "полный" ответ одним куском. В первом промпте она работает в семантическом пространстве (комфортная зона). Во втором — явно фокусируется на верификации.
Принцип явного сомнения
Дай модели разрешение не знать точно.
Стандартный промпт:
❌ Напиши обзор литературы по теме X с цитатами
Модель воспринимает это как требование полноты. Отсутствие ссылки = провал задачи. Она заполнит пробелы.
Улучшенный промпт:
✅ Напиши обзор литературы по теме X.
Для каждого упоминания работы укажи:
- если ты ТОЧНО знаешь ссылку → дай её
- если ссылка под вопросом → напиши [проверить: название]
- если работа известна тебе только по пересказам → отметь [вторичный источник]
Ты явно создаёшь градации уверенности. Модель перестаёт воспринимать задачу как бинарную (дать ссылку / провалить задачу). У неё есть промежуточные варианты.
Принцип внешней верификации
Используй LLM для поиска, не для финальной проверки.
Для задач, где нужна точность метаданных (отчёт, исследование, статья):
Workflow: 1. LLM находит релевантные работы по названиям 2. Ты проверяешь каждую через Google Scholar / научные базы 3. LLM помогает структурировать уже проверенные источники
Пример промпта:
Я изучаю [тема]. Составь список из 15 работ, которые считаются ключевыми.
Формат:
- Название (без ссылок)
- Авторы
- Год
- Одно предложение: почему эта работа важна
Я сам найду ссылки — тебе не нужно их придумывать.
Фраза "я сам найду ссылки — тебе не нужно их придумывать" явно снимает задачу генерации метаданных. Модель фокусируется на семантике.
Почему 17% — это константа
Исследование показало: процент фантомных цитат не меняется со временем. Это не "модели станут лучше — проблема исчезнет". Это равновесие системы.
Три силы в балансе:
- Скорость генерации текста — LLM пишет обзор за минуты
- Скорость верификации — человек проверяет ссылки за часы
- Давление на публикацию — нужно много текста быстро
Когда генерация быстрее проверки, часть ошибок неизбежно проходит. 17% — это пропускная способность человеческого контроля в текущих условиях.
Аналогия с производством:
Представь конвейер. Машина штампует детали со скоростью 100 штук/час. Контролёр проверяет 85 штук/час. 15 штук проходят без проверки. Это не "плохой контролёр" и не "плохая машина" — это структурное несоответствие скоростей.
Чтобы снизить процент ошибок, нужно либо замедлить генерацию (противоречит цели использования LLM), либо ускорить проверку (автоматизация верификации), либо изменить процесс (разделение задач, как описано выше).
Практический чеклист
Если работаешь с LLM над задачами, где нужны источники:
✅ Безопасно доверять модели: - Найти тематически релевантные работы - Объяснить суть исследования своими словами - Сравнить подходы разных авторов - Предложить структуру обзора литературы
⚠️ Проверяй обязательно: - DOI, ISBN, URL - Номера страниц, томов, выпусков - Точные даты публикации - Названия журналов (модель может спутать похожие)
❌ Не используй без верификации: - Финальные библиографические списки - Цитаты в официальных отчётах - Ссылки для клиентов/коллег
Ограничения исследования
⚠️ 32% цитат попали в категорию "неизвестно" — невозможно определить, существуют ли они. Многие легитимные источники в AI (GitHub, технические отчёты, блоги) не индексируются в научных базах. Реальный процент фантомов может быть выше — до 27%, если считать консервативно.
⚠️ Исследование только обзорных статей по AI — в других областях (медицина, право) и других жанрах (короткие статьи, блоги) процент может отличаться. Но механизм работы LLM одинаков — проблема универсальна.
⚠️ Не проверялось на новейших моделях — данные собраны до января 2026 года. Возможно, новые версии GPT/Claude лучше с точными идентификаторами. Но пока тренд показывает стабильность проблемы.
Как исследовали
Команда взяла 50 обзорных статей по AI с arXiv (опубликованы сентябрь 2024 — январь 2026) — всего 5,514 уникальных цитат. Обзорные статьи выбрали специально: они цитируют много, ошибки там размножаются быстрее.
Каждую цитату прогнали через пятиступенчатый конвейер проверки:
- Извлекли DOI и arXiv ID регулярками из текста
- Проверили напрямую — открывается ли ссылка (HTTP 200 = валидная)
- Отфильтровали мусор — если в строке меньше 10% пробелов, это PDF-артефакт (слова слиплись при копировании)
- Поиск по названию — запросили Crossref и Semantic Scholar API, сравнили похожесть через расстояние Левенштейна
- Классификация — если похожесть >85% = Valid, 50-85% = Sloppy (восстановимо), <50% = Phantom
Почему результаты убедительны:
Авторы не просто считали битые ссылки. Они пытались восстановить каждую цитату — искали по названию, даже если DOI был кривой. Только после всех попыток восстановления помечали как Phantom. Это означает: 17% — это нижняя граница, реальная цифра скорее выше.
Удивил плоский тренд: с сентября 2024 по январь 2026 процент фантомов почти не менялся (+0.07 п.п./месяц, статистически незначимо). Ожидалось, что модели улучшаются → ошибок меньше. Но нет. Это говорит о том, что проблема не в качестве модели, а в процессе работы: люди не проверяют то, что генерируют LLM. Скорость важнее точности.
Инсайт про категории фантомов — самый ценный. Разбив 939 фантомов на подтипы, авторы показали: - 78.5% — Syntax Error (PDF сожрал пробелы/символы при парсинге) - 16.4% — Broken Link (реальная статья, но DOI выдуман) - 5.1% — Ghost (чистая галлюцинация, статьи не существует)
Это переворачивает понимание проблемы. Не "LLM врут", а "LLM плохо работают с точными строками". 95% фантомов — не ложь, а неточность. Название правильное, метаданные — нет.
Математическая модель (Muller's Ratchet) показала: если каждое поколение обзорных статей цитирует предыдущее с 17% ошибок, через 4 поколения меньше половины цитат будут проверяемыми. Это деградация по экспоненте. Ошибки накапливаются необратимо, если нет механизма коррекции.
Ресурсы
The 17% Gap: Quantifying Epistemic Decay in AI-Assisted Survey Papers H. Kemal İlter, Department of Management Information Systems, Bakırçay University, İzmir, Turkey Полный датасет и код верификации: https://doi.org/10.17605/OSF.IO/T8S53
Цитируемые работы: - Ji et al. (2023) — Survey of hallucination in natural language generation - Alkaissi & McFarlane (2023) — Artificial hallucinations in ChatGPT - Klein et al. (2014) — Scholarly context not found: reference rot
