arXiv:2601.17431 70 24 янв. 2026 г. FREE

The 17% Gap: "ленивые ассистенты" — почему LLM выдумывают метаданные цитат

КЛЮЧЕВАЯ СУТЬ

17% цитат в AI-обзорах — фантомы. Но это не галлюцинации в привычном смысле: только 5% — выдуманные статьи, остальные 95% — реальные работы с испорченными DOI, номерами страниц, томов. Исследование показывает где у LLM слепая зона: модель отлично работает с семантикой (находит ЧТО цитировать), но плывёт на метаданных (ГДЕ это найти). Она вспоминает правильное название работы, но вместо проверки адреса — придумывает похожий. Как ленивый ассистент: помнит суть задачи, детали додумывает на ходу. Результат: цитата выглядит убедительно, ведёт в никуда.

Адаптировать под запрос

⚡

TL;DR

Исследователи проверили 5,514 цитат из 50 обзорных статей по искусственному интеллекту. Обнаружили: 17% цитат — фантомы. Это не просто битые ссылки — это ссылки, которые невозможно проверить вообще. LLM правильно находит названия статей (семантика работает), но выдумывает метаданные — DOI, номера томов, страницы. Результат: цитата выглядит убедительно, но ведёт в никуда.

Диагностика показала: только 5% фантомов — чистые галлюцинации (выдуманные статьи). Остальные 95% — реальные статьи с испорченными идентификаторами. 78.5% — ошибки извлечения текста из PDF. 16.4% — реальная статья, но DOI выдуман. Модель знает что нужно процитировать, но не знает где это найти. Она действует как ленивый ассистент: вспоминает правильное название, но вместо проверки адреса — придумывает похожий.

Проблема устойчива. Данные за 16 месяцев (сентябрь 2024 — январь 2026) показывают плоский тренд: 17% остаются константой. Это не временная болезнь роста, это структурная особенность того, как LLM генерируют цитаты. Скорость генерации текста обогнала скорость верификации фактов.

📌

Почему это происходит

LLM сильны в распознавании паттернов, слабы в точности деталей. Когда модель генерирует цитату, она работает с двумя типами информации:

Семантика — о чём статья, кто автор, какая тема. Это пространство смыслов, в котором LLM ориентируется отлично. Векторные представления текстов близки, модель находит правильную статью по контексту.
Идентификаторы — DOI, ISBN, URL, номера страниц. Это точные строки символов. Для модели это не смысл, а статистически правдоподобная последовательность. DOI 10.1145/3571730 и 10.1145/3571999 — одинаково вероятны с точки зрения паттерна.

Когда у модели нет точного DOI в обучающих данных, она делает то, что умеет лучше всего — генерирует правдоподобную строку. Она видела миллионы DOI формата 10.XXXX/название, научилась воспроизводить структуру. Но конкретный номер — угадывает.

Почему модель не говорит "не знаю"?

Потому что в промпте нет явного разрешения сомневаться. Стандартный запрос "напиши обзор литературы" неявно требует полноты. Модель заполняет пробелы тем, что выглядит правильно.

Аналогия: Вы просите знакомого пересказать книгу. Он помнит сюжет, имена героев, главную идею — это семантика. Но когда вы спрашиваете "на какой странице эта цитата?", он говорит "на 187", хотя не помнит точно. Число 187 звучит убедительно для книги в 300 страниц. Он не врёт специально — он заполняет пробел правдоподобным ответом.

📌

Что это значит для работы с LLM

Исследование не даёт готовую технику промптинга, но показывает где у LLM слепая зона. Это меняет подход к работе:

📌

Принцип разделения задач

Доверяй семантику, проверяй метаданные.

Когда просишь LLM найти исследования, статьи, источники — используй её силу (поиск по смыслу), но компенсируй слабость (точность ссылок).

Как применить:

Шаг 1: Попроси найти релевантные работы по теме

Найди 10 ключевых исследований про [тема]. 
Для каждого укажи: название, авторов, год, главный вывод.

НЕ добавляй DOI или ссылки — только названия и суть.

Шаг 2: Проверь каждую работу отдельно

Статья "[название]" [авторы] [год] — 
найди точную ссылку на эту работу. 

Если не уверен в точности ссылки — скажи "не нашёл точный источник".

Разделяя запросы, ты снижаешь давление на модель генерировать "полный" ответ одним куском. В первом промпте она работает в семантическом пространстве (комфортная зона). Во втором — явно фокусируется на верификации.

📌

Принцип явного сомнения

Дай модели разрешение не знать точно.

Стандартный промпт:

❌ Напиши обзор литературы по теме X с цитатами

Модель воспринимает это как требование полноты. Отсутствие ссылки = провал задачи. Она заполнит пробелы.

Улучшенный промпт:

✅ Напиши обзор литературы по теме X. 

Для каждого упоминания работы укажи:
- если ты ТОЧНО знаешь ссылку → дай её
- если ссылка под вопросом → напиши [проверить: название]
- если работа известна тебе только по пересказам → отметь [вторичный источник]

Ты явно создаёшь градации уверенности. Модель перестаёт воспринимать задачу как бинарную (дать ссылку / провалить задачу). У неё есть промежуточные варианты.

📌

Принцип внешней верификации

Используй LLM для поиска, не для финальной проверки.

Для задач, где нужна точность метаданных (отчёт, исследование, статья):

Workflow: 1. LLM находит релевантные работы по названиям 2. Ты проверяешь каждую через Google Scholar / научные базы 3. LLM помогает структурировать уже проверенные источники

Пример промпта:

Я изучаю [тема]. Составь список из 15 работ, которые считаются ключевыми.

Формат:
- Название (без ссылок)
- Авторы
- Год
- Одно предложение: почему эта работа важна

Я сам найду ссылки — тебе не нужно их придумывать.

Фраза "я сам найду ссылки — тебе не нужно их придумывать" явно снимает задачу генерации метаданных. Модель фокусируется на семантике.

📌

Почему 17% — это константа

Исследование показало: процент фантомных цитат не меняется со временем. Это не "модели станут лучше — проблема исчезнет". Это равновесие системы.

Три силы в балансе:

Скорость генерации текста — LLM пишет обзор за минуты
Скорость верификации — человек проверяет ссылки за часы
Давление на публикацию — нужно много текста быстро

Когда генерация быстрее проверки, часть ошибок неизбежно проходит. 17% — это пропускная способность человеческого контроля в текущих условиях.

Аналогия с производством:

Представь конвейер. Машина штампует детали со скоростью 100 штук/час. Контролёр проверяет 85 штук/час. 15 штук проходят без проверки. Это не "плохой контролёр" и не "плохая машина" — это структурное несоответствие скоростей.

Чтобы снизить процент ошибок, нужно либо замедлить генерацию (противоречит цели использования LLM), либо ускорить проверку (автоматизация верификации), либо изменить процесс (разделение задач, как описано выше).

📌

Практический чеклист

Если работаешь с LLM над задачами, где нужны источники:

✅ Безопасно доверять модели: - Найти тематически релевантные работы - Объяснить суть исследования своими словами - Сравнить подходы разных авторов - Предложить структуру обзора литературы

⚠️ Проверяй обязательно: - DOI, ISBN, URL - Номера страниц, томов, выпусков - Точные даты публикации - Названия журналов (модель может спутать похожие)

❌ Не используй без верификации: - Финальные библиографические списки - Цитаты в официальных отчётах - Ссылки для клиентов/коллег

⚠️

Ограничения исследования

⚠️ 32% цитат попали в категорию "неизвестно" — невозможно определить, существуют ли они. Многие легитимные источники в AI (GitHub, технические отчёты, блоги) не индексируются в научных базах. Реальный процент фантомов может быть выше — до 27%, если считать консервативно.

⚠️ Исследование только обзорных статей по AI — в других областях (медицина, право) и других жанрах (короткие статьи, блоги) процент может отличаться. Но механизм работы LLM одинаков — проблема универсальна.

⚠️ Не проверялось на новейших моделях — данные собраны до января 2026 года. Возможно, новые версии GPT/Claude лучше с точными идентификаторами. Но пока тренд показывает стабильность проблемы.

🔍

Как исследовали

Команда взяла 50 обзорных статей по AI с arXiv (опубликованы сентябрь 2024 — январь 2026) — всего 5,514 уникальных цитат. Обзорные статьи выбрали специально: они цитируют много, ошибки там размножаются быстрее.

Каждую цитату прогнали через пятиступенчатый конвейер проверки:

Извлекли DOI и arXiv ID регулярками из текста
Проверили напрямую — открывается ли ссылка (HTTP 200 = валидная)
Отфильтровали мусор — если в строке меньше 10% пробелов, это PDF-артефакт (слова слиплись при копировании)
Поиск по названию — запросили Crossref и Semantic Scholar API, сравнили похожесть через расстояние Левенштейна
Классификация — если похожесть >85% = Valid, 50-85% = Sloppy (восстановимо), <50% = Phantom

Почему результаты убедительны:

Авторы не просто считали битые ссылки. Они пытались восстановить каждую цитату — искали по названию, даже если DOI был кривой. Только после всех попыток восстановления помечали как Phantom. Это означает: 17% — это нижняя граница, реальная цифра скорее выше.

Удивил плоский тренд: с сентября 2024 по январь 2026 процент фантомов почти не менялся (+0.07 п.п./месяц, статистически незначимо). Ожидалось, что модели улучшаются → ошибок меньше. Но нет. Это говорит о том, что проблема не в качестве модели, а в процессе работы: люди не проверяют то, что генерируют LLM. Скорость важнее точности.

Инсайт про категории фантомов — самый ценный. Разбив 939 фантомов на подтипы, авторы показали: - 78.5% — Syntax Error (PDF сожрал пробелы/символы при парсинге) - 16.4% — Broken Link (реальная статья, но DOI выдуман) - 5.1% — Ghost (чистая галлюцинация, статьи не существует)

Это переворачивает понимание проблемы. Не "LLM врут", а "LLM плохо работают с точными строками". 95% фантомов — не ложь, а неточность. Название правильное, метаданные — нет.

Математическая модель (Muller's Ratchet) показала: если каждое поколение обзорных статей цитирует предыдущее с 17% ошибок, через 4 поколения меньше половины цитат будут проверяемыми. Это деградация по экспоненте. Ошибки накапливаются необратимо, если нет механизма коррекции.

🔗

Ресурсы

The 17% Gap: Quantifying Epistemic Decay in AI-Assisted Survey Papers H. Kemal İlter, Department of Management Information Systems, Bakırçay University, İzmir, Turkey Полный датасет и код верификации: https://doi.org/10.17605/OSF.IO/T8S53

Цитируемые работы: - Ji et al. (2023) — Survey of hallucination in natural language generation - Alkaissi & McFarlane (2023) — Artificial hallucinations in ChatGPT - Klein et al. (2014) — Scholarly context not found: reference rot

📋 Дайджест исследования

Ключевая суть

Принцип работы

Модель работает с двумя типами информации по-разному. Семантика — о чём статья, кто автор, какая тема. Это пространство смыслов, модель ориентируется в нём отлично. Идентификаторы — DOI, ISBN, URL. Это точные строки символов. Для модели не смысл, а статистически правдоподобная последовательность. DOI 10.1145/3571730 и 10.1145/3571999 — одинаково вероятны с точки зрения паттерна. Когда точного DOI нет в памяти, модель генерирует строку правильной структуры, но с выдуманным номером. Аналогия: просишь знакомого пересказать книгу. Он помнит сюжет, имена героев — это семантика. Спрашиваешь 'на какой странице эта цитата?' — говорит 'на 187', хотя не помнит точно. Число звучит убедительно для книги в 300 страниц.

Почему работает

Процент фантомов стабилен во времени — данные за 16 месяцев показывают плоский тренд. Это не временная проблема, это структурное равновесие системы. Три силы в балансе: скорость генерации текста (минуты), скорость верификации человеком (часы), давление на быструю публикацию. Когда генерация быстрее проверки, часть ошибок неизбежно проходит. 17% — это пропускная способность человеческого контроля при текущем workflow. Модель не говорит 'не знаю DOI', потому что стандартный промпт 'напиши обзор литературы' неявно требует полноты. Она заполняет пробелы тем, что выглядит правильно. 78.5% фантомов — ошибки извлечения из PDF, 16.4% — реальная статья с выдуманным DOI.

Когда применять

Для работы с источниками — научные обзоры, отчёты, статьи с библиографией. Особенно когда нужны цитаты с точными ссылками для проверки. Поможет понять где можно доверять модели (поиск релевантных работ по смыслу), а где нужна обязательная верификация (метаданные, идентификаторы). НЕ подходит если ожидаешь что LLM сразу выдаст проверенный список источников — без внешней верификации не обойтись.

Мини-рецепт

1. Раздели семантику и метаданные: Первый промпт — найди релевантные работы по теме. Формат: название, авторы, год, суть. БЕЗ ссылок и DOI. Явно укажи: 'НЕ добавляй DOI или URL — только названия'.

2. Дай разрешение сомневаться: Второй промпт — для каждой найденной работы проверь точную ссылку отдельно. Добавь: 'Если не уверен в точности ссылки — скажи «не нашёл точный источник»'. Это снимает давление генерировать полный ответ.

3. Верифицируй внешне: Для финального списка проверь каждую работу через Google Scholar или научные базы. LLM использовался для поиска, не для финальной проверки.

Примеры

[ПЛОХО] : Напиши обзор литературы по теме X с полными цитатами и ссылками — модель воспринимает как требование полноты, заполнит пробелы выдуманными метаданными

[ХОРОШО] : Шаг 1:

Найди 10 ключевых исследований про [тема]. Для каждого: название, авторы, год, главный вывод. НЕ добавляй DOI — я сам найду ссылки

. Шаг 2:

Статья «[название]» [авторы] [год] — найди точную ссылку. Если не уверен — напиши «требуется проверка»

Источник: The 17% Gap: Quantifying Epistemic Decay in AI-Assisted Survey Papers

ArXiv ID: 2601.17431 | Сгенерировано: 2026-01-27 05:33

Проблемы LLM

Проблема	Суть	Как обойти
Модель находит верный источник но выдумывает адрес	Просишь найти статью или источник. Модель даёт правильное название автора тему. Но DOI URL номера страниц придумывает. Ссылка выглядит убедительно — формат правильный цифры есть. Переходишь — ничего нет. Работает для любых точных идентификаторов: телефоны коды товаров даты адреса. Модель знает ЧТО нужно но не знает ГДЕ это найти	Раздели запрос на два. Первый: попроси найти по смыслу без ссылок. "Найди 10 статей про X — только названия авторов суть. Ссылки НЕ нужны". Второй: проверь каждую вручную через поиск. Или попроси модель отдельно для каждой: "Если не уверен в точности — напиши 'не нашёл источник'"

📖 Простыми словами

The 17% Gap: Quantifying Epistemic Decay in AI-Assisted Survey Papers

arXiv: 2601.17431

Суть проблемы в том, что нейросети — это не библиотеки, а генераторы правдоподобности. Когда ты просишь LLM написать научный обзор, она не лезет в базу данных, а буквально предсказывает следующий символ. Для модели название статьи — это семантическое облако, которое она помнит, а вот DOI и номера страниц — это просто случайный набор цифр, который должен выглядеть «по-научному». В итоге мы получаем эпистемический распад: фундамент знаний вроде бы есть, но копни глубже — и там пустота.

Это как если бы ты спросил дорогу у очень уверенного в себе местного, и он бы в деталях описал тебе путь, назвал цвет двери нужного дома и даже имя консьержа, но отправил бы тебя в соседний город. Ты приходишь по адресу, видишь похожую улицу, но дома просто не существует. Формально всё звучит логично, но на практике ты стоишь посреди пустыря с бесполезной картой в руках.

Исследователи копнули вглубь и выкатили конкретную цифру: 17% цитат — полные фантомы. Самое коварное здесь то, что названия статей в 90% случаев реальны, а вот метаданные — это чистый вымысел. Модель лажает на мелочах: она берет существующую работу и приписывает ей несуществующий DOI или отправляет тебя в журнал, где эта статья никогда не публиковалась. Это не просто ошибка, это галлюцинация в обертке авторитета, которую невозможно проверить без ручного поиска каждой ссылки.

Хотя проверяли обзоры по теме AI, этот системный баг касается любого контента, где важна точность фактов. Будь то юридическая справка, медицинский совет или техническая документация — если текст сгенерирован нейронкой, каждая пятая ссылка может оказаться пустышкой. Доверие к AI-контенту падает, потому что проверять за моделью становится дольше и дороже, чем написать всё самому с нуля.

Короче: мы столкнулись с ситуацией, когда форма победила содержание. Если ты используешь AI для серьезных исследований, помни — каждая шестая ссылка ведет в никуда. Нельзя слепо копировать список литературы, иначе твой «научный» труд превратится в сборник сказок с красивыми номерами страниц. Либо проверяй каждый DOI вручную, либо готовься к тому, что твое исследование — это карточный домик, который рассыплется при первой же проверке.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

Выберите модель ИИ:

Ваш запрос:

0 / 2000

~0.5-2 N-токенов ~10-30с

~0.3-1 N-токенов ~5-15с

Меню