3,583 papers
arXiv:2604.00944 70 1 апр. 2026 г. FREE

Specificity Hallucination: чем точнее детали в AI-ответе со ссылкой — тем выше риск, что они выдуманы

КЛЮЧЕВАЯ СУТЬ
Чем точнее деталь в AI-ответе со ссылкой — тем выше шанс, что её в источнике нет. Исследователи проверили почти 12 000 утверждений Gemini 2.5 Pro с привязкой к YouTube-видео: от 4% до 19% утверждений видео не подтверждает. Техника верификации позволяет разделить, что AI взял из реального источника, а что «подставил» из своих обучающих данных. Фишка: ссылка на источник подтверждает тему — но не конкретную цифру или имя внутри ответа. Просишь AI пройтись по каждой конкретной детали и сверить с текстом источника — получаешь карту того, что подтверждено, а что добавлено.
Адаптировать под запрос

TL;DR

Когда AI-поиск (Gemini, Google AI Overviews) отвечает на вопрос и цитирует видео как источник — это не проверка, а сигнал доверия. Исследователи проверили почти 12 000 утверждений Gemini 2.5 Pro, которые были привязаны к конкретным YouTube-видео, и выяснили: от 4% до 19% таких утверждений видео вообще не подтверждает.

Главная находка: самые опасные ошибки — не противоречия. Модель не говорит «чёрное» вместо «белого». Она добавляет точные детали: конкретный процент, имя, дату, цифру — которых в видео нет. Именно такие response звучат наиболее авторитетно и меньше всего вызывают желание проверить. Это называют «специфическая галлюцинация» — модель знает что-то из своих обучающих данных, подставляет эту деталь в ответ и при этом честно цитирует видео, которое к этой детали отношения не имеет.

Механика проста: чем сильнее утверждение отличается по словарю от того, что реально сказано в видео — и чем меньше смысловое совпадение с транскриптом — тем выше вероятность, что утверждение не подкреплено источником. Заголовок видео при этом почти не помогает: важен именно разговорный текст (транскрипт). Два сигнала тревоги работают независимо: можно переформулировать идею своими словами и исказить смысл, а можно скопировать слова и при этом выдать ложный контекст.


🔬

Схема метода

Это не промпт-техника — это карта поведения LLM при работе с источниками. Вот как работает механизм ошибки:

ИСТОЧНИК: видео содержит X
     ↓
LLM обрабатывает видео + обращается к своим обучающим данным
     ↓
LLM генерирует утверждение: X + [точная деталь из обучения]
     ↓
LLM цитирует видео как источник всего утверждения целиком
     ↓
Пользователь видит: авторитетный факт + ссылка на источник
     ↓
Реальность: деталь — выдуманная, видео её не поддерживает

Два независимых сигнала риска:

СИГНАЛ 1: лексическое расхождение
  Слова в утверждении ≠ слова в транскрипте → риск выше

СИГНАЛ 2: смысловое расхождение  
  Смысл утверждения ≠ смысл транскрипта → риск выше

Заголовок видео: почти не влияет на достоверность

🚀

Пример применения

Задача: Ты смотришь на ответ AI-поиска про инвестиции или здоровье — нужно понять, каким деталям доверять, а какие проверять

Промпт:

Ты помогаешь проверять точность AI-ответов.

Вот утверждение, которое AI сгенерировал, сославшись на источник:
{вставь утверждение}

Вот что реально есть в источнике (текст, транскрипт, статья):
{вставь текст источника или его краткое содержание}

Сделай три вещи:

1. НАЙДИ ТОЧНЫЕ ДЕТАЛИ в утверждении — числа, проценты, имена, 
   даты, конкретные названия. Выпиши каждую отдельно.

2. ДЛЯ КАЖДОЙ ДЕТАЛИ: есть ли она в источнике дословно или 
   по смыслу? Или это деталь, которой в источнике нет?

3. ВЫНЕСИ ВЕРДИКТ по каждой детали:
   ✅ Подтверждено источником
   ⚠️ Обобщение / интерпретация (источник это подразумевает, 
      но прямо не говорит)
   ❌ Не найдено в источнике (возможная специфическая галлюцинация)

Результат: Модель пройдётся по каждой конкретной детали утверждения и покажет, что реально есть в источнике, а что было «добавлено». Ты получишь структурированный разбор: какие факты подтверждены, какие — интерпретация, а какие — потенциально выдуманные. Это меняет восприятие с «AI сказал и сослался» на «вот что реально в источнике, а вот что добавлено».


🧠

Почему это работает

Слабость LLM: модель не хранит источники отдельно от своих знаний. Когда она обрабатывает видео и генерирует ответ — одновременно активируются и паттерны из обучения. Если в видео есть общая идея, а конкретная цифра к ней напрашивается из обучающих данных — модель её «подставит». Она не врёт намеренно: она генерирует наиболее вероятное продолжение, и правдоподобная конкретика продолжает общий смысл лучше, чем туманное «примерно».

Почему именно специфические детали: числа и имена делают утверждение убедительным. Модель обучалась на текстах, где конкретика = экспертность. Поэтому когда она синтезирует ответ по теме, она тяготеет к конкретным деталям — даже если источник их не содержит.

Рычаги для практики: - Цифры, проценты, имена, даты в AI-ответе со ссылкой = первоочередные кандидаты для проверки - Заголовок источника совпадает с темой — не значит, что содержание поддерживает детали - Чем авторитетнее звучит утверждение — тем выше шанс, что часть деталей добавлена из обучения, а не из источника - Медицинские и финансовые темы — чуть надёжнее (ошибок меньше), но это не основание расслабляться


📋

Шаблон промпта

Универсальный шаблон для проверки AI-утверждений с источниками:

Проверь это утверждение на специфические галлюцинации.

УТВЕРЖДЕНИЕ: {текст утверждения}

ИСТОЧНИК: {текст источника / транскрипт / краткое содержание}

Шаг 1 — Извлеки все конкретные детали из утверждения:
числа, проценты, даты, имена людей/организаций, 
названия мест, конкретные термины.

Шаг 2 — Для каждой детали проверь: 
она прямо присутствует в источнике? 
Или это интерпретация / обобщение? 
Или в источнике её нет совсем?

Шаг 3 — Сформулируй итог:
какие части утверждения подтверждены, 
какие — возможная инъекция из параметрических знаний 
(то есть из обучения модели, не из этого источника).

Плейсхолдеры: - {текст утверждения} — скопируй что сказал AI - {текст источника} — транскрипт видео, текст статьи, или попроси AI сначала выдать содержание источника, потом проверь по нему

🚀 Быстрый старт — вставь в чат:

Вот шаблон для проверки AI-утверждений на специфические галлюцинации. 
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит про само утверждение и источник — потому что без них невозможно сопоставить конкретные детали с реальным содержанием.


⚠️

Ограничения

⚠️ Только для контента с источниками: Исследование про AI-поиск, который цитирует видео. Поведение ChatGPT/Claude в обычном диалоге — другой сценарий, хотя паттерн «добавлять конкретику» тот же.

⚠️ Нельзя проверить без источника: Если у тебя нет доступа к содержанию источника — проверить нечем. Сам AI не скажет тебе честно «вот это я добавил от себя».

⚠️ Медицинские темы надёжнее — но не надёжны: В медицинском домене ошибок меньше, это не значит «можно верить без проверки». Там цена ошибки выше.

⚠️ Исследование про Gemini, не про Claude/ChatGPT: Но механика параметрических знаний универсальна для всех LLM. Конкретные цифры менять — паттерн сохраняется.


🔍

Как исследовали

Идея была простой: попросить Gemini 2.5 Pro отвечать на вопросы с цитатами на YouTube-видео, потом независимо скачать эти видео и проверить — подтверждают ли они то, что написала модель.

Исследователи подали почти 2 200 запросов по трём темам: медицина, финансы, общие знания. Gemini сам находил видео и генерировал ответы. Получилось 11 943 пары «утверждение — видео». Для каждой пары: скачали транскрипт через Whisper (автоматическое распознавание речи), заголовок, описание. И отправили всё это трём независимым LLM-судьям из разных семейств моделей — Gemini Flash, Grok, GPT-5.2 — чтобы избежать предвзятости одной модели. Судьи не знали друг о друге и выносили вердикт по 7 категориям.

Интересный момент: GPT-5.2 находил ошибок в 2–3 раза больше, чем Gemini и Grok. Это не значит, что он точнее — у него просто строже порог для «завышенных утверждений». Люди-аннотаторы при ручной проверке 49 случаев согласились с Gemini-судьёй в 96% случаев и с GPT-судьёй в 94% — оба надёжны. Grok пропускал больше реальных ошибок.

Что удивило: явных противоречий оказалось мало. Большинство ошибок — это «добавление» конкретики, которой в видео нет. Это хуже прямой лжи, потому что незаметно.


💡

Адаптации и экстраполяции

🔧 Техника: «Покажи мне только то, что есть в тексте» → отделяем источник от интерпретации

Прямой способ использовать находки исследования в обычном чате — запросить у модели два отдельных блока:

Резюмируй этот текст в двух блоках:

БЛОК 1 — "Что прямо сказано в источнике":
Только то, что буквально написано / сказано. 
Никаких выводов, интерпретаций, добавлений.
Числа, имена, утверждения — только если они есть в тексте.

БЛОК 2 — "Что я добавляю от себя":
Контекст, выводы, интерпретации, связанные факты,
которых в тексте нет, но которые помогают понять смысл.

ТЕКСТ: {вставь текст}

Это принуждает модель явно разделить параметрические знания и содержание источника. Она не сделает это автоматически — нужно спросить напрямую.


🔧 Техника: проверка собственного ответа

Если ты попросил AI что-то объяснить со ссылкой на документ или статью — добавь в конце:

Теперь перечисли все конкретные цифры и факты из своего ответа.
Для каждого укажи: это прямая цитата из документа, 
логический вывод из него, или общеизвестный факт из твоих знаний?

Модель честно покажет, откуда что взялось. Не всегда — но чаще, чем если не спрашивать.


🔗

Ресурсы

Auditing the Reliability of Multimodal Generative Search — Erfan Samieyan Sahneh, Luca Maria Aiello. IT University of Copenhagen, University of Bologna. AAAI 2025.


📋 Дайджест исследования

Ключевая суть

Чем точнее деталь в AI-ответе со ссылкой — тем выше шанс, что её в источнике нет. Исследователи проверили почти 12 000 утверждений Gemini 2.5 Pro с привязкой к YouTube-видео: от 4% до 19% утверждений видео не подтверждает. Техника верификации позволяет разделить, что AI взял из реального источника, а что «подставил» из своих обучающих данных. Фишка: ссылка на источник подтверждает тему — но не конкретную цифру или имя внутри ответа. Просишь AI пройтись по каждой конкретной детали и сверить с текстом источника — получаешь карту того, что подтверждено, а что добавлено.

Принцип работы

AI не хранит источники отдельно от своих знаний. Когда модель обрабатывает видео и генерирует ответ — одновременно активируются и паттерны из обучения. Общая идея есть в видео, а «напрашивающаяся» цифра лежит в обучающих данных — модель её подставит. Она не врёт намеренно. Прикол: конкретная цифра «продолжает смысл» лучше, чем туманное «примерно» — вот модель и добавляет её. Источник подтверждает тему. Но не каждый факт внутри ответа. Два сигнала риска работают независимо: — Слова в утверждении сильно отличаются от слов в транскрипте → риск выше — Смысл утверждения расходится со смыслом транскрипта → риск выше Заголовок видео почти не влияет на достоверность. Важен разговорный текст — транскрипт.

Почему работает

Числа, проценты, имена делают утверждение убедительным. Модель обучалась на текстах, где конкретика равно экспертность. При синтезе ответа она тяготеет к деталям — даже если источник их не содержит. Это объясняет почему именно авторитетно звучащие ответы самые опасные: они содержат добавленные детали, которые меньше всего хочется перепроверять. Медицинские и финансовые темы дают чуть меньше ошибок — но механика та же. Цена ошибки там просто выше.

Когда применять

AI-поиск с источниками (Google AI Overviews, Gemini, Perplexity) — конкретно для проверки числовых данных, дат, имён экспертов, названий исследований в ответе. Особенно когда принимаешь решения на основе этих данных: здоровье, финансы, юридические вопросы. НЕ подходит для проверки утверждений без источника: если AI не ссылается на конкретный документ или видео — сопоставлять не с чем.

Мини-рецепт

1. Скопируй ответ AI: Возьми утверждение, которое AI дал со ссылкой на источник.
2. Найди конкретные детали: Выпиши все числа, проценты, даты, имена, конкретные названия — отдельно от общих тезисов.
3. Достань содержание источника: Попроси AI выдать транскрипт видео или основные тезисы статьи. Или открой источник сам.
4. Запусти проверку: Вставь промпт верификации — попроси AI сверить каждую деталь с текстом источника. Вердикт по каждой: подтверждено / обобщение / не найдено.
5. Смотри на «не найдено»: Это и есть специфические галлюцинации. Конкретные детали без опоры в источнике.

Примеры

[ПЛОХО] : Что говорят исследования о норме сна для взрослых? — принимаем ответ с цифрами на веру, AI сослался на видео
[ХОРОШО] : После того как AI ответил, вставляешь: Проверь это утверждение на специфические галлюцинации. УТВЕРЖДЕНИЕ: [вставь ответ AI] ИСТОЧНИК: [вставь транскрипт видео или попроси AI сначала его выдать] Шаг 1 — извлеки все конкретные детали: числа, проценты, даты, имена людей и организаций, конкретные термины. Шаг 2 — для каждой детали: она прямо есть в источнике? Это обобщение, которое источник подразумевает? Или её в источнике нет совсем? Шаг 3 — итог: что подтверждено источником, что является интерпретацией, а что добавлено из обучающих данных модели.
Источник: Auditing the Reliability of Multimodal Generative Search
ArXiv ID: 2604.00944 | Сгенерировано: 2026-04-02 04:28

Проблемы LLM

ПроблемаСутьКак обойти
Модель подмешивает свои знания в пересказ источникаМодель не умеет держать источник и свои обучающие данные раздельно. Обрабатывает текст источника — и одновременно тянет знания из обучения. Результат: в ответе появляются конкретные детали (число, имя, дата), которых в источнике нет. Источник при этом добросовестно процитирован. Читатель видит авторитетный факт со ссылкой — и не догадывается, что деталь выдуманаПроверяй конкретные детали отдельно. Спрашивай модель: "Вот утверждение, вот текст источника. Каждое число, имя и дату — есть ли оно в источнике дословно или нет?"

Методы

МетодСуть
Поэлементная проверка AI-утверждения по источникуДай модели утверждение и текст источника. Попроси три шага. Шаг 1: "Выпиши все конкретные детали — числа, даты, имена, проценты, названия." Шаг 2: "Для каждой детали: она есть в источнике прямо или по смыслу? Или её там нет?" Шаг 3: "Вынеси вердикт: ✅ подтверждено / ⚠️ интерпретация / ❌ не найдено." Почему работает: Модель по умолчанию смешивает источник и свои знания. Явный шаг "сопоставь деталь с источником" разрывает этот режим. Она начинает искать конкретное место в тексте, а не генерировать правдоподобное. Когда применять: любой AI-ответ, где есть ссылка на источник и конкретные детали. Не работает: если у тебя нет доступа к содержанию источника — сопоставлять нечем

Тезисы

ТезисКомментарий
Чем точнее деталь — тем выше риск, что она выдуманаЭто контринтуитивно. Обычно думаем: конкретная цифра = надёжно. На деле наоборот. Числа, проценты, имена, даты звучат убедительно — поэтому модель их и добавляет. Она обучалась на текстах, где конкретика = экспертность. Когда источник даёт общую идею, модель "завершает" её правдоподобной деталью из обучения. Применяй: в любом AI-ответе со ссылкой первыми проверяй именно конкретные детали. Они — главные кандидаты на ошибку
📖 Простыми словами

Auditing the Reliability of Multimodal Generative Search

arXiv: 2604.00944

Когда AI-поиск типа Gemini или Google AI Overviews выдает ответ и прикрепляет ссылку на YouTube-видео — это не пруф, а иллюзия надежности. Модель работает не как архивариус, который сверяется с документом, а как галлюцинирующий рассказчик. Она берет общую тему из ролика и смешивает ее со своими внутренними знаниями, полученными при обучении. В итоге получается коктейль из правды и выдумки, где источник служит лишь красивой декорацией.

Это как если бы ты попросил друга пересказать фильм, который он смотрел вполуха, а он начал бы уверенно выдумывать детали, чтобы история казалась логичнее. Друг не врет специально — он просто заполняет пробелы в памяти тем, что кажется правильным. В итоге Gemini выдает конкретные цифры и факты, которых в видео просто нет, потому что правдоподобная ложь звучит для алгоритма убедительнее, чем честное признание в неопределенности.

Исследователи прогнали через Gemini 1.5 Pro почти 12 000 утверждений и выяснили, что от 4% до 19% цитат — это полная лажа. Модель использует два типа косяков: либо приписывает видео то, чего там не было, либо берет реальный факт, но искажает его до неузнаваемости. Особенно это опасно в темах вроде инвестиций или медицины, где одна неверная цифра превращает полезный совет в финансовое или физическое самоубийство.

Хотя тест проводили на видео, этот баг мультимодальности универсален для любого AI-поиска. Принцип работы LLM таков, что она всегда стремится к наиболее вероятному продолжению текста. Если в обучающей выборке часто встречалась определенная статистика, модель подставит ее в ответ, даже если в прикрепленном видео говорят об обратном. SEO-оптимизация под AI теперь должна учитывать, что робот может переврать ваш контент просто потому, что он «так привык».

Короче: никогда не верь плашке «источник» в AI-ответах на слово. Если видишь конкретную цифру или инструкцию — проверяй таймкод вручную, иначе рискуешь пойти по ложному следу. Сейчас AI-поиск — это не библиотекарь, а самоуверенный стажер, который готов приврать, лишь бы не показаться некомпетентным. Пока разработчики не разделят процесс генерации и процесс проверки фактов, каждая пятая цитата будет оставаться потенциальным враньем.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с