Галлюцинации LLM в работе с документами: модели не врут, а додумывают
КЛЮЧЕВАЯ СУТЬ
LLM врут не там где ждёшь. Проверили ChatGPT, Gemini и NotebookLM на 300 документах — 30% ответов содержали галлюцинации. Но модели не выдумывали цифры или даты. Они додумывали интерпретации: «написано для широкой аудитории», «эксперты позитивно оценивают», «это было ответом на китайскую политику». Всё уверенно, всё правдоподобно, всё без опоры на текст.
Исследование позволяет понять где именно проверять ответы LLM при работе с документами — не только факты, но и «соединительную ткань». Фишка: проверяй характеристики источников, атрибуцию мнений, причинно-следственные связи. Именно там модель додумывает.
NotebookLM с принудительными цитатами — 13% ошибок. ChatGPT и Gemini — 40%. Разница не в «умности», а в архитектуре: система требующая источник для каждого утверждения физически не может додумать «от себя». Нет ссылки на документ — нет текста.