TL;DR
OpenAI утверждает, что галлюцинации в LLM — это проблема неправильных стимулов в обучении: модель наказывают одинаково за воздержание от ответа и за ошибку, поэтому она учится отвечать уверенно даже когда не уверена. Авторы статьи оспаривают это, заявляя что галлюцинации — не баг оптимизации, а архитектурная неизбежность трансформеров. LLM не представляет мир — она моделирует статистические ассоциации между токенами в "псевдо-онтологии" из языковых co-occurrence паттернов, а не из референциальных связей с реальностью.
Трансформер обязан генерировать продолжение — у него нет внутреннего механизма для определения "знаю/не знаю". Его "уверенность" (softmax-вероятности) отражает плотность паттернов в embedding-пространстве, а не эпистемический доступ к истине. На онтологических границах — там где данных мало или паттерны неполные — модель интерполирует вымышленные продолжения, чтобы сохранить связность. Нет механизма распознать переход от паттерна к фальши.
Авторы провели эксперименты с Licensing Oracle — внешним модулем валидации истины через структурированные онтологии (knowledge graphs, SHACL-схемы). Oracle проверяет каждый факт и заставляет модель воздерживаться, если ответ не проходит валидацию. Результат на двух датасетах: 0 ложных ответов, идеальная точность воздержания. Галлюцинации исчезли не от изменения промптов или incentives, а от добавления внешней архитектурной компоненты, которая выполняет функцию, недоступную трансформеру — различение истины от связного вымысла.
Схема концепции
ПРОБЛЕМА: LLM галлюцинирует
OpenAI объясняет:
└─ Неправильные стимулы → модель учится угадывать
└─ Решение: изменить бенчмарки, поощрять неуверенность
Авторы объясняют:
└─ Архитектура трансформера:
├─ Обязан генерировать токен (нет механизма воздержания)
├─ "Знает" только статистику, не факты
├─ "Уверенность" = плотность паттернов, не epistemic access
└─ На границах паттернов → интерполяция вымысла
└─ Решение: внешняя валидация
└─ Licensing Oracle: проверка → воздержание → 0 галлюцинаций
Ключевые инсайты для работы с LLM
1. Почему "скажи когда не уверена" не работает
LLM не имеет эпистемического доступа к собственному "знанию". Когда вы пишете "Ответь только если уверена, иначе скажи 'не знаю'", модель не проверяет внутреннее состояние "знаю/не знаю" — такого состояния не существует.
Она видит паттерн в промпте: "если условие X, то Y". Дальше генерирует токены, которые статистически сочетаются с этим паттерном. Если в обучающих данных часто встречалось "я не знаю" в похожих контекстах — выдаст это. Если чаще встречались уверенные ответы — выдаст факт (даже выдуманный).
Практический вывод: Инструкции про неуверенность меняют стиль ответа, но не устраняют галлюцинации. Модель симулирует осторожность, не обретая способность различать истину.
2. "Уверенность" модели ≠ эпистемическая уверенность
Когда LLM выдаёт ответ с высокой "уверенностью" (высокие вероятности токенов), это означает: "в моих данных этот паттерн встречается часто", а не "я проверила и это точно правда".
Модель может быть абсолютно "уверена" в биографии несуществующего учёного, если его имя статистически вписывается в паттерны научных биографий.
Практический вывод: Не полагайтесь на "tone of confidence" в ответе. Уверенная формулировка часто означает только плотный паттерн, не валидацию факта.
3. Генерация обязательна, воздержание — надстройка
Трансформер архитектурно обязан выдать следующий токен. Когда модель "отказывается" отвечать — это тоже сгенерированный ответ, выученный как паттерн из данных обучения. Это не результат внутреннего осознания границ знания.
Практический вывод: Если задача критична к фактам — используйте внешнюю валидацию, не надейтесь на самоконтроль модели.
4. Онтологические границы — зона максимального риска
Онтологическая граница — место, где: - Данных обучения мало (узкие домены, новые события) - Паттерны неполные (пересечение редких концептов) - Информация противоречива (разные источники говорят разное)
Здесь модель обязана интерполировать, чтобы сохранить связность ответа. Она заполняет пробелы вымышленными, но правдоподобными деталями.
Практический вывод: - Проверяйте факты в малоизвестных темах особенно тщательно - Если тема на пересечении доменов — риск галлюцинаций выше - Новые события после даты обучения — гарантированная зона интерполяций
Принцип внешней валидации
Авторы показали: галлюцинации исчезают только при архитектурном разделении: - LLM = генератор (создаёт связный текст) - Oracle = валидатор (проверяет истину, блокирует ложь)
В их экспериментах Oracle — это код с базой знаний. Но принцип применим вручную в чате:
Техника "Человек как Oracle"
Шаг 1: Генерация
Ответь на вопрос: {вопрос}
Структурируй ответ так:
- Основное утверждение
- Ключевые факты (каждый с пометкой [проверяемый])
- Выводы
Шаг 2: Валидация (вручную) Вы проверяете помеченные факты через внешние источники (Wikipedia, официальные данные, документы).
Шаг 3: Коррекция
Я проверил факты. Исправления:
- [Факт X] → неверно, на самом деле {правильная версия}
- [Факт Y] → подтверждён
Перепиши ответ с учётом проверенных данных.
Результат: LLM хорошо переписывает с учётом валидированных данных — это её сильная сторона (генерация на основе контекста). Вы выполняете роль Oracle — различаете истину от правдоподобия.
Техника "Два запроса — генерация и проверка"
Запрос 1 (генерация):
{твоя задача}
Выдай ответ со списком всех фактов, которые можно проверить.
Запрос 2 (в новом чате или после разделителя):
Я получил ответ с утверждениями. Для каждого укажи:
- Можно ли проверить?
- Если да — где искать источник?
- Оцени риск галлюцинации (высокий/средний/низкий) для этого типа информации
Список утверждений:
{скопировать из первого ответа}
Почему это работает: - Второй запрос использует другой паттерн — не генерацию факта, а мета-рассуждение о проверяемости - Модель хорошо знает, какие типы информации чаще галлюцинируются (даты, цитаты, малоизвестные имена) - Вы получаете "карту рисков" для проверки
Ограничения и что НЕ работает
⚠️ Промпт-инженерия не устраняет структурную проблему: Любые инструкции про осторожность, неуверенность, воздержание — это изменение стиля генерации, не появление способности различать истину. Модель научится говорить "я не уверена", но не обретёт механизм определения, когда это говорить.
⚠️ "Uncertainty calibration" — иллюзия: Если OpenAI или другие улучшат модель так, что она чаще говорит "не знаю" — это снизит частоту галлюцинаций, но не устранит причину. В критических точках модель всё равно будет генерировать правдоподобную ложь.
⚠️ Внешняя валидация требует усилий: Licensing Oracle работает автоматически, потому что это код. Вручную проверять факты — долго. Техника применима для критически важных задач, не для всех ответов подряд.
⚠️ Модель не "понимает" что она в системе валидации: Даже если вы пишете "я буду проверять факты, будь аккуратнее" — модель не становится аккуратнее структурно. Она может изменить тон, но не может включить механизм проверки истины, которого у неё нет.
Почему это важно
Эта статья даёт mental model для работы с LLM, который отличается от интуитивного:
Интуитивная модель (неправильная): - LLM "знает" факты → иногда "ошибается" → надо научить "быть честнее" - Галлюцинации = недостаток обучения или неправильные стимулы
Структурная модель (правильная): - LLM генерирует связные паттерны → не различает факт от правдоподобия → архитектурная особенность - Галлюцинации = неизбежное следствие работы по паттернам без референциального доступа к миру
Это меняет подход: - Не "попроси модель быть осторожнее", а "создай процесс с внешней проверкой" - Не "настрой промпт чтобы не галлюцинировала", а "используй LLM для генерации, себя — для валидации" - Не "жди что в будущих версиях исправят", а "проектируй workflow с учётом архитектурных ограничений"
Как это исследовали
Авторы не проводили новых экспериментов — это теоретическая работа-критика позиции OpenAI, опирающаяся на их предыдущие публикации.
Структурный анализ: В первой работе (How Large Language Models Are Designed to Hallucinate) они описали трансформер как coherence engine — систему, оптимизированную на генерацию связного продолжения, а не на проверку истины. Ключевая идея: embedding-пространство формируется через co-occurrence слов в текстах, а не через референциальные связи с миром. Возникает псевдо-онтология — сеть близостей, которая отражает текстовые паттерны, но не означает понимание. "Сократ", "Платон", "Афины" оказываются рядом потому что часто встречаются вместе, не потому что модель понимает их исторические связи.
Эмпирическая проверка: Во второй работе (Stemming Hallucination Using a Licensing Oracle) они построили систему с внешней валидацией. Licensing Oracle — это модуль, который: - Получает ответ от LLM - Проверяет каждое утверждение через structured knowledge base (графы знаний, SHACL-схемы) - Блокирует ответ, если факт не проходит валидацию - Заставляет модель воздержаться
Тестировали на двух датасетах: U.S. Rivers (географические факты) и Philosophers (биографические и концептуальные связи). В обоих случаях — идеальная точность воздержания (когда Oracle пропускает ответ, он всегда верен) и 0 ложных ответов (False Answer Rate = 0). Стабильность между доменами (<2% вариации) показала, что работает именно архитектурное решение, а не специфика данных.
Почему выводы убедительны: Главная находка — галлюцинации исчезли полностью, но только при добавлении внешней компоненты. Сама модель продолжала галлюцинировать даже при промптах с инструкциями про осторожность. Это противоречит тезису OpenAI: если бы проблема была в incentives, модель бы улучшилась от промптов, поощряющих воздержание. Но она не улучшилась — потребовалась внешняя архитектура.
Авторы используют эту комбинацию (теория + эмпирика + критика OpenAI) чтобы показать: галлюцинация — это не optimization artifact (побочный эффект обучения), а structural property (свойство архитектуры).
Ресурсы
Основная работа: Incentives or Ontology? A Structural Rebuttal to OpenAI's Hallucination Thesis Richard Ackermann (RA Software, San Diego), Simeon Emanuilov (Sofia University "St. Kliment Ohridski")
Предыдущие работы авторов (цитируются в статье): - How Large Language Models Are Designed to Hallucinate — структурный анализ природы галлюцинаций - Stemming Hallucination in Language Models Using a Licensing Oracle — эмпирическая проверка с системой внешней валидации
Что критикуют: OpenAI paper (сентябрь 2025) о том, что галлюцинации возникают из misaligned evaluation incentives
