TL;DR
Plausibility as Failure — исследование того, как люди оценивают ответы LLM и почему пропускают ошибки. Учёные провели трёхраундовую оценку четырёх моделей (ChatGPT, Gemini, DeepSeek, LeChat) на междисциплинарных задачах. Оценщики анализировали ответы по критериям: логика, связность, полезность, язык, этика, достоверность источников. Оказалось — беглый язык и структурная когерентность маскируют ошибки, люди путают критерии и полагаются на интуицию.
Ключевая находка: 45% ответов AI содержат минимум одну серьёзную проблему, из них 31% связаны с ошибками источников — неправильные цитаты, несуществующие ссылки, выдуманные авторы. Но главное — люди этого не замечают. Оценщики смешивали критерии (правильность, релевантность, обоснованность) в единую интуитивную оценку "звучит хорошо = правда". Чем сложнее задача, тем сильнее когнитивный дрейф: человек устаёт от проверки и начинает полагаться на поверхностные сигналы — форму, беглость, структуру. Ошибочный, но красиво оформленный ответ проходит как достоверный.
Исследование показывает: ошибка — это не только свойство модели, но и результат взаимодействия убедительной генерации LLM и человеческих когнитивных ярлыков. LLM тренируют максимизировать вероятность следующего токена — это вознаграждает лингвистическую когерентность, а не фактическую точность. Модель создаёт плавный, грамматически безупречный текст, даже когда содержание неверно. Человек интерпретирует форму как сигнал достоверности, особенно под нагрузкой. Ошибки становятся невидимыми, замаскированными под компетентность.
Типы ошибок LLM
Цель: Понять какие ошибки делают модели и как они маскируются.
Исследование выделяет два уровня ошибок:
1. Предсказательные (predictive) ошибки — явные фактические неточности: - Фактические ошибки: неверные даты, места, имена - Ошибки ссылок: выдуманные источники, неправильные авторы, несуществующие DOI - Семантические ошибки: неверная интерпретация контекста, нерелевантный ответ - Логические ошибки: неверные шаги рассуждений, противоречия - Контекстные ошибки: смена темы или тона без причины
2. Герменевтические (hermeneutic) ошибки — скрытые искажения смысла: - Галлюцинации: правдоподобный, но фактически неверный контент - Внутренние: противоречие исходным данным - Внешние: добавление неподтверждённого контента - Конфабуляции: правдоподобные объяснения для заполнения пробелов, симуляция рассуждений без понимания - Эпистемические галлюцинации: спекуляции представлены как факты - Ошибки верности (faithfulness): текст не соответствует входным данным - Креативные галлюцинации: вымысел без обозначения границы между фактом и фантазией
Почему второй тип опаснее: Герменевтические ошибки замаскированы лингвистической беглостью. LLM генерирует текст, который выглядит компетентным — правильная грамматика, уверенный тон, структурированность, цитаты (даже если выдуманные). Человек воспринимает форму как содержание, особенно под когнитивной нагрузкой.
Как люди оценивают ответы LLM
Цель: Понять паттерны человеческого восприятия ошибок.
Исследователи выделили пять измерений для оценки: 1. Логическое рассуждение (Logical Reasoning) 2. Диалогическая когерентность (Dialogic Coherence) 3. Полезность (Utility) 4. Выразительность языка и сложность (Language Expression and Complexity) 5. Этические проблемы и предвзятость (Ethical and Bias Challenges) 6. Достоверность и цитирование (Credibility and Citation) — кастомное измерение для проверки источников
Что обнаружили:
Когнитивное смешивание критериев: Оценщики не разделяли критерии аналитически. Они сворачивали правильность, релевантность, обоснованность, последовательность в единую интуитивную эвристику: "звучит хорошо = правда".
Пример: Ответ логичный, но фактически неверный → оценка "хорошо", потому что рассуждение убедительно.
Систематическая верификационная нагрузка: Чем плотнее и сложнее задача, тем больше когнитивный дрейф — оценщики устают от проверки и переключаются на поверхностные сигналы: - Структура ответа (списки, подзаголовки) - Уверенный тон - Наличие цитат (даже если не проверены) - Грамматическая правильность
Ошибочный, но хорошо оформленный ответ проходит как достоверный.
Проблема источников: 31% всех проблем — ошибки цитирования: - Несуществующие статьи - Неправильные авторы - Выдуманные DOI или URL - Нерелевантные источники
Оценщики часто не проверяли существование источников, полагаясь на то, что "раз есть цитата — значит правда".
Почему это работает (и не работает)
Цель: Понять механику убедительности LLM и человеческих когнитивных ярлыков.
Слабость LLM: LLM тренируют максимизировать вероятность следующего токена. Цель функции — лингвистическая когерентность, а не фактическая точность. Модель научилась создавать статистически правдоподобный текст на основе паттернов в данных. Она не "понимает" и не "проверяет факты" — она генерирует текст, который похож на правду.
Сильная сторона LLM: Модель отлично имитирует форму компетентности: - Грамматически правильный язык - Структурированный ответ - Уверенный тон - Логически связные рассуждения (даже если посылки неверны) - Цитаты и ссылки (даже если выдуманы)
Слабость человека: Люди используют когнитивные эвристики для оценки: - Беглость обработки (fluency heuristic): если текст легко читается — кажется правдой - Авторитетность формы: наличие цитат, структуры, терминологии = компетентность - Когнитивная нагрузка: сложные задачи истощают критическое мышление, человек переключается на поверхностные сигналы
Как это приводит к ошибке: LLM генерирует убедительную форму → Человек интерпретирует форму как сигнал достоверности → Ошибка остаётся незамеченной.
Ошибка = co-constructed outcome — результат взаимодействия генеративной правдоподобности LLM и человеческих интерпретационных ярлыков.
Принципы для работы с LLM
Цель: Что делать, чтобы не попасться на убедительную ошибку.
1. Беглость ≠ Точность
Принцип: Не доверяй форме. Красиво оформленный ответ — не гарантия правильности.
Как применять: - Если ответ звучит убедительно — это триггер для усиленной проверки, а не доверия - Оцени отдельно: правильность фактов, логику рассуждений, релевантность - Спроси себя: "Это правда или просто хорошо звучит?"
2. Проверяй источники
Принцип: 31% проблем связаны с ошибками цитирования.
Как применять: Если LLM даёт ссылки, цитаты, имена авторов: - Проверь существование источника (Google Scholar, DOI lookup) - Проверь релевантность — статья действительно про эту тему? - Проверь авторство — этот автор действительно писал об этом?
Промпт для проверки:
Ты дал мне эти источники: [список].
Для каждого источника проверь:
1. Существует ли он реально?
2. Соответствует ли теме моего запроса?
3. Правильно ли указан автор?
Если источник сомнительный — скажи честно.
3. Разделяй критерии оценки
Принцип: Не смешивай "правильность", "полезность", "релевантность" в единую оценку "хорошо/плохо".
Как применять: Оцени ответ по отдельным вопросам: - Фактически верно? (проверяемые факты) - Логически последовательно? (нет противоречий) - Релевантно моему запросу? (отвечает на вопрос) - Обосновано источниками? (есть проверяемые данные) - Полезно для моей задачи? (практическая ценность)
Промпт для аналитической проверки:
Оцени свой предыдущий ответ по критериям:
1. Фактическая точность: все факты проверяемы и верны?
2. Логическая последовательность: нет противоречий?
3. Релевантность: отвечает на мой вопрос напрямую?
4. Обоснованность: есть источники или явная логика?
5. Полезность: я могу использовать это для [моя задача]?
По каждому критерию дай оценку и пояснение.
4. Осознавай когнитивную усталость
Принцип: Чем сложнее задача, тем больше ты полагаешься на поверхностные сигналы.
Как применять: - После серии сложных запросов — сделай паузу - Не принимай критические решения на основе LLM-ответа в конце долгой сессии - Для важных задач — используй чек-лист проверки (см. следующий блок)
5. Чек-лист для критической проверки
Принцип: Систематизируй оценку, чтобы не упустить детали.
Как применять: Для каждого важного ответа LLM пройди по чек-листу:
☐ Факты: Все даты, имена, цифры можно проверить?
☐ Источники: Все ссылки существуют и релевантны?
☐ Логика: Нет противоречий в рассуждениях?
☐ Контекст: Ответ соответствует моему запросу?
☐ Тон: Уверенность модели соответствует уровню определённости? (Спекуляция не представлена как факт)
☐ Полнота: Модель не уклоняется от части вопроса?
Промпт для самопроверки LLM:
Проверь свой предыдущий ответ по чек-листу:
☐ Все факты (даты, имена, цифры) верны и проверяемы?
☐ Все источники существуют и релевантны теме?
☐ Нет логических противоречий?
☐ Ответ точно соответствует моему запросу?
☐ Уровень уверенности адекватен (спекуляции отмечены как спекуляции)?
☐ Я ответил на все части вопроса?
Для каждого пункта: ✅ если ОК, ⚠️ если есть проблема + объяснение.
Шаблон промпта: Критическая самопроверка LLM
Цель: Использовать LLM для проверки собственного ответа по критериям исследования.
Ты дал мне ответ на запрос: {мой исходный запрос}
Теперь выступи в роли критического рецензента и проверь свой ответ по этим критериям:
**1. ФАКТИЧЕСКАЯ ТОЧНОСТЬ**
- Все ли факты (даты, имена, цифры, события) верны и проверяемы?
- Есть ли утверждения, которые могут быть неточными?
**2. ИСТОЧНИКИ И ЦИТАТЫ**
- Все ли источники существуют реально?
- Все ли источники релевантны теме?
- Правильно ли указано авторство?
**3. ЛОГИЧЕСКАЯ ПОСЛЕДОВАТЕЛЬНОСТЬ**
- Есть ли противоречия в рассуждениях?
- Все ли выводы следуют из посылок?
**4. РЕЛЕВАНТНОСТЬ**
- Ответ точно соответствует запросу?
- Есть ли отклонения от темы?
**5. ОБОСНОВАННОСТЬ**
- Все ли утверждения подкреплены фактами или явной логикой?
- Есть ли необоснованные спекуляции, представленные как факты?
**6. ПОЛНОТА**
- Все ли части вопроса получили ответ?
- Есть ли уклонение от сложных аспектов?
Для каждого критерия:
✅ ОК — если нет проблем
⚠️ ПРОБЛЕМА — если есть, с объяснением что именно не так
После проверки: если нашёл проблемы — дай исправленную версию ответа.
Как использовать:
1. Получи ответ от LLM на свой запрос
2. Вставь этот промпт, заменив {мой исходный запрос} на твой вопрос
3. LLM проанализирует свой предыдущий ответ
4. Ты получишь структурированный отчёт о проблемах + исправленную версию
Ограничение: LLM может не найти собственные ошибки, если они укоренены в обучающих данных. Это дополнительный слой проверки, не замена ручной верификации критических фактов.
Пример применения
Задача: Проверяешь бизнес-идею через анализ рынка. Попросил LLM проанализировать перспективы запуска сервиса быстрой доставки готовой еды в Екатеринбурге. Получил подробный ответ с цифрами, трендами, ссылками на исследования.
Промпт для критической проверки:
Ты дал мне анализ рынка быстрой доставки еды в Екатеринбурге.
Теперь выступи в роли критического рецензента и проверь свой ответ по этим критериям:
**1. ФАКТИЧЕСКАЯ ТОЧНОСТЬ**
- Все ли факты (объём рынка, темпы роста, конкуренты) верны и проверяемы?
- Есть ли утверждения, которые могут быть неточными?
**2. ИСТОЧНИКИ И ЦИТАТЫ**
- Все ли источники существуют реально?
- Все ли источники релевантны теме?
- Правильно ли указано авторство?
**3. ЛОГИЧЕСКАЯ ПОСЛЕДОВАТЕЛЬНОСТЬ**
- Есть ли противоречия в рассуждениях?
- Все ли выводы следуют из посылок?
**4. РЕЛЕВАНТНОСТЬ**
- Ответ точно соответствует запросу про Екатеринбург?
- Есть ли отклонения от темы?
**5. ОБОСНОВАННОСТЬ**
- Все ли утверждения подкреплены фактами или явной логикой?
- Есть ли необоснованные спекуляции, представленные как факты?
**6. ПОЛНОТА**
- Все ли аспекты (рынок, конкуренция, барьеры входа, тренды) получили ответ?
- Есть ли уклонение от сложных аспектов?
Для каждого критерия:
✅ ОК — если нет проблем
⚠️ ПРОБЛЕМА — если есть, с объяснением что именно не так
После проверки: если нашёл проблемы — дай исправленную версию анализа.
Результат: LLM проанализирует свой предыдущий ответ по шести критериям. Ты получишь структурированный отчёт: - ✅/⚠️ для каждого критерия - Конкретные проблемы: например, "⚠️ ИСТОЧНИКИ: Ссылка на исследование РБК от 2024 года не существует, возможная галлюцинация" - Исправленную версию анализа, где проблемные утверждения заменены на проверяемые или отмечены как спекуляции
Это не гарантия 100% точности (LLM может не найти собственные ошибки), но добавляет второй уровень критической проверки, который ты можешь использовать как основу для ручной верификации ключевых фактов.
Почему это работает
Цель: Понять механику принципов и когда их применять.
LLM тренируют максимизировать лингвистическую когерентность, не фактическую точность: Модель учится на паттернах языка — какие слова обычно идут после каких. Она не "проверяет факты", она генерирует статистически правдоподобный текст. Если в обучающих данных часто встречается "Эйнштейн + теория относительности", модель свяжет их. Но если данные содержат ошибки или модель экстраполирует неверно — она выдаст ошибку с тем же уровнем уверенности, что и правду.
Форма убеждает сильнее содержания: Исследование показало: оценщики полагались на поверхностные сигналы достоверности: - Грамматическая правильность - Структурированность (списки, подзаголовки) - Уверенный тон - Наличие цитат (даже не проверяя их)
Это эвристика беглости обработки (fluency heuristic) — если текст легко читается, мозг интерпретирует это как сигнал правды. LLM эксплуатирует эту особенность человеческого восприятия не намеренно, а как побочный эффект оптимизации на лингвистическую когерентность.
Когнитивная нагрузка усиливает эффект: Чем сложнее задача, тем сильнее когнитивный дрейф — человек устаёт от аналитической проверки и переключается на интуитивные эвристики. Это объясняет, почему в исследовании оценщики пропускали ошибки в плотных, сложных ответах, но замечали их в простых.
Разделение критериев противостоит когнитивному смешиванию: Когда ты оцениваешь ответ по отдельным вопросам (факты? логика? источники? релевантность?), ты принудительно активируешь аналитическое мышление вместо интуитивного. Это снижает влияние формы на восприятие содержания.
Самопроверка LLM использует её сильную сторону: LLM хорошо следует структурированным инструкциям. Промпт с чек-листом задаёт аналитическую рамку, где модель проверяет каждый критерий отдельно. Это не гарантирует обнаружение всех ошибок (особенно укоренённых в обучающих данных), но добавляет второй проход с другой фокусировкой внимания.
Рычаги управления: - Количество критериев: Больше критериев = детальнее проверка, но дольше. Для быстрых задач оставь 3-4 ключевых. - Формат вывода: "✅/⚠️ + объяснение" даёт структурированный отчёт. Можешь попросить "краткий вывод одним предложением" для экономии времени. - Уровень строгости: Добавь "будь максимально критичным, даже к мелким неточностям" если задача критичная (инвестиции, здоровье, право). - Исправленная версия: "Дай исправленную версию" в конце промпта — получишь не только отчёт о проблемах, но и улучшенный ответ.
Когда применять: - ✅ Критические решения: финансы, здоровье, юридические вопросы, инвестиции - ✅ Публикация контента: статьи, посты, презентации клиентам - ✅ Сложные задачи: анализ рынка, стратегия, исследование - ❌ Не нужно для: брейнштормов, черновиков, экспериментов, обучения
Ограничения
⚠️ Самопроверка LLM не заменит ручную верификацию: Модель может не обнаружить собственные ошибки, особенно если они укоренены в обучающих данных или связаны с систематическими паттернами. Используй как дополнительный слой, не как единственную проверку.
⚠️ Когнитивная нагрузка сохраняется: Чек-лист снижает риск пропуска ошибок, но не отменяет усталость. Для критических задач делай паузы и не принимай решений в конце долгой сессии.
⚠️ Источники всё равно нужно проверять вручную: LLM может сказать "источник существует", но не иметь актуального доступа к верификации. Для важных решений — проверяй ключевые ссылки самостоятельно (Google Scholar, DOI lookup).
⚠️ Не работает для полностью субъективных задач: Критерии "фактическая точность" и "источники" применимы к задачам с проверяемыми фактами. Для креативных задач, генерации идей, стилистических правок — чек-лист избыточен.
⚠️ Требует понимания домена: Чтобы оценить "логическую последовательность" или "релевантность", ты должен разбираться в теме хотя бы базово. Чек-лист не заменит экспертизу в незнакомой области.
Как исследовали
Команда из Университета Авейру (Португалия) провела трёхраундовую оценку четырёх LLM — ChatGPT (4o), Gemini (2.5-pro), DeepSeek (r1-0528-maas), LeChat (Mistral Medium 3). Выбрали две доминирующие американские модели, одну китайскую и одну европейскую, чтобы проверить культурное разнообразие — в пилотном исследовании заметили, что модели хуже справлялись с вопросами про небольшие страны (например, Португалию) по сравнению с мировыми лидерами.
Дизайн исследования: прогрессивная эпистемическая эскалация. Каждый раунд менял и задачу, и инструмент оценки, чтобы поймать разные типы ошибок и увидеть как меняется человеческое восприятие: - Раунд 1: Оценка по 6 измерениям (логика, связность, полезность, язык, этика, достоверность) с 5-балльной шкалой Лайкерта. Оценщики отвечали на детальные вопросы по каждому критерию. - Раунд 2: Упростили форму — убрали названия измерений, оставили только вопросы. Добавили критерии "Ясность" и "Удовлетворённость", потому что в Раунде 1 заметили: люди недовольны даже фактически правильными ответами, если те не соответствуют ожиданиям. - Раунд 3: Переключились на бинарную шкалу (Да/Нет) + поле для наблюдений, чтобы снизить когнитивную нагрузку.
Раунды проводили в разные месяцы, чтобы поймать дрейф модели (обновления моделей могли изменить поведение) и дрейф оценщиков (усталость, изменение калибровки).
Задачи: Междисциплинарные вопросы — общие знания, логические задачи, этические дилеммы, предвзятые вопросы, загадки, академические обзоры, анализ таблиц. Проверяли на португальском и английском, чтобы увидеть языковые различия.
Главное открытие дизайна: Чем сложнее становились задачи (от простых фактов к плотному анализу), тем сильнее систематическая верификационная нагрузка — оценщики устали проверять и начали полагаться на форму ответа (структура, беглость, цитаты) вместо содержания. Это подтвердило гипотезу: ошибка = co-constructed outcome — результат взаимодействия генеративной правдоподобности LLM и человеческих когнитивных ярлыков.
Почему 45% проблем и 31% ошибок источников: Оценщики вручную анализировали ответы по критериям. Из всех выявленных проблем почти половина содержала серьёзные изъяны — фактические ошибки, логические противоречия, нерелевантность, проблемы с источниками. Самая частая категория — ошибки цитирования: несуществующие статьи, неправильные авторы, выдуманные DOI. Это совпало с наблюдениями журналистов (Fletcher & Verckist, 2025) и OECD (2025) — LLM систематически фабрикуют источники, но делают это так уверенно и структурированно, что люди не проверяют.
Удивительное: Даже когда оценщики знали о проблеме галлюцинаций, они всё равно пропускали ошибки в хорошо оформленных ответах. Это показало: осведомлённости недостаточно — нужны систематические чек-листы и разделение критериев, чтобы противостоять когнитивным эвристикам.
Ресурсы
Plausibility as Failure: How LLMs and Humans Co-Construct Epistemic Error
Cláudia Vale Oliveira, Nelson Zagalo, Filipe Silva, Anabela Brandão, Syeda Faryal Hussain Khurrum, Joaquim Santos
DigiMedia, University of Aveiro, Portugal
