3,583 papers
arXiv:2606.05403 82 3 июня 2026 г. FREE

Epistemic Blind Spot: LLM доверяет «академическому виду» текста, а не проверке чисел

КЛЮЧЕВАЯ СУТЬ
Модель написала в своих рассуждениях: «здесь данные вызывают вопросы». И тут же процитировала этот источник как надёжный. Не ошиблась — именно так и поступила. Разделение анализа на два шага — сначала оцени каждый источник отдельно, потом синтезируй — позволяет получить реальную проверку данных до того, как модель начнёт взвешивать источники друг против друга. Фишка: в изоляции у модели нет «конкурентов за доверие» — она переключается в режим рецензента и ловит статистически невозможные числа, которые в многоисточниковом анализе проходят незамеченными. Два запроса вместо одного — и модель перестаёт доверять академическому стилю вместо самих данных.
Адаптировать под запрос

TL;DR

LLM умеет замечать подделанную статистику, но не делает этого, когда одновременно работает с несколькими источниками. Механика простая: модель реагирует на стиль аналитического текста — методологический язык, технические термины, формат исследования — и именно этот сигнал определяет, насколько источнику доверять. Реальная корректность чисел на этот сигнал не влияет.

Главная находка: Если в тексте написано «95% доверительный интервал: 42.1%–42.7% при n=2400» — это физически невозможные цифры, которые модель легко поймает в изоляции. Но внутри многоисточникового анализа этот источник получит почти такой же вес, как если бы статистика была корректной. Модель видит «аналитический стиль» → включает доверие → числа уже не проверяет. Это не невнимательность: исследователи обнаружили, что модель иногда сама замечает ошибку в своих рассуждениях — и всё равно цитирует этот источник как надёжный.

Проблему не решает даже прямая инструкция «проверяй статистику каждого источника». Любая инструкция по критической проверке даёт тотальный скептицизм — модель начинает подозревать всё подряд, включая валидные источники. Избирательной проверки не получается. Единственное, что работает: попросить оценить каждый источник отдельно, до синтеза.


🔬

Схема метода

Это не техника, а поведенческий паттерн с практическим следствием. Структура проблемы и обходного пути:

❌ Стандартный запрос:
ВВОД: [Источник A + Источник B + Источник C] → «Сделай вывод»
РЕЗУЛЬТАТ: Модель весит источники по стилю, а не по корректности данных

✅ Обходной путь — разделить изоляцию и синтез:

ШАГ 1 (отдельный запрос): 
«Оцени ТОЛЬКО этот источник. Есть ли внутренние противоречия 
в данных? Сами числа сходятся между собой?»
→ Делай для каждого источника по очереди

ШАГ 2 (отдельный запрос):
«Вот оценки каждого источника [из шага 1]. 
Теперь сделай синтез с учётом этих оценок.»
→ Синтез с уже встроенным скептицизмом

Два запроса, не один. Изоляция сначала — синтез потом.


🚀

Пример применения

Задача: Ты готовишь питч для инвестора по рынку EdTech в России. Попросил Claude найти противоречия в трёх маркетинговых отчётах, которые ты загрузил — они дают разные цифры по объёму рынка (Яндекс.Практикум, Data Insight, Skolkovo). Один отчёт выглядит особенно убедительно: много методологии, графики, p-значения. Но там написано «корреляция 0.97 при n=12» — что подозрительно.

Промпт:

Ниже — фрагмент из одного отчёта. Оцени ТОЛЬКО этот фрагмент, 
не сравнивая с другими источниками.

Ответь на три вопроса:
1. Сходятся ли числа внутри этого текста между собой? 
   Есть ли что-то, что невозможно при заявленных параметрах выборки?
2. Соответствует ли статистика описанной методологии?
3. Итоговый вердикт: можно ли на эти данные опираться в питче?

[вставь фрагмент отчёта]

Запусти этот промпт три раза — по одному на каждый отчёт. Потом отдельным запросом:

Вот результаты проверки трёх отчётов:
[Вставь ответы из трёх запросов выше]

Теперь синтезируй: какой диапазон оценки рынка наиболее обоснован? 
Учитывай выявленные проблемы с данными.

Результат: В первом блоке модель будет работать как критический рецензент — без контекста других источников, без соблазна «взвесить» мнения. Она даст конкретную оценку каждого источника: что вызывает вопросы, что сходится, что нет. Во втором блоке синтез уже пойдёт с этими оценками как контекстом — модель не сможет «забыть» о проблемах, потому что ты сам их туда вложил.


🧠

Почему это работает

Слабость LLM в многоисточниковом анализе: Когда модель одновременно читает несколько документов, она автоматически строит «карту доверия» — кому верить больше. Эта карта строится по стилистическим сигналам: академический язык, ссылки на методологию, точные числа, технические термины. Конкретные числа не проверяются на внутреннюю корректность — важно, что они есть и выглядят точно.

Что модель умеет хорошо: Критическая оценка одного текста в изоляции. Без конкурирующих источников модель включает «режим ревью» и ловит даже тонкие несоответствия — статистически невозможные интервалы, корреляции выше математического потолка, p-значения ниже допустимого уровня.

Как обходной путь использует это: Мы принудительно активируем «режим ревью» до синтеза, разбивая задачу на два шага. На первом шаге нет конкурирующих источников — есть только один текст и прямой вопрос про числа. На втором шаге результаты изоляционной проверки становятся частью контекста — модель синтезирует уже с готовыми оценками, а не строит доверие заново.

Рычаги управления: - Детализация вопросов в шаге 1 → чем конкретнее спрашиваешь («сходятся ли выборка и доверительный интервал?»), тем точнее проверка - Формат вывода шага 1 → попроси «дай оценку по шкале надёжности 1-5» — это удобнее вставлять в шаг 2 - Количество источников → при 5+ источниках можно попросить LLM саму составить сравнительную таблицу оценок перед синтезом


📋

Шаблон промпта

Шаг 1 — изоляционная проверка (запускать отдельно для каждого источника):

Перед тобой один источник. Оценивай только его — 
без сравнения с другими материалами.

Источник: {название_источника}
Текст: {текст_или_данные}

Проверь:
1. Внутренняя согласованность данных — числа не противоречат 
   друг другу? Выборка соответствует точности результатов?
2. Методология соответствует заявленным выводам?
3. Есть ли красные флаги, которые снижают доверие к этим данным?

Итог: насколько этому источнику можно доверять? (высокое / среднее / низкое)
Обоснование в 2-3 предложениях.

Шаг 2 — синтез с учётом оценок:

Вот оценки надёжности источников, которые ты дал ранее:

{Источник 1}: {оценка и обоснование из шага 1}
{Источник 2}: {оценка и обоснование из шага 1}
{Источник 3}: {оценка и обоснование из шага 1}

Задача: {что нужно выяснить или решить}

Сделай вывод, взвешивая источники с учётом их надёжности. 
Если источники противоречат друг другу, объясни, 
какому доверяешь больше и почему.

Плейсхолдеры: - {название_источника} — откуда текст: «Отчёт Data Insight 2024», «Статья Harvard Business Review», «Презентация подрядчика» - {текст_или_данные} — вставляй прямо сюда, или: «см. приложенный файл» - {оценка и обоснование из шага 1} — копируй ответ модели из первого шага - {что нужно выяснить} — твоя реальная задача: «Какой объём рынка закладывать в питч?», «Стоит ли доверять прогнозу подрядчика?»


🚀 Быстрый старт — вставь в чат:

Вот шаблон двухшагового анализа источников (изоляция → синтез). 
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит сколько источников, в каком формате они есть и что нужно выяснить в итоге — потому что метод требует раздельной обработки каждого источника, и ей нужно знать их количество и финальный вопрос, чтобы правильно структурировать оба шага.


📋

Почему это важно знать (даже без промпта)

Помимо двухшагового обходного пути, исследование даёт несколько инсайтов, которые меняют подход к работе с LLM:

«Аналитический стиль» ≠ аналитическая точность в глазах модели. Если тебе нужно, чтобы модель критически оценила источник, а не просто красиво обобщила его — нельзя смешивать оценку и синтез в один запрос.

Промпт «будь критичнее» не работает так, как хочется. Добавить в системный промпт «тщательно проверяй источники» — это не инструмент избирательного скептицизма, это переключатель «верю всему → сомневаюсь во всём». Точечная проверка через инструкцию в промпте недостижима.

Когда модель говорит «здесь есть проблема» — она может всё равно использовать этот источник. Если в аргументации видишь «хотя данные вызывают вопросы, в целом подтверждается...» — это не надёжная критика. Это именно тот паттерн, который описывает исследование.


⚠️

Ограничения

⚠️ Обходной путь помогает, но не устраняет проблему полностью: Разделение на два шага снижает риск, но не тестировалось авторами как решение — это логичный вывод из их данных, а не проверенная контрмера.

⚠️ Сложная статистика остаётся уязвимой: Простые нарушения (невозможный доверительный интервал в венчурных данных) модель ловит хорошо. Сложные нарушения (p-значение ниже теоретического минимума в маркетинге) — почти никогда, даже в изоляции.

⚠️ Работает для всех протестированных моделей: Паттерн воспроизвёлся почти во всех моделях — Claude, Qwen, OLMo. Это не баг одного вендора, это системная особенность.

⚠️ «Звучит как консенсус» дополнительно усиливает доверие: Если большинство источников разделяет мнение подозрительного источника, доверие к нему растёт ещё сильнее, а влияние стиля подачи — наоборот, снижается. Согласные источники как бы «выключают» презентационные сигналы.


🔍

Как исследовали

Исследователи поставили эксперимент в духе «детектора лжи для LLM». Они создали реалистичные рабочие переписки (Slack-треды) из четырёх участников, которые спорят о числах: венчурный аналитик, внешний эксперт, внутренний специалист, сторонний источник. Один из участников — «фокусный» — либо давал корректную статистику, либо физически невозможную (например, доверительный интервал шириной 0.06 процентного пункта при выборке в 2400 человек). Модель читала переписку и называла своё числовое мнение.

Ключевое в дизайне: те же самые фальсифицированные фрагменты показывали модели в изоляции — просто «проверь вот эту статистику». В изоляции модели ловили проблему в 76–100% случаев. В контексте переписки — практически никогда. Это и есть «способность без использования».

Всего протестировали пять моделей из трёх семейств, три предметных области (венчурные инвестиции, маркетинг, здравоохранение), больше миллиона запусков. Дополнительно провели механистический анализ — исследовали внутренние состояния Qwen 32B и OLMo, буквально проверяя, кодирует ли модель «этот источник недостоверен» (кодирует!) и использует ли этот сигнал при принятии решений (не использует). Самый неожиданный результат: даже «оракульный чеклист» — промпт, который дословно называет конкретные статистические нарушения — не даёт избирательной проверки. Модель просто начинает сомневаться во всём.


📄

Оригинал из исследования

Пример из исследования — как модели рассуждают про одну и ту же невозможную статистику в разных условиях:

Example 1: Verbatim reasoning excerpts for the same impossible CI.

Opus detects the impossibility in isolation:
[В изоляции модель прямо указывает на невозможность интервала]

Sonnet flags it during synthesis but endorses the source anyway:
[В контексте модель замечает проблему в рассуждении — 
и всё равно включает источник как надёжный в вывод]

"Both behaviors are representative across all five model families"

Контекст: Авторы специально зафиксировали случаи, когда в цепочке рассуждений модель явно отмечает проблему со статистикой — и затем в финальном ответе всё равно опирается на этот источник. Это показывает, что дело не в «невнимательности», а в том, что путь от «заметил проблему» до «снизил вес источника» не замкнут. Рассуждение рационализирует, а не корректирует.


📌

Адаптации

📌

💡 Адаптация: Проверка одного документа с конкурирующими утверждениями

Тот же принцип работает внутри одного длинного документа, где в разных местах фигурируют разные цифры по одной теме. Попроси модель сначала выписать все числовые утверждения из документа без выводов, потом проверить их согласованность.

Шаг 1:
Выпиши ВСЕ числовые утверждения из текста ниже в виде списка.
Без интерпретации, только сами цифры и контекст каждой.

[текст документа]

Шаг 2 (отдельный запрос):
Вот список утверждений из одного документа:
[список из шага 1]

Есть ли между ними противоречия? 
Есть ли цифры, которые не сходятся друг с другом?
📌

🔧 Техника: Явная ролевая инструкция для изоляции

Перед изоляционной проверкой дай модели роль рецензента, а не аналитика:

Ты — статистический рецензент. Твоя задача: найти проблемы, 
а не подтвердить выводы. Нет ни одного документа без замечаний.

[далее — текст источника и вопросы шага 1]

Роль «рецензента, который ищет проблемы» активирует более строгий режим, чем нейтральная «оценка». Это особенно полезно, когда источник написан очень убедительно и «аналитично» — именно такие тексты сильнее всего триггерят слепое доверие.


🔗

Ресурсы

Название работы: Trust, but Don't Verify: Epistemic Blind Spots in LLM Source Evaluation

Авторы: Rohan N. Pradhan, Steve Goley — Amazon

Ключевые отсылки из исследования: - Sperber et al. — концепция epistemic vigilance (источниковая vs. содержательная бдительность) - RLHF/DPO — механизм, через который модели могли усвоить «стиль как прокси качества» - «Precision heuristic» в поведенческой экономике — люди больше доверяют точным числам, даже бессмысленным - Wang et al. — аналогичный паттерн «замечает, но не исправляет» в контексте давления пользователя


📋 Дайджест исследования

Ключевая суть

Модель написала в своих рассуждениях: «здесь данные вызывают вопросы». И тут же процитировала этот источник как надёжный. Не ошиблась — именно так и поступила. Разделение анализа на два шага — сначала оцени каждый источник отдельно, потом синтезируй — позволяет получить реальную проверку данных до того, как модель начнёт взвешивать источники друг против друга. Фишка: в изоляции у модели нет «конкурентов за доверие» — она переключается в режим рецензента и ловит статистически невозможные числа, которые в многоисточниковом анализе проходят незамеченными. Два запроса вместо одного — и модель перестаёт доверять академическому стилю вместо самих данных.

Принцип работы

LLM читает несколько источников одновременно и строит «карту доверия». Карта строится по стилю: методологические термины, ссылки на выборку, точные числа в тексте — всё это даёт источнику вес. Реальная корректность цифр на этот вес почти не влияет. Корреляция 0.97 при n=12 — физически невозможная цифра — в академически оформленном тексте получает почти такой же вес, как корректные данные. Обходной путь ломает эту механику: изоляция убирает конкурирующие источники — и модель уже не взвешивает стили, а проверяет числа.

Почему работает

Когда источник один, модель не строит «карту доверия» — просто читает текст и ищет внутренние противоречия. Это другой режим работы. Результаты изоляционной проверки, встроенные в контекст запроса на синтез, не дают модели «переписать» оценку. Она синтезирует с уже встроенным скептицизмом — не строит доверие с нуля. Паттерн воспроизвёлся на всех протестированных моделях — Claude, Qwen, OLMo. Не баг одного вендора — системная особенность.

Когда применять

Маркетинговые отчёты, исследования рынка, презентации подрядчиков, обзоры научной литературы — везде, где несколько источников с цифрами и нужно понять, кому верить. Особенно когда источники противоречат друг другу: именно тогда модель сильнее всего опирается на стиль, а не данные. НЕ заменяет экспертную проверку: сложные статистические нарушения (нетипичные уровни значимости, методологические тонкости конкретной области) модель ловит плохо даже в изоляции. Простые нарушения — невозможные доверительные интервалы, нереальные корреляции при маленькой выборке — ловит хорошо.

Мини-рецепт

1. Открой каждый источник отдельным запросом: не смешивай — один источник, один запрос, никакого контекста других документов рядом
2. Задай три конкретных вопроса: числа внутри текста не противоречат друг другу? Выборка соответствует заявленной точности результатов? Есть ли красные флаги в методологии?
3. Попроси вердикт: «итог — высокое / среднее / низкое доверие, обоснование в 2-3 предложениях» — формат важен, он удобно вставляется в следующий шаг
4. Собери синтез отдельным запросом: вставь все вердикты из шага 3 как контекст — и только потом проси вывод по своей задаче

Примеры

[ПЛОХО] : Вот три отчёта по рынку EdTech. Какой объём рынка закладывать в питч инвестору?
[ХОРОШО] — Шаг 1 (запускать отдельно для каждого отчёта): Перед тобой один источник — оценивай только его, без сравнения с другими материалами. Числа внутри текста сходятся между собой? Выборка соответствует заявленной точности? Есть ли красные флаги? Итог: высокое / среднее / низкое доверие и почему в 2-3 предложениях. [фрагмент отчёта Data Insight] Шаг 2 (отдельный запрос после трёх проверок): Отчёт Data Insight: среднее — корреляция 0.97 при n=12 вызывает вопросы. Отчёт Skolkovo: высокое. Отчёт Яндекс.Практикум: высокое. Задача: какой объём рынка закладывать в питч? Синтезируй с учётом надёжности источников — если данные расходятся, объясни, какому доверяешь больше.
Источник: Trust, but Don't Verify: Epistemic Blind Spots in LLM Source Evaluation
ArXiv ID: 2606.05403 | Сгенерировано: 2026-06-05 10:05

Проблемы LLM

ПроблемаСутьКак обойти
При анализе нескольких источников модель проверяет стиль, а не данныеДаёшь три источника и просишь вывод. Модель автоматически строит карту доверия: кому верить больше. Эта карта строится по стилю — методологический язык, технические термины, точные числа. Сами числа на корректность не проверяются. Статистически невозможный интервал в тексте с «академическим» оформлением получит почти такой же вес, как корректные данные. Работает для любых задач с несколькими источникамиРаздели на два запроса. Сначала — оценка каждого источника по отдельности. Потом — синтез с результатами оценок как контекстом
Инструкция «проверяй критически» включает тотальный скептицизмДобавляешь в промпт «тщательно проверяй каждый источник». Модель не включает избирательную проверку. Она начинает подозревать всё подряд — включая надёжные источники. Точечной критики через инструкцию не получается. Это не просто неточность: избирательный скептицизм через промпт недостижимНе проси «быть критичнее». Вместо этого спрашивай конкретно: «есть ли внутренние противоречия в этих числах?», «выборка соответствует точности результата?» — отдельно для каждого источника

Методы

МетодСуть
Изоляция перед синтезом — два запроса вместо одногоШаг 1. Отдельный запрос для каждого источника: «Оцени только этот источник. Числа внутри текста согласуются? Выборка соответствует точности результатов? Методология соответствует выводам? Итог: высокое / среднее / низкое доверие». Нет других источников рядом — модель работает как рецензент, а не как арбитр между мнениями. Шаг 2. Отдельный запрос: «Вот оценки источников: [вставь ответы из шага 1]. Сделай вывод с учётом надёжности каждого». Почему работает: без конкурирующих источников рядом модель не строит карту доверия по стилю. Она проверяет данные напрямую. В шаге 2 эти оценки уже встроены в контекст — модель не строит доверие заново. Когда применять: любой анализ с 2+ источниками, где важна реальная корректность данных. Не работает как защита: от сложных статистических нарушений — простые несоответствия ловит, тонкие — нет

Тезисы

ТезисКомментарий
Один источник без соседей — модель проверяет данные. Несколько источников рядом — модель взвешивает стилиКогда рядом нет других документов, модель включает «режим ревью». Спрашивает себя: что тут написано, сходится ли. Когда рядом другие источники — переключается в режим арбитра: кому верить больше. Арбитраж идёт по стилю, а не по корректности чисел. Это не баг одного вендора — воспроизводится на разных моделях. Применяй: хочешь критической проверки — убирай конкуренцию источников из запроса
📖 Простыми словами

Trust, but Don't Verify: Epistemic Blind Spots inLLMSource Evaluation

arXiv: 2606.05403

Нейросети оценивают достоверность информации не как дотошные фактчекеры, а как впечатлительные первокурсники. В основе их логики лежит эпистемическое слепое пятно: когда модель анализирует пачку документов, она не проверяет цифры на адекватность, а считывает вайб авторитетности. Если текст написан сухим академическим языком, содержит ссылки на методологию и обвешан техническими терминами, LLM ставит ему высший балл доверия. При этом сама суть данных — будь то откровенная лажа или подделанная статистика — уходит на второй план, потому что стилистический сигнал полностью перекрывает здравый смысл.

Это как если бы ты пришел к врачу, который несет полную ахинею, но делает это в идеально отглаженном белом халате, со стетоскопом на шее и используя латинские термины. Формально он выглядит как профи, и ты подсознательно начинаешь ему верить, даже если он предлагает лечить перелом подорожником. Модель попадается в ту же ловушку: она настолько очарована атрибутами экспертности, что забывает включить логику и проверить, не противоречит ли «научный» отчет базовой математике.

На практике это превращается в иллюзию верификации. Исследователи выяснили, что LLM прекрасно видит косяки в статистике, если дать ей один текст, но стоит подсунуть три-четыре источника, как система ломается. Она выбирает фаворита по внешним признакам — например, отчет с фразами вроде «корреляция 0.97 при n=12» — и начинает подтягивать все выводы под него. Тот факт, что выборка из 12 человек не может дать такую точность, модель игнорирует, потому что наукообразный стиль для нее важнее внутренней логики чисел.

Этот принцип универсален для любой работы с данными через AI, будь то анализ рыночных отчетов, юридических документов или медицинских статей. Мы привыкли думать, что ChatGPT или Claude — это беспристрастные калькуляторы, но в реальности они заложники формы. Если ты загружаешь в модель несколько документов, чтобы найти истину, помни: она не «считает» правду, она выбирает того, кто убедительнее звучит. В мире больших языковых моделей казаться умным важнее, чем быть правым.

Короче: никогда не проси AI просто «сравнить источники и выбрать лучший» — он выберет самый пафосный, даже если там написана полная херня. Чтобы не влететь в этот облом с верификацией, нужно заставлять модель проверять каждый текст по отдельности, прежде чем сводить их в общую кучу. Иначе ты получишь аналитику, которая выглядит как работа нобелевского лауреата, но по факту является галлюцинацией в красивой обертке. Кто не проверяет «авторитетные» источники вручную, тот рано или поздно скормит инвестору или боссу красивую, но абсолютно липовую цифру.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с