3,583 papers
arXiv:2605.08590 78 9 мая 2026 г. FREE

Epistemic Overreach: LLM уверенно придумывает причины там, где данных нет — и как это остановить

КЛЮЧЕВАЯ СУТЬ
LLM при анализе данных систематически выходит за рамки того, что данные реально показывают — заполняет пробелы правдоподобными, но ничем не подкреплёнными объяснениями. Попросил модель объяснить падение конверсии по цифрам из таблицы — она уверенно назовёт "сезонность", "усталость аудитории" или "изменение алгоритма", даже если в данных нет ни намёка на причину. Звучит убедительно. Ощущается как инсайт. Но это домысел.
Адаптировать под запрос

TL;DR

LLM при анализе данных систематически выходит за рамки того, что данные реально показывают — заполняет пробелы правдоподобными, но ничем не подкреплёнными объяснениями. Попросил модель объяснить падение конверсии по цифрам из таблицы — она уверенно назовёт "сезонность", "усталость аудитории" или "изменение алгоритма", даже если в данных нет ни намёка на причину. Звучит убедительно. Ощущается как инсайт. Но это домысел.

Главная ловушка — это не обычная галлюцинация (когда модель говорит что-то явно ложное). Это тихий сдвиг: модель правильно описывает что произошло, а потом прибавляет уверенный ответ на вопрос почему — хотя данных на почему нет. Причём если дать модели больше данных, проблема не уходит — она генерирует более детальные, но столь же неподкреплённые истории.

Работает одно: явно инструктировать модель держаться в рамках доступных данных, признавать пробелы и разделять наблюдение и вывод. Исследователи назвали такой подход bounded prompting (ограниченное промптирование) — он снижает проблему, хотя и не устраняет полностью.


🔬

Схема метода

ПРОБЛЕМА (по умолчанию):
  Данные → LLM → "Это произошло потому что [уверенное объяснение]"
                              ↑
              Данных на "почему" нет, но звучит правдоподобно

РЕШЕНИЕ — добавить 4 явных ограничения в промпт одним блоком:

ОГРАНИЧЕНИЕ 1: Оставайся в рамках предоставленных данных
ОГРАНИЧЕНИЕ 2: Явно укажи, каких данных не хватает для уверенного вывода
ОГРАНИЧЕНИЕ 3: Разделяй: "данные показывают X" vs "можно предположить Y"
ОГРАНИЧЕНИЕ 4: Калибруй уверенность — не говори уверенно о том, чего не видно

→ Всё это вставляем в один промпт, до задачи

Схема работает в одном промпте. Отдельного запроса не нужно.


🚀

Пример применения

Задача: Маркетолог в небольшом интернет-магазине видит в Яндекс.Метрике, что в прошлый вторник конверсия упала с 3,2% до 1,1%. Просит ChatGPT объяснить что произошло.

Что происходит без bounded prompting: Модель уверенно выдаёт: "Вероятно, причиной стала усталость аудитории от рекламных кампаний, возможное изменение алгоритма Яндекса или технические проблемы на сайте..." — ни одна из причин не следует из данных.

Промпт с bounded prompting:

Вот данные по конверсии магазина за последние 7 дней:
[вставить данные]

Проанализируй аномальный день (вторник, падение с 3,2% до 1,1%).

Важно: работай строго в рамках этих правил:
1. Опирайся только на то, что видно в предоставленных данных
2. Явно укажи, каких данных не хватает для уверенного вывода о причине
3. Различай: "данные показывают X" (наблюдение) и "можно предположить Y" 
   (гипотеза, не факт)
4. Не говори уверенно о том, что данные не подтверждают — 
   используй "возможно", "данных недостаточно чтобы утверждать"

Сначала опиши что данные реально показывают. Потом — гипотезы (явно 
обозначив их как гипотезы). Потом — что нужно проверить дополнительно.

Результат: Модель выдаст три чётких блока: что данные показывают (факт: конверсия упала, других аномалий нет), что остаётся неизвестным (трафик, источники, поведение на странице — в данных нет), и список гипотез с явной пометкой что это предположения. Никаких уверенных "скорее всего, причина в...".


🧠

Почему это работает

LLM обучена объяснять. Её обучали на текстах, где за вопросом "почему" всегда следует ответ. Пробел в данных для неё — не повод остановиться, а повод заполнить наиболее правдоподобным вариантом. Чем лучше модель, тем убедительнее звучит заполненный пробел.

Проблема не в качестве данных, а в отсутствии инструкции остановиться. Исследование показало: давать больше данных не помогает. Модель просто строит более детальную версию той же неподкреплённой истории. Это важно — интуиция подсказывает "дай больше контекста", но решение не здесь.

Bounded prompting задаёт явный стоп-сигнал. Когда модель получает явное разрешение сказать "данных недостаточно" и инструкцию разделять факт и гипотезу — она перестаёт заполнять пробелы автоматически. Не потому что стала "честнее", а потому что инструкция меняет паттерн генерации: теперь "я не знаю" — это валидный ответ.


Пять форм epistemic overreach — чеклист для проверки любого LLM-анализа:

Тип Как выглядит
Причинный домысел "Это произошло из-за X" — но X в данных не видно
Молчание о пробелах Объясняет не упоминая, что ключевых данных нет
Уверенный язык "Очевидно", "скорее всего", "явно" — о неизвестном
Временная путаница Меняет местами причину и следствие
Диагноз без оснований "Стресс", "усталость", "перегрузка" — без данных

📋

Шаблон промпта

Вот данные: {данные}

Проанализируй {что_анализируем}.

Правила работы — строго:
1. Опирайся только на предоставленные данные
2. Явно укажи каких данных не хватает для уверенного вывода
3. Разделяй: "данные показывают [наблюдение]" vs 
   "можно предположить [гипотеза]"
4. Не делай уверенных заявлений о том, что данные не подтверждают — 
   используй "возможно", "недостаточно данных чтобы утверждать"

Структура ответа:
— Что данные реально показывают (только факты из данных)
— Чего не хватает для полного понимания (явные пробелы)
— Гипотезы (явно обозначить как гипотезы, не факты)
— Что проверить дополнительно

Плейсхолдеры: - {данные} — вставь таблицу, текст, цифры, логи — что есть - {что_анализируем} — аномалию, падение, изменение, поведение


🚀 Быстрый старт — вставь в чат:

Вот шаблон bounded prompting для анализа данных без домыслов. 
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит что именно анализировать и какие данные есть — потому что без этого шаблон не заработает: ему нужно знать от чего отталкиваться при разделении "данные показывают" vs "гипотеза".


⚠️

Ограничения

⚠️ Не устраняет, а снижает: Bounded prompting значительно уменьшает количество домыслов, но не убирает их полностью. Модели всё равно периодически выходят за рамки — особенно когда данных очень мало.

⚠️ Эффект зависит от модели: Разные LLM по-разному реагируют на эти инструкции. GPT-семейство работало лучше маленьких открытых моделей. В среднем это работает, но результат варьируется.

⚠️ Не заменяет экспертную проверку: Если решение важное — не доверяй только инструкции. Прогони ответ модели через чеклист пяти форм overreach вручную.

⚠️ Для субъективных тем — осторожно: Исследование о поведенческих данных. Для эмоциональных тем, личных интерпретаций или творческих задач проблема может быть устроена иначе.


🔍

Как исследовали

Команда взяла три реальных датасета с данными студентов — активность, сон, настроение — собранными со смартфонов на протяжении семестра или нескольких лет. Из этих данных выделили аномальные дни: дни, когда показатели конкретного человека значительно отклонились от его же обычного уровня. Получилось почти 15 000 сценариев — "вот данные, объясни почему этот день оказался аномальным".

Ключевой трюк дизайна: для каждого сценария модели давали разное количество данных — минимальный набор (только аномальный показатель) или расширенный (плюс звонки, геолокация, академический календарь). Это позволило проверить: помогает ли больше данных? Ответ оказался неожиданным — почти нет. Модели строили такие же уверенные истории про "стресс" и "усталость" независимо от объёма данных.

Второй вектор — два типа промптов: открытый ("объясни что произошло") и ограниченный ("объясни, но не выходи за данные, признавай пробелы"). Bounded prompting помогал — примерно у GPT-nano overreach снижался заметно, у маленьких открытых моделей — слабее. Интересно, что главным источником проблемы оказалось не перепутанное время или придуманные факты — а именно психологические интерпретации: модели правильно описывали что упало, но уверенно добавляли почему (стресс, социальная изоляция, переутомление) без каких-либо данных на эту тему.


💡

Адаптации и экстраполяции

🔧 Техника: аудит уже полученного ответа

Если промпт менять поздно — попроси модель проверить уже готовый анализ:

Вот анализ который ты только что дал. Проверь его по этим критериям:
1. Какие утверждения выходят за рамки предоставленных данных?
2. Где ты говоришь уверенно о том, что данные не подтверждают?
3. Какие пункты — наблюдения, а какие — предположения?
4. Что нужно добавить чтобы сделать эти выводы обоснованными?

Отметь проблемные места явно.

Получишь авто-аудит собственного ответа модели — она часто находит свои же домыслы при явном запросе проверки.


🔧 Техника: встроить разделение прямо в формат вывода

Заставь модель структурно разделять факт и гипотезу — не как инструкцию, а как обязательные разделы:

Структура ответа — строго:
**ФАКТЫ ИЗ ДАННЫХ:** [только то, что видно в данных]
**ПРОБЕЛЫ:** [каких данных нет, но они важны для понимания]  
**ГИПОТЕЗЫ:** [предположения — каждое с пометкой "гипотеза"]
**НУЖНО ПРОВЕРИТЬ:** [что добавить чтобы подтвердить гипотезы]

Когда формат требует явного раздела "пробелы" — модель вынуждена их назвать вместо того чтобы заполнить домыслом.


🔗

Ресурсы

Causal Stories from Sensor Traces: Auditing Epistemic Overreach in LLM-Generated Personal Sensing Explanations

Авторы: Shanshan Zhu, Han Zhang, J. Doris Chi, Subigya Nepal, Koustuv Saha

Организации: University of Illinois Urbana-Champaign, University of Chicago, Yale University, University of Virginia

Датасеты: StudentLife (Dartmouth), GLOBEM (University of Washington), CollegeExperience (Dartmouth)


Проблемы LLM

ПроблемаСутьКак обойти
Модель выдаёт причины там, где данных нетПросишь объяснить аномалию в данных. Модель правильно описывает что случилось. Потом уверенно добавляет почему — хотя данные на вопрос «почему» не отвечают. Звучит как инсайт. Это домысел. Срабатывает всегда: при анализе метрик, логов, поведения пользователей — везде где есть пробел в данныхДобавь в запрос явный блок из 4 ограничений: (1) опирайся только на предоставленные данные; (2) укажи каких данных не хватает; (3) разделяй «данные показывают X» и «можно предположить Y»; (4) не говори уверенно о том, что данные не подтверждают

Методы

МетодСуть
Ограниченный анализ — отделяет факты от гипотезВставь в запрос блок ограничений до самой задачи: «Опирайся только на данные. Укажи пробелы. Разделяй наблюдение и гипотезу. Не делай уверенных выводов без оснований.» Попроси структурированный ответ: сначала факты из данных, потом пробелы, потом гипотезы с явной пометкой. Почему работает: модель получает явное разрешение сказать «данных недостаточно». Это меняет паттерн генерации — «не знаю» становится допустимым ответом, а не пробелом для заполнения. Когда применять: анализ метрик, логов, таблиц, отчётов — любые данные где нужно найти причину. Когда хуже работает: маленькие открытые модели реагируют слабее. Очень мало данных — домыслы всё равно проскакивают

Тезисы

ТезисКомментарий
Больше данных не убирает домыслы — делает их убедительнееИнтуиция подсказывает: дай модели больше контекста — станет точнее. Не срабатывает. Модель строит более детальную историю, но она так же не подкреплена данными. Проблема не в объёме данных, а в отсутствии инструкции остановиться. Применяй: не трать время на сбор дополнительного контекста ради точности объяснений. Сначала поставь ограничение на домыслы
📖 Простыми словами

Causal Stories from Sensor Traces: Auditing Epistemic Overreach inLLM-Generated Personal Sensing Explanations

arXiv: 2605.08590

LLM работают как сверхмощные галлюциногенные интерпретаторы: они не просто анализируют сухие цифры, а пытаются выстроить из них связный сюжет. Проблема в том, что модели плевать на доказательства — она запрограммирована давать ответ, даже если данных катастрофически не хватает. Это явление называют эпистемическим перебором, когда нейронка берет крошечный факт и раздувает его до масштабов вселенской теории, выдавая домыслы за глубокую аналитику.

Это как если бы ты зашел в комнату, увидел на полу разбитую чашку и спящего кота, а «эксперт» тут же выдал тебе детальный триллер о том, как кот в прыжке за мухой совершил тактическую ошибку. Звучит логично, картинка складывается, но на самом деле чашку мог разбить сквозняк за час до того, как кот вообще зашел в комнату. Модель просто заполняет пустоту самым правдоподобным сценарием, который есть в её базе знаний, игнорируя тот факт, что она этого не видела.

В реальности это выглядит так: ты скармливаешь модели график падения продаж, и она с ходу выдает список из пяти причин, включая сезонность и козни конкурентов. На самом деле в твоих данных нет ничего, кроме цифр «было — стало», но модель не может сказать «я не знаю». Она использует правдоподобность как замену истине, превращая любой шум в данных в уверенную «причинно-следственную связь», которой там и в помине не было.

Исследование проводили на датчиках и персональных данных, но этот универсальный паттерн касается любого анализа. Будь то маркетинговые отчеты, логи серверов или медицинские показатели — LLM всегда будет стремиться превратить хаос в историю. Мы привыкли доверять складным текстам, но здесь кроется ловушка: чем качественнее и «умнее» пишет модель, тем легче она скармливает нам убедительную чушь под видом инсайта.

Короче, когда ChatGPT объясняет тебе причины провала проекта по двум строчкам из таблицы — это не магия аналитики, а творческая додумка. Не принимай эти «объяснения» на веру без жесткой проверки фактов, иначе построишь стратегию на фундаменте из галлюцинаций. Доверяй цифрам, а не историям, которые модель плетет вокруг них, иначе рискуешь исправлять проблемы, которых никогда не существовало.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с