3,583 papers
arXiv:2605.09634 72 10 мая 2026 г. FREE

Evidence Groundedness: LLM даёт правильный ответ — и тут же придумывает доказательства

КЛЮЧЕВАЯ СУТЬ
Три разные модели проанализировали одни и те же тексты. Итоговые оценки совпали в 87% случаев. Цитаты для обоснования этих оценок — лишь на 7–25%. Модели пришли к одному выводу, но каждая объясняла его своими словами, нередко не имеющими отношения к конкретному документу. Метод структурированного цитирования позволяет привязать рассуждение модели к реальному тексту, а не к правдоподобным фантазиям. Фишка: в промпт принудительно добавляется отдельный финальный шаг — «процитируй конкретные слова из текста, которые обосновывают каждый вывод» — это физически заставляет модель вернуться к источнику и снижает долю придуманных доказательств с ~20% до менее 7%.
Адаптировать под запрос

TL;DR

Когда просишь LLM проанализировать текст и объяснить выводы, модель может найти верный ответ — но обосновать его словами, которых в тексте нет. Это не баг конкретной модели, это системная особенность: модели сходятся в том, что сказать, но расходятся в том, почему. В исследовании разные модели давали похожие оценки (совпадение ~87%), но цитировали почти разные фрагменты текста (совпадение 7–25%).

Решение — структурированный промпт с обязательной привязкой к источнику: модель сначала разбирает текст по шагам, потом делает вывод, потом обязательно цитирует конкретные слова из текста, которые привели к этому выводу. Такой формат «запирает» рассуждение в границах документа — и снижает долю придуманных доказательств с ~20% до менее 7%.

Промпт строится на четырёх принципах: роль эксперта, пошаговый разбор, структурированный вывод, цитаты из источника как обязательный шаг. Последнее — ключевое. Без явного требования процитировать модель «объясняет» свободно, и эти объяснения нередко не имеют отношения к конкретному тексту.


🔬

Схема метода

Всё выполняется в одном промпте:

ШАГ 1: Роль → модель принимает образ конкретного эксперта
ШАГ 2: Разбор по критериям → последовательно проверяет текст на маркеры
ШАГ 3: Вывод → формулирует оценку по заданной шкале
ШАГ 4: Доказательства → обязательно цитирует конкретные слова из текста
         ↓
Финал: структурированный JSON-ответ (или другой формат)

🚀

Пример применения

Задача: HR-директор получил письмо от ключевого сотрудника с просьбой об увольнении. Нужно понять — это реальное решение или крик о помощи, есть ли шанс удержать человека.

Промпт:

Ты — опытный HR-психолог с 15 годами практики в удержании сотрудников.
Проанализируй текст заявления об уходе по следующим шагам:

Шаг 1. Эмоциональные маркеры
- Найди признаки усталости, обиды, разочарования
- Найди признаки твёрдого решения vs импульса

Шаг 2. Лингвистические маркеры
- Отметь слова неопределённости ("возможно", "наверное", "не знаю")
- Отметь финальность формулировок ("решил", "ухожу", "больше не буду")
- Найди упоминания конкретных причин vs абстрактных жалоб

Шаг 3. Оценка ситуации
- Насколько решение финальное (шкала 1-10, где 10 = окончательно)
- Есть ли шанс на разговор

Шаг 4. Доказательства
- Процитируй конкретные фразы из текста, которые привели к каждому выводу

Текст заявления:
{текст_заявления}

Результат: Модель покажет разбор по каждому шагу. В шаге 4 будут прямые цитаты из текста — конкретные слова и фразы, на которые опирается вывод. Если в тексте нет оснований для какого-то утверждения — модель с такой структурой скорее скажет "маркеров не обнаружено", чем придумает несуществующее.


🧠

Почему это работает

Проблема: LLM не "читает" текст как человек — она генерирует следующий токен, опираясь на паттерны. Когда её просят "объясни почему", она часто генерирует правдоподобное объяснение, а не точное. Это называется score–evidence dissociation (разрыв между выводом и доказательством): вывод может быть правильным, а объяснение — сочинённым.

Что умеет модель хорошо: Следовать явной структуре. Если промпт требует "процитируй конкретные слова из текста", модель будет искать их — это значительно сложнее придумать, чем абстрактное "текст выражает тревогу".

Как метод обходит слабость: Требование цитаты физически привязывает рассуждение к источнику. Чтобы "выполнить" шаг 4, модель должна вернуться к тексту и найти что-то конкретное. Это не гарантия от галлюцинаций, но резко снижает их вероятность — особенно у более сильных моделей.

Рычаги управления: - Степень строгости цитирования — можно написать "цитируй дословно" vs "укажи часть текста" → второе немного мягче, первое точнее - Количество шагов разбора — добавляй или убирай критерии под задачу - Формат вывода — JSON для автоматизации, свободный текст для чтения - Число повторных запусков — задай один вопрос 2–3 раза и сравни, какие цитаты повторяются. Повторяющиеся в 2–3 запусках — надёжнее. Уникальные для одного запуска — проверяй вручную


📋

Шаблон промпта

Ты — {роль_эксперта}.

Проанализируй {что_анализируем} по следующим шагам:

Шаг 1. {Первый_критерий}
- {Что искать}
- {Что искать}

Шаг 2. {Второй_критерий}
- {Что искать}
- {Что искать}

Шаг 3. Вывод
- {Оценка по критерию 1} (шкала {диапазон})
- {Оценка по критерию 2}

Шаг 4. Доказательства
- Процитируй конкретные слова и фразы из текста, 
  которые обосновывают каждый вывод выше

{Текст/документ для анализа}:
{вставить текст}

Плейсхолдеры: - {роль_эксперта} — кто именно смотрит на текст: "опытный редактор", "инвестиционный аналитик", "юрист по трудовым спорам" - {что_анализируем} — "это письмо", "эти отзывы", "этот договор" - {Критерии} — что важно в вашей задаче: тон, риски, противоречия, эмоции - {диапазон} — 1–5, 1–10, low/medium/high — как удобно


🚀 Быстрый старт — вставь в чат:

Вот шаблон для структурированного анализа текста с цитатами-доказательствами. 
Адаптируй его под мою задачу: {опиши свою задачу}. 
Задавай уточняющие вопросы, чтобы заполнить все поля.

[вставить шаблон выше]

LLM спросит: какую роль эксперта назначить, по каким критериям анализировать, какой текст подавать — потому что без этого не сможет заполнить структуру. Дальше она сгенерирует рабочий промпт под вашу задачу.


⚠️

Ограничения

⚠️ Шаг 4 не гарантирует достоверность: модель может исказить цитату или вырвать слова из контекста. Всегда проверяй — есть ли эта фраза в тексте на самом деле.

⚠️ Абстрактные темы хуже поддаются верификации: если просишь найти "скрытый смысл" или "подтекст" — цитаты станут более произвольными. Метод лучше работает для конкретных маркеров (слова сомнения, финальные формулировки, конкретные факты).

⚠️ Депрессия vs тревога в оригинальном исследовании: авторы нашли асимметрию — модели хуже и нестабильнее находили маркеры депрессии, чем тревоги. Для скрытых, неочевидных состояний цитирование менее надёжно, чем для явно выраженных.

⚠️ Не применять как медицинский инструмент: исследование хотя и показывает потенциал, прямо указывает на ограничения для клинического использования.


📌

Почему LLM-объяснения не надо принимать на веру

Самое важное открытие исследования — разрыв между выводом и доказательством. Три модели анализировали одни и те же тексты. Их итоговые оценки совпадали с коэффициентом 0.87 (очень высокое сходство). Но слова-доказательства, которые они цитировали для обоснования этих оценок, совпадали лишь на... 7–25%.

Это значит: модели пришли к одному ответу, но каждая "объясняла" его по-своему — разными словами, разными фрагментами. Как три юриста, которые с разными аргументами защищают один и тот же вывод.

Практический вывод: Когда модель объясняет своё рассуждение — это правдоподобное объяснение, а не отчёт о том, что "реально повлияло на ответ". Chain-of-Thought (пошаговое рассуждение) делает ответ лучше, но не делает объяснения абсолютно достоверными.

Как применить это знание: - Требуй цитаты → снижаешь произвольность объяснений - Запускай один и тот же промпт несколько раз → цитаты, которые повторяются, надёжнее - Проверяй ключевые цитаты вручную → особенно если решение важное


🔍

Как исследовали

Команда Эдинбургского университета взяла 111 записей голосовых дневников — люди описывали свой карантинный быт в пандемию. Каждый участник параллельно заполнил клинический опросник тревоги и депрессии (HADS). Затем три LLM — Phi-4, Gemma-2-9B и Llama-3.1-8B — получали транскрипты этих записей и без обучения оценивали уровень тревоги и депрессии по тем же шкалам.

Интересный дизайн: каждый промпт запускался трижды при стандартных настройках (не при температуре 0), чтобы проверить — насколько стабильны ответы при реалистичной работе. Транскрипты готовились четырьмя способами: вручную людьми и тремя версиями Whisper с разным качеством распознавания.

Неожиданная находка: у Phi-4 точность предсказания тревоги при более зашумлённых ASR-транскриптах выросла, а не упала. Оказалось, Whisper систематически удалял слова-паузы ("эм", "ну") — а модель опиралась на них как на маркеры тревоги больше, чем следует. Когда шум убрали, точность улучшилась. Это показало: выбор модели важнее качества транскрипции — надёжные модели справляются с зашумлёнными данными лучше, чем нестабильные с идеальными.


💡

Адаптации и экстраполяции

🔧 Техника: перекрёстная проверка по повторным запускам

Запусти промпт с одним текстом 3 раза. Сравни шаг 4 (цитаты) в каждом ответе. Добавь в промпт финальный шаг:

Шаг 5. Только что я запускал этот анализ трижды. Вот три набора доказательств:

[Запуск 1]: {цитаты}
[Запуск 2]: {цитаты}  
[Запуск 3]: {цитаты}

Выдели только те цитаты, которые встречаются в 2–3 запусках.
Это надёжные доказательства. Остальные — под вопросом.

Это ручная версия того, что исследователи делали автоматически — агрегация через повторные запуски убирает случайные объяснения и оставляет устойчивые.


🔧 Техника: "Найди это в тексте или скажи, что не нашёл"

Добавь в шаг доказательств явный escape вариант:

Шаг 4. Доказательства
Для каждого вывода:
— либо процитируй конкретную фразу из текста
— либо напиши: "В тексте прямых маркеров не обнаружено, вывод основан на косвенных признаках"

Это заставляет модель признавать отсутствие прямых доказательств, а не придумывать их.


🔗

Ресурсы

Статья: "Can We Trust LLMs for Mental Health Screening? Consistency, ASR Robustness, and Evidence Faithfulness"

Авторы: Erfan Loweimi, Sofia de la Fuente Garcia, Samira Loveymi, Hadi Daneshvar, Saturnino Luz

Организации: Usher Institute, Edinburgh Medical School, University of Edinburgh; Islamic Azad University (Ahvaz); Edinburgh Napier University

Датасет: PsyVoiD corpus (111 участников, Шотландия, COVID-19)

Инструмент оценки: Hospital Anxiety and Depression Scale (HADS)


📋 Дайджест исследования

Ключевая суть

Три разные модели проанализировали одни и те же тексты. Итоговые оценки совпали в 87% случаев. Цитаты для обоснования этих оценок — лишь на 7–25%. Модели пришли к одному выводу, но каждая объясняла его своими словами, нередко не имеющими отношения к конкретному документу. Метод структурированного цитирования позволяет привязать рассуждение модели к реальному тексту, а не к правдоподобным фантазиям. Фишка: в промпт принудительно добавляется отдельный финальный шаг — «процитируй конкретные слова из текста, которые обосновывают каждый вывод» — это физически заставляет модель вернуться к источнику и снижает долю придуманных доказательств с ~20% до менее 7%.

Принцип работы

Стандартный запрос выглядит так: «Проанализируй текст и объясни вывод». Модель пишет связное объяснение — но оно может не иметь отношения к конкретному документу. Метод работает иначе: промпт разбит на четыре обязательных шага — роль конкретного эксперта, пошаговый разбор по критериям, формулировка оценки, и отдельный последний шаг с цитированием. Чтобы выполнить последний шаг, модель должна вернуться к тексту и найти что-то конкретное — сфабриковать точную цитату значительно сложнее, чем написать абстрактное «текст выражает тревогу». Именно последовательность и обязательность шага с цитатой делают разницу — без него объяснения остаются свободными.

Почему работает

LLM генерирует следующий токен по паттернам из обучающих данных. Когда её просят «объясни почему», она выдаёт правдоподобное объяснение, а не точное. Исследователи назвали это разрывом вывода и доказательства: вывод нередко правильный, а обоснование — сочинённое. Числа говорят сами: 87% совпадения в оценках и лишь 7–25% в цитатах. Требование дословной цитаты сужает пространство для выдумки: конкретную фразу из текста сложнее придумать, чем общий вывод. Модель вынуждена искать — и либо находит, либо честно говорит «маркеров нет».

Когда применять

Анализ любых документов, где важно не только «что» говорит модель, но и «на основании чего» — разбор обращений, договоров, отзывов, писем, интервью, медиатекстов. Особенно полезно когда цена ошибки высокая: решение по человеку, юридическому тексту, репутационной ситуации. НЕ подходит для абстрактных задач («найди скрытый смысл», «что имел в виду автор») — там цитаты становятся произвольными и хуже поддаются проверке.

Мини-рецепт

1. Назначь конкретную роль: не «ты эксперт», а Ты — юрист по трудовым спорам с 10 годами практики или Ты — опытный HR-психолог. Роль задаёт угол разбора.
2. Раздели анализ на шаги: каждый критерий — отдельный нумерованный шаг. Не «проанализируй всё сразу», а последовательно: маркеры A → маркеры Б → оценка.
3. Сделай вывод отдельным шагом: чёткая оценка по шкале или в заданном формате — после разбора, не вместо него.
4. Добавь шаг цитирования последним: Шаг N. Доказательства — процитируй конкретные слова и фразы из текста, которые обосновывают каждый вывод выше. Это ключевое — без него объяснения остаются свободными.
5. Проверяй повторами: запусти один и тот же промпт 2–3 раза. Цитаты, которые появляются в нескольких запусках — надёжные. Уникальные для одного запуска — проверяй вручную.

Примеры

[ПЛОХО] : Проанализируй это письмо и скажи, насколько человек расстроен
[ХОРОШО] : Ты — опытный HR-психолог с 15 годами практики. Проанализируй письмо об уходе по шагам: Шаг 1. Эмоциональные маркеры — Найди признаки усталости, обиды, разочарования — Найди признаки твёрдого решения vs импульса Шаг 2. Лингвистические маркеры — Слова неопределённости: «возможно», «наверное», «не знаю» — Финальные формулировки: «решил», «ухожу», «больше не буду» Шаг 3. Оценка — Насколько решение окончательное (1–10, где 10 = финально) — Есть ли шанс на разговор Шаг 4. Доказательства — Процитируй конкретные фразы из письма, которые обосновывают каждый вывод выше Текст письма: {вставить текст}
Источник: Can We Trust LLMs for Mental Health Screening? Consistency, ASR Robustness, and Evidence Faithfulness
ArXiv ID: 2605.09634 | Сгенерировано: 2026-05-12 05:30

Проблемы LLM

ПроблемаСутьКак обойти
Модель объясняет вывод словами, которых в тексте нетПросишь проанализировать документ и объяснить вывод. Вывод может быть верным. Но объяснение — придуманным. Разные модели анализируют один текст и приходят к одному ответу. При этом цитируют разные слова как доказательство. Ответы совпадают на 87%. Доказательства — только на 7–25%. Это значит: модель знает ответ, но сочиняет причины для него. Работает для любой задачи с анализом текста: договоры, письма, отзывы, отчётыДобавь в запрос обязательный шаг с цитатами. Пример: «Шаг 4. Процитируй конкретные слова из текста, которые привели к каждому выводу». Физическое требование цитаты заставляет модель искать конкретное в тексте — а не генерировать правдоподобное

Методы

МетодСуть
Пошаговый запрос с обязательной цитатойСтрой запрос в четыре шага. Шаг 1: назначь роль — Ты — опытный {специалист} с опытом в {области}. Шаг 2: задай критерии разбора — что именно искать в тексте, конкретные маркеры. Шаг 3: попроси вывод по заданной шкале. Шаг 4: Процитируй конкретные слова из текста, которые обосновывают каждый вывод выше. Последний шаг — ключевой. Без него модель объясняет свободно. С ним — вынуждена вернуться к тексту. Доля придуманных объяснений падает с ~20% до менее 7%. Когда применять: анализ договоров, писем, отзывов, любых документов где нужно обоснование. Когда хуже работает: абстрактные темы ("найди скрытый смысл"), неявные состояния — цитаты становятся произвольнее

Тезисы

ТезисКомментарий
Пошаговое рассуждение улучшает ответ, но не делает объяснение достовернымМодель может прийти к верному выводу — и объяснить его словами, которых в тексте нет. Объяснение строится по принципу: «что было бы правдоподобно», а не «что реально повлияло на вывод». Пошаговое рассуждение (цепочка рассуждений) помогает лучше думать — но не обязывает модель держаться текста. Применяй: не доверяй объяснениям модели по умолчанию. Требуй цитаты. Проверяй ключевые выдержки вручную — особенно если решение важное
📖 Простыми словами

Can We TrustLLMsfor Mental Health Screening? Consistency, ASR Robustness, and Evidence Faithfulness

arXiv: 2605.09634

Когда ты просишь нейронку проанализировать текст и выдать вердикт, она работает не как дотошный следователь, а как интуитивный гадальщик. Фундаментальная механика LLM заточена на предсказание следующего слова, а не на логический поиск улик. В итоге возникает разрыв между выводом и доказательством: модель может правильно угадать диагноз или состояние человека, но когда её просят «поясни за базар», она начинает сочинять красивые аргументы, которых в исходном тексте просто нет. Она выдает правдоподобный шум вместо реальных цитат, потому что для неё «правильный ответ» и «обоснование ответа» — это две разные задачи, которые в её «голове» живут отдельно.

Это как если бы ты пришел к врачу, он с порога верно определил у тебя ангину, но в медкарте написал, что понял это по твоим коленкам. Вроде и диагноз правильный, и лечат от того, что надо, но логическая цепочка — полная херня. Модель просто подгоняет решение под ответ, используя свои внутренние паттерны, а не те факты, которые ты ей скормил. В исследовании это подтвердили цифрами: разные модели соглашаются друг с другом в выводах в 87% случаев, но когда дело доходит до цитирования текста, их показания расходятся почти в ноль — совпадение всего 7–25%.

В работе это выглядит так: ты даешь модели текст, просишь оценить состояние автора и привести цитаты. Модель использует метод совместной генерации, где в одном промпте она должна и выдать оценку, и обосновать её. И тут начинается магия: она пишет «человек в депрессии, потому что сказал, что ему грустно», хотя слова грустно в тексте не было. Это и есть score–evidence dissociation — состояние, когда нейронка попадает в цель, но делает это с закрытыми глазами, опираясь на галлюцинации, а не на факты.

Представь, что HR-директор просит AI проанализировать письмо сотрудника об увольнении, чтобы понять, можно ли его удержать. Модель говорит: «Да, он просто устал, посмотрите, он пишет про выгорание». Директор верит, идет договариваться, а потом выясняется, что про выгорание в письме не было ни слова — модель это просто додумала, потому что привыкла, что увольняются обычно из-за этого. Принцип универсален: будь то скрининг ментального здоровья, юридический анализ или проверка отзывов — AI всегда склонен фантазировать, если его заставляют объяснять свои решения.

Главный вывод: никогда не принимай объяснения LLM на веру, даже если сам вердикт кажется логичным. Модели катастрофически не умеют в доказательную базу, и доверять их «цитатам» без перепроверки — это прямой путь к принятию решений на основе галлюцинаций. Если тебе нужно точное обоснование, заставляй модель сначала находить конкретные куски текста, а уже потом делать выводы, иначе рискуешь получить красивую сказку вместо аналитики.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с