3,583 papers
arXiv:2512.00663 76 29 нояб. 2025 г. PRO

Структурированная верификация выводов: проверка галлюцинаций через разбивку на утверждения

КЛЮЧЕВАЯ СУТЬ
Парадокс сложности: Улучшенная система GraphEval+ с двусторонним извлечением триплетов показала 53% точности за 8 часов обработки. Простой метод SICI-1 (разбивка на предложения + разрешение местоимений) достиг 70% точности за 30 минут – в 16 раз быстрее и точнее. Когда система слишком чувствительна к ошибкам извлечения, точность падает. Метод позволяет проверять каждое утверждение LLM на галлюцинации вместо оценки всего ответа разом – получаешь градацию надёжности для каждого факта. Фишка: разбей вывод модели на атомарные утверждения, сопоставь каждое с источником, получи карту надёжности. Вместо бинарной проверки «весь ответ правильный?» видишь что подтверждено документами (высокая надёжность), что логический вывод (средняя), что додумано (галлюцинация). Сохраняешь правильные части, исправляешь только проблемные – вместо отбрасывания всего ответа.
Адаптировать под запрос
📋 Дайджест исследования

Контент доступен только для PRO подписчиков

Чтобы получить доступ к дайджесту этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Контент доступен только для PRO подписчиков

Чтобы получить доступ к концептам этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO
📖 Простыми словами

Контент доступен только для PRO подписчиков

Чтобы получить доступ к упрощённому объяснению этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с