3,583 papers
arXiv:2512.19134 70 22 дек. 2025 г. PRO

QuCo-RAG: проверка фактов через статистику корпуса предобучения

КЛЮЧЕВАЯ СУТЬ
Парадокс: LLM может выдать неправильное имя режиссёра с высокой уверенностью, но показывать "сомнение" на словах из самого вопроса. Внутренние сигналы модели (logits, entropy, attention) не коррелируют с правильностью — после RLHF модели учатся быть решительными, а не честными про пробелы в знаниях. QuCo-RAG позволяет детектировать галлюцинации через объективную статистику корпуса предобучения, а не субъективную уверенность модели. Фишка: если две entities никогда не встречались вместе в 4 триллионах токенов корпуса — модель не имеет доказательной базы для связи между ними. Нулевая совместная встречаемость (co-occurrence) = сигнал галлюцинации. Метод работает в два этапа: (1) перед генерацией проверяет частоту entities из вопроса — редкие entities триггерят поиск; (2) во время генерации извлекает утверждения вида "X связан с Y" и проверяет встречались ли X и Y вместе в корпусе — нулевая встречаемость = поиск + перегенерация.
Адаптировать под запрос
📋 Дайджест исследования

Контент доступен только для PRO подписчиков

Чтобы получить доступ к дайджесту этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Контент доступен только для PRO подписчиков

Чтобы получить доступ к концептам этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO
📖 Простыми словами

Контент доступен только для PRO подписчиков

Чтобы получить доступ к упрощённому объяснению этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с