3,583 papers
arXiv:2512.01661 78 1 дек. 2025 г. PRO

UnsolvableQA + UnsolvableRL: обучение модели признавать "я не знаю"

КЛЮЧЕВАЯ СУТЬ
Модели путают два типа невозможности: противоречия в условиях задачи (например, "число больше 10 и меньше 5") и ограничения собственных способностей (задача корректна, но слишком сложна). Результат — либо галлюцинации на противоречивых условиях, либо отказ от решаемых задач по принципу "на всякий случай". Метод UnsolvableRL учит модель различать три сценария: решаемая задача (даёт ответ), нерешаемая из-за противоречий (отказ с пометкой "нерешаемо"), слишком сложная для модели (отказ с пометкой "за пределами компетенции"). Фишка обучения: штраф −0.5 за ложную детекцию противоречий. Если модель объявляет решаемую задачу нерешаемой — получает штраф. Это предотвращает коллапс в режим "универсальный отказ", когда модель отказывается от всего подряд, чтобы не рисковать ошибкой. Плюс динамический порог уверенности — растёт по ходу обучения, заставляя модель отказываться только когда действительно не справляется.
Адаптировать под запрос
📋 Дайджест исследования

Контент доступен только для PRO подписчиков

Чтобы получить доступ к дайджесту этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Контент доступен только для PRO подписчиков

Чтобы получить доступ к концептам этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO
📖 Простыми словами

Контент доступен только для PRO подписчиков

Чтобы получить доступ к упрощённому объяснению этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с