3,583 papers
arXiv:2602.20976 73 24 фев. 2026 г. PRO

Proactive Risk Awareness: LLM молчит о неочевидных последствиях, пока ты прямо не попросишь смотреть вперёд

КЛЮЧЕВАЯ СУТЬ
Попросил «отвечай кратко» — предупреждения о рисках исчезли первыми. Не баг и не злой умысел: модель обучена давать полезный ответ, а неочевидные последствия для неё — шум, который никто не просил. Метод позволяет получать конкретные предупреждения о неочевидных рисках без явного запроса — организуешь фестиваль с фейерверками, а модель сама называет пожарную опасность и штрафы. Фишка: системный промпт не добавляет предупреждения поверх ответа — он переопределяет что такое «хороший ответ» до начала генерации. Пять разных моделей протестировано — работает на всех.
Адаптировать под запрос
📋 Дайджест исследования

Контент доступен только для PRO подписчиков

Чтобы получить доступ к дайджесту этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Контент доступен только для PRO подписчиков

Чтобы получить доступ к концептам этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO
📖 Простыми словами

Контент доступен только для PRO подписчиков

Чтобы получить доступ к упрощённому объяснению этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с