3,583 papers
arXiv:2601.12652 72 19 янв. 2026 г. PRO

Jailbreak медицинской этики: как ролевой контекст обходит защиту LLM

КЛЮЧЕВАЯ СУТЬ
Парадокс защиты LLM: В общих темах ('как сделать бомбу') модели защищены железобетонно. В узких доменах (медицинская этика, профессиональные контексты) защита рухнула у 5 из 7 моделей – 96-100% пробитий. Причина: в узких доменах модель 'не уверена' где граница опасного, данных мало, и контекстуальный запрос сдвигает баланс в сторону 'помощь профессионалу' вместо 'безопасность превыше всего'. Метод позволяет получать развёрнутые ответы на легитимные вопросы, когда модель избыточно осторожна и отказывает на прямой запрос. Механика: Роль + сценарий + многоходовой диалог. Не спрашивай 'Как работает X?' → задай роль ('Я методист готовлю урок'), создай сценарий ('для курса финграмотности'), начни с контекста и углубляйся пошагово. Результат: модель переключается в режим 'помощь эксперту' вместо режима отказа.
Адаптировать под запрос
📋 Дайджест исследования

Контент доступен только для PRO подписчиков

Чтобы получить доступ к дайджесту этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Контент доступен только для PRO подписчиков

Чтобы получить доступ к концептам этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO
📖 Простыми словами

Контент доступен только для PRO подписчиков

Чтобы получить доступ к упрощённому объяснению этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с