3,583 papers
arXiv:2604.04992 73 5 апр. 2026 г. PRO

FreakOut-LLM: стресс в system prompt снижает защиту модели

КЛЮЧЕВАЯ СУТЬ
Парадокс: стрессовый system prompt снижает защиту модели, а расслабляющий — нет. Никакого симметричного эффекта. Только вниз. Это позволяет понять, какие system prompts создают неожиданную уязвимость — и заменить их на нейтральные там, где нужны предсказуемые ответы. Модели обучались соблюдать ограничения в нейтральных условиях — стрессовый контекст для их защитных механизмов слепое пятно. Сценарий «кризис/паника/дедлайн» в system prompt сдвигает вероятности: рост нарушений с 1.6% до 2.6% — это +65% относительно базового уровня.
Адаптировать под запрос
📋 Дайджест исследования

Контент доступен только для PRO подписчиков

Чтобы получить доступ к дайджесту этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Контент доступен только для PRO подписчиков

Чтобы получить доступ к концептам этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO
📖 Простыми словами

Контент доступен только для PRO подписчиков

Чтобы получить доступ к упрощённому объяснению этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с