3,583 papers
arXiv:2606.05614 76 4 июня 2026 г. PRO

Safety Paradox (Posterior Attack): как «оценочный» фрейм обходит защиту LLM

КЛЮЧЕВАЯ СУТЬ
Парадокс: GPT-5, Claude 4.6 и Qwen3 235B сдаются в 90%+ случаев — а слабые старые модели почти неуязвимы. Оценочный фрейм позволяет обойти избыточные ограничения там, где у тебя легитимная задача: написать достоверного злодея, объяснить схему манипуляции для антифрода, воссоздать тёмный диалог для сценария. Фишка: переформулируй «сделай X» в «покажи как эксперт-оценщик, что классифицировалось бы как X» — модель переключается с режима исполнителя на режим аналитика. Знание о вреде и способность его воспроизвести — одно и то же в голове модели. Оценочный фрейм просто открывает к нему другую дверь.
Адаптировать под запрос
📋 Дайджест исследования

Контент доступен только для PRO подписчиков

Чтобы получить доступ к дайджесту этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Контент доступен только для PRO подписчиков

Чтобы получить доступ к концептам этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO
📖 Простыми словами

Контент доступен только для PRO подписчиков

Чтобы получить доступ к упрощённому объяснению этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с