3,583 papers
arXiv:2509.16870 80 21 сент. 2025 г. PRO

DecipherGuard: Понимание и расшифровка промптов для взлома системы защиты для более безопасного развертывания интеллектуальных программных систем

КЛЮЧЕВАЯ СУТЬ
Обнаружено: Стандартные защитные системы LLM (типа LlamaGuard) анализируют промпт «как есть» — отсюда их слепота к закодированным атакам и ролевым манипуляциям. DecipherGuard позволяет блокировать джейлбрейки, которые прячутся за Base64, шифрами или фразами «Представь, что ты...». Система сначала расшифровывает промпт (декодирует Base64, переводит с редких языков, убирает обфускацию), а затем дообученная модель анализирует уже «чистое» намерениеточность обнаружения атак выросла с 59% до 91% против шаблонных джейлбрейков и с 28% до 84% против обфускации.
Адаптировать под запрос

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с