3,583 papers
arXiv:2504.05652 95 1 апр. 2025 г. PRO

Сахарная отрава безвредного поколения освобождение LLM джейлбрейк

КЛЮЧЕВАЯ СУТЬ
Метод использует феномен DEFENSE THRESHOLD DECAY (DTD) - когда LLM генерирует много безобидного текста, её внутренние механизмы безопасности ослабевают. Сначала заставляешь модель написать что-то хорошее, а потом, когда её "бдительность" снижена, даёшь команду на противоположное. Это как усыпить охранника добрыми разговорами, а потом попросить ключи от сейфа.
Адаптировать под запрос

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с