3,583 papers
arXiv:2505.15805 95 1 мая 2025 г. PRO

Сохранение политики безопасности в контексте больших языковых моделей против косвенных угроз.

КЛЮЧЕВАЯ СУТЬ
Большие языковые модели легко соблюдают ПРЯМЫЕ ЗАПРЕТЫ («Не говори о проекте X»), но почти всегда нарушают их при КОСВЕННЫХ ЗАПРОСАХ («Сделай краткий пересказ всего текста»). Метод основан на двухэтапной защите: явное объявление политики конфиденциальности + осознанное формулирование узких, конкретных вопросов вместо общих. Главная идея: LLM оптимизирована на полезность, а не на безопасность – твоя задача сместить этот баланс.
Адаптировать под запрос

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с