3,583 papers
arXiv:2505.13862 87 1 мая 2025 г. PRO

ПандаГард: Систематическая оценка безопасности LLM против атак на взлом.

КЛЮЧЕВАЯ СУТЬ
Исследование показывает, что техники ЗАЩИТЫ LLM от вредоносных запросов можно использовать для создания более точных и надежных обычных промптов. Основная идея: относиться к промпту не как к простому приказу, а как к НАБОРУ ЧЕТКИХ ИНСТРУКЦИЙ, защищенных от неверного толкования. Вместо надежды, что модель "сама догадается", нужно проактивно защитить свой запрос от генерации мусора.
Адаптировать под запрос

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с