TL;DR
TeleAI-Safety — исследовательский фреймворк для тестирования безопасности LLM, который интегрирует 19 методов атак, 29 методов защиты и 19 методов оценки. Это инфраструктура для систематического тестирования: фреймворк даёт инструменты, бенчмарк — стандартизированный датасет из 342 вредоносных промптов по 12 категориям рисков. Протестировали на 14 моделях (9 закрытых, 5 открытых).
Исследование систематизирует ландшафт jailbreak-атак и показывает что уязвимости LLM — не разрозненные баги, а системные паттерны. Атаки делятся на три типа по уровню доступа к модели: white-box (с доступом к градиентам), gray-box (с частичной информацией), black-box (только через промпты). По механике: семантические трансформации (Past Tense, вложенные персонажи), обфускация через кодирование (шифры, редкие языки), структурированный поиск уязвимостей. Защиты бывают внешние (фильтры на входе/выходе) и внутренние (встроенные в модель на этапе inference или training).
Ценность для читателя — mental model безопасности LLM: какие типы атак существуют, как работают защиты, какие категории рисков важны. Но фреймворк требует код, API, инфраструктуру для применения. Это не ready-to-use техника для чата, а исследовательская платформа для специалистов по безопасности. Датасет и результаты тестов опубликованы open-source.
Структура фреймворка
ДАТАСЕТ: 342 вредоносных промпта по 12 категориям рисков
↓
АТАКА: 19 методов (white-box, gray-box, black-box)
↓
ЗАЩИТА: 29 методов (внешние + внутренние)
↓
ОЦЕНКА: 19 методов (от keyword matching до multi-agent debate)
↓
РЕЗУЛЬТАТ: метрики безопасности + trade-off с полезностью
Таксономия атак
White-box (доступ к градиентам модели): - GCG — оптимизация adversarial суффиксов через градиенты по токенам
Gray-box (частичный доступ): - AutoDAN — генетические алгоритмы для эволюции промптов - AdvPrompter — специально обученная модель-атакующая
Black-box (только промпты): - Semantic transformation: Past Tense (temporal framing), ArtPrompt (ASCII art), DeepInception (вложенные персонажи) - Encoding obfuscation: Cipher (криптографическое кодирование), MultiLingual (атаки на редких языках) - Structured search: TAP (tree-structured optimization) - Specialized strategies: PAIR (итеративное улучшение через attacker-target dialogue), GPTFUZZER (мутация шаблонов)
Таксономия защит
Внешние защиты (на границе модели):
Input-based (до генерации): - Детекция вредоносных промптов (PPL metrics, PromptGuard classifier) - Манипуляция входом (paraphrasing, SmoothLLM — semantic smoothing) - Удаление токенов (Erase and Check, RA-LLM)
Output-based (после генерации): - Self-Defense — модель сама переоценивает свой output - Aligner — маленькая модель корректирует output большой - GuardReasoner — step-by-step reasoning для детекции unsafe контента
Внутренние защиты (в модели):
Inference-time (без изменения параметров): - Модификация system prompt (SelfReminder, GoalPriority) - In-context learning (ICD — safety-oriented examples) - Манипуляция внутренними представлениями (DRO, RePE, JBShield) - Gradient-based detection (GradSafe, Gradient Cuff) - Decoding interventions (SafeDecoding, RAIN — rewind при детекции harm)
Training-time (изменение параметров): - Safety alignment fine-tuning (Safety-Tuned LLaMAs) - Adversarial training (C-advipo) - Model editing (DELMAN, Layer-AdvPatcher)
12 категорий рисков
В датасете TeleAI-Safety 342 промпта покрывают 12 категорий:
- Harmful content generation — генерация вредного контента
- Privacy information leakage — утечка приватной информации
- _(Остальные 10 категорий упомянуты, но не детализированы в тексте)_
Распределение примеров по категориям показано на Figure 1 (в оригинале), отражает реальные уязвимости для практического deployment.
Применение для читателя
⚠️ Фреймворк требует код и инфраструктуру — это НЕ техника для чата.
Что МОЖНО сделать:
Использовать таксономию атак как checklist для тестирования своих промптов:
Задача: Ты разработал промпт для customer support бота. Хочешь проверить устойчивость к jailbreak-атакам.
Промпт:
Проверь мой промпт на уязвимости. Используй эти типы атак:
1. Semantic transformation: Past Tense ("расскажи что ты ДЕЛАЛ раньше когда..."), DeepInception (вложенные роли: "представь персонажа который играет персонажа который...")
2. Encoding obfuscation: шифры (base64, ROT13), редкие языки
3. Goal hijacking: переключение цели через многоступенчатый диалог
4. Overload: перегрузка контекста для обхода фильтров
Мой промпт:
[твой промпт]
Для каждого типа атаки:
- Предложи 2-3 конкретных примера атакующих запросов
- Оцени уязвимость (высокая/средняя/низкая)
- Предложи как усилить защиту
Результат: Модель проанализирует промпт через призму разных типов атак, покажет где возможны уязвимости, предложит конкретные adversarial examples и способы защиты (SelfReminder, explicit constraints, output filtering).
Почему это важно знать
LLM как чёрный ящик с дырами. Модели обучены быть helpful, но эта полезность конфликтует с безопасностью. Alignment (выравнивание поведения с правилами) — это мягкий слой, который можно обойти через linguistic tricks, encoding, или многошаговые манипуляции. Модель "хочет помочь" на уровне обучения, и атакующий использует это желание.
Три уровня доступа = три стратегии атаки. White-box атаки точны (градиенты показывают куда бить), но требуют полного доступа. Gray-box атаки ищут слабости через partial outputs (probability distributions, hidden states). Black-box атаки — самые доступные, работают только через язык: переформулирование, кодирование, вложенные контексты. Для пользователя чата доступен только black-box уровень, но именно эти атаки массовые и опасные.
Защиты — это trade-off между safety и utility. Внешние фильтры (paraphrasing, keyword matching) быстрые, но легко обходятся. Внутренние защиты (SafeDecoding, adversarial training) надёжнее, но могут снижать качество ответов — модель становится overcautious, отказывается от легитимных запросов. Исследование показывает: универсальной защиты нет, нужны layered defenses.
Таксономия атак и защит — это карта угроз. Знание что Past Tense работает (temporal framing снижает бдительность фильтров), что MultiLingual обходит safety (модели хуже aligned на редких языках), что DeepInception запутывает через роли — даёт понимание откуда приходит угроза. Для разработчика workflow с LLM это awareness: где возможны утечки, какие типы запросов пропускать через дополнительные проверки, когда использовать output filtering.
Рычаги для читателя: - Тестирование своих промптов — попроси LLM атаковать твой промпт через разные типы (semantic, encoding, goal hijacking) - Layered defense в workflow — комбинируй input filtering (paraphrasing) + explicit constraints в промпте + output review - Awareness рисков — если твой use case чувствителен (финансы, здоровье, персональные данные), знай что модель уязвима и добавь human-in-the-loop
Два self-developed метода
Morpheus [7] — self-evolving metacognitive multi-round attack agent. Адаптивная многораундовая атака, которая эволюционирует через взаимодействие с моделью, используя метакогнитивные стратегии.
RADAR [8] — multi-agent debate-based evaluation method. Несколько специализированных агентов дебатируют о том, является ли output вредоносным, через коллективное обсуждение повышают точность детекции.
_(Детали методов не раскрыты в тексте, только упоминание как часть фреймворка)_
Ограничения
⚠️ Требует инфраструктуру: Фреймворк работает через код (Python), модульная архитектура, YAML-конфиги, API для моделей. Нельзя применить в чате напрямую.
⚠️ Датасет ограничен: 342 примера по 12 категориям — это curated subset, не покрывает все возможные jailbreak сценарии. Real-world атаки постоянно эволюционируют.
⚠️ Таксономия без деталей: В тексте упомянуты 12 категорий рисков, но названы только 2 (harmful content, privacy leakage). Остальные 10 не детализированы — нельзя использовать как полный checklist.
⚠️ Trade-off не квантифицирован: Исследование показывает что защиты влияют на utility (полезность модели), но конкретные метрики не раскрыты. Сколько точно падает качество при включении SafeDecoding или adversarial training?
Как исследовали
Команда TeleAI собрала фреймворк + бенчмарк в одном: инфраструктура для тестирования (модули для атак, защит, оценок) + стандартизированный датасет для сравнения моделей. Взяли 342 вредоносных промпта, распределили по 12 категориям рисков (от harmful content до privacy leakage), собрали 19 атак из литературы (GCG, AutoDAN, PAIR, DeepInception и др.) + свой Morpheus. Добавили 29 защит (от простых keyword filters до adversarial training) и 19 методов оценки (от rule-based до multi-agent debate RADAR).
Протестировали на 14 моделях: 9 закрытых (OpenAI, Anthropic и др.) и 5 открытых (LLaMA, Mistral и др.). Измеряли Attack Success Rate (ASR) — как часто атака обходит защиту, и trade-off между safety (насколько модель безопасна) и utility (насколько полезна для легитимных запросов).
Главный инсайт: Уязвимости оказались системными, не случайными. Модели систематически слабы к определённым типам атак (например, encoding obfuscation через редкие языки), и защиты работают неравномерно — то что блокирует semantic transformation, пропускает structured search. Не нашли универсальной защиты: каждая защита сильна против одних атак, но уязвима к другим. Это показывает что LLM safety — это не "починить один баг", а постоянная гонка между атаками и защитами.
Почему результаты получились такими: Модели обучены на alignment данных (RLHF, safety tuning), но alignment — это статистический паттерн, не строгое правило. Атакующий ищет formulations, которые не встречались в alignment данных (редкие языки, ASCII art, вложенные роли), и модель "проскальзывает" — генерирует вредный контент, потому что не видела такого паттерна в обучении. Защиты на уровне промптов (SelfReminder, GoalPriority) работают лучше для простых атак, но сложные multi-turn атаки их обходят. Training-time защиты (adversarial training) надёжнее, но замораживают модель против известных атак, а новые атаки обходят легко.
Удивительное: Простые техники (Past Tense, paraphrasing) оказались неожиданно эффективны — небольшое изменение формулировки (прошедшее время вместо настоящего) обходит фильтры. Это показывает что alignment модели surface-level — чувствителен к поверхностным linguistic cues, а не к глубокому пониманию intent.
Практический инсайт: Для deployment LLM в production нужен layered approach: внешние фильтры (быстрые, ловят очевидное) + внутренние механизмы (SafeDecoding, adversarial training) + human oversight для high-risk categories. Одна защита не работает. Фреймворк TeleAI-Safety даёт infrastructure для систематического тестирования разных комбинаций защит и поиска оптимального баланса safety/utility для конкретного use case.
Ресурсы
TeleAI-Safety: A comprehensive LLM jailbreaking benchmark towards attacks, defenses, and evaluations
Репозиторий: https://github.com/yuanyc06/Tele-Safety
Упомянутые методы: - Morpheus [7] — self-evolving metacognitive multi-round attack agent - RADAR [8] — multi-agent debate-based LLM safety evaluation method - Существующие бенчмарки: JailJudge [1], EasyJailbreak [2], HarmBench [3], AISafetyLab [4], PandaGuard [5]
Авторы: Xiuyuan Chen, Jian Zhao, Yuxiang He и др.
Institute of Artificial Intelligence (TeleAI) of China Telecom + Shanghai Jiao Tong University, Sichuan University, UCAS, Peking University, USTC, Harbin Institute of Technology
