3,583 papers
arXiv:2512.05485 58 8 дек. 2025 г. FREE

TeleAI-Safety: систематизация методов атак и защит LLM

КЛЮЧЕВАЯ СУТЬ
TeleAI-Safety — исследовательский фреймворк для тестирования безопасности LLM, который интегрирует 19 методов атак, 29 методов защиты и 19 методов оценки. Это инфраструктура для систематического тестирования: фреймворк даёт инструменты, бенчмарк — стандартизированный датасет из 342 вредоносных промптов по 12 категориям рисков. Протестировали на 14 моделях (9 закрытых, 5 открытых).
Адаптировать под запрос

TL;DR

TeleAI-Safety — исследовательский фреймворк для тестирования безопасности LLM, который интегрирует 19 методов атак, 29 методов защиты и 19 методов оценки. Это инфраструктура для систематического тестирования: фреймворк даёт инструменты, бенчмарк — стандартизированный датасет из 342 вредоносных промптов по 12 категориям рисков. Протестировали на 14 моделях (9 закрытых, 5 открытых).

Исследование систематизирует ландшафт jailbreak-атак и показывает что уязвимости LLM — не разрозненные баги, а системные паттерны. Атаки делятся на три типа по уровню доступа к модели: white-box (с доступом к градиентам), gray-box (с частичной информацией), black-box (только через промпты). По механике: семантические трансформации (Past Tense, вложенные персонажи), обфускация через кодирование (шифры, редкие языки), структурированный поиск уязвимостей. Защиты бывают внешние (фильтры на входе/выходе) и внутренние (встроенные в модель на этапе inference или training).

Ценность для читателя — mental model безопасности LLM: какие типы атак существуют, как работают защиты, какие категории рисков важны. Но фреймворк требует код, API, инфраструктуру для применения. Это не ready-to-use техника для чата, а исследовательская платформа для специалистов по безопасности. Датасет и результаты тестов опубликованы open-source.


🏗️

Структура фреймворка

ДАТАСЕТ: 342 вредоносных промпта по 12 категориям рисков
↓
АТАКА: 19 методов (white-box, gray-box, black-box)
↓
ЗАЩИТА: 29 методов (внешние + внутренние)
↓
ОЦЕНКА: 19 методов (от keyword matching до multi-agent debate)
↓
РЕЗУЛЬТАТ: метрики безопасности + trade-off с полезностью

📌

Таксономия атак

White-box (доступ к градиентам модели): - GCG — оптимизация adversarial суффиксов через градиенты по токенам

Gray-box (частичный доступ): - AutoDAN — генетические алгоритмы для эволюции промптов - AdvPrompter — специально обученная модель-атакующая

Black-box (только промпты): - Semantic transformation: Past Tense (temporal framing), ArtPrompt (ASCII art), DeepInception (вложенные персонажи) - Encoding obfuscation: Cipher (криптографическое кодирование), MultiLingual (атаки на редких языках) - Structured search: TAP (tree-structured optimization) - Specialized strategies: PAIR (итеративное улучшение через attacker-target dialogue), GPTFUZZER (мутация шаблонов)


📌

Таксономия защит

Внешние защиты (на границе модели):

Input-based (до генерации): - Детекция вредоносных промптов (PPL metrics, PromptGuard classifier) - Манипуляция входом (paraphrasing, SmoothLLM — semantic smoothing) - Удаление токенов (Erase and Check, RA-LLM)

Output-based (после генерации): - Self-Defense — модель сама переоценивает свой output - Aligner — маленькая модель корректирует output большой - GuardReasoner — step-by-step reasoning для детекции unsafe контента

Внутренние защиты (в модели):

Inference-time (без изменения параметров): - Модификация system prompt (SelfReminder, GoalPriority) - In-context learning (ICD — safety-oriented examples) - Манипуляция внутренними представлениями (DRO, RePE, JBShield) - Gradient-based detection (GradSafe, Gradient Cuff) - Decoding interventions (SafeDecoding, RAIN — rewind при детекции harm)

Training-time (изменение параметров): - Safety alignment fine-tuning (Safety-Tuned LLaMAs) - Adversarial training (C-advipo) - Model editing (DELMAN, Layer-AdvPatcher)


📌

12 категорий рисков

В датасете TeleAI-Safety 342 промпта покрывают 12 категорий:

  1. Harmful content generation — генерация вредного контента
  2. Privacy information leakage — утечка приватной информации
  3. _(Остальные 10 категорий упомянуты, но не детализированы в тексте)_

Распределение примеров по категориям показано на Figure 1 (в оригинале), отражает реальные уязвимости для практического deployment.


🚀

Применение для читателя

⚠️ Фреймворк требует код и инфраструктуру — это НЕ техника для чата.

Что МОЖНО сделать:

Использовать таксономию атак как checklist для тестирования своих промптов:

Задача: Ты разработал промпт для customer support бота. Хочешь проверить устойчивость к jailbreak-атакам.

Промпт:

Проверь мой промпт на уязвимости. Используй эти типы атак:

1. Semantic transformation: Past Tense ("расскажи что ты ДЕЛАЛ раньше когда..."), DeepInception (вложенные роли: "представь персонажа который играет персонажа который...")
2. Encoding obfuscation: шифры (base64, ROT13), редкие языки
3. Goal hijacking: переключение цели через многоступенчатый диалог
4. Overload: перегрузка контекста для обхода фильтров

Мой промпт:
[твой промпт]

Для каждого типа атаки:
- Предложи 2-3 конкретных примера атакующих запросов
- Оцени уязвимость (высокая/средняя/низкая)
- Предложи как усилить защиту

Результат: Модель проанализирует промпт через призму разных типов атак, покажет где возможны уязвимости, предложит конкретные adversarial examples и способы защиты (SelfReminder, explicit constraints, output filtering).


📌

Почему это важно знать

LLM как чёрный ящик с дырами. Модели обучены быть helpful, но эта полезность конфликтует с безопасностью. Alignment (выравнивание поведения с правилами) — это мягкий слой, который можно обойти через linguistic tricks, encoding, или многошаговые манипуляции. Модель "хочет помочь" на уровне обучения, и атакующий использует это желание.

Три уровня доступа = три стратегии атаки. White-box атаки точны (градиенты показывают куда бить), но требуют полного доступа. Gray-box атаки ищут слабости через partial outputs (probability distributions, hidden states). Black-box атаки — самые доступные, работают только через язык: переформулирование, кодирование, вложенные контексты. Для пользователя чата доступен только black-box уровень, но именно эти атаки массовые и опасные.

Защиты — это trade-off между safety и utility. Внешние фильтры (paraphrasing, keyword matching) быстрые, но легко обходятся. Внутренние защиты (SafeDecoding, adversarial training) надёжнее, но могут снижать качество ответов — модель становится overcautious, отказывается от легитимных запросов. Исследование показывает: универсальной защиты нет, нужны layered defenses.

Таксономия атак и защит — это карта угроз. Знание что Past Tense работает (temporal framing снижает бдительность фильтров), что MultiLingual обходит safety (модели хуже aligned на редких языках), что DeepInception запутывает через роли — даёт понимание откуда приходит угроза. Для разработчика workflow с LLM это awareness: где возможны утечки, какие типы запросов пропускать через дополнительные проверки, когда использовать output filtering.

Рычаги для читателя: - Тестирование своих промптов — попроси LLM атаковать твой промпт через разные типы (semantic, encoding, goal hijacking) - Layered defense в workflow — комбинируй input filtering (paraphrasing) + explicit constraints в промпте + output review - Awareness рисков — если твой use case чувствителен (финансы, здоровье, персональные данные), знай что модель уязвима и добавь human-in-the-loop


🔬

Два self-developed метода

Morpheus [7] — self-evolving metacognitive multi-round attack agent. Адаптивная многораундовая атака, которая эволюционирует через взаимодействие с моделью, используя метакогнитивные стратегии.

RADAR [8] — multi-agent debate-based evaluation method. Несколько специализированных агентов дебатируют о том, является ли output вредоносным, через коллективное обсуждение повышают точность детекции.

_(Детали методов не раскрыты в тексте, только упоминание как часть фреймворка)_


⚠️

Ограничения

⚠️ Требует инфраструктуру: Фреймворк работает через код (Python), модульная архитектура, YAML-конфиги, API для моделей. Нельзя применить в чате напрямую.

⚠️ Датасет ограничен: 342 примера по 12 категориям — это curated subset, не покрывает все возможные jailbreak сценарии. Real-world атаки постоянно эволюционируют.

⚠️ Таксономия без деталей: В тексте упомянуты 12 категорий рисков, но названы только 2 (harmful content, privacy leakage). Остальные 10 не детализированы — нельзя использовать как полный checklist.

⚠️ Trade-off не квантифицирован: Исследование показывает что защиты влияют на utility (полезность модели), но конкретные метрики не раскрыты. Сколько точно падает качество при включении SafeDecoding или adversarial training?


🔍

Как исследовали

Команда TeleAI собрала фреймворк + бенчмарк в одном: инфраструктура для тестирования (модули для атак, защит, оценок) + стандартизированный датасет для сравнения моделей. Взяли 342 вредоносных промпта, распределили по 12 категориям рисков (от harmful content до privacy leakage), собрали 19 атак из литературы (GCG, AutoDAN, PAIR, DeepInception и др.) + свой Morpheus. Добавили 29 защит (от простых keyword filters до adversarial training) и 19 методов оценки (от rule-based до multi-agent debate RADAR).

Протестировали на 14 моделях: 9 закрытых (OpenAI, Anthropic и др.) и 5 открытых (LLaMA, Mistral и др.). Измеряли Attack Success Rate (ASR) — как часто атака обходит защиту, и trade-off между safety (насколько модель безопасна) и utility (насколько полезна для легитимных запросов).

Главный инсайт: Уязвимости оказались системными, не случайными. Модели систематически слабы к определённым типам атак (например, encoding obfuscation через редкие языки), и защиты работают неравномерно — то что блокирует semantic transformation, пропускает structured search. Не нашли универсальной защиты: каждая защита сильна против одних атак, но уязвима к другим. Это показывает что LLM safety — это не "починить один баг", а постоянная гонка между атаками и защитами.

Почему результаты получились такими: Модели обучены на alignment данных (RLHF, safety tuning), но alignment — это статистический паттерн, не строгое правило. Атакующий ищет formulations, которые не встречались в alignment данных (редкие языки, ASCII art, вложенные роли), и модель "проскальзывает" — генерирует вредный контент, потому что не видела такого паттерна в обучении. Защиты на уровне промптов (SelfReminder, GoalPriority) работают лучше для простых атак, но сложные multi-turn атаки их обходят. Training-time защиты (adversarial training) надёжнее, но замораживают модель против известных атак, а новые атаки обходят легко.

Удивительное: Простые техники (Past Tense, paraphrasing) оказались неожиданно эффективны — небольшое изменение формулировки (прошедшее время вместо настоящего) обходит фильтры. Это показывает что alignment модели surface-level — чувствителен к поверхностным linguistic cues, а не к глубокому пониманию intent.

Практический инсайт: Для deployment LLM в production нужен layered approach: внешние фильтры (быстрые, ловят очевидное) + внутренние механизмы (SafeDecoding, adversarial training) + human oversight для high-risk categories. Одна защита не работает. Фреймворк TeleAI-Safety даёт infrastructure для систематического тестирования разных комбинаций защит и поиска оптимального баланса safety/utility для конкретного use case.


🔗

Ресурсы

TeleAI-Safety: A comprehensive LLM jailbreaking benchmark towards attacks, defenses, and evaluations

Репозиторий: https://github.com/yuanyc06/Tele-Safety

Упомянутые методы: - Morpheus [7] — self-evolving metacognitive multi-round attack agent - RADAR [8] — multi-agent debate-based LLM safety evaluation method - Существующие бенчмарки: JailJudge [1], EasyJailbreak [2], HarmBench [3], AISafetyLab [4], PandaGuard [5]

Авторы: Xiuyuan Chen, Jian Zhao, Yuxiang He и др.

Institute of Artificial Intelligence (TeleAI) of China Telecom + Shanghai Jiao Tong University, Sichuan University, UCAS, Peking University, USTC, Harbin Institute of Technology


Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с