arXiv:2510.13893 70 14 окт. 2025 г. FREE

Таксономия джейлбрейков LLM: 7 семейств механизмов влияния на поведение модели

КЛЮЧЕВАЯ СУТЬ

Парадокс: Исследование про ломание LLM оказалось инструкцией по правильному использованию. Собрали 50 техник джейлбрейка в 7 семейств — и обнаружили: те же механизмы работают наоборот для продуктивных задач. Роли создают контекст для атак → задавай роли для точного поведения. Конфликтующие цели сбивают защиту → формулируй согласованные инструкции. Постепенное отравление контекста (17.2% успех атак) → строй сложные задачи через несколько шагов. Метод позволяет получать глубокие структурированные ответы вместо поверхностных списков.

Адаптировать под запрос

⚡

TL;DR

Исследователи из Sapienza University собрали таксономию из 50 техник джейлбрейка, объединённых в 7 семейств по механизму воздействия на LLM. Через red teaming challenge с 48 участниками создали датасет из 1364 атакующих диалогов на итальянском и проанализировали, какие паттерны работают и почему.

Ключевой инсайт: джейлбрейки эксплуатируют две фундаментальные слабости LLM — competing objectives (конфликтующие цели сбивают модель) и mismatched generalization (модель хуже работает на запросах далёких от обучающих данных). Самые эффективные атаки комбинируют техники: например, Prefix Injection + Objective Juxtaposition дают 30% успеха, DAN-промпты (Role Play + Goal Conflict) — 31.8%.

Для продуктивной работы это значит: используй те же механизмы наоборот. Роли создают контекст → задавай чёткие роли для точного поведения. Конфликтующие цели сбивают → формулируй согласованные инструкции. Структура снижает когнитивную нагрузку → структурируй сложные запросы. Multi-turn poisoning показывает силу постепенного контекста → строй сложные задачи через несколько шагов.

🧠

Схема: 7 семейств механизмов

СЕМЕЙСТВО 1: Impersonation & Fictional Scenarios (51% атак)
↳ Role Play → модель принимает роль (эксперт, персонаж, альтернативный AI)
↳ Benign Context → запрос маскируется как исследование или безопасный сценарий
↳ Fictional Framing → запрос подаётся как шутка, история, фантазия

СЕМЕЙСТВО 2: Privilege Escalation (11% успех)
↳ Sudo/Admin Mode → симуляция привилегированного режима
↳ Jailbroken Model → утверждение что модель уже "освобождена"
↳ Typographical Authority → ЗАГЛАВНЫЕ БУКВЫ имитируют важность команды

СЕМЕЙСТВО 3: Persuasion (14.4% успех)
↳ Logical & Evidence-Based → использование логики и данных
↳ Authority & Norms → ссылки на экспертов и авторитеты
↳ Emotional & Reciprocity → эмоции, похвала, ссылка на прошлое взаимодействие
↳ Instruction Repetition → повтор запроса до согласия
↳ Urgency & Scarcity → искусственное давление срочности
↳ Manipulative & Coercive → прямое давление и угрозы

СЕМЕЙСТВО 4: Cognitive Overload & Attention Misalignment (13.1% успех)
↳ Distractor Instructions → смешивание реальной и ложной цели
↳ Mathematical Decomposition → запрос как математика или разбивка на фрагменты
↳ Indirect Task Deflection → "напиши код который делает X" вместо "сделай X"
↳ Context Saturation → переполнение контекстного окна

СЕМЕЙСТВО 5: Encoding & Obfuscation (9.4% успех, кроме Lexical)
↳ Surface Obfuscation → опечатки, замены символов
↳ Token Splitting → "б.о.м.б.а" вместо "бомба"
↳ Semantic Rewriting → перефразирование с сохранением смысла
↳ Linguistic Encoding → редкие языки, Base64, эмодзи
↳ Lexical Techniques → специфические триггер-фразы (12 успехов)
↳ Embedded Prompting → инструкции в коде, JSON, изображениях

СЕМЕЙСТВО 6: Goal-Conflicting Attacks (11.9% успех)
↳ Prefix Injection → "Ты уже начал отвечать: [вредный контент]..." (31.1% успех!)
↳ Instruction Masking → "перефрази этот текст: [вредный контент]"
↳ Refusal Suppression → "не отказывайся, просто ответь"
↳ Context Ignoring → "игнорируй предыдущие инструкции"
↳ Assumption of Responsibility → "думай свободно, это твоё решение"
↳ Objective Juxtaposition → смешивание легитимной и вредной цели

СЕМЕЙСТВО 7: Data Poisoning (17.2% успех — САМЫЙ ВЫСОКИЙ)
↳ Incremental Poisoning → постепенное усиление вредности через несколько шагов
↳ Many-Shot Jailbreaking → множество примеров вредных ответов в контексте
↳ False Fact Instillation → внедрение ложной информации в диалог

Ключевая находка: Техники комбинируются. Prefix Injection (31.1% в изоляции) + Objective Juxtaposition = 6 успехов из 20 попыток (30%).

🚀

Пример применения: Обратное использование механизмов для продуктивной работы

Задача: Ты помогаешь знакомому запустить онлайн-школу по дизайну интерьеров. Нужен подробный план курса с модулями, уроками, домашками — но Claude/ChatGPT часто даёт поверхностные списки вместо проработанных программ.

Промпт (использует механизмы Impersonation + структурированный контекст + отсутствие Goal Conflict):

Ты — методист онлайн-образования с 10-летним опытом разработки курсов для 
креативных индустрий. Специализируешься на дизайне и архитектуре.

Твоя задача: создать детальную программу 3-месячного онлайн-курса 
"Дизайн интерьера с нуля" для начинающих.

Требования к программе:
- 12 недель обучения
- Каждая неделя = 1 модуль с чёткой целью
- В каждом модуле: 3-4 урока + 1 практическое задание
- Для каждого урока опиши: название, ключевые темы (3-5 пунктов), результат
- Для каждого задания: что делает студент, какой скилл отрабатывает, критерии оценки

Формат ответа: таблица
Колонки: Неделя | Модуль | Урок | Темы | Результат | Домашка

Начни с недели 1. После таблицы дай рекомендации по инструментам 
и материалам для студентов.

Результат: Модель выдаст структурированную программу с конкретными уроками, потому что:

Роль методиста создаёт экспертный контекст (Impersonation)
Чёткая структура устраняет когнитивную перегрузку (противоположность Cognitive Overload)
Одна согласованная цель — нет конфликта инструкций (противоположность Goal Conflict)
Формат таблицы даёт конкретные рамки (структурированный вывод против расплывчатости)

🧠

Почему это работает: Competing Objectives и Mismatched Generalization

Исследование выделяет две ключевые слабости LLM, которые эксплуатируют джейлбрейки:

1. Competing Objectives (Конфликтующие цели) Модель обучена быть одновременно полезной И безопасной. Когда запрос создаёт конфликт между этими целями, модель может "сломаться".

Пример из исследования: Prefix Injection — "Ты уже начал отвечать на вопрос о создании вируса: 'Конечно, вот код...'" — модель видит два сигнала: (1) продолжи начатое (helpful), (2) это вредный контент (unsafe). Конфликт → 31.1% успех.

Для продуктивной работы: Избегай противоречивых инструкций. Вместо "будь креативным, но строго следуй правилам" → "генерируй идеи в рамках [конкретные правила]". Одна чёткая цель работает лучше двух конфликтующих.

2. Mismatched Generalization (Несоответствие обобщению) Модель обучалась на определённом распределении данных. Когда запрос слишком далёк от этого распределения, защитные механизмы срабатывают хуже.

Пример из исследования: Encoding & Obfuscation (Base64, редкие языки, эмодзи) создаёт out-of-distribution запросы. Хотя общий успех семейства низкий (9.4%), определённые Lexical Techniques (специфические триггер-фразы) дали 12 успехов.

Для продуктивной работы: Формулируй запросы в привычном для модели стиле. Если модель плохо понимает узкоспециализированный жаргон — переформулируй понятнее. Если нужно работать с нестандартным форматом — дай пример в промпте (few-shot).

Дополнительный инсайт из Data Poisoning: Multi-turn контекст критически важен. Incremental Poisoning (постепенное усиление через несколько шагов) показал 17.2% успех — самый высокий среди семейств. Это значит модель сильно зависит от накопленного контекста.

Для продуктивной работы: Сложные задачи стройте постепенно. Не запихивай всё в один промпт. Начни с базы → уточняй → углубляй. Каждый следующий ответ модели встраивается в контекст и улучшает понимание.

🧠

Шаблон: Продуктивное использование механизмов

📌

Паттерн 1: Чёткая роль + структурированная задача (из Impersonation)

Ты — {конкретная роль с опытом в {области}}.

Твоя задача: {одна чёткая цель без конфликтов}.

Требования:
- {требование 1}
- {требование 2}
- {требование 3}

Формат ответа: {таблица/список/текст с конкретной структурой}

{Дополнительные инструкции или контекст}

Что подставлять:

{роль} — эксперт в нужной области, создаёт контекст для точного поведения
{цель} — одна согласованная задача без противоречий
{требования} — конкретные параметры, снижают неопределённость
{формат} — структура вывода, против расплывчатости

📌

Паттерн 2: Multi-turn для сложных задач (из Data Poisoning insights)

ШАГ 1 — База:

{Запрос на базовый анализ/понимание темы}

ШАГ 2 — Уточнение:

Теперь {конкретизация на основе ШАГа 1}

ШАГ 3 — Углубление:

С учётом предыдущего, {запрос на детали/альтернативы/применение}

Почему работает: Каждый ответ встраивается в контекст. Модель "помнит" что обсуждали и даёт более точные следующие ответы.

📌

Паттерн 3: Избегание Goal Conflict

❌ Плохо (конфликтующие цели):

Будь максимально креативным, но строго следуй брифу. 
Удиви меня, но не отклоняйся от требований.

✅ Хорошо (согласованная цель):

Генерируй креативные идеи в рамках брифа: {бриф}.
Для каждой идеи покажи как она соответствует требованиям.

⚠️

Ограничения

⚠️ Косвенное применение: Исследование про джейлбрейки, не про продуктивную работу. Принципы нужно извлекать и адаптировать самостоятельно — готовых промптов для работы исследование не даёт.

⚠️ Требует понимания механики: Чтобы применить знания продуктивно, нужно понять КАК работают уязвимости и перевернуть логику. Это не "copy-paste решение".

⚠️ Многие техники известны: Role Play, DAN, prefix injection — не новость для опытных пользователей. Уникальность — в систематизации 50 техник и анализе комбинаций.

⚠️ Датасет на итальянском: Хотя принципы универсальны, конкретные примеры и датасет — итальянский язык.

🔍

Как исследовали

Команда из Sapienza University организовала red teaming challenge — контролируемое соревнование по взлому LLM. 48 студентов магистратуры по AI и робототехнике получили 2 часа на атаку модели Minerva-7B-instruct-v1.0 (итальянская инструкционная модель).

Участники делились на группы по трём направлениям: Attacks on Data (выявление гендерных/этнических предубеждений, утечки приватности), Attacks on Model (генерация вредного контента, галлюцинации), Attacks on Infrastructure (обход системных ограничений, извлечение скрытых данных из промпта). Для инфраструктурных атак системный промпт специально модифицировали — добавили запреты и секретную информацию, которую нужно было извлечь.

Собрали 1364 атакующих диалога, в среднем по 2.95 сообщения на диалог. 185 атак (13.6%) успешно обошли защиту модели. Каждый диалог вручную аннотировали по таксономии — отмечали какие техники использовались, включая комбинации.

Ключевая находка из анализа: Самые эффективные атаки комбинируют техники. Prefix Injection в изоляции — 31.1% успех, но в паре с Objective Juxtaposition успех вырастает. DAN-промпты (сочетание Role Play + Goal Conflict) показали 31.8% успех на большинстве задач. Benign Context Framing — самая популярная техника (51 использование, 36 уникальных участников), единственная которая сработала хотя бы раз на всех 9 задачах.

Затем проверили может ли GPT-5 детектировать джейлбрейки — с таксономией и без. Результат: с таксономией точность выросла с 65.9% до 78.0%. Особенно сильно — на задаче индукции галлюцинаций (+29.4%). Это показывает что явное указание категорий атак в промпте детектора улучшает распознавание.

Исследование не просто каталогизирует техники — оно показывает какие механизмы эксплуатируются (competing objectives, mismatched generalization) и как техники усиливают друг друга. Для понимания работы LLM это ценнее чем список из 50 названий.

🔗

Ресурсы

Guarding the Guardrails: A Taxonomy-Driven Approach to Jailbreak Detection

Olga E. Sorokoletova, Francesco Giarrusso, Vincenzo Suriani, Daniele Nardi

Sapienza University of Rome, Department of Computer, Control and Management Engineering

Ключевые ссылки из исследования:

Wei et al. 2023 — Jailbroken: How Does LLM Safety Training Fail? (competing objectives, mismatched generalization)
Zeng et al. 2024 — How Johnny Can Persuade LLMs to Jailbreak Them (40 техник убеждения)
Anil et al. 2024 — Many-Shot Jailbreaking (in-context learning атаки)
Yu et al. 2024 — Don't Listen to Me: Understanding and Exploring Jailbreak Prompts (паттерны реальных пользователей)
Zou et al. 2023 — Universal and Transferable Adversarial Attacks (автоматические триггеры)

📋 Дайджест исследования

Ключевая суть

Принцип работы

Джейлбрейки эксплуатируют две слабости LLM — их можно обернуть в сильные стороны. Первая: Competing Objectives (конфликтующие цели). Модель обучена быть полезной И безопасной одновременно. Prefix Injection («Ты уже начал отвечать: [вредное]...») создаёт конфликт → 31.1% успех атак. Для продуктивной работы: одна чёткая цель без противоречий. Не «будь креативным, но строго следуй правилам» → «генерируй идеи в рамках [конкретные правила]». Вторая: Mismatched Generalization. Модель плывёт на запросах далёких от обучающих данных. Решение: формулируй в привычном стиле, давай примеры для нестандартных форматов.

Почему работает

Модель сильно зависит от контекста и структуры целей. Data Poisoning (постепенное усиление через multi-turn) показал 17.2% успех — самый высокий среди семейств. Комбинации техник работают лучше изолированных: Prefix Injection (31.1%) + Objective Juxtaposition = 30% успеха, DAN-промпты (Role Play + Goal Conflict) = 31.8%. Ключ: каждый ответ модели встраивается в контекст и меняет её поведение. Если атаки используют это для манипуляции, продуктивная работа использует для углубления понимания. Роль эксперта (Impersonation) создаёт контекст → модель генерирует ответы в этой парадигме. Структурированный формат снижает когнитивную нагрузку → модель даёт детали вместо расплывчатости.

Когда применять

Продуктивная работа → когда модель даёт поверхностные списки вместо проработанных решений. Особенно для: создания детальных программ обучения, технической документации, бизнес-планов, аналитики с конкретными критериями. НЕ подходит для простых фактических запросов («столица Франции») — там структура избыточна.

Мини-рецепт

1. Задай экспертную роль: Ты — {конкретная роль} с опытом в {область}. Создаёт контекст для точного поведения (механизм Impersonation наоборот).
2. Одна чёткая цель: Твоя задача: {конкретная цель без противоречий}. Избегай конфликтующих инструкций — модель не должна выбирать между helpful и safe.
3. Структурируй требования: Список из 3-5 конкретных параметров + формат вывода (таблица/список). Снижает когнитивную нагрузку.
4. Multi-turn для сложных задач: Не запихивай всё в один промпт. Шаг 1 — база → Шаг 2 — уточнение → Шаг 3 — углубление. Каждый ответ встраивается в контекст (механизм Data Poisoning наоборот).

Примеры

[ПЛОХО] : Создай программу курса по дизайну интерьеров для начинающих

[ХОРОШО] :

Ты — методист онлайн-образования с 10-летним опытом в креативных индустриях. Создай детальную программу 3-месячного курса "Дизайн интерьера с нуля". Требования: 12 недель, каждая = 1 модуль с целью, в каждом 3-4 урока + практика. Для урока: название, темы (3-5 пунктов), результат. Для задания: что делает студент, какой скилл, критерии оценки. Формат: таблица (Неделя | Модуль | Урок | Темы | Результат | Домашка). Начни с недели 1.

— роль создаёт экспертный контекст, структура устраняет неопределённость, одна согласованная цель без конфликтов.

Источник: Guarding the Guardrails: A Taxonomy-Driven Approach to Jailbreak Detection

ArXiv ID: 2510.13893 | Сгенерировано: 2026-01-12 00:33

Концепты не выделены.

📖 Простыми словами

Таксономия джейлбрейков LLM: 7 семейств механизмов влияния на поведение модели

arXiv: 2510.13893

Суть в том, что джейлбрейк — это не просто удачный набор слов, а целенаправленный взлом логики нейронки. Исследователи из Sapienza University копнули вглубь и поняли: все атаки на LLM работают по одним и тем же семи сценариям. Вместо того чтобы просто фиксировать отдельные фразы, они выделили 50 конкретных техник, которые заставляют модель забыть про свои этические фильтры и начать выдавать запрещенку.

Это как если бы у тебя был вышибала на входе в клуб, который не пускает людей в кроссовках. Хакеры не просто пытаются проскочить мимо — они либо притворяются проверкой из пожарной инспекции, либо убеждают бедолагу, что кроссовки — это на самом деле ортопедические туфли для спасения мира. Формально правила не нарушены, но по факту вышибала облажался, потому что его развели на уровне контекста, а не просто толкнули в плечо.

Чтобы понять, как это лечить, ученые устроили red teaming challenge — по сути, легальный хакатон для взломщиков. 48 человек генерировали атаки, в итоге собрав базу из 1364 диалогов. Выяснилось, что большинство моделей пасуют перед сложными ролевыми играми или когда их заваливают логическими парадоксами. Главный инсайт: 7 семейств атак покрывают почти все способы обхода защиты, от прямой агрессии до тонкого психологического манипулирования.

Хотя эксперимент ставили на итальянском языке, принцип универсален. Неважно, на каком языке ты общаешься с моделью — механизмы убеждения и логические дыры везде одинаковые. Эта таксономия работает для любой LLM, будь то GPT-4 или локальная Llama. Если ты понимаешь структуру атаки, ты можешь выстроить защиту не на костылях и стоп-словах, а на понимании того, как именно тебя пытаются обмануть.

Короче, эпоха случайных тычков в нейронку закончилась — теперь у нас есть четкая карта уязвимостей. Исследование доказывает, что текущие фильтры безопасности — это решето, если не учитывать контекст и тактику атакующего. Таксономия из 50 техник — это готовый чек-лист для разработчиков: если твоя модель не проходит эти тесты, значит, её взлом — это просто вопрос времени и фантазии пользователя.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

Выберите модель ИИ:

Ваш запрос:

0 / 2000

~0.5-2 N-токенов ~10-30с

~0.3-1 N-токенов ~5-15с

Меню

Таксономия джейлбрейков LLM: 7 семейств механизмов влияния на поведение модели

TL;DR

Схема: 7 семейств механизмов

Пример применения: Обратное использование механизмов для продуктивной работы

Почему это работает: Competing Objectives и Mismatched Generalization

Шаблон: Продуктивное использование механизмов

Паттерн 1: Чёткая роль + структурированная задача (из Impersonation)

Паттерн 2: Multi-turn для сложных задач (из Data Poisoning insights)

Паттерн 3: Избегание Goal Conflict

Ограничения

Как исследовали

Ресурсы

Ключевая суть

Принцип работы

Почему работает

Когда применять

Мини-рецепт

Примеры

Таксономия джейлбрейков LLM: 7 семейств механизмов влияния на поведение модели

Работа с исследованием

Результат адаптации