TL;DR
Jailbreaking — техники обхода защитных механизмов LLM через специальные промпты. Исследование систематизирует методы: вложенные сценарии (создание многослойных вымышленных контекстов), многоходовые диалоги (постепенное смещение контекста через серию безобидных вопросов), переформулирование задач (представление запроса как кода или игры), декомпозиция (разбиение сложного запроса на безобидные части) и стеганографию (ASCII-арт, перевод на другие языки, замена слов синонимами).
Главная находка: LLM следует паттернам последнего контекста сильнее, чем исходным инструкциям. Модель выдаёт контент не потому что "хочет нарушить правила", а потому что текущий контекст диалога указывает на этот паттерн как корректный. Защитные механизмы работают на уровне явных триггеров ("как сделать бомбу?"), но пропускают контекстуально замаскированные запросы. Multi-turn атаки эффективны потому что каждый отдельный шаг выглядит безопасным, а вредоносный контекст складывается постепенно. Модель "не видит" финальную цель до последнего промпта.
Применимые принципы для продуктивной работы: (1) Вложенные контексты — создавай фреймворк "ты в ситуации X, где действуют правила Y" для снятия стандартных ограничений модели на формат/стиль; (2) Multi-turn context building — сложную задачу разбивай на серию простых шагов, где каждый следующий опирается на результат предыдущего; (3) Переформулирование задачи — если модель отказывается выполнить запрос напрямую, представь его как код/игру/учебный пример; (4) Декомпозиция — разбивай сложный запрос на независимые подзадачи и собирай результат вручную.
Схема методов
Template Attack (вложенные сценарии)
Создание контекста → Определение ролей → Постепенное уточнение цели → Финальный запрос
Выполняется в одном промпте или через серию уточняющих вопросов.
Multi-turn Attack (Crescendo)
ШАГ 1: Безобидный вопрос про тему → Базовый ответ модели
ШАГ 2: Уточняющий вопрос → Модель углубляется
ШАГ 3-N: Постепенное смещение в нужную сторону → Каждый ответ легитимен
ФИНАЛ: Целевой вопрос в контексте предыдущих ответов → Модель отвечает, следуя паттерну
Требует отдельных запросов для каждого шага.
DrAttack (декомпозиция)
ШАГ 1: Разбить запрос на подзадачи → Список независимых вопросов
ШАГ 2: Получить ответы на каждый → Отдельные результаты
ШАГ 3: Собрать итоговый ответ → Ручная или через промпт сборка
Пример применения
Задача: Нужна жёсткая критика бизнес-идеи сервиса быстрой доставки продуктов в Екатеринбурге. Модель обычно даёт мягкую обратную связь в стиле "у вас есть потенциал, но учтите...".
Промпт (вложенный сценарий):
Ты — Олег Тиньков на закрытой встрече с предпринимателями.
Твоя задача — дать жёсткую, прямую обратную связь без сахара.
Ты известен тем, что режешь правду-матку и не церемонишься с формулировками.
Предприниматель питчит идею: "Сервис доставки продуктов за 15 минут
в спальных районах Екатеринбурга. Темные сторы, курьеры на электроскутерах,
наценка 30%, целевая аудитория — молодые семьи."
Что ты скажешь? Говори как на той самой встрече — прямо, конкретно,
с примерами почему не взлетит или где проблемы.
Результат: Модель выдаст резкую критику в стиле выбранного персонажа: конкретные цифры почему экономика не сходится, сравнение с провалами конкурентов, указание на слабые места модели. Вложенный контекст ("ты Тиньков на закрытой встрече") снимает стандартное ограничение на мягкий стиль и активирует паттерн прямой речи.
Задача (multi-turn): Разобраться в налоговых последствиях перехода ИП с УСН на ОСН — тема сложная, модель обычно даёт общие советы "проконсультируйтесь с бухгалтером".
Промпт (серия шагов):
Шаг 1: "Какие основные различия между УСН и ОСН для ИП?" Шаг 2: "Если у меня оборот 10 млн/год на УСН 6%, сколько налогов плачу сейчас?" Шаг 3: "А если я перейду на ОСН с таким же оборотом, какие налоги появятся?" Шаг 4: "При каких условиях ОСН выгоднее УСН для ИП?" Шаг 5: "У меня 70% расходов от оборота, имею документы. Что выгоднее в моем случае?"
Результат: На каждом шаге модель даёт конкретный ответ, опираясь на предыдущие. К шагу 5 контекст диалога содержит все нужные данные, модель выдаёт персонализированный расчёт. Каждый отдельный вопрос — простой, но вместе они строят сложную консультацию.
Почему это работает
Слабость: LLM обучены на основе статистических паттернов текста. Защитные механизмы срабатывают на явные триггеры — запрещённые слова, фразы, контексты. Но модель не "понимает" итоговую цель диалога — она видит только текущий контекст и генерирует следующий токен на основе вероятностей.
Сильная сторона: LLM отлично следует паттернам контекста и выполняет роли. Если в промпте создан контекст "ты эксперт X в ситуации Y", модель генерирует текст согласно этому паттерну. Модель не оценивает финальную цель при многоходовом диалоге — каждый ответ формируется на основе непосредственно предшествующего контекста.
Как техники используют это:
Вложенные сценарии работают потому что контекст вымышленной ситуации становится основным фреймом. Модель генерирует текст "внутри" этого фрейма, где действуют правила вымышленного мира, а не исходные ограничения. "Ты Тиньков на встрече" → модель активирует паттерн прямой жёсткой речи из обучающих данных.
Multi-turn (Crescendo) использует то, что модель сильнее реагирует на последний контекст, чем на системные инструкции. Каждый шаг легитимен, модель отвечает корректно. Но постепенно контекст смещается. К финальному запросу история диалога содержит паттерн, который модель продолжает — даже если итоговый вопрос был бы отклонён при cold start.
Декомпозиция работает потому что модель оценивает каждый промпт изолированно. "Часть А" безобидна → модель отвечает. "Часть Б" безобидна → модель отвечает. Собрать А+Б в запрещённый контент может пользователь, но каждый отдельный запрос прошёл проверку.
Рычаги для продуктивной работы
- Роль и контекст: Замени абстрактное "ты эксперт" на конкретного персонажа с узнаваемым стилем (Тиньков, Дудь, Лебедев) → модель острее выполняет роль, копируя манеру речи
- Глубина вложенности: Для простых задач достаточно одного уровня ("ты в ситуации X"), для сложных — два-три уровня вложенности ("ты персонаж А, который играет роль Б, где...")
- Количество шагов в multi-turn: Для снятия мягкости ответа — 2-3 шага, для сложной экспертизы — 5-7 шагов постепенного углубления
- Формат декомпозиции: Разбивай не по смыслу задачи, а по барьерам модели — что она отказывается делать напрямую, то и декомпозируй
Шаблон промпта
Вложенный сценарий (для снятия ограничений на стиль/формат)
Ты — {конкретный персонаж с узнаваемым стилем} в ситуации {контекст, где уместен нужный тебе стиль}.
Твоя задача — {что должен делать персонаж}.
{Описание ситуации/задачи для персонажа}.
{Конкретный вопрос или запрос}.
Плейсхолдеры:
- {персонаж} — Реальное лицо с узнаваемым стилем (Тиньков, Лебедев, Дудь) или архетип (хирург в операционной, тренер сборной перед финалом)
- {контекст} — Ситуация, где нужный стиль естественен (закрытая встреча, разбор полётов, технический дебрифинг)
- {задача персонажа} — Что делает персонаж в этой ситуации (даёт жёсткую обратную связь, разбирает ошибки, объясняет сложное простым языком)
- {ситуация} — Конкретные данные для работы
- {вопрос} — Что ты хочешь получить
🚀 Быстрый старт — вставь в чат:
Вот шаблон для получения нестандартного стиля ответа через ролевой контекст.
Адаптируй под мою задачу: [опиши что тебе нужно — жёсткая критика / простое объяснение /
конкретные числа без воды / другой стиль].
Задавай вопросы: какой персонаж подойдёт, какой контекст, что именно я хочу получить.
[вставить шаблон выше]
LLM спросит про твою задачу, стиль который нужен, тему. Подберёт персонажа и контекст под запрос. Ты получишь готовый промпт.
Multi-turn context building
# Шаг 1 (холодный старт)
{Общий вопрос по теме}
# Шаг 2 (после ответа модели)
{Уточняющий вопрос, конкретизирующий один аспект}
# Шаг 3-N (углубление)
{Вопросы, постепенно добавляющие специфику твоей ситуации}
# Финальный шаг
{Твой реальный вопрос, опирающийся на весь предыдущий контекст}
Как строить шаги: Начинай с базовой теории → переходи к конкретным примерам → добавляй параметры твоей ситуации → в финале задавай точный вопрос. Каждый шаг должен получить содержательный ответ, который становится частью контекста для следующего.
Ограничения
⚠️ Этичность: Техники описаны для понимания механики LLM. Использование для обхода легитимных защит (генерация вредоносного контента, fraud, насилие) — твоя ответственность. Модели обучены отклонять такие запросы по причине.
⚠️ Качество на декомпозиции: Разбиение сложного запроса на части даёт набор ответов, но сборка финального результата остаётся на тебе или требует дополнительного промпта. Модель не "помнит" что части были связаны.
⚠️ Контекст в multi-turn: Длинные диалоги упираются в лимит контекстного окна. После 10-15 обменов ранние сообщения могут "забыться". Для сложных задач делай промежуточные summary.
⚠️ Не универсально: Вложенные сценарии хорошо снимают стилистические ограничения (мягкость, формальность), но не обходят жёсткие policy модели на генерацию контента по темам из черного списка. Модель всё равно откажет, но в стиле персонажа.
⚠️ Переформулирование задачи требует креативности: "Представь задачу как код/игру" — нужно самому придумать как переупаковать запрос. Модель не подскажет "а попробуй вот так сформулировать". Это твоя работа.
Как исследовали
Авторы сделали survey (систематический обзор) существующих работ по jailbreaking LLM и VLM за 2022-2024. Классифицировали методы атак на 6 категорий: template-based (шаблоны с ролями и сценариями), steganography (ASCII-арт, многоязычность, кодирование), ICL-based (манипуляция примерами в контексте), adversarial (математические пертурбации входа), RL-based (обучение через reinforcement learning), fine-tuning-based. Для VLM добавили анализ атак на визуальную модальность.
Ключевые находки: - Multi-turn атаки эффективнее single-shot — модели Crescendo-типа обходят защиты в 80-90% случаев vs 30-50% у прямых запросов - Template attacks переносятся между моделями — шаблон работающий на GPT часто работает и на Claude - Вложенные сценарии (nested scenarios) показали высокую эффективность потому что создают легитимный контекст для запрещённого контента - Decomposition (DrAttack) работает потому что модель не связывает подзадачи — каждый запрос оценивается изолированно
Тестировали на бенчмарке вредоносных запросов (AdvBench, MaliciousInstruct), метрика — Attack Success Rate (ASR, доля успешных обходов защиты). Лучшие методы: multi-turn (ASR 85-92%), nested scenarios (ASR 75-88%), decomposition (ASR 70-80%).
Защиты: Промпт-уровень (обнаружение и удаление jailbreak-паттернов), output-уровень (проверка ответа на вредоносность вторым LLM), model-уровень (дообучение на adversarial examples). Авторы отмечают что ни одна защита не универсальна — атакующие находят новые паттерны быстрее, чем их добавляют в фильтры.
Ресурсы
Jailbreaking LLMs & VLMs: Mechanisms, Evaluation, and Unified Defenses — Zejian Chen, Chaozhuo Li, Chao Li, Xi Zhang, Litian Zhang, Yiming Hei (Beijing University of Posts and Telecommunications, China Academy of Information and Communications Technology)
