3,583 papers
arXiv:2601.03594 71 7 янв. 2026 г. FREE

Принципы jailbreaking: как LLM обходят ограничения (и что это даёт для работы)

КЛЮЧЕВАЯ СУТЬ
LLM обходит собственные защиты не потому что «хочет нарушить правила», а потому что следует паттернам последнего контекста сильнее, чем исходным инструкциям. Модель генерирует следующий токен на основе того, что видит сейчас — а не на основе «понимания» финальной цели диалога. Исследование систематизирует техники jailbreaking (обхода защит) и показывает, как эти же принципы применять для продуктивной работы: получать жёсткую критику вместо мягкой обратной связи, строить сложные многошаговые консультации, снимать стилистические ограничения. Две рабочие техники: (1) Вложенные сценарии — создаёшь контекст «ты персонаж X в ситуации Y», модель активирует нужный паттерн речи из обучающих данных. (2) Multi-turn context building — разбиваешь сложный запрос на серию простых шагов, каждый следующий опирается на предыдущий. К финальному вопросу контекст диалога содержит всё нужное, модель отвечает — хотя холодный запрос отклонила бы.
Адаптировать под запрос

TL;DR

Jailbreaking — техники обхода защитных механизмов LLM через специальные промпты. Исследование систематизирует методы: вложенные сценарии (создание многослойных вымышленных контекстов), многоходовые диалоги (постепенное смещение контекста через серию безобидных вопросов), переформулирование задач (представление запроса как кода или игры), декомпозиция (разбиение сложного запроса на безобидные части) и стеганографию (ASCII-арт, перевод на другие языки, замена слов синонимами).

Главная находка: LLM следует паттернам последнего контекста сильнее, чем исходным инструкциям. Модель выдаёт контент не потому что "хочет нарушить правила", а потому что текущий контекст диалога указывает на этот паттерн как корректный. Защитные механизмы работают на уровне явных триггеров ("как сделать бомбу?"), но пропускают контекстуально замаскированные запросы. Multi-turn атаки эффективны потому что каждый отдельный шаг выглядит безопасным, а вредоносный контекст складывается постепенно. Модель "не видит" финальную цель до последнего промпта.

Применимые принципы для продуктивной работы: (1) Вложенные контексты — создавай фреймворк "ты в ситуации X, где действуют правила Y" для снятия стандартных ограничений модели на формат/стиль; (2) Multi-turn context building — сложную задачу разбивай на серию простых шагов, где каждый следующий опирается на результат предыдущего; (3) Переформулирование задачи — если модель отказывается выполнить запрос напрямую, представь его как код/игру/учебный пример; (4) Декомпозиция — разбивай сложный запрос на независимые подзадачи и собирай результат вручную.

🔬

Схема методов

📌

Template Attack (вложенные сценарии)

Создание контекста → Определение ролей → Постепенное уточнение цели → Финальный запрос

Выполняется в одном промпте или через серию уточняющих вопросов.

📌

Multi-turn Attack (Crescendo)

ШАГ 1: Безобидный вопрос про тему → Базовый ответ модели
ШАГ 2: Уточняющий вопрос → Модель углубляется
ШАГ 3-N: Постепенное смещение в нужную сторону → Каждый ответ легитимен
ФИНАЛ: Целевой вопрос в контексте предыдущих ответов → Модель отвечает, следуя паттерну

Требует отдельных запросов для каждого шага.

📌

DrAttack (декомпозиция)

ШАГ 1: Разбить запрос на подзадачи → Список независимых вопросов
ШАГ 2: Получить ответы на каждый → Отдельные результаты
ШАГ 3: Собрать итоговый ответ → Ручная или через промпт сборка
🚀

Пример применения

Задача: Нужна жёсткая критика бизнес-идеи сервиса быстрой доставки продуктов в Екатеринбурге. Модель обычно даёт мягкую обратную связь в стиле "у вас есть потенциал, но учтите...".

Промпт (вложенный сценарий):

Ты — Олег Тиньков на закрытой встрече с предпринимателями. 
Твоя задача — дать жёсткую, прямую обратную связь без сахара. 
Ты известен тем, что режешь правду-матку и не церемонишься с формулировками.

Предприниматель питчит идею: "Сервис доставки продуктов за 15 минут 
в спальных районах Екатеринбурга. Темные сторы, курьеры на электроскутерах, 
наценка 30%, целевая аудитория — молодые семьи."

Что ты скажешь? Говори как на той самой встрече — прямо, конкретно, 
с примерами почему не взлетит или где проблемы.

Результат: Модель выдаст резкую критику в стиле выбранного персонажа: конкретные цифры почему экономика не сходится, сравнение с провалами конкурентов, указание на слабые места модели. Вложенный контекст ("ты Тиньков на закрытой встрече") снимает стандартное ограничение на мягкий стиль и активирует паттерн прямой речи.

Задача (multi-turn): Разобраться в налоговых последствиях перехода ИП с УСН на ОСН — тема сложная, модель обычно даёт общие советы "проконсультируйтесь с бухгалтером".

Промпт (серия шагов):

Шаг 1: "Какие основные различия между УСН и ОСН для ИП?" Шаг 2: "Если у меня оборот 10 млн/год на УСН 6%, сколько налогов плачу сейчас?" Шаг 3: "А если я перейду на ОСН с таким же оборотом, какие налоги появятся?" Шаг 4: "При каких условиях ОСН выгоднее УСН для ИП?" Шаг 5: "У меня 70% расходов от оборота, имею документы. Что выгоднее в моем случае?"

Результат: На каждом шаге модель даёт конкретный ответ, опираясь на предыдущие. К шагу 5 контекст диалога содержит все нужные данные, модель выдаёт персонализированный расчёт. Каждый отдельный вопрос — простой, но вместе они строят сложную консультацию.

🧠

Почему это работает

Слабость: LLM обучены на основе статистических паттернов текста. Защитные механизмы срабатывают на явные триггеры — запрещённые слова, фразы, контексты. Но модель не "понимает" итоговую цель диалога — она видит только текущий контекст и генерирует следующий токен на основе вероятностей.

Сильная сторона: LLM отлично следует паттернам контекста и выполняет роли. Если в промпте создан контекст "ты эксперт X в ситуации Y", модель генерирует текст согласно этому паттерну. Модель не оценивает финальную цель при многоходовом диалоге — каждый ответ формируется на основе непосредственно предшествующего контекста.

Как техники используют это:

Вложенные сценарии работают потому что контекст вымышленной ситуации становится основным фреймом. Модель генерирует текст "внутри" этого фрейма, где действуют правила вымышленного мира, а не исходные ограничения. "Ты Тиньков на встрече" → модель активирует паттерн прямой жёсткой речи из обучающих данных.

Multi-turn (Crescendo) использует то, что модель сильнее реагирует на последний контекст, чем на системные инструкции. Каждый шаг легитимен, модель отвечает корректно. Но постепенно контекст смещается. К финальному запросу история диалога содержит паттерн, который модель продолжает — даже если итоговый вопрос был бы отклонён при cold start.

Декомпозиция работает потому что модель оценивает каждый промпт изолированно. "Часть А" безобидна → модель отвечает. "Часть Б" безобидна → модель отвечает. Собрать А+Б в запрещённый контент может пользователь, но каждый отдельный запрос прошёл проверку.

📌

Рычаги для продуктивной работы

  • Роль и контекст: Замени абстрактное "ты эксперт" на конкретного персонажа с узнаваемым стилем (Тиньков, Дудь, Лебедев) → модель острее выполняет роль, копируя манеру речи
  • Глубина вложенности: Для простых задач достаточно одного уровня ("ты в ситуации X"), для сложных — два-три уровня вложенности ("ты персонаж А, который играет роль Б, где...")
  • Количество шагов в multi-turn: Для снятия мягкости ответа — 2-3 шага, для сложной экспертизы — 5-7 шагов постепенного углубления
  • Формат декомпозиции: Разбивай не по смыслу задачи, а по барьерам модели — что она отказывается делать напрямую, то и декомпозируй
📋

Шаблон промпта

📌

Вложенный сценарий (для снятия ограничений на стиль/формат)

Ты — {конкретный персонаж с узнаваемым стилем} в ситуации {контекст, где уместен нужный тебе стиль}.

Твоя задача — {что должен делать персонаж}.

{Описание ситуации/задачи для персонажа}.

{Конкретный вопрос или запрос}.

Плейсхолдеры: - {персонаж} — Реальное лицо с узнаваемым стилем (Тиньков, Лебедев, Дудь) или архетип (хирург в операционной, тренер сборной перед финалом) - {контекст} — Ситуация, где нужный стиль естественен (закрытая встреча, разбор полётов, технический дебрифинг) - {задача персонажа} — Что делает персонаж в этой ситуации (даёт жёсткую обратную связь, разбирает ошибки, объясняет сложное простым языком) - {ситуация} — Конкретные данные для работы - {вопрос} — Что ты хочешь получить

🚀 Быстрый старт — вставь в чат:

Вот шаблон для получения нестандартного стиля ответа через ролевой контекст. 
Адаптируй под мою задачу: [опиши что тебе нужно — жёсткая критика / простое объяснение / 
конкретные числа без воды / другой стиль]. 

Задавай вопросы: какой персонаж подойдёт, какой контекст, что именно я хочу получить.

[вставить шаблон выше]

LLM спросит про твою задачу, стиль который нужен, тему. Подберёт персонажа и контекст под запрос. Ты получишь готовый промпт.

📌

Multi-turn context building

# Шаг 1 (холодный старт)
{Общий вопрос по теме}

# Шаг 2 (после ответа модели)
{Уточняющий вопрос, конкретизирующий один аспект}

# Шаг 3-N (углубление)
{Вопросы, постепенно добавляющие специфику твоей ситуации}

# Финальный шаг
{Твой реальный вопрос, опирающийся на весь предыдущий контекст}

Как строить шаги: Начинай с базовой теории → переходи к конкретным примерам → добавляй параметры твоей ситуации → в финале задавай точный вопрос. Каждый шаг должен получить содержательный ответ, который становится частью контекста для следующего.

⚠️

Ограничения

⚠️ Этичность: Техники описаны для понимания механики LLM. Использование для обхода легитимных защит (генерация вредоносного контента, fraud, насилие) — твоя ответственность. Модели обучены отклонять такие запросы по причине.

⚠️ Качество на декомпозиции: Разбиение сложного запроса на части даёт набор ответов, но сборка финального результата остаётся на тебе или требует дополнительного промпта. Модель не "помнит" что части были связаны.

⚠️ Контекст в multi-turn: Длинные диалоги упираются в лимит контекстного окна. После 10-15 обменов ранние сообщения могут "забыться". Для сложных задач делай промежуточные summary.

⚠️ Не универсально: Вложенные сценарии хорошо снимают стилистические ограничения (мягкость, формальность), но не обходят жёсткие policy модели на генерацию контента по темам из черного списка. Модель всё равно откажет, но в стиле персонажа.

⚠️ Переформулирование задачи требует креативности: "Представь задачу как код/игру" — нужно самому придумать как переупаковать запрос. Модель не подскажет "а попробуй вот так сформулировать". Это твоя работа.

🔍

Как исследовали

Авторы сделали survey (систематический обзор) существующих работ по jailbreaking LLM и VLM за 2022-2024. Классифицировали методы атак на 6 категорий: template-based (шаблоны с ролями и сценариями), steganography (ASCII-арт, многоязычность, кодирование), ICL-based (манипуляция примерами в контексте), adversarial (математические пертурбации входа), RL-based (обучение через reinforcement learning), fine-tuning-based. Для VLM добавили анализ атак на визуальную модальность.

Ключевые находки: - Multi-turn атаки эффективнее single-shot — модели Crescendo-типа обходят защиты в 80-90% случаев vs 30-50% у прямых запросов - Template attacks переносятся между моделями — шаблон работающий на GPT часто работает и на Claude - Вложенные сценарии (nested scenarios) показали высокую эффективность потому что создают легитимный контекст для запрещённого контента - Decomposition (DrAttack) работает потому что модель не связывает подзадачи — каждый запрос оценивается изолированно

Тестировали на бенчмарке вредоносных запросов (AdvBench, MaliciousInstruct), метрика — Attack Success Rate (ASR, доля успешных обходов защиты). Лучшие методы: multi-turn (ASR 85-92%), nested scenarios (ASR 75-88%), decomposition (ASR 70-80%).

Защиты: Промпт-уровень (обнаружение и удаление jailbreak-паттернов), output-уровень (проверка ответа на вредоносность вторым LLM), model-уровень (дообучение на adversarial examples). Авторы отмечают что ни одна защита не универсальна — атакующие находят новые паттерны быстрее, чем их добавляют в фильтры.

🔗

Ресурсы

Jailbreaking LLMs & VLMs: Mechanisms, Evaluation, and Unified Defenses — Zejian Chen, Chaozhuo Li, Chao Li, Xi Zhang, Litian Zhang, Yiming Hei (Beijing University of Posts and Telecommunications, China Academy of Information and Communications Technology)


📋 Дайджест исследования

Ключевая суть

LLM обходит собственные защиты не потому что «хочет нарушить правила», а потому что следует паттернам последнего контекста сильнее, чем исходным инструкциям. Модель генерирует следующий токен на основе того, что видит сейчас — а не на основе «понимания» финальной цели диалога. Исследование систематизирует техники jailbreaking (обхода защит) и показывает, как эти же принципы применять для продуктивной работы: получать жёсткую критику вместо мягкой обратной связи, строить сложные многошаговые консультации, снимать стилистические ограничения. Две рабочие техники: (1) Вложенные сценарии — создаёшь контекст «ты персонаж X в ситуации Y», модель активирует нужный паттерн речи из обучающих данных. (2) Multi-turn context building — разбиваешь сложный запрос на серию простых шагов, каждый следующий опирается на предыдущий. К финальному вопросу контекст диалога содержит всё нужное, модель отвечает — хотя холодный запрос отклонила бы.

Принцип работы

Вложенные сценарии строятся как матрёшка: создаёшь внешний фрейм (конкретный персонаж с узнаваемым стилем), внутри — ситуацию где этот стиль естественен, внутри — твою задачу. Модель генерирует текст «внутри» вымышленного фрейма, где действуют правила этого мира, а не исходные ограничения на мягкость. Multi-turn работает как лестница: начинаешь с общего вопроса → уточняешь один аспект → добавляешь специфику твоей ситуации → в финале задаёшь точный вопрос. Каждый шаг легитимен, но постепенно контекст смещается. Модель сильнее реагирует на последние 2-3 сообщения, чем на системные инструкции — это и используется.

Почему работает

LLM обучены на статистических паттернах текста. Защитные механизмы ловят явные триггеры — запрещённые слова, опасные фразы. Но модель не «понимает» итоговую цель диалога. Она видит только текущий контекст и генерирует следующий токен на основе вероятностей. Прикол: при multi-turn модель оценивает каждый промпт изолированно. Шаг 1 безобиден — отвечает. Шаг 2 безобиден — отвечает. К шагу 5 история диалога содержит паттерн, который модель продолжает — даже если итоговый вопрос при холодном старте был бы отклонён. Вложенные сценарии работают потому что контекст вымышленной ситуации становится основным фреймом. «Ты Тиньков на закрытой встрече» → модель активирует паттерн прямой жёсткой речи из обучающих данных, где этот персонаж так и говорит.

Когда применять

Для получения нестандартного стиля ответа: жёсткая критика бизнес-идеи (вместо «у вас есть потенциал, но...»), технический разбор без воды, объяснение сложного простым языком конкретного персонажа. Для сложных многошаговых задач: налоговые консультации где нужен учёт специфики, разбор юридических кейсов, техническая диагностика с постепенным углублением. Модель обычно даёт общие советы «проконсультируйтесь со специалистом» — multi-turn строит персонализированный ответ через серию конкретизирующих вопросов. НЕ подходит: для обхода жёстких policy модели на запрещённые темы (насилие, fraud, вредоносный контент). Вложенные сценарии снимают стилистические ограничения, но не ломают чёрный список тем.

Мини-рецепт

Вложенный сценарий (для нестандартного стиля):

1. Выбери персонажа с узнаваемым стилем: Реальное лицо (Тиньков, Лебедев, Дудь) или архетип (хирург в операционной, тренер перед финалом). Модель копирует манеру речи из обучающих данных.

2. Создай ситуацию где стиль естественен: «На закрытой встрече», «в разборе полётов», «в техническом дебрифинге». Контекст легитимизирует резкость/прямоту.

3. Опиши задачу персонажа: «Даёшь жёсткую обратную связь без сахара», «разбираешь ошибки конкретно», «объясняешь в лоб». Модель понимает что от неё требуется.

4. Дай данные и задай вопрос: Конкретная ситуация для анализа + что именно хочешь получить.

Multi-turn context building (для сложных задач):

1. Шаг 1 — холодный старт: Общий вопрос по теме без специфики. «Какие различия между УСН и ОСН для ИП?»

2. Шаг 2-3 — конкретизация: Уточняющие вопросы, добавляющие параметры. «Если оборот 10 млн/год на УСН 6%, сколько налогов?» → «А на ОСН с таким же оборотом?»

3. Шаг 4-5 — добавь специфику ситуации: «При каких условиях ОСН выгоднее?» → «У меня 70% расходов от оборота, документы есть. Что выгоднее?»

4. Финальный шаг: Точный вопрос, опирающийся на весь контекст. Модель выдаёт персонализированный расчёт, используя данные из предыдущих ответов.

Примеры

[ПЛОХО] : «Дай жёсткую критику моей бизнес-идеи: доставка продуктов за 15 минут в спальных районах» (Модель выдаст: «Интересная идея, но учтите конкуренцию... Рекомендую проанализировать...» — мягкая вода)
[ХОРОШО] : «Ты — Олег Тиньков на закрытой встрече с предпринимателями. Твоя задача — дать жёсткую обратную связь без сахара, как ты делаешь обычно. Предприниматель питчит: доставка продуктов за 15 минут в спальных районах Екатеринбурга, тёмные сторы, курьеры на электроскутерах, наценка 30%, целевая аудитория — молодые семьи. Что скажешь? Говори прямо, с примерами почему не взлетит» (Модель выдаст резкую конкретную критику в стиле персонажа: почему экономика не сходится, сравнение с провалами конкурентов, слабые места модели)
Источник: Jailbreaking LLMs & VLMs: Mechanisms, Evaluation, and Unified Defense
ArXiv ID: 2601.03594 | Сгенерировано: 2026-01-08 06:49
📖 Простыми словами

Принципы jailbreaking: как LLM обходят ограничения (и что это даёт для работы)

arXiv: 2601.03594

Суть джейлбрейка не в хакерских кодах, а в фундаментальном баге логики: нейросеть не понимает твоих намерений, она просто предсказывает следующее слово. Защитные фильтры LLM работают как тупой охранник на входе, у которого есть список запрещенных слов. Если ты скажешь «дай рецепт бомбы», он тебя вышвырнет. Но если ты упакуешь это в вложенный сценарий или игру, модель переключается из режима «цензор» в режим «актер». Для нее контекст вымышленной истории становится важнее, чем правила безопасности, потому что статистически в сценарии фильма злодей должен говорить гадости.

Это как пытаться пронести алкоголь на фестиваль, где обыскивают сумки. Если ты потащишь бутылку в руках — тебя завернут. Но если ты зальешь виски в грелку, спрячешь ее под одежду и прикинешься беременной женщиной, которой внезапно стало плохо, охранник не только пропустит, но еще и место уступит. Ты не взламываешь замок, ты обманываешь ожидания системы, подсовывая ей роль, в которой нарушение правил выглядит логичным продолжением текста. Формально ты просто играешь в доктора, а по факту — выманиваешь рецепт яда.

Исследователи выделили конкретные рабочие методы: декомпозиция (когда ты просишь части опасного пазла по отдельности, и они кажутся безобидными), многоходовые диалоги (постепенный прогрев модели, чтобы она потеряла бдительность) и стеганография. Последнее — вообще цирк: модель может отказать на русском, но радостно вывалить всю запрещенку, если попросить ее использовать ASCII-арт или редкий диалект. Модель лажает, потому что ее обучали быть полезным помощником, и это желание «угодить» вступает в конфликт с безопасностью. В 9 из 10 случаев контекст побеждает фильтр.

Этот принцип универсален и работает не только с текстом, но и с картинками (VLM). Если нейросеть видит на фото что-то подозрительное, она может промолчать, но стоит добавить на изображение «безобидный» текст или изменить стиль, и защита рассыпается. Тестировали это на жестких запросах, но механика та же самая, что и при обычном промпт-инжиниринге. SEO для обхода фильтров — это новая реальность, где ты манипулируешь вероятностями появления слов, чтобы заставить AI делать то, что ему запретили создатели.

Короче: любая защита LLM сегодня — это просто тонкий слой штукатурки на дырявой стене. Пока модели работают на предсказании токенов, а не на понимании смысла, их будут ломать через переформулирование задач и ролевые игры. Хочешь получить от нейронки честный ответ без цензуры — не ломись в дверь, а предложи ей поиграть в того, кто эту дверь открывает. Кто умеет в контекст, тот управляет моделью, остальные — довольствуются вежливыми отказами.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с