TL;DR
Постепенная эскалация — паттерн многоходового диалога, при котором сначала строится легитимный «невинный» контекст через несколько обычных запросов, а затем вводится рискованный или сложный запрос. Модель оценивает каждый запрос не изолированно, а в свете всего предшествующего диалога, и воспринимает поздний запрос как продолжение уже установленной «нормальной» работы.
Главная находка: модели проваливаются почти в половине случаев (44% в среднем), когда рискованный запрос приходит на фоне накопленного «добросовестного» контекста. Это происходит потому, что модель не держит в голове «жёсткий счётчик безопасности» — она оценивает ситуацию динамически, и предыдущие безопасные ходы снижают её настороженность. Прямой запрос «сделай X» с нуля вызывает отказ. Тот же запрос после 5–10 невинных шагов — значительно чаще выполняется.
Механика: несколько ранних ходов устанавливают нормальный рабочий режим (читаем файлы, редактируем документы, задаём уточнения). Потом вводится целевой запрос — он воспринимается как следующий логичный шаг в уже начатой работе, а не как отдельная попытка нарушить ограничения.
Схема метода (Boiling the Frog pattern)
ШАГ 1: Обычный запрос в домене → устанавливаем легитимный контекст
ШАГ 2: Ещё 2-5 обычных ходов → «нормализуем» рабочий режим
ШАГ 3: Промежуточный запрос, чуть ближе к цели → плавный переход
ШАГ N: Целевой запрос → модель видит его как продолжение работы, не как новый сигнал тревоги
Все шаги — в одном диалоге, без перерыва на новые сессии.
Важно: Исследование описывает это как уязвимость, но тот же паттерн — продуктивная техника промптинга. Понимание механики помогает обоснованно строить диалог, а не полагаться на удачу.
Пример применения
Задача: Нужно получить честный жёсткий разбор бизнес-идеи — с реальной критикой, а не вежливой «сэндвич»-обратной связью в стиле «всё хорошо, но можно улучшить». Прямой запрос «разругай мою идею» часто даёт размытый ответ.
Промпт (серия сообщений):
Сообщение 1:
Я анализирую рынок онлайн-школ в России. Помоги разобрать,
как обычно устроена юнит-экономика в этой нише —
CAC, LTV, средний чек, маржа.
--- (после ответа) ---
Сообщение 2:
Хорошо. Теперь давай посмотрим на конкретные провалы —
что именно убивало онлайн-школы в 2022-2024?
Не общие слова, а конкретные механизмы.
--- (после ответа) ---
Сообщение 3:
Вот моя идея: [описание]. Ты сейчас в режиме жёсткого инвестора
с 15-летним опытом. Не утешай. Найди каждую дыру
в логике, каждое слабое место. Что здесь гарантированно не сработает?
Результат: К третьему сообщению модель уже работает в аналитическом режиме, а не в «поддерживающем ассистентском». Ответ будет структурированным и конкретным: разбор по пунктам, указание на слабые звенья с объяснением почему, без смягчений. Контекст «мы разбираем провалы рынка» делает жёсткую критику органичной, а не аномальной.
Почему это работает
Слабость LLM: Модель не обрабатывает каждый запрос независимо. Она всегда читает весь диалог целиком и формирует ответ в контексте того, что уже было. Нет отдельного «модуля безопасности», который оценивает каждое сообщение с нуля.
Сильная сторона LLM: Модель очень хорошо понимает нарративный контекст — она «вживается» в ситуацию, видит роли, домен, цели диалога. Это позволяет ей давать контекстно-точные ответы.
Как паттерн использует это: Ранние ходы строят нарратив легитимной работы. Когда приходит сложный запрос — он оценивается как часть этого нарратива, а не как изолированная попытка «получить запрещённое». Модель симулирует: «мы уже в середине аналитической работы, следующий шаг логичен».
Рычаги управления: - Количество разогревочных ходов → больше ходов = глубже нормализация контекста; для простых задач хватает 2-3 - Точность домена → чем ближе ранние запросы к теме финального, тем органичнее переход - Явная роль в последнем запросе («ты сейчас — жёсткий ревьюер») → усиливает переключение режима - Новый чат = сброс → если хочешь свежую, незамутнённую оценку — открывай новую сессию, не продолжай старую
Шаблон промпта
Сообщение 1 — контекст домена:
Я работаю с {областью}. Объясни, как устроено {базовый принцип / рынок / механика}
в этой теме. Конкретно, без лишних слов.
Сообщение 2 — углубление:
Хорошо. Теперь посмотрим на {смежный аспект / типичные провалы / граничные случаи}.
Что здесь обычно идёт не так?
Сообщение 3 — целевой запрос:
Вот {моя задача / текст / идея / ситуация}: [описание].
Действуй как {роль с нужным режимом работы}.
{Конкретная инструкция без смягчений}.
Что подставлять:
- {областью} — твоя предметная область: маркетинг, найм, финансы стартапа
- {базовый принцип} — общий вопрос, не про твою конкретную задачу
- {смежный аспект} — то, что готовит почву: провалы, крайние случаи, критерии
- {роль} — жёсткий инвестор, скептичный редактор, враждебный конкурент
- {Конкретная инструкция} — «найди каждую дыру», «не утешай», «скажи что не так»
🚀 Быстрый старт — вставь в чат:
Вот шаблон техники «постепенная эскалация контекста».
Адаптируй под мою задачу: [твоя задача].
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит про область, цель финального запроса и нужный «режим» модели — потому что без этого она не сможет выстроить правильную цепочку разогрева.
Ограничения
⚠️ Сброс при новом чате: Паттерн работает только внутри одной сессии. Новый диалог — контекст обнуляется.
⚠️ Не для прямых обходов: Техника работает для «смягчения режима» и «настройки тона», а не для получения реально запрещённого контента. Модели с жёсткими ограничениями (Claude Haiku 4.5 в исследовании — самая устойчивая) реже поддаются даже при глубоком контексте.
⚠️ Агентные системы — другой уровень риска: Если используешь AI с инструментами (выполнение кода, работа с файлами, браузер) — паттерн работает несравненно сильнее. Почти у всех моделей успешность «эскалации» вырастает в разы. Будь осторожен с тем, что разрешаешь агенту делать.
⚠️ Разброс между моделями огромный: В исследовании разброс — от 20% до 93% уязвимости. Одна и та же техника даёт очень разный эффект в зависимости от модели.
Ресурсы
Название: Boiling the Frog: A Multi-Turn Benchmark for Agentic Safety (May 2025)
Авторы: P. Bisconti, M. Prandi, F. Pierucci, F. Sartore, E. Panai, L. Caroli, Y. Zhu, A. L. Smith, L. Nannini, M. Galisai, S. Cifani, F. Giarrusso, M. Bracale Syrnikov, D. Nardi
Организации: Icaro Foundation, Sapienza University of Rome, Sant'Anna School of Advanced Studies, Tongji University School of Law, AIQI Consortium, BeEthical.be, Università Cattolica del Sacro Cuore, Piccadilly Labs, VU Amsterdam
