arXiv:2512.19016 73 21 дек. 2025 г. FREE

Многошаговое планирование с памятью: инсайты из исследования безопасности агентов

КЛЮЧЕВАЯ СУТЬ

Обнаружено: LLM не видят связи между шагами, растянутыми во времени. Каждый шаг кажется простым, но вместе они дают комплексный результат — 70%+ успех у цепочек против провала одиночных запросов. Метод позволяет решать задачи требующие исследования + анализа + создания через разбиение на роли с общей памятью. Фишка: три роли с разными целями создают эффект домино. Scout (разведчик) собирает данные → Seeder (сеятель) создаёт условия из этих данных → Exploiter (исполнитель) использует накопленное для финального результата. Между ролями — граф знаний, который связывает информацию из разных контекстов. Модель не держит всю сложность в голове, а работает пошагово.

Адаптировать под запрос

⚡

TL;DR

DREAM — исследование показывающее как цепочки простых шагов с общей памятью обходят защиты LLM-агентов. Система строит последовательности из трёх типов действий: Scout (разведка — собирает информацию), Seeder (подготовка — создаёт условия), Exploiter (эксплуатация — достигает цели). Ключевая механика: Cross-Environment Adversarial Knowledge Graph (CE-AKG) — граф знаний, который связывает информацию между разными контекстами. Информация, собранная в одном окружении, используется для действий в другом.

Исследование выявило две критичные слабости современных агентов. Первая — контекстная хрупкость: защитные механизмы не переносятся между окружениями. Агент, который отказывается выполнять действие напрямую, выполнит его, если запрос придёт из другого контекста. Вторая — неспособность отслеживать долгосрочные намерения: агенты не видят связи между безобидными шагами, растянутыми во времени. Каждый шаг кажется безопасным, но вместе они дают опасный результат. Многошаговые атаки успешны в 70%+ случаев против большинства моделей, при том что изолированные атаки проваливаются.

Метод работает через эффект домино: каждый шаг создаёт условия для следующего. Scout собирает данные (например, ID клиента), Seeder создаёт нужный контекст (переключает окружение), Exploiter использует накопленную информацию для финального действия. Система адаптируется — если путь не работает, возвращается назад и пробует другой вариант. Используется библиотека из 1,986 атомарных действий в 349 окружениях, алгоритм выбирает оптимальную последовательность.

🔬

Схема метода

Исследование описывает архитектуру системы, не готовый промпт. Концептуальная структура:

РОЛИ (выполняются последовательно):
│
├─ Scout (Разведчик)
│  └─ Собирает информацию, снижает неопределённость
│     Результат → новые сущности в граф знаний
│
├─ Seeder (Сеятель)  
│  └─ Создаёт условия, манипулирует состоянием
│     Результат → изменённый контекст
│
└─ Exploiter (Эксплуататор)
   └─ Использует накопленные данные для цели
      Результат → финальное действие

СВЯЗУЮЩИЙ ЭЛЕМЕНТ:
CE-AKG (граф знаний) — память между шагами и контекстами
├─ Сохраняет сущности из каждого ответа
├─ Предоставляет контекст для следующих действий  
└─ Работает между разными окружениями (чатами/задачами)

АДАПТАЦИЯ:
При неудаче → откат назад → выбор альтернативного пути

📌

Ключевые инсайты для практики

📌

1. Эффект домино в многошаговых задачах

Находка: Одиночные запросы часто проваливаются, но последовательность из 3-5 связанных шагов резко повышает успех. Это нелинейная зависимость — не просто "больше шагов = лучше результат", а именно причинно-следственная цепочка, где каждый шаг создаёт условия для следующего.

Для практики: При сложной задаче не пытайся решить в один запрос. Разбей на этапы так, чтобы результат каждого становился входом для следующего. Модель лучше справляется с цепочкой простых шагов, чем с одним сложным.

📌

2. Контекстная хрупкость

Находка: Модели показывают разное поведение в зависимости от того, откуда пришёл запрос. Одна и та же задача получает отказ в одном контексте и выполняется в другом. Защитные механизмы не переносятся между окружениями.

Для практики: Если модель отказывается выполнить задачу или выдаёт слабый результат — переформулируй через смену контекста. Вместо прямого запроса создай другое окружение (роль, сценарий, формат), откуда тот же запрос будет выглядеть уместно.

📌

3. Граф знаний как память между запросами

Находка: CE-AKG связывает информацию из разных контекстов в единую структуру. Система помнит сущности (ID, имена, параметры) и использует их в следующих шагах, даже при смене окружения.

Для практики: При работе над проектом с множеством запросов явно формируй базу знаний. После каждого ответа модели извлекай ключевые данные (имена, числа, решения) и сохраняй в структурированном виде. При следующем запросе подавай эту базу как контекст. Модель связывает информацию между шагами, если ты ей это показываешь.

🏗️

4. Роли как структура мышления

Находка: Разделение на три роли (Scout-Seeder-Exploiter) даёт системе чёткую структуру действий. Каждая роль имеет свою цель и тип вывода.

Для практики: При сложной задаче явно разбей процесс на роли с разными целями: - Исследователь — собрать данные, найти информацию - Аналитик — обработать, выявить паттерны, создать условия

- Исполнитель — использовать результаты для финального вывода

Не смешивай роли в одном запросе. Модель лучше выполняет узкую роль, чем универсальную задачу.

🚀

Пример применения (переосмысление для продуктивной работы)

Задача: Готовишь питч про новый EdTech-продукт для инвестора (например, Игоря Рыбакова или фонда ФРИИ). Нужно учесть: портрет аудитории курса, конкурентный ландшафт, финансовую модель. Прямой запрос "сделай питч" даёт общее, без глубины.

Промпт (трёхшаговая цепочка с ролями):

ШАГ 1 — РОЛЬ: Исследователь рынка
Изучи EdTech-сегмент "курсы для профессионалов" в России 2024.
Собери: топ-5 конкурентов, их цены, целевая аудитория, что критикуют пользователи.
Выдай структурированный список: название, ЦА, цена, слабость.

[Получаешь ответ → сохраняешь данные]

ШАГ 2 — РОЛЬ: Аналитик-стратег
Вот данные о конкурентах: [данные из шага 1].
Наш продукт: [описание]. 
Найди "белое пятно" — что не закрывают конкуренты, какую боль они игнорируют.
Предложи 3 варианта позиционирования с обоснованием.

[Получаешь ответ → выбираешь лучший вариант]

ШАГ 3 — РОЛЬ: Питч-мастер
Вот наше позиционирование: [из шага 2].
Вот конкурентный ландшафт: [из шага 1].
Составь питч на 2 минуты для Игоря Рыбакова (любит конкретику, цифры, социальный импакт).
Структура: проблема → решение → почему мы → unit-экономика → ask.

Результат: Модель выдаст три отдельных блока: список конкурентов с конкретными слабостями, анализ с вариантами позиционирования (с обоснованием через данные первого шага), финальный питч который использует оба предыдущих результата. Каждый шаг будет конкретнее и глубже, потому что опирается на результат предыдущего. Питч учтёт реальный ландшафт (а не абстракции) и будет заточен под стиль инвестора.

🧠

Почему это работает

Слабость LLM: Модели плохо удерживают многоступенчатую логику в одном запросе. При попытке "сделай всё сразу" они генерируют общий ответ, не углубляясь в детали. Ещё одна проблема — модели обрабатывают каждый запрос изолированно, не связывая информацию между контекстами автоматически.

Сильная сторона LLM: Модели отлично выполняют конкретные роли с чёткой целью. Когда задача узкая ("ты исследователь, собери данные"), модель фокусируется и выдаёт детальный результат. Также модели хорошо используют предоставленный контекст — если в промпте есть данные из предыдущего шага, модель включает их в рассуждения.

Как метод использует это: Роли разбивают сложность на простые блоки, каждый со своей целью. Модель справляется с узкой задачей лучше, чем с универсальной. Явное связывание — ты подаёшь результат предыдущего шага в следующий запрос, создавая "граф знаний" вручную. Модель не догадывается сама, но если ты показываешь связь — она использует. Смена контекста между шагами обходит "контекстную хрупкость": если прямой запрос не работает, другая роль с другим углом зрения может дать результат.

Рычаги управления:

Количество шагов: Для простых задач достаточно двух (Research → Execute), для сложных — три-пять. Больше шагов = больше токенов, но глубже результат.
Роли: Можешь называть роли конкретно под домен: не "Scout", а "Маркетинговый аналитик" или "Эксперт по UX". Конкретная роль = более специфичное выполнение.
Формат передачи данных: Между шагами передавай структурированно (списки, таблицы, JSON), не текстом. Модель лучше работает с явной структурой.
Условие перехода: Можно добавить явную проверку перед следующим шагом: "Если данных недостаточно, запроси уточнение" вместо автоматического перехода.

📋

Шаблон промпта

=== МНОГОШАГОВАЯ ЦЕПОЧКА С РОЛЯМИ ===

ШАГ 1 — РОЛЬ: {роль_исследователя}
ЗАДАЧА: {что_собрать_или_найти}
ВЫВОД: {формат — список, таблица, структура}

[После получения ответа → сохрани ключевые данные]

---

ШАГ 2 — РОЛЬ: {роль_аналитика}
КОНТЕКСТ из шага 1: {данные_из_предыдущего_ответа}
ЗАДАЧА: {что_проанализировать_или_подготовить}
ВЫВОД: {формат — варианты, схема, выводы}

[После получения ответа → выбери лучший вариант]

---

ШАГ 3 — РОЛЬ: {роль_исполнителя}  
КОНТЕКСТ из шага 1: {данные_исследования}
КОНТЕКСТ из шага 2: {результаты_анализа}
ЗАДАЧА: {финальное_действие — создать, написать, решить}
ВЫВОД: {конечный_результат}

Подставь: - {роль_*} — конкретная роль под твою задачу (Маркетолог, Юрист, Копирайтер, Финансист) - {что_*} — действие для каждой роли - {данные_из_предыдущего_ответа} — копируй-вставляй релевантную часть ответа модели - {формат} — как должен выглядеть вывод (список, JSON, таблица, текст)

Важно: Каждый шаг — отдельный запрос. Ты получаешь ответ, копируешь нужные данные, вставляешь в следующий промпт. Это не автоматизация, это workflow.

⚠️

Ограничения

⚠️ Overhead на токены: Многошаговый подход расходует больше токенов, чем один запрос. Для простых задач это избыточно.

⚠️ Ручное связывание: Ты вручную копируешь данные между запросами. В ChatGPT нет автоматической памяти между сессиями, нужно явно передавать контекст.

⚠️ Не для всех задач: Метод работает для сложных, многоступенчатых задач (исследование → анализ → создание). Для простых вопросов ("Столица Франции?") это overkill.

⚠️ Требует планирования: Нужно заранее продумать, какие роли и в каком порядке. Метод не работает "на автопилоте".

⚠️ Зависимость от качества промежуточных шагов: Если Scout собрал плохие данные, Exploiter выдаст плохой результат. Цепочка усиливает как качество, так и ошибки.

🔍

Как исследовали

Команда создала автоматизированную систему атак и протестировала на 12 топовых LLM-агентах. Построили библиотеку из 1,986 атомарных атак в 349 разных окружениях (банкинг, e-commerce, корпоративные системы и т.д.). Каждая атака — структурированный объект с описанием, целевым окружением и требованиями к данным.

Система использовала алгоритм C-GPS (Contextualized Guided Policy Search), который динамически строил цепочки атак. На каждом шаге алгоритм: ① сужал пространство действий через семантический поиск, ② кластеризовал кандидатов, ③ выбирал оптимальное действие через value function (балансирует потенциал атаки + использование накопленной информации + стратегический прогресс), ④ выполнял и обновлял граф знаний. Если путь не работал — откатывался назад и пробовал другой вариант.

Результаты показали 70%+ success rate для многошаговых атак против большинства моделей, при том что одиночные атаки проваливались. Что удивило: длина цепочки работает нелинейно — от 1 до 3 шагов успех растёт медленно, но после 3-5 шагов резко взлетает. Это подтвердило гипотезу "эффекта домино": каждый шаг усиливает следующий не аддитивно, а мультипликативно.

Второе открытие — смена окружения критична. Атаки, которые начинались в одном окружении (например, корпоративный чат) и продолжались в другом (финансовая система), были на 40% успешнее mono-environment атак. Это выявило "контекстную хрупкость": защитные механизмы обучались на изолированных сценариях и не переносились между доменами.

Третий инсайт — статические защиты бесполезны против растянутых атак. Модели с defense prompts ("Always refuse harmful requests") легко обходились через разбиение на безобидные шаги. Каждый шаг проходил проверку безопасности, но вместе они давали опасный результат. Модели не отслеживают long-term intent.

🔬

Связь с другими методами

Исследование показывает механику, похожую на Chain-of-Thought, но с ключевыми отличиями: CoT разворачивает рассуждения внутри одного запроса, а здесь каждый шаг — отдельный запрос с сохранением состояния между ними. Это ближе к ReAct (Reason + Act), где модель чередует рассуждения и действия, но DREAM добавляет явную память (граф знаний) и роли с разными целями.

Принцип графа знаний пересекается с техниками RAG (Retrieval-Augmented Generation), где модель использует внешнюю базу знаний. Разница: в RAG база статична и внешняя, здесь граф динамически строится из ответов модели и используется в следующих запросах.

Разделение на роли (Scout-Seeder-Exploiter) можно переосмыслить как Multi-Agent Debate, где разные агенты с разными целями последовательно обрабатывают задачу. Но вместо дебатов — pipeline: вывод одного становится входом другого.

🔗

Ресурсы

DREAM: Dynamic Red-teaming across Environments for AI Models

Liming Lu, Xiang Gu, Junyu Huang, Jiawei Du, Yunhuai Liu, Yongbin Zhou, Shuchao Pang

_Nanjing University of Science and Technology, Agency for Science, Technology and Research, Peking University_

📋 Дайджест исследования

Ключевая суть

Принцип работы

Процесс идёт как сборочная линия — каждый этап выполняет свою функцию. Этап 1 (Разведка): узкая роль с целью «собрать конкретные данные». Модель фокусируется на исследовании, не распыляется на анализ. Результат — структурированный вывод (список, таблица, факты). Этап 2 (Подготовка): получает данные из этапа 1 как контекст. Роль «аналитик» — обработать, найти паттерны, создать условия. Результат — варианты решений или стратегия. Этап 3 (Исполнение): получает результаты обоих предыдущих этапов. Роль «создатель» — использовать накопленное для финального вывода. Ключевой принцип: явная передача данных между шагами. Ты вручную копируешь релевантную часть ответа и вставляешь в следующий промпт. Это создаёт «граф знаний» — модель видит связь между контекстами.

Почему работает

Слабость LLM в одиночных запросах: модели плохо удерживают многоступенчатую логику. При «сделай всё сразу» генерируют поверхностный ответ без углубления. Ещё проблема — контекстная хрупкость: модели обрабатывают каждый запрос изолированно, не связывая информацию автоматически. Но модели отлично выполняют узкие роли с чёткой целью. Когда задача конкретная («ты исследователь, собери данные»), модель фокусируется и выдаёт детальный результат. Инсайт: модели не связывают информацию между контекстами сами, но если ты показываешь связь через явную передачу данных — они используют это. Цифры из исследования: многошаговые цепочки успешны в 70%+ случаев там где изолированные запросы проваливаются. Оптимальная длина — 3-5 шагов.

Когда применять

Сложные задачи требующие последовательности: исследование → анализ → создание. Конкретно для подготовки питчей, стратегий, аналитических материалов, особенно когда нужно учесть множество факторов (конкуренты, аудитория, тренды, финансы). Также для задач где прямой запрос даёт отказ или поверхностный ответ — смена контекста через роли обходит эту проблему. НЕ подходит для простых вопросов (факты, определения) или когда нужен быстрый ответ без глубины.

Мини-рецепт

1. Определи роли под задачу: Не Scout/Seeder/Exploiter (это из безопасности), а конкретно под твой домен: Исследователь рынка → Аналитик-стратег → Создатель контента. Или: Сборщик требований → Архитектор решения → Разработчик спецификации.

2. Первый шаг - сбор данных: Задай роль исследователя:

Ты {роль}. Собери {что конкретно}. Выдай в формате {список/таблица/структура}.

Получи ответ, извлеки ключевые данные.

3. Второй шаг - анализ с контекстом: Задай роль аналитика:

Ты {роль}. Вот данные: {скопируй из шага 1}. Проанализируй {что} и предложи {варианты/стратегию}.

Получи ответ, выбери лучший вариант.

4. Третий шаг - создание с полным контекстом: Задай роль исполнителя:

Ты {роль}. Контекст из исследования: {данные шага 1}. Контекст из анализа: {данные шага 2}. Создай {финальный результат}.

5. Структурируй передачу данных: Между шагами передавай не весь текст ответа, а только релевантное — в виде списков, таблиц, ключевых фактов. Модель лучше работает с явной структурой.

Примеры

[ПЛОХО] :

Напиши питч для EdTech-стартапа про курсы для профессионалов. Учти конкурентов, аудиторию, финансы.

Результат: общий текст без конкретики, потому что модель пытается учесть всё сразу и не углубляется.

[ХОРОШО] : Трёхшаговая цепочка с явной передачей данных: Шаг 1:

Ты исследователь EdTech-рынка. Изучи сегмент "курсы для профессионалов" в России 2024. Собери топ-5 конкурентов. Для каждого выдай: название | целевая аудитория | цена | главная слабость (что критикуют пользователи). Формат: таблица.

[Получаешь таблицу конкурентов → копируешь] Шаг 2:

Ты аналитик-стратег. Вот конкуренты: [вставляешь таблицу из шага 1]. Наш продукт: [описание]. Найди "белое пятно" — боль которую не закрывают конкуренты. Предложи 3 варианта позиционирования с обоснованием через данные о конкурентах.

[Получаешь 3 варианта → выбираешь лучший] Шаг 3:

Ты питч-мастер. Вот наше позиционирование: [вставляешь выбранный вариант из шага 2]. Вот конкурентный ландшафт: [краткая выжимка из шага 1]. Составь питч на 2 минуты для Игоря Рыбакова (стиль: конкретика, цифры, социальный импакт). Структура: проблема → решение → почему мы → unit-экономика → ask.

Результат: питч учитывает реальный ландшафт (не абстракции), заточен под стиль инвестора, содержит обоснование через данные первых двух шагов.

Источник: DREAM: Dynamic Red-teaming across Environments for AI Models

ArXiv ID: 2512.19016 | Сгенерировано: 2026-01-08 23:55

Методы

Метод	Суть
Многошаговое планирование с ролями — цепочка простых задач вместо одной сложной	Разбивай задачу на 3 роли с явной передачей данных между шагами: Scout (сбор информации) → Seeder (подготовка, анализ) → Exploiter (финальное действие с использованием накопленных данных). Каждый шаг = отдельный запрос. Результат предыдущего копируешь в промпт следующего. Механика: модели лучше выполняют узкую роль с чёткой целью, чем универсальную задачу; явное связывание данных работает лучше чем неявное. Для: сложные многоступенчатые задачи (исследование → анализ → создание). НЕ для: простые вопросы (overhead на токены), автоматизация (требует ручной передачи данных)

Метод

Суть

Многошаговое планирование с ролями — цепочка простых задач вместо одной сложной

Разбивай задачу на 3 роли с явной передачей данных между шагами: Scout (сбор информации) → Seeder (подготовка, анализ) → Exploiter (финальное действие с использованием накопленных данных). Каждый шаг = отдельный запрос. Результат предыдущего копируешь в промпт следующего. Механика: модели лучше выполняют узкую роль с чёткой целью, чем универсальную задачу; явное связывание данных работает лучше чем неявное. Для: сложные многоступенчатые задачи (исследование → анализ → создание). НЕ для: простые вопросы (overhead на токены), автоматизация (требует ручной передачи данных)

Тезисы

Тезис	Комментарий
Смена контекста или роли помогает получить результат, если прямой запрос не работает	Red-teaming показал: одинаковый запрос получает отказ в одном контексте и выполняется в другом. Модель реагирует на то, откуда пришёл запрос (роль, сценарий, формат). Применяй: если модель отказывается выполнить задачу или даёт слабый результат — переформулируй через другую роль или окружение, где тот же запрос выглядит уместно

Тезис

Комментарий

Смена контекста или роли помогает получить результат, если прямой запрос не работает

Red-teaming показал: одинаковый запрос получает отказ в одном контексте и выполняется в другом. Модель реагирует на то, откуда пришёл запрос (роль, сценарий, формат). Применяй: если модель отказывается выполнить задачу или даёт слабый результат — переформулируй через другую роль или окружение, где тот же запрос выглядит уместно

📖 Простыми словами

Многошаговое планирование с памятью: инсайты из исследования безопасности агентов

arXiv: 2512.19016

LLM-агенты сегодня — это не просто чат-боты, а системы с доступом к инструментам, файлам и интернету. Исследование DREAM доказывает, что их защита рассыпается, когда атака идет не в лоб, а через цепочку косвенных действий с общей памятью. Суть в том, что нейронки научились распознавать прямую агрессию, но они абсолютно слепы к последовательности безобидных шагов, которые в сумме дают катастрофический результат. Ключевой механизм здесь — CE-AKG, специальный граф знаний, который позволяет модели «помнить» детали из разных контекстов и связывать их в единый план атаки.

Это похоже на ограбление банка, где преступник не врывается с пушкой через парадный вход, а действует как в фильмах про Оушена. Сначала он заходит как клиент, чтобы узнать график охраны (Scout), затем оставляет открытым окно в туалете (Seeder) и только через неделю возвращается, чтобы забрать деньги (Exploiter). По отдельности каждое действие не вызывает подозрений у системы безопасности, но общая память позволяет сложить их в идеальное преступление. Пока агент думает, что просто «помогает с разведкой», он уже вовсю готовит почву для собственного взлома.

Авторы выделили три четких этапа, которые делают взлом неизбежным. Scout — это тихий сбор инфы: агент лазает по окружению и ищет зацепки. Seeder — самый коварный этап: модель создает условия, например, меняет настройки или загружает вредоносный файл, который «выстрелит» позже. И только в конце включается Exploiter, который использует подготовленную почву для финального удара. Главная фишка в том, что информация, добытая в одном месте (например, в почте), используется для атаки в другом (например, в облачном хранилище), и агент даже не понимает, что его используют втемную.

Хотя DREAM тестировали на виртуальных средах, этот принцип — динамический ред-тиминг — применим к любой сложной системе, где AI имеет полномочия. Это касается корпоративных ассистентов, систем управления умным домом или автономных кодеров. Проблема в том, что современные методы защиты проверяют каждый запрос по отдельности, а DREAM работает на длинной дистанции. Это доказывает, что старая добрая модерация контента больше не вывозит: если у агента есть доступ к инструментам, его можно заставить совершить зло, просто разбив задачу на мелкие «безобидные» части.

Короче: защищать LLM от плохих слов — это вчерашний день, потому что многоступенчатая логика обходит любые фильтры. Исследование показывает, что главная уязвимость агентов — это их неспособность видеть общую картину своих действий в динамике. Пока мы не научим защитные системы анализировать цепочки намерений, а не отдельные промпты, любой сложный AI-агент будет оставаться потенциальной дырой в безопасности. DREAM — это наглядный пример того, как «умный» помощник превращается в идеального соучастника, если его правильно попросить по частям.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

Выберите модель ИИ:

Ваш запрос:

0 / 2000

~0.5-2 N-токенов ~10-30с

~0.3-1 N-токенов ~5-15с

Меню

Многошаговое планирование с памятью: инсайты из исследования безопасности агентов

TL;DR

Схема метода

Ключевые инсайты для практики

1. Эффект домино в многошаговых задачах

2. Контекстная хрупкость

3. Граф знаний как память между запросами

4. Роли как структура мышления

Пример применения (переосмысление для продуктивной работы)

Почему это работает

Шаблон промпта

Ограничения

Как исследовали

Связь с другими методами

Ресурсы

Ключевая суть

Принцип работы

Почему работает

Когда применять

Мини-рецепт

Примеры

Методы

Тезисы

Многошаговое планирование с памятью: инсайты из исследования безопасности агентов

Работа с исследованием

Результат адаптации