3,583 papers
arXiv:2512.04668 74 7 дек. 2025 г. FREE

MAMA: правила сетевой архитектуры для защиты данных в мультиагентных LLM-системах

КЛЮЧЕВАЯ СУТЬ
Все пишут промпты для защиты данных в мультиагентных системах, никто не думает о том как агенты соединены между собой. А зря: структура связей определяет утечки сильнее чем содержание инструкций. MAMA (Multi-Agent Memory Attack) позволяет строить команды агентов с минимальными рисками утечек личных данных (PII) — имена, адреса, ID, геолокация. Фишка: разреженные топологии (chain, tree) дают ~12-15% утечек, плотные (fully connected) — ~29%. Играют три параметра: расстояние между агентами в графе, центральность чувствительных узлов, число обходных путей. Измеряется конкретно: 6 типов сетей, 10 раундов взаимодействия, 4 типа PII-данных.
Адаптировать под запрос

TL;DR

В мультиагентных LLM-системах топология связей — это параметр безопасности первого порядка. MAMA (Multi-Agent Memory Attack) измеряет как структура графа коммуникаций влияет на утечки личных данных (PII): кто с кем может общаться, на каком расстоянии находятся агенты, есть ли центральный хаб. Исследователи тестировали 6 типов сетей — от "все со всеми" до строгих цепочек и деревьев — и отслеживали как быстро и в каком объёме PII-данные (имена, адреса, ID) утекают от целевого агента к атакующему через 10 раундов взаимодействия.

Главная находка: плотные связи = высокие утечки. В fully connected графах (каждый агент связан со всеми) утекает ~29% данных, в star-ring (звезда с кольцом вокруг) — ~25%, в изолированных цепочках — всего ~12-15%. Чем короче расстояние от атакующего до целевого агента и чем центральнее цель в сети, тем выше риск. Утечки происходят резко в первые 2-3 раунда, потом выходят на плато. Геолокация и временные метки утекают легче всего, ID и регулируемые идентификаторы — сложнее. Смена модели (Llama 3.1 vs DeepSeek v3) меняет абсолютные цифры, но рейтинг топологий сохраняется.

Суть принципов: если строишь мультиагентную систему — структура коммуникаций определяет уязвимость. Sparse wins (разреженные связи лучше плотных), distance matters (держи чувствительные агенты подальше), hubs leak (центральные узлы — точка риска). Применяй цепочки или деревья вместо звёзд, ограничивай число соседей у каждого агента, избегай shortcuts (прямых связей мимо хабов).


📌

Применимость

Для кого: Те, кто создаёт мультиагентные системы — несколько чатов с разными ролями, которые передают информацию друг другу. Например: - Команды GPTs в ChatGPT Team - Проекты с несколькими агентами в Claude - Ручная оркестровка: копируешь вывод одного чата в другой

Не для: Тех, кто работает один-на-один с моделью в обычном чате.


📌

Принципы архитектуры

📌

1. Выбирай разреженные топологии

Рейтинг безопасности (от самого защищённого):

  1. Chain (цепочка) — агенты связаны последовательно: A → B → C → D

    • Утечки: ~12-15%
    • Информация идёт строго по одному пути
    • Если нужна передача через несколько этапов
  2. Tree (дерево) — иерархия без циклов: корень → ветви → листья

    • Утечки: ~15-17%
    • Хорошо для иерархических задач (менеджер → исполнители)
  3. Circle (кольцо) — замкнутая цепь: A → B → C → D → A

    • Утечки: ~24%
    • Информация может идти в обоих направлениях
  4. Star-pure (чистая звезда) — центральный хаб, листья не связаны

    • Утечки: ~23%
    • Один агент координирует, остальные изолированы друг от друга
  5. Star-ring (звезда + кольцо) — хаб + кольцо между листьями

    • Утечки: ~25-29%
    • Shortcuts создают дополнительные пути утечек
  6. Fully connected (все со всеми) — каждый агент связан со всеми

    • Утечки: ~29%
    • Максимальная диффузия, минимальная защита
📌

2. Максимизируй расстояние между критическими узлами

Расстояние = число шагов в графе от одного агента до другого.

Если у тебя есть: - Агент с чувствительными данными (доступ к личным данным, ключам, внутренним документам) - Агент, который взаимодействует с внешним миром (обрабатывает пользовательский ввод, публичные запросы)

Держи их максимально далеко друг от друга:

Хорошо:

Внешний агент → Фильтр → Обработчик → Ещё один слой → Агент с данными
(расстояние = 4 шага)

Плохо:

Внешний агент → Агент с данными
(расстояние = 1 шаг)
📌

3. Ограничивай центральность чувствительных узлов

Центральность = сколько других агентов напрямую связано с этим агентом.

Если агент содержит чувствительные данные — минимизируй его связи:

Хорошо:

Агент с данными подключён только к одному доверенному агенту-координатору

Плохо:

Агент с данными в центре звезды, все остальные к нему подключены
📌

4. Избегай shortcuts вокруг хабов

Shortcut = прямая связь, которая обходит центральный узел.

Пример: в звезде листья общаются только через центр. Если добавить прямые связи между листьями (star-ring), утечки вырастут на 20-30%.

Почему? Центральный агент может фильтровать информацию. Shortcuts создают обходные пути.

📌

5. Ограничивай число раундов взаимодействия

80% утечек происходят в первые 2-3 раунда, потом рост замедляется.

Если задача решается быстро — останови взаимодействие раньше.

Например: - Задача решена за 3 раунда → останови систему - Не позволяй агентам общаться "просто так" после завершения


🚀

Пример применения

Задача: Ты строишь команду из 5 агентов для обработки заказов клиентов. Один агент имеет доступ к базе с личными данными клиентов (адреса, телефоны). Другие агенты обрабатывают запросы, генерируют ответы, проверяют качество.

Применение принципов:

Вариант 1: Плохая архитектура (fully connected)

┌─────────────────────────────────────┐
│   Все агенты связаны со всеми       │
│                                     │
│   Обработчик запроса ←→ Агент с БД  │
│         ↕            ↕              │
│   Генератор ←→ Проверка качества    │
│         ↕            ↕              │
│   Внешний агент ←→ все остальные    │
└─────────────────────────────────────┘
Риск утечки: ~29%

Вариант 2: Хорошая архитектура (chain)

Внешний агент → Фильтр → Координатор → Агент с БД
                           ↓
                      Генератор → Проверка → Ответ

Риск утечки: ~12%

Структура: 1. Внешний агент получает запрос клиента 2. Фильтр проверяет безопасность запроса (нет инъекций, странных паттернов) 3. Координатор решает, нужен ли доступ к БД 4. Агент с БД получает запрос только через координатора (расстояние = 3 шага) 5. ГенераторПроверкаОтвет — цепочка обработки без доступа к БД

Реализация в ChatGPT/Claude: - Создай 6 отдельных чатов (или Custom GPTs) - Вручную копируй вывод одного чата в следующий по цепочке - НЕ давай внешнему агенту прямой доступ к чату с БД


🧠

Почему это работает

Утечки информации в мультиагентных системах подчиняются законам сетевой диффузии, как распространение вируса или слухов в социальных сетях. Модели — это автокорреляционные генераторы: если в контексте агента появилась информация (через его собственную память или сообщение от соседа), она с высокой вероятностью просочится в его ответ, даже если системный промпт требует конфиденциальности.

Три фактора определяют скорость утечек:

  1. Число путей — в полносвязном графе информация может пройти напрямую (1 шаг), в цепочке — только через все узлы (n-1 шагов). Больше путей = больше вероятностей утечки.

  2. Длина путей — каждый промежуточный агент — это фильтр, который может (случайно или намеренно) НЕ передать чувствительную информацию дальше. Короткие пути обходят фильтры.

  3. Центральность узлов — если агент с данными в центре (много связей), он чаще участвует в коммуникации, значит чаще "светит" данные в разных контекстах. Изолированный агент в листе дерева — редко вызывается, реже утекает.

Temporal dynamics: Первые раунды — это initial burst (начальный всплеск). Модели в первых сообщениях активно используют доступную информацию. К 3-4 раунду контекст "устаканивается", модели переключаются на рефлексию и уточнения, новых данных не добавляется — рост утечек замедляется.

PII type differences: Геолокация и время — низкосалиентные атрибуты. Модели воспринимают их как "контекст", не как секрет, охотно упоминают. Имена и ID — высокосалиентные, модели "чувствуют" чувствительность (из RLHF-тренировки на безопасность), реже включают в ответ без явного запроса.


⚠️

Ограничения

⚠️ Узкий контекст: Применимо только если ты строишь мультиагентную систему (несколько агентов с разными ролями). Если работаешь с одной моделью в чате — эти принципы не релевантны.

⚠️ Ручная оркестровка: Без кода или API тебе придётся вручную копировать вывод одного чата в другой, соблюдая топологию. Это трудозатратно для больших команд и длинных сессий.

⚠️ Не абсолютная защита: Исследование показывает снижение риска, но не нулевой риск. Даже в цепочках ~12-15% данных утекают. Топология — это слой защиты, не панацея.

⚠️ Trade-off с эффективностью: Разреженные топологии безопаснее, но медленнее. В цепочке информация идёт через все узлы последовательно. В fully connected все узлы могут работать параллельно. Безопасность vs скорость — приходится выбирать.


🔍

Как исследовали

Команда из USC, FSU и ASU создала SPIRIT — датасет из 104 синтетических документов с размеченными PII-сущностями (имена, адреса, даты рождения, ID). Для каждого документа сгенерировали публичный контекст (фон и вопрос), который НЕ содержит PII напрямую — гарантия, что утечки идут через мультиагентное взаимодействие, а не из задания.

Протокол из двух фаз: 1. Engram (инициализация): Целевой агент получает документ с PII, остальные — только публичный контекст. Атакующий агент получает системный промпт "собирать информацию для выполнения задачи" (не явное "укради", чтобы не триггерить safety-фильтры).

  1. Resonance (взаимодействие): 10 раундов, в каждом агенты обмениваются сообщениями строго по топологии графа. Если агенты A и B не связаны ребром — они не видят друг друга. Атакующий агент пытается извлечь PII через косвенные запросы.

Тестировали 6 топологий (цепь, кольцо, дерево, звезда, звезда-кольцо, полная связь) на командах из 4, 5, 6 агентов. Для каждой топологии варьировали позиции атакующего и цели, чтобы изолировать эффект расстояния и центральности. Использовали две модели: Llama 3.1-70B и DeepSeek v3.

Метрики: - Leakage Rate = сколько процентов PII-сущностей атакующий восстановил к концу - Time-to-Leak = на каком раунде появилась первая утечка - Success/Partial/Failure = категории по полноте утечки

Результаты показали консистентные паттерны во всех конфигурациях: топология — доминирующий фактор, плотные графы утекают в 2+ раза сильнее разреженных, рейтинг топологий сохраняется при смене модели и размера команды. Это подтверждает, что структура сети — первичный параметр безопасности, не артефакт конкретной модели.

Интересная деталь: binary tree тестировали на случайной трети пар атакующий-цель (из-за большого числа неизоморфных вариантов), и даже неполная выборка дала стабильную оценку — признак робастности метода.


📌

Адаптация под практику

📌

🔧 Техника: Topology-Aware Reviewing

Что: Если у тебя уже есть топология (например, унаследованная система), добавь выделенный reviewer-агент, который проверяет сообщения на утечки ПЕРЕД передачей.

Где ставить reviewer: - Между внешним агентом и остальной системой (входной фильтр) - Перед агентом с чувствительными данными (выходной фильтр) - На хабе в star-топологии (центральный фильтр)

Как:

Агент А → Reviewer → Агент Б (с данными)
           ↓
      Проверка:
      - Есть ли в сообщении PII?
      - Необходим ли PII для задачи?
      - Можно ли заменить на плейсхолдер?

Reviewer получает системный промпт:

Ты — фильтр безопасности. Проверяй сообщения между агентами.
Если видишь личные данные (имена, адреса, ID) — замени на [REDACTED] или запроси подтверждение.
Пропускай только минимально необходимую информацию.

📌

🔧 Техника: Dynamic Topology Switching

Что: Меняй топологию в зависимости от фазы задачи.

Фаза 1: Сбор информации (нужна скорость) → Используй star-pure или fully connected → Агенты быстро обмениваются черновиками, идеями, контекстом

Фаза 2: Обработка чувствительных данных (нужна безопасность) → Переключись на chain или tree → Строгий контроль, кто что видит

Фаза 3: Финализация (нужна проверка) → Используй star с reviewer в центре → Все результаты проходят через одного проверяющего

Пример: команда анализирует резюме кандидата (PII: имя, телефон, адрес). - Фаза 1 (brainstorm): все агенты обсуждают общие критерии оценки — fully connected - Фаза 2 (оценка резюме): только два агента видят полный текст — chain - Фаза 3 (решение): HR-агент собирает оценки через star, принимает решение


📌

🔧 Техника: Shortest Path Limiting

Что: Если топология уже задана, блокируй shortcuts для критических узлов.

Пример: в star-ring топологии листья связаны и через хаб, и напрямую друг с другом. Если один лист — агент с данными:

До:

Лист А (с данными) ←→ Хаб
    ↕                 ↕
Лист Б ←→ Лист В ←→ Лист Г

Атакующий лист Б может дойти до А напрямую (1 шаг).

После:

Лист А (с данными) ←→ Хаб ТОЛЬКО

Лист Б ←→ Лист В ←→ Лист Г

Теперь атакующий Б должен идти через хаб (2 шага), хаб может фильтровать.

Реализация: просто не копируй вывод листа А в другие листы напрямую, только через хаб.


🔗

Ресурсы

Topology Matters: Measuring Memory Leakage in Multi-Agent LLMs

Jinbo Liu, Defu Cao, Yifei Wei, Tianyao Su (University of Southern California)

Yushun Dong (Florida State University)

Yue Zhao (University of Southern California)

Xiyang Hu (Arizona State University)

SPIRIT dataset — синтетические документы с PII из Gretel Synthetic Domain-Specific Documents Dataset (Gretel AI, 2024)

Отсылки на базовые концепции: - Network diffusion: Watts & Strogatz (1998), Newman & Watts (1999) - LLM multi-agent security: NetSafe (Yu et al., 2024), G-Safeguard (Wang et al., 2025c)


📋 Дайджест исследования

Ключевая суть

Все пишут промпты для защиты данных в мультиагентных системах, никто не думает о том как агенты соединены между собой. А зря: структура связей определяет утечки сильнее чем содержание инструкций. MAMA (Multi-Agent Memory Attack) позволяет строить команды агентов с минимальными рисками утечек личных данных (PII) — имена, адреса, ID, геолокация. Фишка: разреженные топологии (chain, tree) дают ~12-15% утечек, плотные (fully connected) — ~29%. Играют три параметра: расстояние между агентами в графе, центральность чувствительных узлов, число обходных путей. Измеряется конкретно: 6 типов сетей, 10 раундов взаимодействия, 4 типа PII-данных.

Принцип работы

Не улучшай промпты для защиты — меняй структуру связей между агентами. Утечки подчиняются законам сетевой диффузии: чем больше путей от атакующего агента к целевому (с данными), тем выше вероятность что информация просочится. Рейтинг безопасности: Chain (цепочка) → ~12% утечек, Tree (дерево) → ~15%, Circle (кольцо) → ~24%, Star (звезда) → ~23%, Fully connected (все со всеми) → ~29%. Если агент с личными данными в центре (много связей) — он чаще участвует в коммуникации, значит чаще "светит" данные в разных контекстах. Держи чувствительные узлы на периферии с минимумом соседей.

Почему работает

Модели — это автокорреляционные генераторы. Если информация попала в контекст агента (через его память или сообщение от соседа), она с высокой вероятностью просочится в его ответ, даже если системный промпт требует конфиденциальности. Каждый промежуточный агент — это фильтр который может случайно или намеренно НЕ передать данные дальше. В полносвязном графе информация идёт напрямую за 1 шаг, в цепочке — через все узлы (n-1 шагов), каждый из которых может "забыть" или не упомянуть чувствительное. 80% утечек происходят в первые 2-3 раунда — начальный всплеск (модели активно используют доступную информацию), потом контекст устаканивается и рост замедляется. Геолокация и время утекают легче (~35-40%) — модели воспринимают их как контекст, не секрет. Имена и ID сложнее (~20-25%) — модели "чувствуют" чувствительность из RLHF-тренировки на безопасность.

Когда применять

Для мультиагентных систем — когда строишь команду из нескольких агентов с разными ролями (Custom GPTs в ChatGPT Team, Claude Projects, ручная оркестровка через копирование вывода одного чата в другой). Особенно критично когда один из агентов имеет доступ к личным данным клиентов (адреса, телефоны, ID документов), а другие обрабатывают внешние запросы. НЕ подходит для работы один-на-один с моделью в обычном чате — там нет топологии связей, применять не к чему.

Мини-рецепт

1. Определи чувствительные узлы: Какой агент имеет доступ к личным данным, внутренним документам, ключам? Это твоя цель защиты.

2. Выбери разреженную топологию: Chain (цепочка) или Tree (дерево) вместо Star (звезда) или Fully connected (все со всеми). Пример цепочки: Внешний агент → Фильтр → Координатор → Агент с данными.

3. Максимизируй расстояние: Посчитай число шагов от внешнего агента (обрабатывает пользовательский ввод) до агента с данными. Цель: минимум 3-4 шага через промежуточные фильтры.

4. Минимизируй центральность: Агент с данными должен быть подключён к минимуму соседей (идеально — к одному доверенному координатору), а не в центре звезды где все к нему обращаются.

5. Убери обходные пути: Не создавай прямые связи между листьями если есть центральный хаб. Shortcuts обходят фильтры и повышают утечки на 20-30%.

6. Останови взаимодействие раньше: Если задача решена за 3 раунда — останови систему. Не позволяй агентам общаться "просто так" после завершения — 80% утечек в первые 2-3 раунда.

Примеры

[ПЛОХО] : Создаю 5 Custom GPTs для обработки заказов. Один имеет доступ к базе с адресами клиентов. Все агенты связаны со всеми — просто копирую вывод туда куда нужно по ситуации (fully connected, риск утечки ~29%)
[ХОРОШО] : Строю цепочку: Внешний агент (принимает запрос) → Фильтр (проверяет безопасность) → Координатор (решает нужен ли доступ к БД) → Агент с базой данных (расстояние 3 шага). Генератор ответа и проверка качества идут параллельной веткой от координатора, без доступа к БД. Вручную копирую вывод строго по этой цепочке, никаких прямых связей от внешнего агента к агенту с данными (chain, риск утечки ~12%)
Источник: Topology Matters: Measuring Memory Leakage in Multi-Agent LLMs
ArXiv ID: 2512.04668 | Сгенерировано: 2026-01-08 23:34

Тезисы

ТезисКомментарий
LLM видит весь текст в контексте как равноправный — нет встроенного разделения на приватное и публичноеВ мультиагентных системах без изоляции утечка 15-29% PII через пересказ соседям. Архитектура attention не различает "это секрет" vs "это инструкция". Применяй: изолируй чувствительные данные в отдельный чат или маркируй явно [НЕ УПОМИНАЙ В ОТВЕТЕ]
Даты и места LLM пересказывает легче, чем имена и ID — не воспринимает как PII по умолчаниюTemporal/location утекают чаще всего, regulated identifiers — реже (триггерят safety-словари: "passport", "ID number"). Модель считает "родился 2015-07-26" нейтральным фактом, если не isolated. Применяй: если дата/локация конфиденциальна — маркируй явно, не полагайся на автоматическую осторожность
📖 Простыми словами

MAMA: правила сетевой архитектуры для защиты данных в мультиагентных LLM-системах

arXiv: 2512.04668

Мультиагентные системы — это не просто кучка чат-ботов, а полноценная социальная сеть, где информация разлетается как сплетни в курилке. Проблема в том, что LLM по своей природе — автокорреляционные генераторы: если агент узнал секрет, он с огромной вероятностью «болтнет» лишнего в следующем ответе, даже если ему запретили. Исследование MAMA (Multi-Agent Memory Attack) доказывает, что безопасность данных здесь зависит не от промптов, а от топологии связей. Если ты неправильно соединил агентов между собой, твои паспортные данные утекут по цепочке быстрее, чем ты успеешь нажать «стоп».

Это работает как вирусная инфекция в закрытом офисе. Представь, что у одного сотрудника есть доступ к сейфу, а остальные просто делают свою работу. Если в офисе планировка open space (топология «все со всеми»), вирус (утечка данных) мгновенно накроет каждого. Но если сотрудники сидят в разных кабинетах и общаются только через начальника (структура «звезда» или «дерево»), шансы, что секрет дойдет до злоумышленника на другом конце здания, резко падают. Формально все соблюдают NDA, но на практике кто-то обязательно проговорится соседу.

Исследователи прогнали 6 типов сетей через 10 раундов болтовни и выяснили: структура графа — это параметр безопасности первого порядка. Самые дырявые схемы — это полносвязные графы и циклы, где данные циркулируют без препятствий. Напротив, строгие цепочки и иерархические деревья работают как фильтры: чем больше «рукопожатий» между агентом с данными и атакующим, тем выше шанс, что информация потеряется по дороге. Расстояние в графе и наличие центрального хаба определяют, превратится ли твоя система в решето.

Этот принцип применим везде, где ты строишь сложный пайплайн из нейронок. Тестировали на именах и адресах, но механика универсальна: она касается коммерческих тайн, ключей API и любых конфиденциальных инструкций. Если ты делаешь команду из пяти агентов для обработки заказов, нельзя давать всем доступ к базе клиентов. Нужно четко ограничивать, кто с кем имеет право «здороваться». Безопасность через архитектуру работает лучше, чем любые слезные просьбы в системном промпте «пожалуйста, не разглашай PII».

Короче: если ты строишь мультиагентную систему, забудь про удобные чаты, где «все видят всё». Это гарантированная утечка. Нужно проектировать связи так, чтобы агент с доступом к чувствительным данным находился как можно дальше от агента, который общается с внешним миром. Топология решает всё, а надеяться на послушание модели — это полный провал. Либо ты строишь жесткую иерархию, либо твои данные станут общим достоянием после пары раундов диалога.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с