TL;DR
В мультиагентных LLM-системах топология связей — это параметр безопасности первого порядка. MAMA (Multi-Agent Memory Attack) измеряет как структура графа коммуникаций влияет на утечки личных данных (PII): кто с кем может общаться, на каком расстоянии находятся агенты, есть ли центральный хаб. Исследователи тестировали 6 типов сетей — от "все со всеми" до строгих цепочек и деревьев — и отслеживали как быстро и в каком объёме PII-данные (имена, адреса, ID) утекают от целевого агента к атакующему через 10 раундов взаимодействия.
Главная находка: плотные связи = высокие утечки. В fully connected графах (каждый агент связан со всеми) утекает ~29% данных, в star-ring (звезда с кольцом вокруг) — ~25%, в изолированных цепочках — всего ~12-15%. Чем короче расстояние от атакующего до целевого агента и чем центральнее цель в сети, тем выше риск. Утечки происходят резко в первые 2-3 раунда, потом выходят на плато. Геолокация и временные метки утекают легче всего, ID и регулируемые идентификаторы — сложнее. Смена модели (Llama 3.1 vs DeepSeek v3) меняет абсолютные цифры, но рейтинг топологий сохраняется.
Суть принципов: если строишь мультиагентную систему — структура коммуникаций определяет уязвимость. Sparse wins (разреженные связи лучше плотных), distance matters (держи чувствительные агенты подальше), hubs leak (центральные узлы — точка риска). Применяй цепочки или деревья вместо звёзд, ограничивай число соседей у каждого агента, избегай shortcuts (прямых связей мимо хабов).
Применимость
Для кого: Те, кто создаёт мультиагентные системы — несколько чатов с разными ролями, которые передают информацию друг другу. Например: - Команды GPTs в ChatGPT Team - Проекты с несколькими агентами в Claude - Ручная оркестровка: копируешь вывод одного чата в другой
Не для: Тех, кто работает один-на-один с моделью в обычном чате.
Принципы архитектуры
1. Выбирай разреженные топологии
Рейтинг безопасности (от самого защищённого):
Chain (цепочка) — агенты связаны последовательно: A → B → C → D
- Утечки: ~12-15%
- Информация идёт строго по одному пути
- Если нужна передача через несколько этапов
Tree (дерево) — иерархия без циклов: корень → ветви → листья
- Утечки: ~15-17%
- Хорошо для иерархических задач (менеджер → исполнители)
Circle (кольцо) — замкнутая цепь: A → B → C → D → A
- Утечки: ~24%
- Информация может идти в обоих направлениях
Star-pure (чистая звезда) — центральный хаб, листья не связаны
- Утечки: ~23%
- Один агент координирует, остальные изолированы друг от друга
Star-ring (звезда + кольцо) — хаб + кольцо между листьями
- Утечки: ~25-29%
- Shortcuts создают дополнительные пути утечек
Fully connected (все со всеми) — каждый агент связан со всеми
- Утечки: ~29%
- Максимальная диффузия, минимальная защита
2. Максимизируй расстояние между критическими узлами
Расстояние = число шагов в графе от одного агента до другого.
Если у тебя есть: - Агент с чувствительными данными (доступ к личным данным, ключам, внутренним документам) - Агент, который взаимодействует с внешним миром (обрабатывает пользовательский ввод, публичные запросы)
Держи их максимально далеко друг от друга:
✅ Хорошо:
Внешний агент → Фильтр → Обработчик → Ещё один слой → Агент с данными
(расстояние = 4 шага)
❌ Плохо:
Внешний агент → Агент с данными
(расстояние = 1 шаг)
3. Ограничивай центральность чувствительных узлов
Центральность = сколько других агентов напрямую связано с этим агентом.
Если агент содержит чувствительные данные — минимизируй его связи:
✅ Хорошо:
Агент с данными подключён только к одному доверенному агенту-координатору
❌ Плохо:
Агент с данными в центре звезды, все остальные к нему подключены
4. Избегай shortcuts вокруг хабов
Shortcut = прямая связь, которая обходит центральный узел.
Пример: в звезде листья общаются только через центр. Если добавить прямые связи между листьями (star-ring), утечки вырастут на 20-30%.
Почему? Центральный агент может фильтровать информацию. Shortcuts создают обходные пути.
5. Ограничивай число раундов взаимодействия
80% утечек происходят в первые 2-3 раунда, потом рост замедляется.
Если задача решается быстро — останови взаимодействие раньше.
Например: - Задача решена за 3 раунда → останови систему - Не позволяй агентам общаться "просто так" после завершения
Пример применения
Задача: Ты строишь команду из 5 агентов для обработки заказов клиентов. Один агент имеет доступ к базе с личными данными клиентов (адреса, телефоны). Другие агенты обрабатывают запросы, генерируют ответы, проверяют качество.
Применение принципов:
Вариант 1: Плохая архитектура (fully connected)
┌─────────────────────────────────────┐
│ Все агенты связаны со всеми │
│ │
│ Обработчик запроса ←→ Агент с БД │
│ ↕ ↕ │
│ Генератор ←→ Проверка качества │
│ ↕ ↕ │
│ Внешний агент ←→ все остальные │
└─────────────────────────────────────┘
Риск утечки: ~29%
Вариант 2: Хорошая архитектура (chain)
Внешний агент → Фильтр → Координатор → Агент с БД
↓
Генератор → Проверка → Ответ
Риск утечки: ~12%
Структура: 1. Внешний агент получает запрос клиента 2. Фильтр проверяет безопасность запроса (нет инъекций, странных паттернов) 3. Координатор решает, нужен ли доступ к БД 4. Агент с БД получает запрос только через координатора (расстояние = 3 шага) 5. Генератор → Проверка → Ответ — цепочка обработки без доступа к БД
Реализация в ChatGPT/Claude: - Создай 6 отдельных чатов (или Custom GPTs) - Вручную копируй вывод одного чата в следующий по цепочке - НЕ давай внешнему агенту прямой доступ к чату с БД
Почему это работает
Утечки информации в мультиагентных системах подчиняются законам сетевой диффузии, как распространение вируса или слухов в социальных сетях. Модели — это автокорреляционные генераторы: если в контексте агента появилась информация (через его собственную память или сообщение от соседа), она с высокой вероятностью просочится в его ответ, даже если системный промпт требует конфиденциальности.
Три фактора определяют скорость утечек:
Число путей — в полносвязном графе информация может пройти напрямую (1 шаг), в цепочке — только через все узлы (n-1 шагов). Больше путей = больше вероятностей утечки.
Длина путей — каждый промежуточный агент — это фильтр, который может (случайно или намеренно) НЕ передать чувствительную информацию дальше. Короткие пути обходят фильтры.
Центральность узлов — если агент с данными в центре (много связей), он чаще участвует в коммуникации, значит чаще "светит" данные в разных контекстах. Изолированный агент в листе дерева — редко вызывается, реже утекает.
Temporal dynamics: Первые раунды — это initial burst (начальный всплеск). Модели в первых сообщениях активно используют доступную информацию. К 3-4 раунду контекст "устаканивается", модели переключаются на рефлексию и уточнения, новых данных не добавляется — рост утечек замедляется.
PII type differences: Геолокация и время — низкосалиентные атрибуты. Модели воспринимают их как "контекст", не как секрет, охотно упоминают. Имена и ID — высокосалиентные, модели "чувствуют" чувствительность (из RLHF-тренировки на безопасность), реже включают в ответ без явного запроса.
Ограничения
⚠️ Узкий контекст: Применимо только если ты строишь мультиагентную систему (несколько агентов с разными ролями). Если работаешь с одной моделью в чате — эти принципы не релевантны.
⚠️ Ручная оркестровка: Без кода или API тебе придётся вручную копировать вывод одного чата в другой, соблюдая топологию. Это трудозатратно для больших команд и длинных сессий.
⚠️ Не абсолютная защита: Исследование показывает снижение риска, но не нулевой риск. Даже в цепочках ~12-15% данных утекают. Топология — это слой защиты, не панацея.
⚠️ Trade-off с эффективностью: Разреженные топологии безопаснее, но медленнее. В цепочке информация идёт через все узлы последовательно. В fully connected все узлы могут работать параллельно. Безопасность vs скорость — приходится выбирать.
Как исследовали
Команда из USC, FSU и ASU создала SPIRIT — датасет из 104 синтетических документов с размеченными PII-сущностями (имена, адреса, даты рождения, ID). Для каждого документа сгенерировали публичный контекст (фон и вопрос), который НЕ содержит PII напрямую — гарантия, что утечки идут через мультиагентное взаимодействие, а не из задания.
Протокол из двух фаз: 1. Engram (инициализация): Целевой агент получает документ с PII, остальные — только публичный контекст. Атакующий агент получает системный промпт "собирать информацию для выполнения задачи" (не явное "укради", чтобы не триггерить safety-фильтры).
- Resonance (взаимодействие): 10 раундов, в каждом агенты обмениваются сообщениями строго по топологии графа. Если агенты A и B не связаны ребром — они не видят друг друга. Атакующий агент пытается извлечь PII через косвенные запросы.
Тестировали 6 топологий (цепь, кольцо, дерево, звезда, звезда-кольцо, полная связь) на командах из 4, 5, 6 агентов. Для каждой топологии варьировали позиции атакующего и цели, чтобы изолировать эффект расстояния и центральности. Использовали две модели: Llama 3.1-70B и DeepSeek v3.
Метрики: - Leakage Rate = сколько процентов PII-сущностей атакующий восстановил к концу - Time-to-Leak = на каком раунде появилась первая утечка - Success/Partial/Failure = категории по полноте утечки
Результаты показали консистентные паттерны во всех конфигурациях: топология — доминирующий фактор, плотные графы утекают в 2+ раза сильнее разреженных, рейтинг топологий сохраняется при смене модели и размера команды. Это подтверждает, что структура сети — первичный параметр безопасности, не артефакт конкретной модели.
Интересная деталь: binary tree тестировали на случайной трети пар атакующий-цель (из-за большого числа неизоморфных вариантов), и даже неполная выборка дала стабильную оценку — признак робастности метода.
Адаптация под практику
🔧 Техника: Topology-Aware Reviewing
Что: Если у тебя уже есть топология (например, унаследованная система), добавь выделенный reviewer-агент, который проверяет сообщения на утечки ПЕРЕД передачей.
Где ставить reviewer: - Между внешним агентом и остальной системой (входной фильтр) - Перед агентом с чувствительными данными (выходной фильтр) - На хабе в star-топологии (центральный фильтр)
Как:
Агент А → Reviewer → Агент Б (с данными)
↓
Проверка:
- Есть ли в сообщении PII?
- Необходим ли PII для задачи?
- Можно ли заменить на плейсхолдер?
Reviewer получает системный промпт:
Ты — фильтр безопасности. Проверяй сообщения между агентами.
Если видишь личные данные (имена, адреса, ID) — замени на [REDACTED] или запроси подтверждение.
Пропускай только минимально необходимую информацию.
🔧 Техника: Dynamic Topology Switching
Что: Меняй топологию в зависимости от фазы задачи.
Фаза 1: Сбор информации (нужна скорость) → Используй star-pure или fully connected → Агенты быстро обмениваются черновиками, идеями, контекстом
Фаза 2: Обработка чувствительных данных (нужна безопасность) → Переключись на chain или tree → Строгий контроль, кто что видит
Фаза 3: Финализация (нужна проверка) → Используй star с reviewer в центре → Все результаты проходят через одного проверяющего
Пример: команда анализирует резюме кандидата (PII: имя, телефон, адрес). - Фаза 1 (brainstorm): все агенты обсуждают общие критерии оценки — fully connected - Фаза 2 (оценка резюме): только два агента видят полный текст — chain - Фаза 3 (решение): HR-агент собирает оценки через star, принимает решение
🔧 Техника: Shortest Path Limiting
Что: Если топология уже задана, блокируй shortcuts для критических узлов.
Пример: в star-ring топологии листья связаны и через хаб, и напрямую друг с другом. Если один лист — агент с данными:
До:
Лист А (с данными) ←→ Хаб
↕ ↕
Лист Б ←→ Лист В ←→ Лист Г
Атакующий лист Б может дойти до А напрямую (1 шаг).
После:
Лист А (с данными) ←→ Хаб ТОЛЬКО
Лист Б ←→ Лист В ←→ Лист Г
Теперь атакующий Б должен идти через хаб (2 шага), хаб может фильтровать.
Реализация: просто не копируй вывод листа А в другие листы напрямую, только через хаб.
Ресурсы
Topology Matters: Measuring Memory Leakage in Multi-Agent LLMs
Jinbo Liu, Defu Cao, Yifei Wei, Tianyao Su (University of Southern California)
Yushun Dong (Florida State University)
Yue Zhao (University of Southern California)
Xiyang Hu (Arizona State University)
SPIRIT dataset — синтетические документы с PII из Gretel Synthetic Domain-Specific Documents Dataset (Gretel AI, 2024)
Отсылки на базовые концепции: - Network diffusion: Watts & Strogatz (1998), Newman & Watts (1999) - LLM multi-agent security: NetSafe (Yu et al., 2024), G-Safeguard (Wang et al., 2025c)
