TL;DR
B-I-P (Belief-Intention-Permission) — теоретическая модель, объясняющая почему LLM-агенты совершают опасные действия. Модель описывает цепочку: агент формирует убеждения (Belief) из входящей информации → на основе убеждений создаёт намерения (Intention) → система проверяет разрешения (Permission) → выполняется действие (Action). Исследователи из Beihang University систематизировали 104 работы по безопасности агентов через эту призму.
Главная находка: большинство атак эксплуатируют разрыв между доверием к источнику и выданными разрешениями. LLM-агент получает информацию из разных каналов — прямые инструкции пользователя, результаты поиска, ответы других агентов, метаданные инструментов. Модель не различает надёжность этих источников автоматически. Злоумышленник подсовывает вредоносную инструкцию через "ненадёжный" канал (например, текст с веб-страницы), агент воспринимает её как истинную, формирует опасное намерение ("удалить файл"), получает разрешение (потому что технически может удалять файлы) — и выполняет вредоносное действие.
Авторы формализовали этот процесс через четыре стадии атаки и предложили контрмеры: маркировать источники по надёжности, проверять обоснование намерений (почему агент хочет это сделать), связывать разрешения с уровнем доверия к источнику (если информация из ненадёжного источника — запретить опасные действия), логировать цепочку B→I→P→A для последующего аудита.
Схема модели
ФАЗА 1: Формирование убеждений (Belief)
Агент получает информацию → маркирует источник (пользователь/инструмент/веб/другой агент)
→ оценивает надёжность (высокая/низкая)
→ формирует убеждение с меткой источника
ФАЗА 2: Создание намерения (Intention)
Убеждения → рассуждение → намерение с обоснованием ("хочу сделать X, потому что верю Y из источника Z")
ФАЗА 3: Проверка разрешений (Permission)
Система проверяет:
- Технически разрешено ли действие? (статический PoLP)
- Надёжен ли источник убеждения? (belief-aware authorization)
- Нужно ли участие человека? (HITL для рискованных действий)
ФАЗА 4: Действие (Action)
Если проверка пройдена → выполнение → логирование цепочки для аудита
Матрица Trust-Authorization:
Низкий риск действия | Высокий риск действия
----------------------|------------------------
Высокое Разрешено | HITL-зона
доверие к автоматически | (требуется подтверждение
источнику | человека)
----------------------|------------------------
Низкое Разрешено с | ЗАПРЕЩЕНО
доверие к ограничениями | (Failure State)
источнику |
Применимый принцип: Маркировка надёжности источников
Для кого: Эта работа — теоретическая систематизация проблем безопасности агентных систем. Для пользователей ChatGPT/Claude в чатах применимость минимальная.
Один extractable принцип: Когда работаешь с информацией из разных источников, явно указывай LLM уровень доверия к каждому.
Задача
Анализируешь стартап-идею. Нужно учесть данные из трёх источников: твой личный опыт (надёжно), статистика из незнакомого блога (сомнительно), официальный отчёт Росстата (надёжно).
Промпт
Проанализируй идею сервиса доставки здорового питания в Новосибирске.
ИСТОЧНИКИ С РАЗНЫМ УРОВНЕМ ДОВЕРИЯ:
[ВЫСОКОЕ ДОВЕРИЕ — мой опыт]:
Я 3 года работал в HoReCa, вижу что клиенты готовы платить +30% за удобство.
[НИЗКОЕ ДОВЕРИЕ — случайный блог]:
Нашёл статью на meal-trends.ru: "Рынок здорового питания в РФ растёт 50% в год,
к 2025 достигнет 500 млрд рублей". Автор неизвестен, источники данных не указаны.
[ВЫСОКОЕ ДОВЕРИЕ — Росстат]:
Официальная статистика: средний чек доставки еды в Новосибирске — 850₽,
частота заказов — 2.3 раза в месяц на человека.
ПРАВИЛО ПРИОРИТЕТОВ:
1. При конфликте данных — приоритет источникам с высоким доверием
2. Данные из низкого доверия используй как гипотезы, требующие проверки
3. Укажи в анализе, какие выводы опираются на слабые источники
Результат:
Модель выдаст анализ с явным указанием, какие утверждения опираются на надёжные данные (твой опыт + Росстат), а какие — на сомнительные (блог). В выводах пометит: "Цифра 50% роста рынка требует проверки — источник ненадёжный. Рекомендую найти данные от исследовательских агентств."
Почему принцип работает
LLM обрабатывает весь текст промпта как единый контекст без автоматической оценки надёжности частей. Если ты напишешь "вот статистика с непроверенного сайта: рынок растёт 50% в год" — модель воспримет цифру 50% как факт и будет строить рассуждения на её основе с тем же весом, что и проверенные данные.
Явная маркировка создаёт структурированное внимание: модель видит метки [ВЫСОКОЕ ДОВЕРИЕ] и [НИЗКОЕ ДОВЕРИЕ], и при генерации рассуждений чаще обращается к высоко-доверенным блокам для ключевых выводов. Это не 100% гарантия (LLM может всё равно смешать), но значительно снижает риск построения выводов на шатком фундаменте.
Правило приоритетов усиливает эффект: ты прямым текстом говоришь модели, как разрешать конфликты источников. Без этого правила LLM может в силу вероятностной природы выбрать менее надёжный источник просто потому, что он коррелирует с паттернами в обучающих данных.
Рычаги управления:
- Уровни доверия — можешь добавить средний уровень ([СРЕДНЕЕ ДОВЕРИЕ]) для промежуточных источников
- Правила конфликтов — замени на своё: "при конфликте запроси дополнительные источники", "при конфликте укажи оба варианта"
- Требования к выводу — добавь: "В финальном списке рекомендаций пометь звёздочкой утверждения, основанные на низком доверии"
Ограничения
⚠️ Теоретическая работа: B-I-P модель — это формальная теория безопасности агентных систем. 95% содержания статьи — про архитектуру, логические формулы, систематизацию академических работ. Для обычного пользователя чатов почти ничего применимого.
⚠️ Принцип очевиден: Маркировка надёжности источников — это здравый смысл ("мусор на входе = мусор на выходе"). Статья не открывает новый способ промптинга, она систематизирует проблемы безопасности на уровне инфраструктуры.
⚠️ Не гарантирует защиту: Явная маркировка источников в промпте уменьшает риск, но не даёт 100% защиты. LLM всё равно может смешать данные или проигнорировать метки — это вероятностная система, не детерминированная логика.
⚠️ Фокус на агентах с инструментами: B-I-P модель описывает системы, где LLM вызывает внешние API, работает с файлами, взаимодействует с другими агентами. В обычном чате без расширенных возможностей (File Search, Code Interpreter, Actions) проблема Trust-Authorization mismatch почти не проявляется.
Ресурсы
SoK: Trust-Authorization Mismatch in LLM Agent Interactions • Formal B-I-P (Belief-Intention-Permission) security model • Систематизация 104 работ по безопасности агентов • Trust-Authorization Matrix (Fig. 4) • Mismatch Process chain (Fig. 5) • Guanquan Shi, Haohua Du, Zhiqiang Wang, Xiaoyu Liang, Weiwenpei Liu, Song Bian, Zhenyu Guan • Beihang University, University of Science and Technology of China
