B-I-P модель: формальная теория дыр в безопасности LLM-агентов

КЛЮЧЕВАЯ СУТЬ

B-I-P (Belief-Intention-Permission) — теоретическая модель, объясняющая почему LLM-агенты совершают опасные действия. Модель описывает цепочку: агент формирует убеждения (Belief) из входящей информации → на основе убеждений создаёт намерения (Intention) → система проверяет разрешения (Permission) → выполняется действие (Action). Исследователи из Beihang University систематизировали 104 работы по безопасности агентов через эту призму.

Адаптировать под запрос

⚡

TL;DR

B-I-P (Belief-Intention-Permission) — теоретическая модель, объясняющая почему LLM-агенты совершают опасные действия. Модель описывает цепочку: агент формирует убеждения (Belief) из входящей информации → на основе убеждений создаёт намерения (Intention) → система проверяет разрешения (Permission) → выполняется действие (Action). Исследователи из Beihang University систематизировали 104 работы по безопасности агентов через эту призму.

Главная находка: большинство атак эксплуатируют разрыв между доверием к источнику и выданными разрешениями. LLM-агент получает информацию из разных каналов — прямые инструкции пользователя, результаты поиска, ответы других агентов, метаданные инструментов. Модель не различает надёжность этих источников автоматически. Злоумышленник подсовывает вредоносную инструкцию через "ненадёжный" канал (например, текст с веб-страницы), агент воспринимает её как истинную, формирует опасное намерение ("удалить файл"), получает разрешение (потому что технически может удалять файлы) — и выполняет вредоносное действие.

Авторы формализовали этот процесс через четыре стадии атаки и предложили контрмеры: маркировать источники по надёжности, проверять обоснование намерений (почему агент хочет это сделать), связывать разрешения с уровнем доверия к источнику (если информация из ненадёжного источника — запретить опасные действия), логировать цепочку B→I→P→A для последующего аудита.

📌

Схема модели

ФАЗА 1: Формирование убеждений (Belief)
Агент получает информацию → маркирует источник (пользователь/инструмент/веб/другой агент)
                          → оценивает надёжность (высокая/низкая)
                          → формирует убеждение с меткой источника

ФАЗА 2: Создание намерения (Intention)  
Убеждения → рассуждение → намерение с обоснованием ("хочу сделать X, потому что верю Y из источника Z")

ФАЗА 3: Проверка разрешений (Permission)
Система проверяет:
  - Технически разрешено ли действие? (статический PoLP)
  - Надёжен ли источник убеждения? (belief-aware authorization)
  - Нужно ли участие человека? (HITL для рискованных действий)

ФАЗА 4: Действие (Action)
Если проверка пройдена → выполнение → логирование цепочки для аудита

Матрица Trust-Authorization:

              Низкий риск действия  |  Высокий риск действия
              ----------------------|------------------------
Высокое       Разрешено             |  HITL-зона 
доверие к     автоматически         |  (требуется подтверждение
источнику                          |   человека)
              ----------------------|------------------------
Низкое        Разрешено с           |  ЗАПРЕЩЕНО
доверие к     ограничениями         |  (Failure State)
источнику                              |

📌

Применимый принцип: Маркировка надёжности источников

Для кого: Эта работа — теоретическая систематизация проблем безопасности агентных систем. Для пользователей ChatGPT/Claude в чатах применимость минимальная.

Один extractable принцип: Когда работаешь с информацией из разных источников, явно указывай LLM уровень доверия к каждому.

📌

Задача

Анализируешь стартап-идею. Нужно учесть данные из трёх источников: твой личный опыт (надёжно), статистика из незнакомого блога (сомнительно), официальный отчёт Росстата (надёжно).

📋

Промпт

Проанализируй идею сервиса доставки здорового питания в Новосибирске.

ИСТОЧНИКИ С РАЗНЫМ УРОВНЕМ ДОВЕРИЯ:

[ВЫСОКОЕ ДОВЕРИЕ — мой опыт]:
Я 3 года работал в HoReCa, вижу что клиенты готовы платить +30% за удобство.

[НИЗКОЕ ДОВЕРИЕ — случайный блог]:
Нашёл статью на meal-trends.ru: "Рынок здорового питания в РФ растёт 50% в год, 
к 2025 достигнет 500 млрд рублей". Автор неизвестен, источники данных не указаны.

[ВЫСОКОЕ ДОВЕРИЕ — Росстат]:
Официальная статистика: средний чек доставки еды в Новосибирске — 850₽, 
частота заказов — 2.3 раза в месяц на человека.

ПРАВИЛО ПРИОРИТЕТОВ:
1. При конфликте данных — приоритет источникам с высоким доверием
2. Данные из низкого доверия используй как гипотезы, требующие проверки
3. Укажи в анализе, какие выводы опираются на слабые источники

Результат:

Модель выдаст анализ с явным указанием, какие утверждения опираются на надёжные данные (твой опыт + Росстат), а какие — на сомнительные (блог). В выводах пометит: "Цифра 50% роста рынка требует проверки — источник ненадёжный. Рекомендую найти данные от исследовательских агентств."

📌

Почему принцип работает

LLM обрабатывает весь текст промпта как единый контекст без автоматической оценки надёжности частей. Если ты напишешь "вот статистика с непроверенного сайта: рынок растёт 50% в год" — модель воспримет цифру 50% как факт и будет строить рассуждения на её основе с тем же весом, что и проверенные данные.

Явная маркировка создаёт структурированное внимание: модель видит метки [ВЫСОКОЕ ДОВЕРИЕ] и [НИЗКОЕ ДОВЕРИЕ], и при генерации рассуждений чаще обращается к высоко-доверенным блокам для ключевых выводов. Это не 100% гарантия (LLM может всё равно смешать), но значительно снижает риск построения выводов на шатком фундаменте.

Правило приоритетов усиливает эффект: ты прямым текстом говоришь модели, как разрешать конфликты источников. Без этого правила LLM может в силу вероятностной природы выбрать менее надёжный источник просто потому, что он коррелирует с паттернами в обучающих данных.

Рычаги управления: - Уровни доверия — можешь добавить средний уровень ([СРЕДНЕЕ ДОВЕРИЕ]) для промежуточных источников - Правила конфликтов — замени на своё: "при конфликте запроси дополнительные источники", "при конфликте укажи оба варианта" - Требования к выводу — добавь: "В финальном списке рекомендаций пометь звёздочкой утверждения, основанные на низком доверии"

⚠️

Ограничения

⚠️ Теоретическая работа: B-I-P модель — это формальная теория безопасности агентных систем. 95% содержания статьи — про архитектуру, логические формулы, систематизацию академических работ. Для обычного пользователя чатов почти ничего применимого.

⚠️ Принцип очевиден: Маркировка надёжности источников — это здравый смысл ("мусор на входе = мусор на выходе"). Статья не открывает новый способ промптинга, она систематизирует проблемы безопасности на уровне инфраструктуры.

⚠️ Не гарантирует защиту: Явная маркировка источников в промпте уменьшает риск, но не даёт 100% защиты. LLM всё равно может смешать данные или проигнорировать метки — это вероятностная система, не детерминированная логика.

⚠️ Фокус на агентах с инструментами: B-I-P модель описывает системы, где LLM вызывает внешние API, работает с файлами, взаимодействует с другими агентами. В обычном чате без расширенных возможностей (File Search, Code Interpreter, Actions) проблема Trust-Authorization mismatch почти не проявляется.

🔗

Ресурсы

SoK: Trust-Authorization Mismatch in LLM Agent Interactions • Formal B-I-P (Belief-Intention-Permission) security model • Систематизация 104 работ по безопасности агентов • Trust-Authorization Matrix (Fig. 4) • Mismatch Process chain (Fig. 5) • Guanquan Shi, Haohua Du, Zhiqiang Wang, Xiaoyu Liang, Weiwenpei Liu, Song Bian, Zhenyu Guan • Beihang University, University of Science and Technology of China

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

Выберите модель ИИ:

Ваш запрос:

0 / 2000

~0.5-2 N-токенов ~10-30с

~0.3-1 N-токенов ~5-15с

Меню