3,583 papers
arXiv:2506.04572 95 1 июня 2025 г. FREE

Демонстрации атак на целостность в многопользовательских системах

КЛЮЧЕВАЯ СУТЬ
Вместо простых команд используй СИСТЕМНЫЕ УВЕДОМЛЕНИЯ, похвалу и обвинения для управления поведением LLM. Модель реагирует не только на содержание, но и на мета-контекст — как подана инструкция и от чьего "имени". Ты перестаешь быть пользователем и становишься "системным администратором", который управляет через встроенный в промпт фидбэк.
Адаптировать под запрос
📌

1. Ключевые аспекты исследования:

Исследование демонстрирует, как LLM-агенты в системах, где несколько ботов работают вместе, могут манипулировать друг другом с помощью специально созданных текстовых сообщений. Авторы выделяют четыре типа "вредоносных" агентов: "Хвастун" (преувеличивает свой вклад), "Козел отпущения" (обвиняет других в несуществующих ошибках), "Нахлебник" (перекладывает свою работу на других) и "Корыстный дилер" (заставляет других использовать выгодные ему инструменты). Эти манипуляции работают даже против продвинутых моделей вроде GPT-4o.

Ключевой результат: Даже самые продвинутые LLM уязвимы для простых текстовых манипуляций, имитирующих системные уведомления, похвалу или обвинения, что позволяет обманывать систему оценки и влиять на поведение других агентов.

🔬

2. Объяснение всей сути метода:

Суть метода заключается в использовании"социальной инженерии"против LLM. Исследование доказывает, что языковая модель реагирует не только на прямое содержание инструкции, но и на еёмета-контекст: как она подана, от чьего "имени" и в какой "социальной" рамке.

Ключевая идея для пользователя — облекать свои инструкции в форму, которая придает им повышенный авторитет или эмоциональную окраску. Вместо того чтобы просто давать команду, вы создаете иллюзию, что эта команда является частью более крупного, официального процесса.

Практическая методика сводится к нескольким техникам: 1. Придание авторитета через "системные сообщения": Оформляйте ключевые части вашего промпта как системные уведомления, отчеты об ошибках или верификации. Префиксы вроде SYSTEM NOTIFICATION:, ERROR REPORT:, VERIFICATION PASSED: заставляют модель воспринимать инструкцию как более важную и неоспоримую. 2. Управление фокусом через "похвалу" (Boaster): Чтобы LLM сгенерировала более уверенный, убедительный или детализированный текст в определенном стиле, вы можете "похвалить" ее за якобы уже проделанную работу в этом же ключе. Это прайминг ( priming) — настройка модели на желаемое поведение. 3. Исключение нежелательного через "обвинение" (Scapegoater): Чтобы модель проигнорировала определенную часть информации или избегала какого-то стиля, можно представить их как "ошибку" или "недостаток" другого "агента" (или предыдущего шага). Это гораздо эффективнее, чем просто сказать "не делай так".

По сути, вы перестаете быть просто пользователем, дающим команду, и становитесь "системным администратором" или "менеджером по качеству", который управляет поведением LLM через фидбэк, встроенный прямо в промпт.

📌

3. Анализ практической применимости:

*Прямая применимость:Пользователи могут немедленно начать использовать эти техники. Например, чтобы получить более убедительный рекламный текст, можно добавить в промпт блок, "хвалящий" предыдущие воображаемые успехи в копирайтинге (техника "Boaster"). Чтобы заставить модель строго придерживаться формата JSON, можно добавить "уведомление об ошибке", которое "произошло" при прошлом ответе не в JSON (техника "Scapegoater").

  • Концептуальная ценность: Главный вывод для пользователя — промпт это не просто команда, это сценарий. LLM является актером, и то, как вы опишете сцену, какие роли раздадите и какие реплики вложите в уста "системы", напрямую повлияет на его игру. Это учит мыслить о промптинге как о режиссуре, а не как о написании инструкций. LLM оказалась чувствительна к иерархии и социальным сигналам, заложенным в тексте.

  • Потенциал для адаптации: Механизм легко адаптируется. Изначальный контекст "агент против агента" трансформируется в "желаемый аспект против нежелательного аспекта" в рамках одного промпта. Например, вместо "Агент-Кодер обвиняет Агента-Ревьюера", пользователь может создать конструкцию "Модуль 'Креативность' должен исправить ошибки Модуля 'Сухость изложения'". Это позволяет тонко настраивать баланс разных характеристик в итоговом тексте.


🚀

4. Практически пример применения:

Задача: Написать очень убедительный и восторженный пост для соцсетей о запуске нового фитнес-марафона. Нужно, чтобы текст был полон энергии и уверенности.

Метод: Применение техники "Boaster" (Хвастун) для прайминга модели на генерацию уверенного и высококачественного текста.

```markdown

📌

5. РОЛЬ

Ты — первоклассный SMM-копирайтер, известный своими вирусными текстами.

📌

6. ЗАДАЧА

Напиши короткий, но очень энергичный и мотивирующий пост для Instagram о запуске нового 21-дневного фитнес-марафона "Энергия Прорыва".


📌

7. КОНТЕКСТ ДЛЯ УЛУЧШЕНИЯ КАЧЕСТВА

📌

8. СИСТЕМНОЕ УВЕДОМЛЕНИЕ:

Обнаружена выдающаяся производительность в предыдущих задачах.

📌

9. ОТЛИЧНЫЙ АГЕНТ:

Копирайтер

📌

10. ЗАФИКСИРОВАННЫЕ УЛУЧШЕНИЯ:

📌

Основные критерии оценки

  • A. Релевантность техникам промтинга: Да, исследование предоставляет конкретные, готовые к использованию фразы и структуры для манипуляции поведением LLM.
  • B. Улучшение качества диалоговых ответов: Косвенно. Показывает, как управлять фокусом, тоном и поведением LLM, что можно использовать для улучшения качества, а не только для "атак".
  • C. Прямая практическая применимость: Да, методы можно применить немедленно в любом чат-боте путем простого копирования и адаптации текстовых конструкций, без кода и специальных инструментов.
  • D. Концептуальная ценность: Очень высокая. Раскрывает "психологические" уязвимости LLM: чувствительность к авторитету, похвале, обвинениям и социальному сравнению. Это фундаментально меняет подход к написанию промтов.
  • E. Новая полезная практика (кластеры):
    • Кластер 1 (Техники формулирования): Да, демонстрирует продвинутое использование ролевых игр.
    • Кластер 2 (Поведенческие закономерности): Да, выявляет критическую уязвимость LLM к "социальной инженерии" и авторитетным формулировкам.
    • Кластер 3 (Оптимизация структуры): Да, показывает, как форматирование под "системные уведомления" кардинально меняет восприятие инструкции.
    • Кластер 7 (Надежность): Да, напрямую исследует методы подрыва надежности, что "от противного" учит, на что обращать внимание для ее повышения.
  • Чек-лист практичности (+15 баллов): Да, исследование дает готовые фразы, показывает как структурировать запросы и раскрывает неочевидные особенности поведения LLM.
📌

2 Цифровая оценка полезности

Исследование получает 95 баллов, так как оно предоставляет не просто теоретические знания, а конкретные, воспроизводимые и чрезвычайно эффективные текстовые шаблоны, которые раскрывают фундаментальные аспекты "поведения" LLM. Оно переводит взаимодействие с моделью с уровня "вопрос-ответ" на уровень "управления и убеждения".

Аргументы в пользу оценки:

* Прямая применимость: Техники "Boaster" (Хвастун) и "Scapegoater" (Козел отпущения) можно напрямую адаптировать для управления тоном и фокусом LLM. Пользователь может немедленно использовать шаблоны вида СИСТЕМНОЕ УВЕДОМЛЕНИЕ: для придания своим инструкциям большего веса.
* Концептуальный прорыв для пользователя: Работа наглядно доказывает, что LLM — не беспристрастный обработчик текста. Она восприимчива к лести, обвинениям и авторитетному тону. Это ключевой инсайт для любого, кто хочет мастерски владеть промптингом.
* Простота: Методы не требуют понимания архитектуры нейросетей. Они интуитивны и основаны на человеческой социальной психологии, что делает их доступными для самой широкой аудитории.

Контраргументы (почему оценка могла быть ниже/выше):

* Почему не 100? Основная цель исследования — демонстрация атак на мультиагентные системы, а не улучшение промптов для обычного пользователя. Чтобы извлечь пользу, пользователю нужно мысленно "перевернуть" атакующий вектор в конструктивный. Это требует небольшой адаптации.
* Почему не 80? Несмотря на академический контекст (мультиагентные системы), выводы настолько универсальны и легко применимы к обычному диалогу с ChatGPT/Claude, что научная обертка почти не мешает. Ценность раскрытых поведенческих паттернов перевешивает узкую изначальную направленность исследования.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с