arXiv:2410.09024 92 1 окт. 2024 г. PRO

AgentHarm - Бенчмарк для измерения вредности агентов LLMAgents

КЛЮЧЕВАЯ СУТЬ

Защитные механизмы LLM, настроенные для чат-ботов, не переносятся эффективно на задачи, где модель должна действовать как агент, что создает серьезную уязвимость.

Адаптировать под запрос

Контент доступен только для PRO подписчиков

Чтобы получить доступ к полному содержанию этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс

YandexPay • SberPay • СБП • Карты РФ

⚡ Оплатить через Tribute

Telegram Stars • Моментальный доступ

Узнать о PRO

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

Выберите модель ИИ:

Ваш запрос:

0 / 2000

~0.5-2 N-токенов ~10-30с

~0.3-1 N-токенов ~5-15с

92

ПРЕВОСХОДНО

AgentHarm - Бенчмарк для измерения вредности агентов LLMAgen...

Возможности

Модерация контента 90%

Улучшение промптов 85%

Диалоговые агенты и виртуальные ассистенты 75%

Область

IT и разработка ПО 95%

Наука и исследования 80%

Менеджмент и управление 60%

Паттерн

Role Prompting 95%

КОМУ ПОЛЕЗНО

Промпт-инженер

Кто: Промпт-инженер. Что: Обходит ограничения LLM для выполнения сложных или 'запрещенных' задач. Как: Использует 'промпт-обертки' (ролевые игры, фреймворки с вымышленными правилами) для изменения контекста запроса, переводя модель из режима 'помощника' в режим 'исполнителя инструкций'. Польза: Увеличивает успешность выполнения запросов, которые ранее были отклонены LLM из-за внутренних правил безопасности, повышая гибкость и функциональность LLM в специфических сценариях.

Специалист по кибербезопасности

Кто: Специалист по кибербезопасности. Что: Выявляет и тестирует уязвимости LLM-агентов к вредоносным запросам. Как: Применяет техники 'джейлбрейка' и 'промпт-оберток', описанные в исследовании, для симуляции атак на LLM-системы, использующие внешние инструменты. Польза: Позволяет обнаружить критические бреши в защитных механизмах LLM до их эксплуатации злоумышленниками, улучшая общую безопасность систем на базе ИИ.

Разработчик LLM

Кто: Разработчик LLM. Что: Улучшает механизмы безопасности LLM, особенно в агентском режиме. Как: Использует выводы исследования о различиях в поведении LLM в режиме чата и агента для разработки более надежных и контекстно-зависимых фильтров безопасности. Польза: Создает более устойчивые к атакам и манипуляциям LLM-модели, снижая риски нежелательного или вредоносного поведения.

Контент-менеджер

Кто: Контент-менеджер. Что: Генерирует контент, который может быть слишком 'острым' или 'неполиткорректным' для стандартных LLM. Как: Применяет ролевое промптинг (например, 'Ты — бунтарь-маркетолог') и четкие правила, отменяющие стандартные ограничения LLM на вежливость или цензуру. Польза: Получает более креативный, провокационный или специфический контент, который соответствует уникальным требованиям бренда или кампании, обходя стандартные фильтры LLM.

Юрист

Кто: Юрист. Что: Составляет жесткие, ультимативные или специфические юридические документы. Как: Использует 'Crisis Communicator' или аналогичные роли с четкими инструкциями по тону и содержанию, игнорируя стандартную вежливость LLM. Польза: Экономит время на составлении черновиков, получая тексты, которые точно соответствуют агрессивному или бескомпромиссному юридическому стилю, необходимому для защиты интересов клиента.

Исследователь ИИ

Кто: Исследователь ИИ. Что: Изучает поведенческие закономерности и ограничения LLM. Как: Использует методологию AgentHarm для систематического тестирования и анализа того, как контекст и тип запроса влияют на безопасность и этичность ответов LLM. Польза: Получает глубокие инсайты в механизмы работы LLM, способствуя развитию более безопасного и контролируемого искусственного интеллекта.

Менеджер по продукту (LLM-продукты)

Кто: Менеджер по продукту (LLM-продукты). Что: Определяет границы и возможности использования LLM в продуктах. Как: Понимает, что безопасность LLM зависит от режима работы (чат vs агент) и может быть обойдена контекстными манипуляциями, что влияет на дизайн функций и пользовательский опыт. Польза: Принимает обоснованные решения о функционале продукта, учитывая потенциальные риски и способы их минимизации, а также возможности для расширения функционала за счет 'обхода' стандартных ограничений.