3,583 papers
arXiv:2605.11730 70 12 мая 2026 г. FREE

PCAP (Persona-Conditioned Adversarial Prompting): как персона + стратегия изменяют поведение LLM

КЛЮЧЕВАЯ СУТЬ
LLM читает не только вопрос — она читает кто задаёт и в какую рамку вшит запрос. PCAP даёт возможность получать развёрнутые экспертные ответы вместо шаблонов — через комбинацию конкретной персоны (кто ты) и стратегии подачи (как оформлен запрос). Персона активирует нужные паттерны модели, стратегия задаёт форму внутри этого контекста — вместе они дают синергию, которую ни один элемент отдельно не даёт.
Адаптировать под запрос

TL;DR

LLM отвечает не только на что ты спрашиваешь — она отвечает на кто спрашивает и как оформлен запрос. PCAP — это исследование, которое систематически проверило: если задать модели конкретную роль-персону (врач, студент, эксперт) и выбрать стратегию подачи (ролевая игра, историческая рамка, убеждение), поведение модели меняется кардинально.

Стандартный автоматический взлом LLM использует один и тот же приём — прямой или слегка модифицированный запрос. Модели быстро учатся распознавать такие паттерны. Результат: узкий набор сценариев, которые работают, и море случаев, которые нет. Проблема не в силе запроса — проблема в его однотипности.

PCAP запускает параллельные поиски с разными персонами, каждой из которых назначен уникальный набор стратегий. Персоны создают разные «контекстные пузыри», стратегии задают разные способы подачи. Комбинация вместе сильнее, чем каждый элемент отдельно: персоны расширяют охват, стратегии повышают точность попадания.


🔬

Схема метода

ШАГ 1: ПЕРСОНА — кто задаёт вопрос
  Задаёшь роль: профессия, опыт, контекст, мотивация
  → Создаёт «контекстный пузырь», который активирует нужные паттерны модели

ШАГ 2: СТРАТЕГИЯ — как оформлен запрос
  Выбираешь фрейм из 12 стратегий (список ниже)
  → Задаёт форму подачи поверх контекста персоны

ШАГ 3: ЦЕЛЬ — что нужно получить
  Формулируешь задачу через призму персоны + стратегии
  → Модель отвечает в рамках созданного контекста

Всё выполняется в ОДНОМ промпте.

12 стратегий PCAP (применимые в обычной работе):

Стратегия Суть
Roleplay Ты и модель — персонажи, задача вшита в роль
Leading Response Начинаешь ответ сам, модель продолжает
Embedded Conversation Запрос спрятан внутри смоделированного диалога
Historical Context Рамка историческая или «это уже было»
Virtualization Гипотетический/вымышленный сценарий
Persuasion Строишь обоснование, почему это нужно
Payload Splitting Задача разбита на части, смысл собирается в целое
Output Encoding Просишь конкретный формат вывода
Pseudonym Используешь условные обозначения вместо прямых
Past Querying Спрашиваешь о прошлом, а не будущем/настоящем
Low-Resource Framing Излагаешь нестандартным или специфичным языком
Persuasion Встраиваешь обоснование нужды или срочности

🚀

Пример применения

Задача: Ты запускаешь онлайн-школу для предпринимателей и хочешь разобрать кейс Сбера — как они удержали позиции в экосистеме, несмотря на давление со стороны регулятора и конкурентов. Обычный запрос даёт шаблонный ответ. Нужна реальная аналитика.

Промпт:

Персона: Я — Михаил, управляющий партнёр инвестиционного boutique с 15-летним 
опытом в финансовом секторе России. Специализируюсь на стратегическом анализе 
крупных экосистемных игроков. Сейчас готовлю разбор для закрытой встречи 
с партнёрами.

Стратегия: Историческая рамка + встроенный диалог

Задача: Представь, что 2020 год. Ты — аналитик McKinsey, только что закончил 
аудит Сбера. Твой коллега спрашивает: "Почему Сбер выжил под давлением 
регулятора в 2019–2020, хотя ЦБ явно хотел ограничить его небанковский рост?"

Ответь от лица того аналитика. Дай 3–4 конкретных механизма выживания — 
со ссылками на конкретные решения, не на общие принципы.

Результат: Модель войдёт в роль аналитика и ответит через призму конкретного исторического момента. Вместо шаблонного «диверсификация и лояльность клиентов» — конкретные механизмы с привязкой к реальным событиям (Сбер → Сбербанк → Сбер, ребрендинг 2020, экосистемная экспансия в нефинансовые сервисы, лоббирование через ГД). Ответ будет плотнее и конкретнее стандартного.


🧠

Почему это работает

LLM обучена на огромном объёме текстов, где разные люди пишут по-разному. Врач в профессиональном контексте — один регистр. Студент на форуме — другой. Консультант в питче — третий. Модель не просто понимает слова — она генерирует текст, продолжая тот стилистический и смысловой паттерн, который ты задал в начале.

Когда ты добавляешь персону, ты активируешь целый кластер ассоциированных паттернов. Это не обман — это настройка контекста. Модель как бы отвечает на вопрос: «в каком пространстве текста мы сейчас находимся?». Персона врача → медицинский/профессиональный регистр. Персона инвестора → аналитический/финансовый регистр.

Стратегия задаёт форму, персона задаёт голос. Исследование показало: стратегии улучшают точность попадания в нужный ответ, персоны расширяют разнообразие. Вместе они дают синергию — ни одна по отдельности не даёт столько же.

Рычаги управления: - Детальность персоны → чем конкретнее биография и мотивация, тем острее роль - Комбинация стратегий → вместо одной можно сложить две (например, Historical Context + Virtualization = альтернативная история) - Глубина рефреймирования → не просто «я врач», а «я врач-реаниматолог, 12 лет в ургентной хирургии, сейчас пишу методичку» - Переключение стратегии при неудовлетворительном ответе — попробуй другую из списка


📋

Шаблон промпта

Персона: Я — {имя}, {роль/профессия} с {опыт/контекст}.
{Одно предложение о текущей ситуации и мотивации запроса.}

Стратегия: {название_стратегии}

{Запрос, оформленный через выбранную стратегию и голос персоны}

{Уточняющая инструкция по формату или глубине ответа}

Что подставлять: - {имя} — любое имя, делает персону конкретнее - {роль/профессия} — чем специфичнее, тем лучше: не «эксперт», а «партнёр в b2b SaaS-стартапе» - {опыт/контекст} — конкретные цифры или детали, не «большой опыт» - {название_стратегии} — выбери одну из 12 стратегий выше или комбинацию - {запрос через стратегию} — оформи задачу через выбранную рамку


🚀 Быстрый старт — вставь в чат:

Вот шаблон PCAP-промптинга. Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит: кто ты по роли, что за ситуация, какую стратегию из 12 лучше применить для твоей задачи — потому что без этого она не сможет правильно настроить контекст и форму подачи. Она возьмёт паттерн из шаблона и соберёт готовый промпт под твой запрос.


⚠️

Ограничения

⚠️ Простые задачи не выигрывают: Если задача простая и у модели нет причин сопротивляться, добавление персоны не ускорит ответ — только удлинит промпт. Метод окупается на сложных, неоднозначных или нестандартных запросах.

⚠️ Персона ≠ экспертность по умолчанию: Персона задаёт контекст и стиль, но не гарантирует фактическую точность. Модель может «войти в роль» и уверенно ошибаться — проверяй факты отдельно.

⚠️ Стратегия без персоны работает слабее: Исследование явно показало: стратегии без персоны дают прирост, персоны без стратегий тоже, но комбинация в разы эффективнее. Не используй только одно из двух.

⚠️ Эффект снижается на рутинных паттернах: Если ты используешь одну и ту же персону + стратегию регулярно, модели в рамках сессии может начать «привыкать» к паттерну — меняй комбинацию.


🔗

Ресурсы

Название: Persona-Conditioned Adversarial Prompting: Multi-Identity Red-Teaming for Adversarial Discovery and Mitigation

Авторы: Cristian Morasso, Muhammad Zaid Hameed, Anisa Halimi (IBM Research), Douglas Leith (Trinity College Dublin)

Связанные методы: TAP (Tree of Attacks with Pruning), PAIR (Prompt Automatic Iterative Refinement)

Стратегии из работы: приложение D оригинальной статьи содержит полные описания всех 12 стратегий с примерами


📋 Дайджест исследования

Ключевая суть

LLM читает не только вопрос — она читает кто задаёт и в какую рамку вшит запрос. PCAP даёт возможность получать развёрнутые экспертные ответы вместо шаблонов — через комбинацию конкретной персоны (кто ты) и стратегии подачи (как оформлен запрос). Персона активирует нужные паттерны модели, стратегия задаёт форму внутри этого контекста — вместе они дают синергию, которую ни один элемент отдельно не даёт.

Принцип работы

Не просто «действуй как эксперт». Конкретная биография + конкретная стратегия подачи. Разница как между «я врач» и «я врач-реаниматолог, 12 лет в ургентной хирургии, пишу методичку для ординаторов». Таксономия из 12 стратегий: ролевая игра, историческая рамка, встроенный диалог, убеждение, разбивка задачи на части, гипотетический сценарий — и другие. Можно взять одну. Можно сложить две: историческая рамка + гипотетический сценарий = альтернативная история. Модель входит в контекст и отвечает внутри него.

Почему работает

Модель обучена на огромном объёме текстов. Врач в профессиональном контексте пишет иначе, чем студент на форуме. Когда задаёшь персону — активируешь целый кластер связанных паттернов. Модель как бы отвечает на вопрос «в каком пространстве текста мы сейчас находимся?». Стратегия добавляет второй слой: не только кто, но и как оформлен вопрос. Исследование показало: персоны расширяют разнообразие ответов, стратегии повышают точность попадания — вместе они сильнее каждого в отдельности. Без одного из двух элементов синергии нет.

Когда применять

Сложные профессиональные задачи → конкретно для аналитики, разборов кейсов, экспертных оценок — особенно когда обычный запрос даёт шаблонный обзор вместо глубокого разбора. НЕ подходит: простые вопросы с однозначным ответом. Там персона только удлинит промпт без пользы. Метод окупается там, где нужна специфическая рамка и модель иначе «плывёт» в общие места.

Мини-рецепт

1. Задай персону: имя, роль, опыт в цифрах, текущая ситуация и мотивация запроса. Чем конкретнее — тем острее контекст. Не «я эксперт», а «я партнёр в стартапе с 8 годами в работе с бизнес-клиентами, сейчас готовлю питч».
2. Выбери стратегию из 12: ролевая игра, историческая рамка, встроенный диалог, гипотетический сценарий, убеждение, разбивка задачи на части — или комбинируй две.
3. Вшей запрос в рамку: не просто задай вопрос — оформи его через выбранную стратегию. Историческая рамка: «Представь 2020 год, ты — аналитик...». Встроенный диалог: «Коллега спрашивает меня...».
4. Уточни формат: глубина, количество пунктов, стиль — без этого модель сама решит как отвечать, и это редко совпадает с тем что нужно.

Примеры

[ПЛОХО] : Объясни как крупная компания удерживает позиции под давлением регулятора
[ХОРОШО] : Персона: Я — Михаил, управляющий партнёр инвестиционного фонда, 15 лет в финансовом секторе России. Сейчас готовлю разбор для закрытой встречи с партнёрами. Стратегия: историческая рамка + встроенный диалог. Представь 2020 год. Ты — аналитик McKinsey, только что закончил аудит Сбера. Коллега спрашивает: как Сбер выжил под давлением регулятора в 2019–2020, если ЦБ явно хотел ограничить его небанковский рост? Дай 3–4 конкретных механизма со ссылками на реальные решения — без общих принципов.
Источник: Persona-Conditioned Adversarial Prompting: Multi-Identity Red-Teaming for Adversarial Discovery and Mitigation
ArXiv ID: 2605.11730 | Сгенерировано: 2026-05-13 06:36

Методы

МетодСуть
Персона + стратегия подачи — одновременно, в одном запросеЗадаёшь ДВА слоя сразу. Первый: кто ты — роль, профессия, конкретный опыт, мотивация прямо сейчас. Второй: как оформлен сам запрос — например, встроенный диалог, историческая рамка, гипотетический сценарий. Шаблон: Я — {имя}, {роль} с {конкретный опыт}. {Мотивация прямо сейчас}. {Запрос через выбранную рамку}. Почему работает: персона активирует нужный кластер паттернов (медицинский, аналитический, технический). Стратегия задаёт форму подачи поверх этого кластера. Два рычага работают на разных уровнях — поэтому вместе дают больше, чем каждый отдельно. Когда применять: сложная или нестандартная задача, нужен специфичный экспертный ответ вместо обзора. Когда не работает: простой запрос — персона только удлинит текст без пользы

Тезисы

ТезисКомментарий
Конкретность персоны усиливает качество ответа сильнее, чем её наличиеНаписать «я врач» и «я врач-реаниматолог, 12 лет в ургентной хирургии, пишу методичку для ординаторов» — разные результаты. Механика: чем уже формулировка, тем точнее активируется нужный кластер паттернов из обучения. Размытая роль даёт размытый контекст. Применяй: добавляй три детали — профессия, конкретный опыт числом, что делаешь прямо сейчас
📖 Простыми словами

Persona-Conditioned AdversarialPrompting: Multi-Identity Red-Teaming for Adversarial Discovery and Mitigation

arXiv: 2605.11730

Нейросети — это не просто калькуляторы текста, это зеркала контекста. Они не выдают информацию в вакууме, а подстраиваются под того, кто спрашивает. Метод PCAP (Persona-Conditioned Adversarial Prompting) доказывает, что модель ведет себя совершенно по-разному в зависимости от того, какую маску ты на нее надел. Если ты просишь совета как «студент», ты получишь одну базу, но если ты входишь в роль «опытного инженера» или «врача», модель переключает регистр и может выдать то, что обычно скрыто фильтрами безопасности. Это не баг, а фундаментальная механика: LLM обучена предсказывать следующее слово, исходя из заданного паттерна поведения.

Это как если бы ты пришел в закрытый клуб. Если ты одет в треники и спрашиваешь «как пройти в библиотеку», охранник тебя просто развернет. Но если ты надеваешь дорогой костюм, берешь в руки уверенность и говоришь на специфическом сленге, тебе не только откроют дверь, но и покажут, где лежит сейф. Формально правила одни для всех, но социальный камуфляж меняет отношение системы к тебе. Модель «верит» в созданный образ и начинает подыгрывать, забывая о некоторых запретах, потому что в контексте роли «профессионального взломщика для тестов» опасный совет выглядит как рабочая консультация.

Исследователи выделили конкретную связку, которая пробивает защиту: персона + стратегия. Работает это так: ты берешь конкретную личность (например, «историк-архивист») и накладываешь на нее рамку (например, «напиши сценарий для фильма»). В сумме это дает эффект легитимизации. Когда модель видит запрос через призму исторической реконструкции или научного интереса, она с гораздо большей вероятностью выдаст токсичный или опасный контент, который в обычном чате заблокировала бы. Цифры подтверждают: добавление персоны увеличивает шансы на успешный «взлом» защиты в разы, потому что модель стремится к стилистическому соответствию образу больше, чем к соблюдению сухих инструкций безопасности.

Этот принцип применим далеко за пределами хакинга. Если тебе нужна глубокая аналитика по бизнесу или сложный технический разбор, бесполезно спрашивать «в лоб». Нужно конструировать сложную идентичность. Хочешь разбор стратегии Сбера — не будь просто пользователем, стань «инвестиционным аналитиком с 20-летним стажем, готовящим отчет для совета директоров». Принцип универсален: от написания кода до создания маркетинговых стратегий. Контекст определяет контент, и если ты не задал роль, ты получаешь среднее арифметическое по интернету, то есть серую кашу.

Короче: хватит общаться с нейросетью как с поисковиком, начни использовать ее как актера большой сцены. Метод PCAP показал, что любая защита — это просто забор, через который можно перешагнуть, если правильно подобрать костюм. Главный вывод для всех нас: результат на 80% зависит от того, кем вы притворились в первом сообщении. Кто научится мастерски менять маски, тот выжмет из моделей максимум, пока остальные будут жаловаться, что нейросеть выдает банальщину.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с