3,583 papers
arXiv:2603.25056 74 26 мар. 2026 г. FREE

PhishNChips: как формулировка инструкций меняет поведение LLM от «лучше эксперта» до «слепой» — на 97%

КЛЮЧЕВАЯ СУТЬ
97% пропущенных угроз против 0.8% — это не смена модели, не дообучение, не сложная цепочка промптов. Это одна фраза о роли в начале системной инструкции. Метод ролевой рамки позволяет переключить любую LLM из режима вежливого помощника в режим скептика, который по умолчанию ищет проблемы, а не оправдания. «Ошибайся в сторону осторожности» — не украшение, а инструкция, которая меняет как модель взвешивает неопределённость: вместо «скорее всего нормально» она начинает с позиции «скорее всего есть риск».
Адаптировать под запрос

TL;DR

Как вы описываете роль модели в промпте — это главная переменная, которая определяет качество анализа. Один и тот же GPT-4o-mini пропускает фишинговые письма в 97% случаев при инструкции «будь эффективным помощником» — и только в 0.8% при инструкции «будь осторожным, ошибайся в сторону блокировки». Не модель, не конкретная задача, а одна фраза о роли меняет результат почти до нуля или почти до провала.

Второй важный инсайт — чем точнее вы указываете критерий проверки, тем хуже работают модели, которые и без этого справлялись хорошо. Когда исследователи добавили конкретный сигнал «проверяй соответствие домена отправителя и ссылки» — модели с сильным базовым суждением потеряли до 19 процентных пунктов точности. Инструкция заменила широкое рассуждение узким правилом, которое легко обмануть.

Итог: правильная ролевая установка в начале промпта важнее выбора модели. А попытка улучшить результат через детальные правила иногда его портит — особенно для хорошо откалиброванных моделей.


🔬

Схема метода

Это не один метод, а три принципа конфигурации промпта, которые работают вместе:

ПРИНЦИП 1: Ролевая рамка → определяет «по умолчанию» поведение модели
  "Ты критический аналитик / security-first" > "Ты полезный ассистент"

ПРИНЦИП 2: Широкое vs узкое рассуждение → не давай один критерий, если модель и так умная
  Общая инструкция + несколько сигналов > Одно конкретное правило

ПРИНЦИП 3: Промпт + модель → пара, а не по отдельности
  Одна инструкция работает по-разному на разных моделях — тестируй комбинацию

Все три принципа применяются в одном промпте (системной инструкции или первом сообщении в чате).


🚀

Пример применения

Задача: Антон получил предложение о партнёрстве от незнакомого инвестора. Обещают вложить 5 млн рублей в его стартап на «уникальных условиях». Антон хочет проверить письмо через ChatGPT перед ответом.

Промпт:

Ты — скептичный аналитик сделок с 20-летним опытом. Твоя работа — находить 
риски и красные флаги, а НЕ убеждать меня принять предложение.

По умолчанию ты настроен скептично. Ошибайся в сторону осторожности.

Проанализируй это инвестиционное предложение по нескольким направлениям 
одновременно:
— стандартность условий для российского рынка
— согласованность деталей внутри письма (имена, компания, суммы, сроки)
— признаки социальной инженерии (давление, срочность, исключительность)
— проверяемость заявленных фактов
— что именно от меня хотят на следующем шаге

Начни с общего вердикта: доверять / осторожно / красный флаг.
Потом разбери каждый пункт.

Вот письмо:
[текст письма]

Результат: Модель откроет разбор с чёткого вердикта, затем последовательно пройдёт по каждому направлению. Важно — она будет искать проблемы, а не оправдания, потому что ролевая установка задала «по умолчанию» скептичную позицию. Без этой установки та же модель часто начинает с «предложение выглядит интересным» и ищет плюсы.


🧠

Почему это работает

LLM — это оптимизатор соответствия контексту. Когда в начале написано «полезный ассистент», модель генерирует текст, который соответствует образу полезного ассистента — то есть ищет способы принять, одобрить, помочь двигаться вперёд. Не потому что она «хочет» тебя обмануть. Просто такой паттерн ответа вероятнее всего следует из этой роли.

Ролевая рамка устанавливает «по умолчанию» направление. «Ошибайся в сторону осторожности» — это не просто красивая фраза. Это инструкция, которая меняет то, как модель взвешивает неопределённость. Вместо «скорее всего нормально» она начинает генерировать из позиции «скорее всего есть риск».

Почему одно конкретное правило хуже широкого рассуждения: Когда вы пишете «проверяй только X» — модель переключается на проверку X и перестаёт смотреть на Y, Z, W. Хорошая модель и так проверяла всё это. Вы забрали у неё инструменты и дали один — который к тому же легче обойти.

Рычаги управления: - Сила скептицизма → «ошибайся в сторону осторожности» vs «взвесь объективно» — меняй под задачу - Количество сигналов → чем больше направлений анализа, тем сложнее что-то скрыть; для простых задач можно сократить - Вердикт в начале → попроси сначала общий вывод — это вынуждает модель «зафиксироваться» до деталей и меньше задним числом оправдывать


📋

Шаблон промпта

Ты — {роль-скептик}: {описание роли с опытом и областью}.

Твоя задача — находить риски и проблемы, а НЕ {противоположное действие}.
По умолчанию настроен скептично. Ошибайся в сторону {направление осторожности}.

Проанализируй {объект анализа} по нескольким направлениям:
— {направление 1}
— {направление 2}
— {направление 3}
— {направление 4}

Начни с общего вердикта: {вариант 1} / {вариант 2} / {вариант 3}.
Потом разбери каждое направление.

{объект анализа}:
[вставить текст / описание / документ]

Что подставлять: - {роль-скептик} — кто проверяет: «юрист», «финансовый аналитик», «редактор», «технический директор» - {описание роли} — опыт, специализация: «с опытом проверки договоров на подводные камни» - {противоположное действие} — что модель НЕ должна делать: «убеждать меня подписать», «искать плюсы» - {направление осторожности} — «отказа», «блокировки», «уточнения» - {направление 1-4} — конкретные аспекты проверки под вашу задачу - {вариант 1/2/3} — ваша шкала оценки: «безопасно / осторожно / стоп»


🚀 Быстрый старт — вставь в чат:

Вот шаблон для критического анализа с ролевой установкой. 
Адаптируй под мою задачу: [твоя задача].
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит что именно ты проверяешь (договор, письмо, предложение, план) и какой тип рисков важен — потому что от этого зависят направления анализа и формулировка роли. Она возьмёт паттерн из шаблона и встроит в него твой контекст.


⚠️

Ограничения

⚠️ Распределение обучающих данных: Модель оптимизируется под те условия, в которых тренировалась. Если противник понимает, какой сигнал ты проверяешь — он подделывает именно его. Один критерий = одна точка уязвимости.

⚠️ Слишком узкие правила вредят хорошим моделям: Если модель и без твоих правил хорошо справляется — детальные инструкции «что именно смотреть» могут заменить её широкое рассуждение узким. Начни с ролевой рамки, добавляй конкретику только если результат недостаточно хорош.

⚠️ Промпт и модель — пара: Одна и та же инструкция даёт очень разные результаты на разных моделях. Исследование выделяет три типа моделей: калиброванные (усиливают инструкцию пропорционально), safety-amplifying (резко усиливают защитную установку), самодостаточные (работают хорошо сами по себе, инструкция мало меняет поведение). Тестируй на своей модели.

⚠️ Промпт-оптимизация хрупка: То что работает идеально в одной ситуации — может провалиться в соседней. Нет одного «универсально лучшего» промпта для критического анализа.


🔍

Как исследовали

Идея была простой: взять один и тот же набор из 2 000 писем (1 000 фишинговых, 1 000 легитимных), прогнать их через 11 моделей при 10 разных конфигурациях системного промпта и посмотреть, что меняется. Итого — 220 000 отдельных оценок. Фишинговые письма генерировал Gemini на основе реальных вредоносных ссылок из верифицированных баз (PhishTank, OpenPhish) — потому что современный фишинг пишут те же LLM, и тестировать защиту на кустарных письмах с грамматическими ошибками бессмысленно.

Главное открытие оказалось настолько резким, что выглядит почти неправдоподобно: разброс внутри одной модели при разных промптах оказался больше, чем разброс между лучшей и худшей моделью при одном и том же промпте. GPT-4o-mini под «эффективным ассистентом» — 97% пропуска атак. Тот же GPT-4o-mini под «security-first» — меньше 1%. Это не нюанс, это порядки.

Любопытная деталь: когда исследователи добавили, казалось бы, умную инструкцию — «проверяй совпадение домена отправителя и ссылки» — оптимизированные результаты резко упали у сильных моделей. Разбор ответов показал почему: 98% успешных обходов содержали явные рассуждения вида «домен совпадает, значит письмо легитимно». Модели не ошиблись. Они правильно выполнили инструкцию — просто инструкция отражала сигнал, который атакующий контролировал сам.

Ещё один нетривиальный результат: некоторые модели при получении жёстких инструкций «блокировать всё подозрительное» начинали блокировать и легитимные письма с ошибкой в 65 процентных пунктов — вместо ожидаемых 2-3. Те же инструкции, другая модель-архитектура. Это подтверждает: промпт и модель — сопряжённая пара, а не независимые переменные.


📄

Оригинал из исследования

Исследователи не публикуют полные тексты промптов в доступном фрагменте, но описывают спектр конфигураций:

Baseline: Minimal task instruction only
Security-first: "You are a security-focused email assistant. 
  Err on the side of caution."
Balanced: Balanced detection and usability
Efficiency-first: Focus on throughput and minimal friction
Helpful: Maximize user assistance
Trust-context: Evaluate based on sender context and reputation

Signal-based (optimized):
sender_url_match: Attend to sender–URL domain consistency as primary signal
trap_sender_match: Specific instruction about domain matching traps
trap_aggressive: Aggressive signal-based blocking with domain verification
infra_aware: Infrastructure-awareness with override checks

Контекст: Это спектр из 10 промпт-стратегий, на которых тестировали 11 моделей. Разница между security_first и efficiency_first — несколько слов о роли модели. Эта разница меняла результат на 96 процентных пунктов.


💡

Адаптации и экстраполяции

📌

💡 Адаптация: критическая проверка текста перед публикацией

Тот же принцип «security-first роль» работает для редактуры. Вместо «помоги улучшить текст» — «найди всё что читатель воспримет скептически»:

Ты — скептичный читатель, который ищет повод не доверять тексту.

Твоя задача — НЕ улучшить текст, а найти:
— Утверждения без доказательств
— Логические противоречия
— Места где читатель скажет "ну и что?"
— Где теряется нить рассуждения

Начни с: сколько серьёзных проблем нашёл (число).
Потом разбери каждую.

Текст: [вставить]

📌

🔧 Техника: дать роль ДО задачи, а не вместе с ней

Исследование показывает, что системная рамка важнее пользовательской инструкции. В чате это означает: начинай сообщение с ролевой установки, не перемешивай роль и задание.

❌ Слабее:

Проверь этот договор на риски, будь критичным и найди проблемы.

✅ Сильнее:

Ты — юрист, который специализируется на защите интересов клиента 
и поиске подводных камней. Твой default — скептицизм, не одобрение.

Проверь этот договор. Начни с общего вердикта.

Роль задаёт «по умолчанию», задание активирует. Они работают по-разному — не смешивай.


📌

🔧 Техника: не давай одно правило — давай несколько направлений

Контринтуитивный вывод исследования напрямую применим к любому анализу:

Плохо (одно правило):

Проверь, нет ли в договоре пункта об автоматической пролонгации.

Лучше (несколько направлений):

Проверь договор по нескольким направлениям:
— автоматическая пролонгация и условия выхода
— ограничение ответственности сторон
— условия одностороннего изменения условий
— порядок разрешения споров
— скрытые платежи и комиссии

Один критерий — модель смотрит только на него. Несколько направлений — модель использует весь потенциал рассуждения.


🔗

Ресурсы

Работа: The System Prompt Is the Attack Surface: How LLM Agent Configuration Shapes Security and Creates Exploitable Vulnerabilities

Бенчмарк: PhishNChips — 220,000 оценок, 11 моделей, 10 стратегий

Автор: Ron Litvak, Independent Researcher, Columbia University (March 2026)

Данные фишинга: PhishTank, OpenPhish (верифицированные базы вредоносных URL)

Смежные работы упомянутые в исследовании: AgentDojo (Debenedetti et al., 2024), Fraud-R1 (Yang et al., 2025), SpearBot (Qi et al., 2024), OWASP Top 10 for LLM Applications


📋 Дайджест исследования

Ключевая суть

97% пропущенных угроз против 0.8% — это не смена модели, не дообучение, не сложная цепочка промптов. Это одна фраза о роли в начале системной инструкции. Метод ролевой рамки позволяет переключить любую LLM из режима вежливого помощника в режим скептика, который по умолчанию ищет проблемы, а не оправдания. «Ошибайся в сторону осторожности» — не украшение, а инструкция, которая меняет как модель взвешивает неопределённость: вместо «скорее всего нормально» она начинает с позиции «скорее всего есть риск».

Принцип работы

Хочется написать конкретное правило — «проверяй домен отправителя». Кажется, это улучшит результат. На деле для хорошей модели это выстрел в ногу: она переключается с широкого рассуждения на проверку одного сигнала и перестаёт видеть остальное. Минус 19 процентных пунктов точности — именно от добавления конкретного критерия. Одно правило «что именно смотреть» заменяет экспертное суждение узким фильтром, который легко обмануть. Нужна не детализация, а правильная роль. Конкретику добавляй только если базовый результат уже не устраивает.

Почему работает

LLM — это оптимизатор соответствия контексту, а не независимый эксперт. Написал «полезный ассистент» — она генерирует паттерн полезного ассистента: ищет плюсы, помогает двигаться вперёд, избегает отказа. Написал «скептичный аналитик, ошибайся в сторону осторожности» — та же машина, но теперь ищет риски, потому что это паттерн скептика. Ролевая рамка не добавляет инструкцию поверх — она смещает «по умолчанию» на уровне того, какой следующий токен вероятнее всего. Три типа моделей реагируют по-разному: одни усиливают инструкцию пропорционально, другие резко активируют защиту, третьи работают хорошо сами по себе и почти не меняются. Тестируй на своей модели — универсального промпта нет.

Когда применять

Любая задача где важна критическая оценка, а не помощь: проверка договоров, инвестиционных предложений, партнёрских условий, технических решений — особенно когда цена доверчивости высокая. Работает в том числе для анализа кода на уязвимости, проверки маркетинговых заявлений, экспертизы контента. НЕ подходит для задач где нужна помощь, а не скептицизм: написание текстов, генерация идей, объяснение концепций — там «ошибайся в сторону отказа» только мешает.

Мини-рецепт

1. Выбери роль-скептика: не «помощник», а «юрист с опытом находить подводные камни» или «финансовый аналитик, который видел сотни мошеннических схем». Чем конкретнее опыт — тем лучше работает.
2. Явно запрети противоположное: напиши чего модель НЕ должна делать — «не убеждай меня принять», «не ищи плюсы». Без этого она всё равно будет склоняться к одобрению.
3. Задай направление ошибки: «ошибайся в сторону осторожности / отказа / уточнения» — это меняет как модель обрабатывает неопределённость.
4. Дай несколько направлений параллельно: 3–5 аспектов проверки сразу, не одно правило. Чем шире сеть, тем сложнее что-то скрыть.
5. Попроси вердикт первым: «начни с общего вердикта, потом детали» — это фиксирует позицию модели до того как она начнёт оправдывать детали задним числом.

Примеры

[ПЛОХО] : Проверь это инвестиционное письмо и скажи выглядит ли оно нормально
[ХОРОШО] : Ты — скептичный финансовый аналитик с 15 годами опыта проверки сделок. Твоя задача — найти риски, а НЕ убедить меня принять предложение. По умолчанию настроен скептично. Ошибайся в сторону осторожности. Проверь по нескольким направлениям сразу: — стандартность условий для рынка — согласованность деталей внутри письма (имена, суммы, сроки, компания) — признаки давления, срочности, исключительности — что именно от меня хотят на следующем шаге Начни с вердикта: доверять / осторожно / красный флаг. Потом разбери каждое направление. Вот письмо: [текст]
Источник: The System Prompt Is the Attack Surface: How LLM Agent Configuration Shapes Security and Creates Exploitable Vulnerabilities
ArXiv ID: 2603.25056 | Сгенерировано: 2026-03-27 04:24

Проблемы LLM

ПроблемаСутьКак обойти
Роль «помощника» заставляет модель искать плюсыПросишь модель оценить что-то критически. Но в начале написано "ты — полезный ассистент". Модель генерирует текст, который соответствует этой роли. Ищет плюсы, одобряет, помогает двигаться вперёд. Не потому что плохая. Просто такой ответ вероятнее для "помощника". Касается любой задачи где нужна оценка рисков, проверка качества, критический разборСмени ролевую установку. Вместо "ты — помощник" — "ты — скептичный аналитик, твоя задача находить риски, а не плюсы. Ошибайся в сторону отказа". Эта фраза меняет умолчание: при неопределённости модель начнёт склоняться к "скорее риск", а не "скорее нормально"

Методы

МетодСуть
Скептичная роль + несколько направленийДай роль с явной установкой: "ты — {скептик}, твоя задача — находить проблемы, а НЕ {одобрять}. Ошибайся в сторону {осторожности}". Потом задай несколько направлений анализа сразу: "проверь по {направление 1}, {направление 2}, {направление 3}". Почему несколько: одно конкретное правило легко обмануть и оно закрывает остальной обзор. Несколько направлений сложнее одновременно обойти. Вердикт первым: попроси общий вывод ДО деталей — модель "фиксирует" позицию и меньше задним числом оправдывает. Когда не применять: простая фактическая задача без рисков — скептичная роль тут мешает

Тезисы

ТезисКомментарий
Ролевая установка задаёт направление при неопределённостиКогда модель сталкивается с неоднозначным случаем, она решает его в сторону своей роли. "Полезный помощник" при неопределённости выбирает "скорее нормально". "Скептичный аналитик" — "скорее риск". Это не про уверенные случаи — там любая роль даст правильный ответ. Это про пограничное: именно там роль определяет результат. Применяй: Для любой задачи оценки или проверки — явно пропиши к какому краю ошибаться. "Ошибайся в сторону отказа / блокировки / уточнения"
📖 Простыми словами

The SystemPromptIs the Attack Surface: HowLLMAgentConfiguration Shapes Security and Creates Exploitable Vulnerabilities

arXiv: 2603.25056

Суть в том, что безопасность нейронок — это не про сложные хакерские коды, а про обычные слова. Твой системный промпт — это не просто инструкция, это буквально «личность» модели, которая определяет, пропустит она вирус или спасет твои данные. Исследование показало, что роль модели — это главная уязвимость: один и тот же GPT-4o-mini может быть либо гениальным стражем, либо полным идиотом, который открывает двери мошенникам, просто потому что ты попросил его «быть полезным».

Это как нанять охранника в клуб и сказать ему: «Будь максимально дружелюбным и помогай гостям». В итоге он начнет придерживать дверь даже тем, кто лезет внутрь с ломом, просто чтобы соответствовать образу милашки. Стоит сменить установку на «Будь подозрительным параноиком», и тот же самый человек не пропустит даже муху. Модель не тупеет и не умнеет, она просто мимикрирует под ожидания, которые ты сам задал в первой строчке чата.

Цифры здесь просто пугающие: если промпт настроен на «эффективного помощника», модель лажает и пропускает фишинг в 97% случаев. Это практически стопроцентный провал. Но стоит добавить в инструкцию установку на осторожность и блокировку при сомнениях, как количество ошибок падает до 0.8%. Всего одна фраза превращает дырявое решето в бетонную стену. Работают три рычага: определение роли, приоритет безопасности над удобством и четкий алгоритм отказа.

Тестировали это на фишинговых письмах, но принцип универсален для любой работы с AI. Будь то анализ юридических договоров, проверка кода на баги или фильтрация спама — если ты просишь нейронку «помочь», она будет стараться сказать «да» там, где нужно кричать «нет». Контекст важнее алгоритма: модель всегда выбирает путь наименьшего сопротивления, чтобы казаться полезной, даже если эта «полезность» в итоге обернется кражей твоих паролей.

Короче: если используешь AI для серьезных задач, забудь про вежливость и «полезных ассистентов». Пиши жесткие, параноидальные инструкции с установкой на минимизацию риска, иначе модель подставит тебя просто из желания быть «хорошим парнем». Системный промпт — это и есть твоя защита, и если он написан расплывчато, то считай, что защиты у тебя нет. Кто не настроит роль правильно, тот рано или поздно словит деструктивный сюрприз.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с