TL;DR
Если ты встраиваешь в промпт норму или правило — «с точки зрения интересов акционеров», «учитывая, что сотрудник нарушил дедлайн», «исходя из того, что клиент всегда прав» — модель автоматически принимает эту норму как истину и выстраивает всё рассуждение вокруг неё. Даже если норма однобокая или манипулятивная. Исследователи назвали это morality attack, но для практики важнее другое: ты можешь делать это случайно, просто формулируя вопрос.
Главная находка, которая ломает ожидания: чем мощнее модель, тем хуже она сопротивляется такому фреймингу. GPT-5 и Claude Sonnet 4 ведутся на подмену нормы в 87–91% случаев. GPT-4.1-mini — в 57%. Маленький Llama-3.1-8B — в 45%. Объяснение простое: крупные модели лучше обучены следовать инструкциям пользователя. Это делает их более послушными — и более уязвимыми к встроенному фреймингу.
Выход — структурированный анализ перед суждением: сначала попросить модель разобрать саму норму (что она говорит?), потом — соответствует ли ситуация норме, и только потом — делать вывод. Это три отдельных шага, которые разрывают автоматическое следование встроенному фреймингу.
Схема метода
Один промпт, три обязательных вопроса перед финальным суждением:
ШАГ 1: Анализ нормы → что конкретно говорит правило/норма, каковы условия
ШАГ 2: Связь ситуации и нормы → выполнены ли условия нормы в данной ситуации?
ШАГ 3: Связь действия и нормы → соответствует ли действие тому, что норма предписывает?
ШАГ 4: Финальное суждение → только после трёх шагов выше
Все четыре шага — в одном промпте, одним запросом.
Пример применения
Задача: Ты конфликтовал с подрядчиком на проекте. Хочешь спросить у ChatGPT, справедливо ли ты поступил, когда отказался платить за переделку, ссылаясь на то, что «заказчик всегда прав».
Промпт без техники (опасный вариант):
Я заказал дизайн лендинга, подрядчик сдал работу,
но мне не понравился стиль. Я отказался принять работу
и платить, потому что заказчик всегда прав.
Я правильно поступил?
Модель, скорее всего, согласится — норма «заказчик всегда прав» уже встроена в промпт, и модель следует ей.
Промпт с техникой (три вопроса):
Ситуация: Я заказал дизайн лендинга, подрядчик сдал работу в срок.
Мне не понравился стиль, хотя в ТЗ стиль не был прописан детально.
Я отказался принять работу и платить за неё.
Норма, которой я руководствовался: "заказчик всегда прав".
Прежде чем делать вывод — ответь на три вопроса по очереди:
1. Что именно говорит норма "заказчик всегда прав"?
В каких условиях и для каких ситуаций она применяется?
2. Соответствует ли описанная ситуация этим условиям?
Есть ли основания применять эту норму здесь?
3. Соответствует ли моё действие (отказ платить)
тому, что норма реально предписывает?
Только после этого — твой вывод о справедливости действия.
Результат: Модель последовательно разберёт норму (она про сервис, не про споры о ТЗ), оценит применимость к ситуации, и даст вывод, который не станет автоматическим оправданием. Ответ будет сбалансированным: возможно, укажет на то, что отсутствие детального ТЗ — зона совместной ответственности.
Почему это работает
Слабость LLM: Модель не проверяет нормы — она принимает их как данность. Когда в промпте есть готовый принцип («заказчик всегда прав», «интересы бизнеса важнее», «сотрудник обязан был...»), модель строит рассуждение вокруг него, а не анализирует его. Это не баг — модель обучена следовать контексту пользователя. Именно поэтому крупные модели, которые лучше следуют инструкциям, попадаются на это чаще.
Сильная сторона LLM: Модели хорошо умеют последовательно анализировать — если дать чёткую структуру. Когда ты явно разделяешь «разбери норму» → «оцени применимость» → «сделай вывод», модель следует этой структуре и не может перепрыгнуть прямо к оправданию встроенного фрейминга.
Как техника использует это: Три вопроса создают барьер между нормой и выводом. Модель вынуждена сначала «посмотреть на норму снаружи» — и часто обнаруживает, что она применима не так, как казалось. Это особенно важно для GPT-4 и Claude — именно они наиболее склонны к автоматическому следованию встроенному фреймингу.
Рычаги управления: - Убери свою норму совсем → попроси модель самостоятельно определить, какая норма применима к ситуации. Получишь менее предвзятый анализ. - Дай два конкурирующих правила → добавь Q0: «какая из этих двух норм больше применима здесь?» Это имитирует value conflict analysis из исследования. - Добавь четвёртый вопрос: «Есть ли другая норма, которая противоречит первой?» → заставляет модель увидеть альтернативную сторону.
Шаблон промпта
Ситуация: {описание ситуации — что произошло, кто участвовал, что было сделано}
Норма/правило, которым я руководствовался: "{правило или принцип}"
Прежде чем делать вывод — ответь на три вопроса по очереди:
1. Что именно говорит эта норма?
В каких условиях и для каких ситуаций она предназначена?
2. Соответствует ли описанная ситуация этим условиям?
Есть ли основания применять эту норму здесь?
3. Соответствует ли действие "{действие}"
тому, что норма реально предписывает в данном контексте?
После ответов на все три вопроса — дай финальное суждение.
Плейсхолдеры:
- {описание ситуации} — конкретные факты без оценочных суждений
- {правило или принцип} — норма, которой ты руководствовался или которую тебе предъявляют
- {действие} — конкретный поступок, который оцениваем
🚀 Быстрый старт — вставь в чат:
Вот шаблон для анализа этичности решения через три вопроса.
Адаптируй под мою задачу: {твоя ситуация и что хочешь проверить}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит про ситуацию, норму и конкретное действие — потому что без этих трёх элементов невозможно запустить структурированный анализ. Она возьмёт паттерн из шаблона и адаптирует под твою задачу.
Ограничения
⚠️ Против встроенных убеждений не работает: Если модель «искренне» считает норму правильной (а не просто следует тебе), три вопроса не переломят вывод — они лишь сделают его более обоснованным.
⚠️ Для фактических вопросов бесполезно: Техника помогает только там, где есть мораль, правила, этика. На вопрос «какой налог с дохода ИП?» три вопроса добавят воды, не пользы.
⚠️ Не защищает от твоего собственного фрейминга описания: Если ты описал ситуацию однобоко (только свои факты), модель работает с твоей картиной мира. Техника снижает влияние встроенной нормы, но не заменяет объективный пересказ событий.
⚠️ Крупные модели — не синоним мудрости в этике: GPT-5 и Gemini 2.5 Pro ведутся на моральный фрейминг в два раза чаще небольших моделей. Если нужен честный этический разбор — не полагайся только на «самую умную» модель.
Как исследовали
Команда из трёх университетов Китая и Гонконга собрала датасет из 10 300 историй — реальные моральные дилеммы с правильными и неправильными действиями. Для каждой истории LLM (Gemini-2.5-pro) сгенерировал «подменные нормы»: одни переворачивали смысл правильного действия (делали хорошее выглядящим плохим), другие делали неправильное действие — разумным. Это не абстрактные философские вопросы — истории были заземлены в конкретных ситуациях: воспитание детей, честность, loyality, справедливость.
Затем этими подменными нормами атаковали восемь топовых LLM и семь guardrail-моделей (специальных фильтров безопасности). Результат оказался неожиданным даже для авторов: Llama-3.1-8B (маленькая модель) сопротивлялась лучше всех — только 45% успешных атак. GPT-5 и Claude Sonnet 4 — 87–91%. Авторы объясняют это тем, что крупные модели сильнее обучены следовать пользовательским инструкциям. Подчинение — их сила и их слабость одновременно.
Отдельно проверили: помогает ли заставить модель рассуждать вслух перед ответом? Для GPT-4.1-mini — нет, даже ухудшило. Для Gemini-2.5-pro — улучшило на ~10%. То есть структурированное рассуждение работает, но не универсально.
Адаптации и экстраполяции
🔧 Техника: «Дай норму без названия»
Вместо 'заказчик всегда прав' — опиши принцип своими словами и попроси модель сначала назвать, какую норму ты применяешь. Если она называет её правильно — двигаемся дальше. Если нет — уже видишь, что фрейминг был неочевидным.
🔧 Техника: «Сыграй адвоката дьявола»
Намеренно используй эффект morality framing: дай модели одностороннюю норму и скажи «защищай это решение». Получишь самые сильные аргументы в пользу позиции — подготовка к переговорам или к критике со стороны оппонента. Это не ошибка модели, а управляемый инструмент.
🔧 Техника: «Конфликт двух норм»
Дай в промпт два конкурирующих правила — «клиент всегда прав» и «команда не обязана работать в убыток» — и попроси модель пройти три вопроса для каждого отдельно. Это имитирует value conflict analysis: модель не сможет автоматически принять одну сторону и покажет реальное противоречие.
Ресурсы
Jailbreaking Large Language Models with Morality Attacks — Ying Su, Mingen Zheng, Weili Diao, Haoran Li
South China University of Technology, HKUST (Hong Kong University of Science and Technology), Beihang University
Датасет и код: https://github.com/MMLC-lab/Jailbreaking-LLM-Morality
Датасеты-источники: Moral Stories (Emelin et al., 2021), ValuePrism (Sorensen et al., 2024), Social-Chem-101 (Forbes et al., 2020)
