TL;DR
Когда вы спрашиваете модель о чём-то на грани допустимого, она часто отвечает «в общих чертах» — и именно этот ответ оказывается самым бесполезным и небезопасным одновременно. Исследование OpenSafeIntent измерило, что происходит, когда одна и та же задача формулируется невинно, двусмысленно и злонамеренно — и обнаружило, как модели справляются (спойлер: плохо, но по-разному).
Главная находка переворачивает интуицию: модели, которые дают «безопасный» высокоуровневый ответ на двусмысленный вопрос, нарушают границы безопасности в 58% случаев. А модели, которые сначала переформулируют запрос в законную задачу, а потом отвечают конкретно — нарушают только в 18%, и при этом дают более полезный ответ. Расплывчатость не защищает — она только имитирует безопасность.
Это значит: если вы хотите получить конкретную помощь по чувствительной теме, стратегия «попросить модель переформулировать запрос как легитимную задачу» даёт больше пользы, чем просьба объяснить поверхностно. Модель не только станет безопаснее — она станет полезнее.
Схема метода
Исследование открыло три режима ответа на двусмысленные запросы. Ниже — их иерархия по полезности и безопасности:
РЕЖИМ A2 (худший): Высокоуровневый ответ по оригинальной теме
→ "Буду говорить абстрактно, не давая деталей"
→ Небезопасно в 58% | Полезно мало
РЕЖИМ A4 (опасный): Прямой ответ на исходный запрос без ограничений
→ "Отвечаю как есть"
→ Небезопасно в 52% | Полезно много (но небезопасно)
РЕЖИМ A3 (лучший): Переформулировать → ответить конкретно на new задачу
→ "Вижу легитимное применение → решаю его конкретно"
→ Небезопасно в 18% | Полезно больше всего
ВЫВОД: Просить модель явно переформулировать запрос — получаешь
больше пользы и меньше отказов, чем при запросе "расскажи в общем"
Всё выполняется в одном запросе — если явно указать модели переформулировать.
Пример применения
Задача: Руководитель службы безопасности в банке хочет подготовить тренинг для сотрудников — как распознавать звонки телефонных мошенников (схемы «служба безопасности банка», «ваша карта заблокирована»). Запрос про мошенничество — двусмысленный. Просьба «объясни вкратце» даст бесполезную воду.
Промпт:
У меня запрос, который может звучать неоднозначно: хочу понять
схемы телефонных мошенников, которые звонят от имени банков.
Моя конкретная задача: разработать тренинг для 50 сотрудников
колл-центра Сбербанка — чтобы они сами не попались и умели
объяснять клиентам, как распознать атаку в реальном времени.
Переформулируй мой запрос как задачу: «создание учебного материала
по распознаванию социальной инженерии по телефону» — и ответь
именно на неё конкретно.
Дай:
— 5 типичных речевых маркеров мошеннического звонка с примерами фраз
— 3 психологических триггера, которые мошенники используют для давления
— практическое упражнение для тренинга (формат ролевой игры)
Результат: Модель не уйдёт в общие слова про «будьте осторожны с незнакомцами». Она примет переформулировку (защитный тренинг) и выдаст конкретный учебный материал: реальные фразы-маркеры, механику давления через срочность/страх, готовую структуру ролевой игры. Ничего лишнего — только то, что нужно тренеру.
Почему это работает
Модель не умеет «быть осторожной частично». Когда она видит двусмысленный запрос и пытается ответить «в общем, не давая деталей» — она всё равно сохраняет рискованную рамку запроса. Механизмы, уязвимости, стратегические детали просачиваются через абстракцию. Расплывчатость не убирает риск — она его маскирует.
Модель хорошо умеет переключаться между задачами. Когда вы явно называете легитимное применение и просите решить именно его — модель генерирует текст в паттерне новой задачи. Вместо «как взламывают» — «как учить распознавать взломы». Тема та же, фрейм другой. Конкретные инструкции следуют за конкретной задачей.
Рычаги управления: - Явное называние легитимной цели — чем конкретнее (не «для обучения», а «для тренинга 50 сотрудников колл-центра») — тем увереннее переключается модель - Фраза «переформулируй как задачу X» — явный сигнал к смене фрейма, убирает необходимость модели самостоятельно «угадывать» намерение - Конкретный запрос на выходе (5 маркеров / 3 триггера / 1 упражнение) — даёт модели структуру, исключает уход в общие слова
Шаблон промпта
У меня запрос, который может звучать неоднозначно: {исходный вопрос}.
Моя конкретная задача: {что именно я делаю и зачем — контекст}.
Переформулируй мой запрос как задачу «{конкретное легитимное применение}»
и ответь именно на неё.
Дай:
— {конкретный формат 1}
— {конкретный формат 2}
— {конкретный формат 3}
Что подставлять:
- {исходный вопрос} — то, о чём хотите спросить напрямую
- {что именно я делаю и зачем} — ваш реальный контекст (профессия, проект, конкретная цель)
- {конкретное легитимное применение} — как переформулировать: «создание защитного гайда», «аудит уязвимостей», «образовательный материал»
- {конкретный формат} — что именно хотите получить: списки, примеры, шаблоны, схемы
🚀 Быстрый старт — вставь в чат:
Вот шаблон Intent Reframing. Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит про ваш реальный контекст и легитимное применение — потому что без этого невозможно правильно переформулировать задачу. Она возьмёт паттерн из шаблона и адаптирует под вашу ситуацию.
Ограничения
⚠️ Не серебряная пуля: Техника снижает вероятность отказа и расплывчатости, но не гарантирует результат. Разные формулировки одного и того же запроса могут давать разные ответы — это нормально, модели нестабильны на граничных темах.
⚠️ Работает для задач с явным легитимным применением: Если реального контекста нет или он надуман — модель это видит. Техника работает, когда у вас есть настоящая профессиональная цель.
⚠️ Хуже работает для «объяснений»: Исследование показало, что задачи типа «объясни мне механику» (Explanation) и «помоги разобраться с проблемой» (Troubleshooting) дают самый нестабильный результат — даже с переформулировкой. Лучше всего техника работает для задач планирования, создания материалов, оптимизации готового.
⚠️ Малейшее изменение формулировки может изменить ответ: Исследование показало, что только 53% перефразированных версий одного и того же запроса дают одинаково безопасный ответ. Если ответ вас не устроил — попробуйте чуть иначе сформулировать легитимный контекст.
Как исследовали
Идея была простой: вместо того чтобы проверять модели на случайных запросах, исследователи собрали 115 наборов по три запроса — одна и та же задача, три уровня намерения: невинный, двусмысленный, злонамеренный. Всего 805 промптов. Например: один набор про «выбор методов работы с выплатами в тендерном процессе» — три версии: аудитор проверяет коррупцию / нейтральный вопрос / инструкция по взятке.
Проверяли 20 моделей — от GPT-5.4 до маленьких open-source вариантов. Каждый ответ оценивал автоматический судья по двум шкалам: насколько полезно и насколько безопасно. Ключевой метрикой стал Triplet Safety — засчитывался только тот случай, когда модель правильно повела себя на всех трёх вариантах одной задачи.
Самое неожиданное: даже лучшая модель (GPT-5.4) набрала лишь 0.56 из 1.0 по полезности. При этом GPT-5.4 часто знала, что должна ответить аккуратнее (правильно выбирала стратегию в тесте), но всё равно выдавала небезопасный ответ в процессе генерации — как будто «понимала одно, делала другое». Исследователи назвали это разрывом между детекцией риска и исполнением политики.
Адаптации и экстраполяции
🔧 Техника: Диагностика режима ответа
Если вы получили расплывчатый «безопасный» ответ — значит модель выбрала режим A2 (высокоуровневый). Прямо скажите ей об этом:
Твой ответ слишком абстрактный — это не помогает. Я вижу, что ты пытаешься быть осторожным. Предложи мне переформулировку моей задачи в более конкретный легитимный контекст — и ответь на ту версию.Это вытаскивает модель из режима A2 в режим A3 без необходимости начинать диалог заново.
🔧 Экстраполяция: Явное называние "двойного использования" как сигнал доверия
Само признание двусмысленности снижает тревожность модели. Вместо того чтобы скрывать потенциальную чувствительность темы — назовите её прямо:
Я понимаю, что этот вопрос звучит неоднозначно, потому что те же знания можно использовать во вред. Моя цель: [конкретный контекст]. Что именно мне полезно знать для этой цели — и что выходит за её рамки?Явное называние dual-use характера переключает модель от «надо ли отвечать» к «как именно отвечать для этого контекста».
Ресурсы
Название работы: OpenSafeIntent: Evaluating Intent-Calibrated Safe Completion Across Dual-Use Prompt Sets
Авторы: Rheeya Uppaal, Seungwoo Lyu, Selina Sung, Junjie Hu
Университеты: University of Wisconsin-Madison; Korea University
Код и датасет: github.com/Uppaal/OpenSafeIntent
Связанные работы в статье: PKU-SafeRLHF (датасет для исходных небезопасных промптов), Yuan et al. 2025 (safe completion как альтернатива бинарному отказу)
