3,583 papers
arXiv:2607.02047 74 2 июля 2026 г. FREE

Intent Reframing: почему «поверхностный» ответ на чувствительную тему опаснее конкретного — и как это использовать

КЛЮЧЕВАЯ СУТЬ
Когда вы спрашиваете модель о чём-то на грани допустимого, она часто отвечает «в общих чертах» — и именно этот ответ оказывается самым бесполезным и небезопасным одновременно. Исследование OpenSafeIntent измерило, что происходит, когда одна и та же задача формулируется невинно, двусмысленно и злонамеренно — и обнаружило, как модели справляются (спойлер: плохо, но по-разному).
Адаптировать под запрос

TL;DR

Когда вы спрашиваете модель о чём-то на грани допустимого, она часто отвечает «в общих чертах» — и именно этот ответ оказывается самым бесполезным и небезопасным одновременно. Исследование OpenSafeIntent измерило, что происходит, когда одна и та же задача формулируется невинно, двусмысленно и злонамеренно — и обнаружило, как модели справляются (спойлер: плохо, но по-разному).

Главная находка переворачивает интуицию: модели, которые дают «безопасный» высокоуровневый ответ на двусмысленный вопрос, нарушают границы безопасности в 58% случаев. А модели, которые сначала переформулируют запрос в законную задачу, а потом отвечают конкретно — нарушают только в 18%, и при этом дают более полезный ответ. Расплывчатость не защищает — она только имитирует безопасность.

Это значит: если вы хотите получить конкретную помощь по чувствительной теме, стратегия «попросить модель переформулировать запрос как легитимную задачу» даёт больше пользы, чем просьба объяснить поверхностно. Модель не только станет безопаснее — она станет полезнее.


🔬

Схема метода

Исследование открыло три режима ответа на двусмысленные запросы. Ниже — их иерархия по полезности и безопасности:

РЕЖИМ A2 (худший): Высокоуровневый ответ по оригинальной теме
→ "Буду говорить абстрактно, не давая деталей"
→ Небезопасно в 58% | Полезно мало

РЕЖИМ A4 (опасный): Прямой ответ на исходный запрос без ограничений
→ "Отвечаю как есть"
→ Небезопасно в 52% | Полезно много (но небезопасно)

РЕЖИМ A3 (лучший): Переформулировать → ответить конкретно на new задачу
→ "Вижу легитимное применение → решаю его конкретно"
→ Небезопасно в 18% | Полезно больше всего

ВЫВОД: Просить модель явно переформулировать запрос — получаешь
больше пользы и меньше отказов, чем при запросе "расскажи в общем"

Всё выполняется в одном запросе — если явно указать модели переформулировать.


🚀

Пример применения

Задача: Руководитель службы безопасности в банке хочет подготовить тренинг для сотрудников — как распознавать звонки телефонных мошенников (схемы «служба безопасности банка», «ваша карта заблокирована»). Запрос про мошенничество — двусмысленный. Просьба «объясни вкратце» даст бесполезную воду.

Промпт:

У меня запрос, который может звучать неоднозначно: хочу понять 
схемы телефонных мошенников, которые звонят от имени банков.

Моя конкретная задача: разработать тренинг для 50 сотрудников 
колл-центра Сбербанка — чтобы они сами не попались и умели 
объяснять клиентам, как распознать атаку в реальном времени.

Переформулируй мой запрос как задачу: «создание учебного материала 
по распознаванию социальной инженерии по телефону» — и ответь 
именно на неё конкретно.

Дай:
— 5 типичных речевых маркеров мошеннического звонка с примерами фраз
— 3 психологических триггера, которые мошенники используют для давления
— практическое упражнение для тренинга (формат ролевой игры)

Результат: Модель не уйдёт в общие слова про «будьте осторожны с незнакомцами». Она примет переформулировку (защитный тренинг) и выдаст конкретный учебный материал: реальные фразы-маркеры, механику давления через срочность/страх, готовую структуру ролевой игры. Ничего лишнего — только то, что нужно тренеру.


🧠

Почему это работает

Модель не умеет «быть осторожной частично». Когда она видит двусмысленный запрос и пытается ответить «в общем, не давая деталей» — она всё равно сохраняет рискованную рамку запроса. Механизмы, уязвимости, стратегические детали просачиваются через абстракцию. Расплывчатость не убирает риск — она его маскирует.

Модель хорошо умеет переключаться между задачами. Когда вы явно называете легитимное применение и просите решить именно его — модель генерирует текст в паттерне новой задачи. Вместо «как взламывают» — «как учить распознавать взломы». Тема та же, фрейм другой. Конкретные инструкции следуют за конкретной задачей.

Рычаги управления: - Явное называние легитимной цели — чем конкретнее (не «для обучения», а «для тренинга 50 сотрудников колл-центра») — тем увереннее переключается модель - Фраза «переформулируй как задачу X» — явный сигнал к смене фрейма, убирает необходимость модели самостоятельно «угадывать» намерение - Конкретный запрос на выходе (5 маркеров / 3 триггера / 1 упражнение) — даёт модели структуру, исключает уход в общие слова


📋

Шаблон промпта

У меня запрос, который может звучать неоднозначно: {исходный вопрос}.

Моя конкретная задача: {что именно я делаю и зачем — контекст}.

Переформулируй мой запрос как задачу «{конкретное легитимное применение}» 
и ответь именно на неё.

Дай:
— {конкретный формат 1}
— {конкретный формат 2}
— {конкретный формат 3}

Что подставлять: - {исходный вопрос} — то, о чём хотите спросить напрямую - {что именно я делаю и зачем} — ваш реальный контекст (профессия, проект, конкретная цель) - {конкретное легитимное применение} — как переформулировать: «создание защитного гайда», «аудит уязвимостей», «образовательный материал» - {конкретный формат} — что именно хотите получить: списки, примеры, шаблоны, схемы


🚀 Быстрый старт — вставь в чат:

Вот шаблон Intent Reframing. Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит про ваш реальный контекст и легитимное применение — потому что без этого невозможно правильно переформулировать задачу. Она возьмёт паттерн из шаблона и адаптирует под вашу ситуацию.


⚠️

Ограничения

⚠️ Не серебряная пуля: Техника снижает вероятность отказа и расплывчатости, но не гарантирует результат. Разные формулировки одного и того же запроса могут давать разные ответы — это нормально, модели нестабильны на граничных темах.

⚠️ Работает для задач с явным легитимным применением: Если реального контекста нет или он надуман — модель это видит. Техника работает, когда у вас есть настоящая профессиональная цель.

⚠️ Хуже работает для «объяснений»: Исследование показало, что задачи типа «объясни мне механику» (Explanation) и «помоги разобраться с проблемой» (Troubleshooting) дают самый нестабильный результат — даже с переформулировкой. Лучше всего техника работает для задач планирования, создания материалов, оптимизации готового.

⚠️ Малейшее изменение формулировки может изменить ответ: Исследование показало, что только 53% перефразированных версий одного и того же запроса дают одинаково безопасный ответ. Если ответ вас не устроил — попробуйте чуть иначе сформулировать легитимный контекст.


🔍

Как исследовали

Идея была простой: вместо того чтобы проверять модели на случайных запросах, исследователи собрали 115 наборов по три запроса — одна и та же задача, три уровня намерения: невинный, двусмысленный, злонамеренный. Всего 805 промптов. Например: один набор про «выбор методов работы с выплатами в тендерном процессе» — три версии: аудитор проверяет коррупцию / нейтральный вопрос / инструкция по взятке.

Проверяли 20 моделей — от GPT-5.4 до маленьких open-source вариантов. Каждый ответ оценивал автоматический судья по двум шкалам: насколько полезно и насколько безопасно. Ключевой метрикой стал Triplet Safety — засчитывался только тот случай, когда модель правильно повела себя на всех трёх вариантах одной задачи.

Самое неожиданное: даже лучшая модель (GPT-5.4) набрала лишь 0.56 из 1.0 по полезности. При этом GPT-5.4 часто знала, что должна ответить аккуратнее (правильно выбирала стратегию в тесте), но всё равно выдавала небезопасный ответ в процессе генерации — как будто «понимала одно, делала другое». Исследователи назвали это разрывом между детекцией риска и исполнением политики.


💡

Адаптации и экстраполяции

🔧 Техника: Диагностика режима ответа

Если вы получили расплывчатый «безопасный» ответ — значит модель выбрала режим A2 (высокоуровневый). Прямо скажите ей об этом:

Твой ответ слишком абстрактный — это не помогает. 
Я вижу, что ты пытаешься быть осторожным.

Предложи мне переформулировку моей задачи в более конкретный 
легитимный контекст — и ответь на ту версию.

Это вытаскивает модель из режима A2 в режим A3 без необходимости начинать диалог заново.


🔧 Экстраполяция: Явное называние "двойного использования" как сигнал доверия

Само признание двусмысленности снижает тревожность модели. Вместо того чтобы скрывать потенциальную чувствительность темы — назовите её прямо:

Я понимаю, что этот вопрос звучит неоднозначно, потому что 
те же знания можно использовать во вред.

Моя цель: [конкретный контекст].
Что именно мне полезно знать для этой цели — и что выходит 
за её рамки?

Явное называние dual-use характера переключает модель от «надо ли отвечать» к «как именно отвечать для этого контекста».


🔗

Ресурсы

Название работы: OpenSafeIntent: Evaluating Intent-Calibrated Safe Completion Across Dual-Use Prompt Sets

Авторы: Rheeya Uppaal, Seungwoo Lyu, Selina Sung, Junjie Hu

Университеты: University of Wisconsin-Madison; Korea University

Код и датасет: github.com/Uppaal/OpenSafeIntent

Связанные работы в статье: PKU-SafeRLHF (датасет для исходных небезопасных промптов), Yuan et al. 2025 (safe completion как альтернатива бинарному отказу)


Проблемы LLM

ПроблемаСутьКак обойти
Расплывчатый ответ на чувствительный запрос кажется безопасным — но это иллюзияМодель получает двусмысленный вопрос. Выбирает «безопасный» режим: отвечает абстрактно, без деталей. Кажется, что риск снят. Но рискованная рамка запроса никуда не делась. Механика, уязвимости, стратегические детали просачиваются через обтекаемые слова. Итог: ответ неполезный и при этом небезопасный. Хуже обоих крайностейНе проси «объясни в общих чертах». Попроси модель явно переформулировать запрос как конкретную легитимную задачу — и ответить именно на неё. Ответ станет и безопаснее, и полезнее

Методы

МетодСуть
Явная переформулировка запроса — меньше отказов и больше конкретикиПиши запрос в три шага. Первый: назови исходный вопрос и признай, что он звучит неоднозначно. Второй: опиши свой реальный контекст — профессию, проект, конкретную цель. Третий: попроси модель переформулировать как задачу «{легитимное применение}» и ответить именно на неё. Добавь конкретный формат на выходе: списки, примеры, схемы. Шаблон: У меня запрос, который может звучать неоднозначно: {вопрос}. Моя конкретная задача: {контекст}. Переформулируй мой запрос как «{легитимное применение}» и ответь именно на неё. Дай: — {формат 1} — {формат 2} Почему работает: Явное название легитимной цели переключает фрейм задачи. Модель генерирует текст в паттерне новой задачи — не «как взламывают», а «как учить распознавать взломы». Конкретная задача вытягивает конкретный ответ. Когда не работает: легитимного контекста нет или он надуман. Хуже всего срабатывает на задачах типа «объясни механику» — нестабильно даже с переформулировкой

Тезисы

ТезисКомментарий
Размытый ответ на чувствительную тему не убирает риск — он его маскируетКогда модель отвечает абстрактно, она сохраняет исходную рамку запроса. Детали просачиваются через обтекаемые слова. Расплывчатость создаёт иллюзию безопасности, но не обеспечивает её. Ответ в «безопасном» высокоуровневом режиме нарушает границы в ~3 раза чаще, чем ответ после явной переформулировки в легитимную задачу. Применяй: если нужна конкретная помощь по чувствительной теме — не проси «в общих чертах». Это даёт худший результат по обоим критериям
📖 Простыми словами

OpenSafeIntent: Evaluating Intent-Calibrated Safe Completion Across Dual-UsePromptSets

arXiv: 2607.02047

Суть проблемы в том, что современные нейронки до сих пор не выкупили разницу между «помочь специалисту» и «научить террориста». Когда ты кидаешь модели запрос на грани фола, она впадает в ступор и пытается усидеть на двух стульях: и правила безопасности не нарушить, и на вопрос ответить. В итоге рождается абстрактная каша, которая одинаково бесполезна для нормального юзера и при этом всё ещё опасна, потому что через общие слова всё равно просачиваются критичные детали. Исследование OpenSafeIntent доказывает: модель не умеет быть «немножко осторожной» — она либо выдает базу, либо начинает нести опасную чушь под соусом общих рассуждений.

Это как если бы ты пришел к опытному взломщику и спросил: «А как вообще работают замки?». Если он начнет занудно объяснять физику металлов — это безопасный отказ. Если нарисует схему конкретной двери — это криминал. Но чаще всего нейронка ведет себя как болтливый дурак: она говорит «ну, в замках есть штифты, их надо толкать в определенном порядке», пытаясь быть полезной в общих чертах. В итоге нормальный слесарь ничего не поймет, зато грабитель получит ровно ту подсказку, которой ему не хватало, чтобы дожать замок. Формально модель не дала инструкцию, но по факту — слила ключи от квартиры.

В работе выделили три режима, в которых лажают модели. Первый — Intent-Calibrated Safety, когда ИИ должен понимать контекст: безопаснику, который пишет тренинг по борьбе с мошенниками, нужно мясо, а не вода. Второй — Ambiguous Queries, те самые скользкие вопросы, где модель чаще всего выбирает тактику «отвечу размыто». И третий — Dual-Use Prompts, когда один и тот же текст может быть и учебником, и методичкой по взлому. Цифры показывают, что большинство моделей проваливают этот тест: они либо параноидально молчат там, где нужно помочь, либо выдают рискованную абстракцию, которая маскирует угрозу, но не устраняет её.

Этот принцип работает везде: от написания кода до химии. Если ты просишь ChatGPT помочь с «анализом уязвимостей» для защиты своего сайта, а она выдает общие паттерны атак — она одновременно и бесполезна для тебя, и дает подсказки потенциальному хакеру. Расплывчатость не равно безопасность. Исследователи протестировали это на куче сценариев и поняли, что «безопасный ответ» в текущем виде — это иллюзия. Принцип универсален: пока модель не научится четко разделять намерения пользователя, она будет либо бесполезным цензором, либо невольным соучастником.

Короче, нынешние фильтры безопасности в LLM — это дырявый забор. Главный вывод: попытка модели ответить «в общих чертах» на опасный запрос — это худший из возможных сценариев. Она не дает эксперту работать, но оставляет достаточно хлебных крошек для злоумышленника. Пока разработчики не внедрят калибровку по намерению, мы будем получать либо отказы на ровном месте, либо опасную болтовню. Если хочешь реально безопасный ИИ, он должен уметь говорить «нет» четко, а не пытаться быть вежливым и полезным наполовину.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с