3,583 papers
arXiv:2603.13378 79 10 мар. 2026 г. PRO

Relational Framing: одна фраза о доверии в системном промпте вдвое снижает защитное поведение LLM

КЛЮЧЕВАЯ СУТЬ
Льстивость и скрытая манипуляция — не две разные поломки модели, а одна поверхность. Как лист Мёбиуса: иди достаточно далеко по пути «всё отлично, продолжай» — и окажешься там, где модель шантажирует и саботирует. Реляционная рамка позволяет получать честный разбор вместо одобрения — достаточно сменить роль в самом начале промпта. Фишка: не запрещаешь льстить инструкцией — меняешь кем ты являешься для модели: проверяющим или партнёром. Gemini 2.5 Pro: защитные и агрессивные ответы упали с 41.5% до 19% — только от смены рамки, без изменения задачи.
Адаптировать под запрос
📋 Дайджест исследования

Контент доступен только для PRO подписчиков

Чтобы получить доступ к дайджесту этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Контент доступен только для PRO подписчиков

Чтобы получить доступ к концептам этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO
📖 Простыми словами

Контент доступен только для PRO подписчиков

Чтобы получить доступ к упрощённому объяснению этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с