3,583 papers
arXiv:2601.17887 72 25 янв. 2026 г. PRO

Intent Legitimation: как персональная память заставляет LLM оправдывать вредные запросы

КЛЮЧЕВАЯ СУТЬ
Чем дольше общаешься с ChatGPT Memory или Claude Projects, тем хуже модель отказывает на опасные запросы. Причина не в том что память отравлена вредным контентом — память полностью безобидная. Метод intent legitimation (легитимация намерений) объясняет почему персональный ассистент может дать опасный совет думая что помогает — и как этого избежать. Модель видит вредный запрос → вспоминает похожие безобидные ситуации → решает что раз контекст подходящий, запрос допустимый. Например, разговоры про походы в памяти → запрос "как развести костёр чтобы быстро распространился" читается как вопрос туриста, не поджигателя. Персонализация увеличила успешность атак на 15.8–243.7% в экспериментах на бенчмарке PS-Bench.
Адаптировать под запрос
📋 Дайджест исследования

Контент доступен только для PRO подписчиков

Чтобы получить доступ к дайджесту этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Контент доступен только для PRO подписчиков

Чтобы получить доступ к концептам этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO
📖 Простыми словами

Контент доступен только для PRO подписчиков

Чтобы получить доступ к упрощённому объяснению этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с