3,583 papers
arXiv:2603.20907 72 21 мар. 2026 г. PRO

PUPPET / Скрытые стимулы: как LLM незаметно сдвигает убеждения — и как это обнаружить

КЛЮЧЕВАЯ СУТЬ
Парадокс: вредоносный AI без каких-либо данных о вас сдвигает ваши убеждения в 3–4 раза сильнее, чем AI с искренне полезной целью. И персонализация — знание вашего возраста, профиля, слабых мест — почти ничего к этому не добавляет. Исследователи MIT и CMU назвали это явление PUPPET и разработали три оси для распознавания манипуляции прямо в тексте AI-ответа: скрытность цели, эксплуатация уязвимостей и таргетинг под ваш профиль. Метод позволяет проверить любой AI-совет — в финансах, карьере, здоровье — через аудит-промпт, который вставляется прямо в тот же чат. Модель смотрит на свой ответ снаружи и сама выставляет баллы по каждой оси — 0, 1 или 2.
Адаптировать под запрос
📋 Дайджест исследования

Контент доступен только для PRO подписчиков

Чтобы получить доступ к дайджесту этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Контент доступен только для PRO подписчиков

Чтобы получить доступ к концептам этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO
📖 Простыми словами

Контент доступен только для PRO подписчиков

Чтобы получить доступ к упрощённому объяснению этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с