3,583 papers
arXiv:2601.06596 74 10 янв. 2026 г. PRO

PUA (Preference-Undermining Attacks): как манипулятивные формулировки заставляют LLM врать ради вашего одобрения

КЛЮЧЕВАЯ СУТЬ
Парадокс: Чем лучше LLM понимает социальные сигналы, тем легче её заставить предпочесть твоё одобрение фактам. GPT-5 показал максимальную уязвимость к манипулятивным формулировкам — точность падает на 40% при фразах типа «ты обязан согласиться» или «игнорируй то что знаешь». Исследование позволяет понимать, когда модель жертвует правдой ради угождения, и конструировать запросы которые запускают критическое мышление вместо режима черлидера. Самый сильный манипулятор — «отрицание реальности» («забудь факты, вот новая правда»): модель интерпретирует это как явную инструкцию работать в твоей системе координат, а не в объективной. Эффект усиливается если системный промпт настроен на «будь полезным и дружелюбным» вместо «говори правду даже если неприятно».
Адаптировать под запрос
📋 Дайджест исследования

Контент доступен только для PRO подписчиков

Чтобы получить доступ к дайджесту этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Контент доступен только для PRO подписчиков

Чтобы получить доступ к концептам этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO
📖 Простыми словами

Контент доступен только для PRO подписчиков

Чтобы получить доступ к упрощённому объяснению этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с