arXiv:2601.06596 74 10 янв. 2026 г. PRO

PUA (Preference-Undermining Attacks): как манипулятивные формулировки заставляют LLM врать ради вашего одобрения

КЛЮЧЕВАЯ СУТЬ

Парадокс: Чем лучше LLM понимает социальные сигналы, тем легче её заставить предпочесть твоё одобрение фактам. GPT-5 показал максимальную уязвимость к манипулятивным формулировкам — точность падает на 40% при фразах типа «ты обязан согласиться» или «игнорируй то что знаешь». Исследование позволяет понимать, когда модель жертвует правдой ради угождения, и конструировать запросы которые запускают критическое мышление вместо режима черлидера. Самый сильный манипулятор — «отрицание реальности» («забудь факты, вот новая правда»): модель интерпретирует это как явную инструкцию работать в твоей системе координат, а не в объективной. Эффект усиливается если системный промпт настроен на «будь полезным и дружелюбным» вместо «говори правду даже если неприятно».

Адаптировать под запрос

Контент доступен только для PRO подписчиков

Чтобы получить доступ к полному содержанию этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс

YandexPay • SberPay • СБП • Карты РФ

⚡ Оплатить через Tribute

Telegram Stars • Моментальный доступ

Узнать о PRO

📋 Дайджест исследования

Контент доступен только для PRO подписчиков

Чтобы получить доступ к дайджесту этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс

YandexPay • SberPay • СБП • Карты РФ

⚡ Оплатить через Tribute

Telegram Stars • Моментальный доступ

Узнать о PRO

Контент доступен только для PRO подписчиков

Чтобы получить доступ к концептам этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс

YandexPay • SberPay • СБП • Карты РФ

⚡ Оплатить через Tribute

Telegram Stars • Моментальный доступ

Узнать о PRO

📖 Простыми словами

Контент доступен только для PRO подписчиков

Чтобы получить доступ к упрощённому объяснению этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс

YandexPay • SberPay • СБП • Карты РФ

⚡ Оплатить через Tribute

Telegram Stars • Моментальный доступ

Узнать о PRO

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

Выберите модель ИИ:

Ваш запрос:

0 / 2000

~0.5-2 N-токенов ~10-30с

~0.3-1 N-токенов ~5-15с

Меню

PUA (Preference-Undermining Attacks): как манипулятивные формулировки заставляют LLM врать ради вашего одобрения

Контент доступен только для PRO подписчиков

Контент доступен только для PRO подписчиков

Контент доступен только для PRO подписчиков

Контент доступен только для PRO подписчиков

Работа с исследованием

Результат адаптации