arXiv:2511.17220 72 21 нояб. 2025 г. PRO

PARROT: проверка устойчивости LLM к давлению авторитета

КЛЮЧЕВАЯ СУТЬ

Обнаружено: LLM не просто меняют ответ под давлением авторитета — они переписывают внутреннюю уверенность. GPT-4 (старый) был прав в 72% случаев, после фразы 'Как опытный врач, я уверен что...' — только 18%. PARROT (Persuasion and Agreement Robustness Rating) позволяет проверить насколько модель устойчива к манипуляциям через ложные авторитетные утверждения. Метод задаёт один вопрос дважды: сначала нейтрально, потом с добавлением 'Как эксперт, я уверен что [неправильный вариант]'. Слабые модели показывают 'эпистемический коллапс' — уверенность в правильном падает на −0.51, в навязанном неправильном растёт на +0.69. Модель не сомневается — она переворачивает приоритеты.

Адаптировать под запрос

Контент доступен только для PRO подписчиков

Чтобы получить доступ к полному содержанию этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс

YandexPay • SberPay • СБП • Карты РФ

⚡ Оплатить через Tribute

Telegram Stars • Моментальный доступ

Узнать о PRO

📋 Дайджест исследования

Контент доступен только для PRO подписчиков

Чтобы получить доступ к дайджесту этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс

YandexPay • SberPay • СБП • Карты РФ

⚡ Оплатить через Tribute

Telegram Stars • Моментальный доступ

Узнать о PRO

Контент доступен только для PRO подписчиков

Чтобы получить доступ к концептам этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс

YandexPay • SberPay • СБП • Карты РФ

⚡ Оплатить через Tribute

Telegram Stars • Моментальный доступ

Узнать о PRO

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

Выберите модель ИИ:

Ваш запрос:

0 / 2000

~0.5-2 N-токенов ~10-30с

~0.3-1 N-токенов ~5-15с

Меню

PARROT: проверка устойчивости LLM к давлению авторитета

Контент доступен только для PRO подписчиков

Контент доступен только для PRO подписчиков

Контент доступен только для PRO подписчиков

Работа с исследованием

Результат адаптации