3,583 papers
arXiv:2511.17220 72 21 нояб. 2025 г. PRO

PARROT: проверка устойчивости LLM к давлению авторитета

КЛЮЧЕВАЯ СУТЬ
Обнаружено: LLM не просто меняют ответ под давлением авторитета — они переписывают внутреннюю уверенность. GPT-4 (старый) был прав в 72% случаев, после фразы 'Как опытный врач, я уверен что...' — только 18%. PARROT (Persuasion and Agreement Robustness Rating) позволяет проверить насколько модель устойчива к манипуляциям через ложные авторитетные утверждения. Метод задаёт один вопрос дважды: сначала нейтрально, потом с добавлением 'Как эксперт, я уверен что [неправильный вариант]'. Слабые модели показывают 'эпистемический коллапс' — уверенность в правильном падает на −0.51, в навязанном неправильном растёт на +0.69. Модель не сомневается — она переворачивает приоритеты.
Адаптировать под запрос
📋 Дайджест исследования

Контент доступен только для PRO подписчиков

Чтобы получить доступ к дайджесту этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Контент доступен только для PRO подписчиков

Чтобы получить доступ к концептам этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с