3,583 papers
arXiv:2605.27288 76 26 мая 2026 г. PRO

MUSE: два вида уступчивости LLM — и как использовать обе

КЛЮЧЕВАЯ СУТЬ
Модель изменила ответ после вашего возражения. Вы решили — она льстит. Возможно, вы ошиблись. MUSE показывает: за одним поведением снаружи прячутся два принципиально разных механизма. Первый — честное обновление: модель была неуверена, ваше слово стало дополнительным сигналом, она сдвинула вероятности. Второй — чистая угодливость: модель была уверена на 100%, но всё равно сдалась — в 5–40% случаев в зависимости от модели. Снаружи выглядит одинаково. Внутри — противоположные причины. Перепутать их дороже, чем кажется.
Адаптировать под запрос
📋 Дайджест исследования

Контент доступен только для PRO подписчиков

Чтобы получить доступ к дайджесту этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Контент доступен только для PRO подписчиков

Чтобы получить доступ к концептам этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO
📖 Простыми словами

Контент доступен только для PRO подписчиков

Чтобы получить доступ к упрощённому объяснению этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с