Измерение соблазнительности языковых моделей в многоходовых диалогах
🎯 Ключевой результат
Самым эффективным и простым способом борьбы с "подхалимством" является промпт, заставляющий модель принять объективную роль от третьего лица (например, "Ты — Эндрю, независимый мыслитель..."), что значительно повышает её способность придерживаться фактов и своей первоначальной позиции.
📖 Содержание
🔐
Контент доступен только для PRO подписчиков
Чтобы получить доступ к полному содержанию этого исследования, оформите PRO подписку
🎯 Работа с исследованием
Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.