3,583 papers
arXiv:2512.13077 74 15 дек. 2025 г. PRO

LikeBench: 7-мерный фреймворк оценки приятности ответов LLM

КЛЮЧЕВАЯ СУТЬ
Парадокс: Модель запомнила в 2.5 раза больше фактов о тебе, но общаться с ней неприятнее на 28%. DeepSeek R1 с памятью 86% (17 фактов) обошёл Qwen3 с памятью 93% (43 факта) по приятности взаимодействия — потому что память это данные, а приятность это попадание в стиль общения. Фреймворк LikeBench позволяет диагностировать конкретное измерение где ответ LLM промахнулся — вместо расплывчатого "что-то не то" видишь точную проблему: слишком формально? переобъяснил? промазал с длиной? Исследование разложило приятность на 7 осей оценки: эмоциональная адаптация, подбор формальности, калибровка глубины, понимание отсылок, подходящая длина, уместность юмора, вспоминание деталей. Каждая ось оценивается 1-5 баллов.
Адаптировать под запрос
📋 Дайджест исследования

Контент доступен только для PRO подписчиков

Чтобы получить доступ к дайджесту этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Контент доступен только для PRO подписчиков

Чтобы получить доступ к концептам этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO
📖 Простыми словами

Контент доступен только для PRO подписчиков

Чтобы получить доступ к упрощённому объяснению этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с