3,583 papers

Меню

arXiv:2602.05110 78 4 фев. 2026 г. PRO

Multi-Evaluator Framework: как модели врут сами себе при оценке качества

КЛЮЧЕВАЯ СУТЬ
Обнаружено: LLM имеют характер при оценке текстов — одни модели самокритичны (занижают себе оценки на −0.33), другие снисходительны (завышают на +0.77). Visa Research дала 5 моделям задачу написать тексты и оценить работы друг друга по структурированной rubric из 5 критериев. Каждую оценку повторили 10 раз чтобы поймать стабильность суждений. Framework позволяет: выбрать LLM-судью с нужным уровнем строгости для оценки качества контента — питчей, стратегий, аналитики. Фишка: запускаешь cross-evaluation (каждая модель оценивает все тексты включая свой) → видишь кто из судей строже, кто мягче, кто стабильнее. GPT-5.1 и Claude 4.5 Sonnet оказались самокритичными и при этом ближе к человеческим стандартам качества чем снисходительные Gemini и Grok.
Адаптировать под запрос
📋 Дайджест исследования

Контент доступен только для PRO подписчиков

Чтобы получить доступ к дайджесту этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Контент доступен только для PRO подписчиков

Чтобы получить доступ к концептам этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO
📖 Простыми словами

Контент доступен только для PRO подписчиков

Чтобы получить доступ к упрощённому объяснению этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с