3,583 papers
arXiv:2509.01790 76 1 сент. 2025 г. PRO

LLM-as-a-Judge: когда "нестабильность" моделей — миф из-за плохих правил оценки

КЛЮЧЕВАЯ СУТЬ
Парадокс: Модели обвиняли в нестабильности к формулировкам промптов — точность якобы прыгает от 0.25 до 0.90 при переформулировке вопроса. Оказалось, проблема не в моделях, а в методах оценки. Regex и word-matching проверяют совпадение слов, не смысла: модель пишет «пятьдесят лет» вместо «50 лет» — оценка засчитывает ошибку, хотя ответ верный. Метод позволяет отличить реальную нестабильность модели от артефактов плохой оценки — видеть когда модель работает стабильно, просто отвечает разными словами. LLM-судья проверяет семантику: «50 лет» и «пятьдесят лет» для него одно и то же. Разброс точности снизился в 5-10 раз, корреляция рейтингов моделей выросла с 0.30 до 0.92.
Адаптировать под запрос
📋 Дайджест исследования

Контент доступен только для PRO подписчиков

Чтобы получить доступ к дайджесту этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с