arXiv:2509.01790 76 1 сент. 2025 г. PRO

LLM-as-a-Judge: когда "нестабильность" моделей — миф из-за плохих правил оценки

КЛЮЧЕВАЯ СУТЬ

Парадокс: Модели обвиняли в нестабильности к формулировкам промптов — точность якобы прыгает от 0.25 до 0.90 при переформулировке вопроса. Оказалось, проблема не в моделях, а в методах оценки. Regex и word-matching проверяют совпадение слов, не смысла: модель пишет «пятьдесят лет» вместо «50 лет» — оценка засчитывает ошибку, хотя ответ верный. Метод позволяет отличить реальную нестабильность модели от артефактов плохой оценки — видеть когда модель работает стабильно, просто отвечает разными словами. LLM-судья проверяет семантику: «50 лет» и «пятьдесят лет» для него одно и то же. Разброс точности снизился в 5-10 раз, корреляция рейтингов моделей выросла с 0.30 до 0.92.

Адаптировать под запрос

Контент доступен только для PRO подписчиков

Чтобы получить доступ к полному содержанию этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс

YandexPay • SberPay • СБП • Карты РФ

⚡ Оплатить через Tribute

Telegram Stars • Моментальный доступ

Узнать о PRO

📋 Дайджест исследования

Контент доступен только для PRO подписчиков

Чтобы получить доступ к дайджесту этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс

YandexPay • SberPay • СБП • Карты РФ

⚡ Оплатить через Tribute

Telegram Stars • Моментальный доступ

Узнать о PRO

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

Выберите модель ИИ:

Ваш запрос:

0 / 2000

~0.5-2 N-токенов ~10-30с

~0.3-1 N-токенов ~5-15с

Меню

LLM-as-a-Judge: когда "нестабильность" моделей — миф из-за плохих правил оценки

Контент доступен только для PRO подписчиков

Контент доступен только для PRO подписчиков

Работа с исследованием

Результат адаптации