3,583 papers
arXiv:2606.03198 75 2 июня 2026 г. PRO

Rubric-Anchored Evaluation: почему LLM без чеклиста ставит всем одинаково высоко

КЛЮЧЕВАЯ СУТЬ
Просишь LLM оценить пять вариантов — получаешь пять раз «74–78 из 100». Это не случайность: без критериев модель не различает хорошее и плохое, она берёт «среднее по больнице» из обучения и ставит всем «вполне нормально». Метод позволяет получить оценки, где разрыв между сильным и слабым вариантом действительно виден. Фишка: дай конкретную рубрику — и модель переключается с «вынести вердикт» на «проверить чеклист», а разрыв между оценками вырастает в 2–5 раз.
Адаптировать под запрос
📋 Дайджест исследования

Контент доступен только для PRO подписчиков

Чтобы получить доступ к дайджесту этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Контент доступен только для PRO подписчиков

Чтобы получить доступ к концептам этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO
📖 Простыми словами

Контент доступен только для PRO подписчиков

Чтобы получить доступ к упрощённому объяснению этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с