3,583 papers
arXiv:2606.21559 70 19 июня 2026 г. FREE

Rubric-as-Experts: критерии оценки как пространство поиска — больше критериев не значит лучше

КЛЮЧЕВАЯ СУТЬ
Дай модели 15 критериев для простого текста — она найдёт 15 проблем. Половину придумает. Метод Rubric-as-Experts позволяет получать прицельные оценки — без мусорных замечаний для простых задач и с глубоким разбором для сложных. Критерии в промпте — это пространство поиска, а не просто инструкция: модель ищет проблемы именно там, куда ты её направил. Сузи список до трёх критериев для короткого документа, разверни до восьми для сложного — и оценка станет точной, а не списком притянутых замечаний.
Адаптировать под запрос

TL;DR

Критерии оценки, которые вы даёте модели, — это не просто инструкции. Это пространство поиска: модель ищет проблемы именно там, куда вы её направили. Дайте широкий список критериев — она найдёт много, в том числе мнимых. Дайте узкий — пропустит реальные ошибки. Исследование называет это эффектом rubric as search space.

Главная боль: когда просишь модель оценить или отрецензировать что-то, результат непредсказуем. То она цепляется к мелочам и выдаёт длинный список замечаний к простому тексту. То пропускает серьёзный изъян в сложном документе. Кажется, дело в «настроении» модели — но на самом деле дело в несоответствии критериев и сложности задачи.

Решение: подбирай ширину критериев под сложность материала. Короткий простой текст — 2-3 ключевых критерия. Сложный многоуровневый документ — разверни полный список. Ошибка в обе стороны: и слишком мало, и слишком много критериев снижают качество оценки.


🔬

Схема метода

Оба шага — в одном промпте:

ШАГ 1: Оцени сложность материала → выбери уровень критериев
  [простой] → 2-3 критерия
  [средний] → 5-7 критериев  
  [сложный] → полный разбор по всем аспектам

ШАГ 2: Применяй только выбранные критерии → оценка по ним

🚀

Пример применения

Задача: Владелец небольшого бизнеса просит оценить коммерческое предложение для сетевого ритейлера. Документ — 2 страницы, структурированный, со спецификой B2B. Хочется не «в целом норм», а конкретных замечаний.

Промпт:

Оцени это коммерческое предложение как опытный закупщик федерального ритейлера. 

Перед оценкой: посмотри на объём и сложность документа и выбери подходящую 
глубину разбора.

Если документ простой (1 страница, понятная структура) — проверь только: 
ценность предложения, чёткость условий, призыв к действию.

Если документ средней сложности — добавь: соответствие потребностям ритейлера, 
конкурентные преимущества, реалистичность сроков.

Если документ сложный (много условий, нестандартные схемы) — проверяй всё 
выше плюс: риски для партнёра, юридические оговорки, логистику.

Скажи какой уровень выбрал и почему. Затем дай оценку по выбранным критериям.

[вставь текст КП]

Результат:

Модель сначала объявит выбранный уровень сложности и обоснует выбор. Затем выдаст оценку по конкретному набору критериев — не длинный список всего подряд, а прицельные замечания под сложность документа. Простое КП получит чёткий разбор по трём параметрам без мусора. Сложное — развёрнутый анализ с нюансами.


🧠

Почему это работает

Модель не «думает» о задаче целиком. Она генерирует текст, следуя заданным инструкциям. Если в промпте перечислено 15 критериев, она обязана что-то сказать по каждому — даже если реальных проблем нет. Результат: список из семи замечаний, три из которых притянуты за уши.

Обратная ошибка тоже реальна. Дашь один критерий «напиши что не так» — модель найдёт первые два-три очевидных момента и остановится. Глубокие системные проблемы останутся незамеченными.

Рычаги управления в промпте: - Число критериев → меньше критериев = точнее, меньше мусора; больше = шире покрытие, но риск ложных замечаний - Явное разделение уровней (простой/средний/сложный) → даёт модели инструкцию самой откалибровать глубину, а не применять одно и то же ко всему - Требование объяснить выбор уровня → делает рассуждение явным, можно скорректировать если ошиблась - Конкретные имена критериев (не «проверь качество», а «проверь: чёткость условий, реалистичность сроков») → сужает поиск до нужного


📋

Шаблон промпта

Оцени {что оцениваем} как {роль эксперта}.

Перед оценкой определи сложность материала:

Если {что оцениваем} простое ({признак простоты}) — проверяй только:
- {критерий 1}
- {критерий 2}

Если средней сложности ({признак средней сложности}) — добавь:
- {критерий 3}
- {критерий 4}
- {критерий 5}

Если сложное ({признак сложности}) — проверяй всё выше плюс:
- {критерий 6}
- {критерий 7}
- {критерий 8}

Сначала скажи какой уровень выбрал и почему. 
Затем дай оценку строго по выбранным критериям.

{текст или описание для оценки}

Что подставлять: - {что оцениваем} — текст, документ, идею, код, план - {роль эксперта} — редактор, инвестор, HR, Product Manager - {признак простоты/средней/сложности} — короткий/длинный, одно условие/много условий, стандартный/нестандартный - {критерий 1-8} — конкретные аспекты оценки, от ключевых к второстепенным

🚀 Быстрый старт — вставь в чат:

Вот шаблон для калиброванной оценки. Адаптируй под мою задачу: {твоя задача}. 
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит: что оцениваем, кто эксперт, по каким критериям — потому что ей нужно заполнить плейсхолдеры конкретными параметрами, иначе шаблон не заработает. Она возьмёт паттерн трёх уровней и адаптирует под твою задачу.


⚠️

Ограничения

⚠️ Ручная калибровка: Шаблон работает, когда ты сам знаешь какие критерии важны. Если критерии не продуманы — модель применит неправильные.

⚠️ Субъективные задачи: При оценке креатива, стиля, «ощущения» — разделение на уровни сложности менее чёткое, и модель может ошибиться с выбором уровня.

⚠️ Автоматический роутинг не воспроизводим в чате: В исследовании маршрутизация уровня сложности была обучена на отдельной модели. В чате ты либо делаешь это вручную, либо просишь модель определить самой — это менее надёжно.


🔍

Как исследовали

Команда из Нанкинского университета взяла задачу оценки качества машинного перевода — конкретно поиск ошибочных фрагментов в переводах с китайского и немецкого на английский. Они сравнили три стратегии: (1) без критериев вообще, (2) один фиксированный набор критериев для всех переводов, (3) динамический выбор критериев под каждый перевод.

Интересный момент: исследователи сначала просто расширили список критериев и ожидали улучшений — вспомнили больше ошибок, но одновременно нашли много лишнего. Это и навело на идею, что нужна не просто широта, а соответствие сложности.

Финальная система использует два легковесных классификатора: первый — «есть ли вообще ошибки?», второй — «нужно ли расширять критерии дальше?». Вместе они дали лучший баланс точности и полноты на бенчмарке WMT23. На китайско-английских парах улучшение составило около 9 баллов MCC по сравнению с базовой моделью того же размера.

Что удивляет: простые тексты с одной ошибкой почти всегда попадали в «компактный» режим, а переводы с несколькими ошибками — в «развёрнутый». То есть модель интуитивно нащупала ту же логику, которую исследователи закладывали намеренно.


💡

Адаптации и экстраполяции

🔧 Техника: явный вывод уровня → прозрачность калибровки

Добавь "Объясни выбор уровня в одном предложении" — увидишь как модель понимает сложность материала. Если ошиблась, можешь скорректировать прямо в диалоге: "На самом деле документ сложнее, потому что..." → переоценит с нужным уровнем.

🔧 Экстраполяция: принцип «поиска» для генерации, не только оценки

Тот же принцип работает в обратную сторону — при генерации контента. Не «напиши подробный пост» (широкие критерии = объёмный, раздутый результат), а "напиши пост, focusing on: [3 конкретных аспекта]". Узкий список → плотный, конкретный текст без воды.


🔗

Ресурсы

Rubric-as-Experts: Case-Specific MQM Rubrics for Translation Quality Evaluation

Weilu Xu, Yunzhi Shen, Xinye Wang, Ranfei Dang, Shujian Huang

National Key Laboratory for Novel Software Technology, Nanjing University

Базируется на стандарте MQM (Multidimensional Quality Metrics): Lommel et al., 2014; Freitag et al., 2021

Бенчмарк: WMT23 span-level QE, языковые пары Zh-En и En-De


📋 Дайджест исследования

Ключевая суть

Дай модели 15 критериев для простого текста — она найдёт 15 проблем. Половину придумает. Метод Rubric-as-Experts позволяет получать прицельные оценки — без мусорных замечаний для простых задач и с глубоким разбором для сложных. Критерии в промпте — это пространство поиска, а не просто инструкция: модель ищет проблемы именно там, куда ты её направил. Сузи список до трёх критериев для короткого документа, разверни до восьми для сложного — и оценка станет точной, а не списком притянутых замечаний.

Принцип работы

Раздели оценку на три уровня — и укажи в промпте критерии для каждого. Простой материал (1 страница, понятная структура) → 2-3 ключевых критерия. Средний (несколько разделов, есть нюансы) → 5-7 критериев. Сложный (много условий, нестандартные схемы) → полный список. Попроси модель сначала назвать выбранный уровень и объяснить почему — это делает рассуждение явным. Видишь что модель выбрала не тот уровень — можешь поправить до того как получишь оценку. Важно: критерии должны быть конкретными. Не «проверь качество» — а «проверь: чёткость условий, реалистичность сроков». Размытый критерий = размытый поиск.

Почему работает

Модель не читает документ целиком, а потом думает. Она генерирует текст по инструкциям — последовательно. Если в промпте перечислено 15 критериев, она обязана что-то сказать по каждому. Реальных проблем три — она добавит двенадцать фантомных. Обратная ошибка работает так же. Дашь один расплывчатый критерий — модель найдёт первые два очевидных момента и остановится. Глубокие системные проблемы пройдут мимо. Число критериев прямо определяет сколько проблем модель «найдёт» — независимо от того, есть они на самом деле или нет. Это не баг, это механика генерации. Отсюда и рычаг: управляй шириной списка — управляй точностью оценки.

Когда применять

Любая задача где нужно оценить, отрецензировать, проверить — тексты, документы, коммерческие предложения, продуктовые идеи, код, планы проектов. Особенно полезно когда материалы сильно разные по сложности и ты не хочешь каждый раз переписывать промпт — один шаблон с тремя уровнями покрывает всё. НЕ подходит для задач где сложность плохо определима заранее: оценка стиля, эстетики, «ощущения от текста». Модель может ошибиться с уровнем — и ты не сразу поймёшь почему оценка кривая.

Мини-рецепт

1. Определи что оцениваем и от чьего лица: текст, документ, идею — и роль эксперта (редактор, инвестор, закупщик, Product Manager).

2. Придумай три уровня сложности для своей задачи. Простой — короткий, стандартный, одно условие. Сложный — длинный, нестандартный, много условий. Средний — между ними.

3. Для каждого уровня пропиши конкретные критерии — от ключевых к второстепенным. Не «проверь структуру», а «проверь: есть ли чёткие сроки, названа ли стоимость».

4. Добавь шаг самодиагностики: попроси модель сначала назвать выбранный уровень и обосновать выбор. Только потом — оценивать.

5. Проверь первый результат: если модель выбрала не тот уровень — скажи об этом явно и попроси переоценить с нужным набором критериев.

Примеры

[ПЛОХО] : Проверь это коммерческое предложение и напиши что не так
[ХОРОШО] : Оцени это коммерческое предложение как закупщик федерального ритейлера. Сначала определи сложность документа: — Простое (1 страница, понятная структура): проверяй только ценность предложения, чёткость условий, призыв к действию. — Среднее (2-3 страницы, есть нюансы): добавь соответствие потребностям ритейлера, реалистичность сроков, конкурентные преимущества. — Сложное (много условий, нестандартные схемы): добавь риски для партнёра и логистику. Скажи какой уровень выбрал и почему. Потом дай оценку строго по выбранным критериям. [текст КП]
Источник: Rubric-as-Experts: Case-Specific MQM Rubrics for Translation Quality Evaluation
ArXiv ID: 2606.21559 | Сгенерировано: 2026-06-28 21:10

Проблемы LLM

ПроблемаСутьКак обойти
Модель находит проблемы там, куда её направили — даже если их нетДаёшь модели список критериев для оценки. Она обязана что-то написать по каждому. Нет реальной проблемы по критерию — напишет мнимую. Дашь 10 критериев простому тексту — получишь 7 замечаний, 4 из которых притянуты. Дашь 1 критерий сложному документу — пропустишь глубокие системные баги. Работает для любых задач оценки: текст, код, план, документПодбирай число критериев под сложность материала. Простое — 2-3 ключевых критерия. Сложное — полный список. Лучше: дай модели три уровня критериев и попроси самой выбрать уровень под материал

Методы

МетодСуть
Три уровня критериев — модель выбирает глубину самаВместо одного списка критериев дай три уровня. Пиши явно: если материал простой ({признак}) проверяй только: критерий 1, критерий 2. Если средний ({признак}) добавь: критерий 3, 4, 5. Если сложный ({признак}) проверяй всё плюс: критерий 6, 7, 8. Затем: скажи какой уровень выбрал и почему. Потом оценивай строго по выбранным критериям. Почему работает: модель явно выбирает ширину поиска до оценки. Требование объяснить выбор делает рассуждение видимым — можно поймать ошибку. Без этого модель применяет один масштаб ко всему. Когда работает: любая оценка с несколькими заранее известными критериями. Когда не работает: субъективные творческие задачи, критерии не продуманы заранее
📖 Простыми словами

Rubric-as-Experts: Case-Specific MQM Rubrics for Translation Quality Evaluation

arXiv: 2606.21559

Оценка качества текста нейронкой работает не как объективный взгляд со стороны, а как поиск с фонариком в темной комнате. Куда ты направил луч, то модель и увидела. Исследователи называют это эффектом rubric as search space: если ты дашь LLM список из двадцати возможных ошибок, она расшибется в лепешку, но найдет их все, даже если текст идеален. Модель не оценивает реальность, она просто заполняет предложенную тобой матрицу, превращая процесс в бессмысленную имитацию бурной деятельности.

Это как если бы ты пришел к врачу и сказал: «Найди у меня что-нибудь из этого списка редких тропических болезней». Врач, вместо того чтобы просто проверить твое состояние, начнет подгонять симптомы под список, пока не «найдет» у тебя лихорадку Денге просто потому, что ты его об этом попросил. В итоге вместо реального диагноза ты получаешь галлюцинации по инструкции, где модель высасывает проблемы из пальца, лишь бы соответствовать твоей сложной рубрике.

Чтобы эта херня не ломала оценку, придумали метод Rubric-as-Experts. Суть простая: сначала ты заставляешь модель проанализировать сам текст и контекст, а потом просишь её саму составить список критериев, которые важны именно здесь. Если это перевод инструкции к тостеру, ей не нужны критерии «художественной выразительности». Модель сначала создает MQM-рубрику под конкретный случай, а уже вторым шагом проверяет текст по этим точечным правилам. Это отсекает лишний шум и заставляет AI фокусироваться на том, что реально имеет значение.

Метод тестировали на переводах, но принцип универсален для любой редактуры, проверки кода или бизнес-анализа. Если ты просишь оценить коммерческое предложение для ритейлера, не давай модели общий список «хорошего текста». Пусть она сначала выделит специфику B2B, а потом ищет косяки именно в ней. Это превращает нейронку из послушного болвана, который поддакивает твоим страхам, в адекватного эксперта, понимающего контекст задачи.

Короче: хватит кормить модели универсальными чек-листами на все случаи жизни — это прямой путь к мусорным отчетам. Динамические рубрики работают точнее, потому что сужают пространство поиска до реальных проблем, а не выдуманных. Либо ты учишь модель сначала думать над критериями, либо получаешь отчет, где половина замечаний притянута за уши просто ради объема.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с