3,583 papers
arXiv:2604.26607 74 29 апр. 2026 г. FREE

Rubric-Based Competency Evaluation: многомерная оценка работ через структурированный рубрик-промпт

КЛЮЧЕВАЯ СУТЬ
Парадокс: 70B модель показала нулевое согласие с экспертами при оценке по рубрике — хуже, чем 8B модель другой архитектуры. Для строгого следования структуре архитектура важнее размера. Rubric-Based Competency Evaluation позволяет получать воспроизводимую оценку по любым компетенциям — два разных специалиста с одним промптом придут к похожим выводам. Три блокирующих элемента: запрет на числа + цитата из работы как обоснование каждой метки + уровни с описанием того, что конкретно видно в тексте. Модель перестаёт генерировать «типичную обратную связь» и начинает сопоставлять — ищет паттерны и матчит их с описаниями уровней. Нет цитаты — нет уровня. Галлюцинации блокируются структурой.
Адаптировать под запрос

TL;DR

Исследование показывает: если попросить LLM оценить работу по рубрике с наблюдаемыми признаками каждого уровня, запретить числовые оценки и потребовать карту доказательств — модель выдаёт структурированную, воспроизводимую обратную связь вместо расплывчатых "хорошо/плохо". Это не одна техника, а паттерн оценочного промпта: роль эксперта + многомерная рубрика + запрет на числа + требование цитировать конкретные фрагменты работы.

Главная находка неочевидна: большая модель (70B параметров) показала худшее согласие с экспертами, чем более компактная модель другой архитектуры. Когда задача — строго следовать структурированной рубрике, архитектура важнее размера. Большая модель "разваливается" на жёстких ограничениях — начинает отклоняться в собственные рассуждения вместо того чтобы следовать заданной структуре оценки.

Решение — добавить в промпт три блокирующих элемента: запрет на числовые оценки (модель вынуждена мыслить качественно), карту доказательств (цитата из работы как обоснование каждой метки) и уровни компетенций с описанием наблюдаемых признаков (модель не придумывает критерии — она сопоставляет работу с уже готовой шкалой).


🔬

Схема метода

ШАГ 1: Определи рубрику (один раз)
  → 3-5 компетенций × 3-4 уровня каждая
  → Для каждого уровня: observable evidence (что видно в работе)

ШАГ 2: Составь оценочный промпт (один раз)
  → Роль: эксперт в предметной области
  → Правило: НИКАКИХ числовых оценок
  → Задача: для каждой компетенции — уровень + цитата-доказательство + уверенность

ШАГ 3: Отправь работу на оценку
  → Вставь рубрику + работу студента/кандидата/текст
  → Один запрос = один человек/документ

Все три шага выполняются в одном чате. Рубрика пишется один раз, потом переиспользуется.


🚀

Пример применения

Задача: HR-менеджер в технологической компании оценивает тестовое задание кандидата на позицию продуктового аналитика. Нужна не интуитивная "нравится/не нравится", а структурированный отчёт по компетенциям — чтобы потом объяснить кандидату и нанимающему менеджеру.

Промпт:

Ты — опытный Head of Product с 8+ лет практики. 
Твоя задача: оценить тестовое задание кандидата на роль продуктового аналитика.

ПРАВИЛА:
- Никаких числовых оценок и баллов
- Каждый вывод должен опираться на конкретную цитату из работы
- Оценивай рассуждения, а не финальный ответ

РУБРИКА ОЦЕНКИ (4 компетенции × 4 уровня):

1. ПОНИМАНИЕ ПРОБЛЕМЫ
   Начальный: Повторяет условие задачи, не формулирует суть проблемы
   Базовый: Формулирует проблему своими словами с минимальным контекстом
   Уверенный: Связывает проблему с бизнес-метриками и пользователем
   Экспертный: Переформулирует задачу, выявляя скрытые ограничения и допущения

2. РАБОТА С ДАННЫМИ
   Начальный: Описывает данные без анализа
   Базовый: Считает базовые метрики, делает очевидные выводы
   Уверенный: Сегментирует и сравнивает, выдвигает гипотезы
   Экспертный: Выявляет нелинейные зависимости, учитывает смешивающие факторы

3. СТРУКТУРА РЕШЕНИЯ
   Начальный: Список идей без приоритизации
   Базовый: Есть логика, но шаги не связаны между собой
   Уверенный: Чёткая последовательность с обоснованием приоритетов
   Экспертный: Учитывает ограничения ресурсов, риски, альтернативные сценарии

4. КОММУНИКАЦИЯ ВЫВОДОВ
   Начальный: Разрозненные наблюдения без итога
   Базовый: Есть вывод, но не операционализирован
   Уверенный: Конкретные рекомендации с метриками успеха
   Экспертный: Вывод адаптирован под разные аудитории (CEO, разработчики, поддержка)

ФОРМАТ ОТВЕТА — для каждой компетенции:
[Компетенция]: [Уровень]
Доказательство: "[Цитата из работы]"
Комментарий: [1-2 предложения что именно это показывает]
Уверенность: Высокая / Средняя / Низкая

В конце — раздел ОБЩИЙ ПРОФИЛЬ: где кандидат силён, где пробелы, на что обратить внимание при собеседовании.

---
ТЕСТОВОЕ ЗАДАНИЕ КАНДИДАТА:
[вставить текст работы]

Результат:

Модель выдаст структурированный отчёт: четыре блока по компетенциям с цитатами из работы, уровень и уверенность для каждой. В конце — синтетический профиль кандидата с конкретными вопросами для углублённого собеседования. Результат воспроизводим — два разных HR-менеджера с одним промптом получат сопоставимые оценки.


🧠

Почему это работает

LLM при открытом вопросе "оцени работу" генерирует текст по самым частотным паттернам обратной связи из обучающих данных — получается размытое "хорошо написано, но можно улучшить структуру". Модель не знает ваших критериев и придумывает свои.

Рубрика с наблюдаемыми признаками переключает режим работы: вместо генерации "типичной обратной связи" модель выполняет задачу сопоставления — находит в тексте конкретные паттерны и матчит их с описаниями уровней. Это модели делают хорошо.

Запрет на числа — не декоративный. Числовая оценка позволяет модели "срезать угол": поставить 7/10 и не объяснять почему. Без чисел модель вынуждена описывать словами, что именно видит в работе. Карта доказательств (цитата → вывод) блокирует галлюцинации: если цитаты нет — уровень не обоснован.

Рычаги управления: - Число компетенций → 3-4 оптимально, больше 6 — качество падает, модель "размывается" - Детализация уровней → чем конкретнее описаны признаки, тем точнее сопоставление - Запрос уверенности → если модель пишет "Уверенность: Низкая" — сигнал, что это граничный случай, стоит проверить вручную - Роль эксперта → конкретизируй: не "эксперт", а "Head of Product с опытом в B2B SaaS" — модель точнее выбирает критерии


📋

Шаблон промпта

Ты — {роль_эксперта} с {N} лет опыта в {предметная_область}.
Оцени {что_оцениваем}: {название_работы/задания}.

ПРАВИЛА:
- Никаких числовых оценок и баллов
- Каждый вывод подкреплён цитатой из текста
- Оценивай процесс рассуждений, не только финальный результат

РУБРИКА:

1. {КОМПЕТЕНЦИЯ_1}
   {уровень_1}: {что_видно_в_работе_на_этом_уровне}
   {уровень_2}: {что_видно_в_работе_на_этом_уровне}
   {уровень_3}: {что_видно_в_работе_на_этом_уровне}
   {уровень_4}: {что_видно_в_работе_на_этом_уровне}

2. {КОМПЕТЕНЦИЯ_2}
   [аналогично]

3. {КОМПЕТЕНЦИЯ_3}
   [аналогично]

ФОРМАТ ОТВЕТА — для каждой компетенции:
[Компетенция]: [Уровень]
Доказательство: "[Цитата из работы]"
Комментарий: [что именно это показывает]
Уверенность: Высокая / Средняя / Низкая

Завершение — ИТОГОВЫЙ ПРОФИЛЬ: главные сильные стороны, зоны роста, вопросы для follow-up.

---
РАБОТА ДЛЯ ОЦЕНКИ:
{текст_работы}

Плейсхолдеры: - {роль_эксперта} — конкретная должность, не просто "эксперт": "старший редактор", "архитектор решений", "методолог" - {компетенция} — измеримый аспект работы: "логика аргументации", "работа с возражениями", "структура текста" - {что_видно_в_работе} — поведенческие маркеры, не абстракции: "автор цитирует источник", "приводит контрпример", "использует метафору" - {уровень} — можно взять из оригинала: Начальный → Базовый → Уверенный → Экспертный


🚀 Быстрый старт — вставь в чат:

Вот шаблон для оценки работ по рубрике. Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить все поля.

[вставить шаблон выше]

LLM спросит какие компетенции важны для твоей области и попросит описать признаки каждого уровня — потому что без этого не сможет правильно сопоставить работу с рубрикой. Она возьмёт структуру из шаблона и адаптирует под твой контекст.


⚠️

Ограничения

⚠️ Субъективные критерии: Если признаки уровней размытые ("хорошо написано", "глубокий анализ") — модель будет галлюцинировать совпадения. Рубрика работает только с конкретными, наблюдаемыми маркерами.

⚠️ Длинные работы: Если документ превышает несколько страниц — качество падает. Исследование прямо отмечает: длинный контекст "путает модель" и увеличивает число некорректных меток. Оценивай по частям.

⚠️ Большая модель ≠ лучшая для рубрик: В эксперименте 70B модель показала нулевое согласие с экспертами — хуже, чем 8B модель другой архитектуры. Для строго структурированных задач оценки Gemini (MoE) превзошла Llama (Dense). При критически важных задачах стоит проверить несколько моделей.

⚠️ Не для итоговой аттестации: Авторы прямо пишут — LLM сейчас не готова к автономной сертификации. Это инструмент предварительного скрининга и помощи, не замена эксперта.


🔍

Как исследовали

Команда из Nepal взяла реальные рукописные работы 33 учеников 10-го класса по Optional Mathematics — это серьёзный предмет для тех, кто идёт в науку и технологии. Два опытных преподавателя независимо оценили каждую работу по четырём компетенциям (Comprehension, Knowledge, Operational Fluency, Behavior & Correlation), каждая в четырёх уровнях. Согласие между экспертами — κw = 0.865 (очень высокое). Это и стало эталоном.

Затем те же работы прогнали через четыре LLM с одним идентичным промптом при температуре 0.1 (минимум случайности). Результат удивил: Gemini Flash (MoE, меньший) показал "Fair Agreement" с экспертами (κw ≈ 0.38), а Llama 70B (Dense, больший) показал практически нулевое согласие (κw = −0.03) — хуже случайного. Это называют "Architecture-compatibility gap": разреженная архитектура MoE лучше следует жёстким инструкциям рубрики, чем плотная Dense-сеть большего размера.

Вывод звучит контринтуитивно, но логически объясним: Dense-модели при большом размере начинают "перебивать" инструкции собственными сильными паттернами. MoE-модели активируют разные блоки под разные типы задач — и на структурированной классификации по рубрике оказываются точнее. Для практики: если хочешь надёжной оценки по рубрике — Gemini Flash, а не "самая большая модель".


💡

Адаптации и экстраполяции

🔧 Техника: убрать запрос уверенности → получить компактный отчёт

Если нужен быстрый скрининг без deep-dive — убери строку "Уверенность: ..." из формата. Модель выдаст компактную таблицу уровней с цитатами. Добавь обратно когда нужна флаговая система: "всё с низкой уверенностью → ручная проверка".

🔧 Экстраполяция: оценка не работы, а решения проблемы

Тот же паттерн работает для оценки ответов на кейс-интервью, стратегических решений команды, клиентских питчей. Замени компетенции на: "Диагностика ситуации", "Качество гипотез", "Операционализация", "Работа с рисками" — и рубрика готова для ревью стратегических документов.

🔧 Техника: двойная оценка через два запроса

Отправь одну работу на оценку дважды с небольшим интервалом (или в двух разных чатах). Сравни результаты. Где уровни совпадают — высокая внутренняя согласованность. Где расходятся — граничный случай, который точно стоит оценить вручную. Дешёвый способ измерить надёжность оценки.


🔗

Ресурсы

Human-in-the-Loop Benchmarking of Heterogeneous LLMs for Automated Competency Assessment in Secondary Level Mathematics

Jatin Bhusal, Nancy Mahatha, Aayush Acharya, Raunak Regmi

Research and Incubation Center (RAIN), Sunway College Kathmandu, Nepal

Контакт: jatin@sunway.edu.np

Связанные концепции: Competency-Based Education (CBE), Cohen's Weighted Kappa (κw), Mixture-of-Experts (MoE) архитектура, Role-Based Instruction (RBI) промптинг


📋 Дайджест исследования

Ключевая суть

Парадокс: 70B модель показала нулевое согласие с экспертами при оценке по рубрике — хуже, чем 8B модель другой архитектуры. Для строгого следования структуре архитектура важнее размера. Rubric-Based Competency Evaluation позволяет получать воспроизводимую оценку по любым компетенциям — два разных специалиста с одним промптом придут к похожим выводам. Три блокирующих элемента: запрет на числа + цитата из работы как обоснование каждой метки + уровни с описанием того, что конкретно видно в тексте. Модель перестаёт генерировать «типичную обратную связь» и начинает сопоставлять — ищет паттерны и матчит их с описаниями уровней. Нет цитаты — нет уровня. Галлюцинации блокируются структурой.

Принцип работы

Открытый вопрос «оцени работу» — это инструкция сгенерировать текст в стиле типичной обратной связи из обучающих данных. Модель не знает ваших критериев и придумывает свои — получается расплывчатое «хорошо написано, но можно улучшить структуру». Рубрика с наблюдаемыми маркерами меняет задачу целиком. Вместо генерации — поиск совпадений. Модель ищет в тексте конкретные признаки и сопоставляет их с готовой шкалой. Запрет на числа — не косметика. «7 из 10» — это срезать угол: поставил оценку и не объяснил почему. Без числа модель вынуждена описать словами, что именно видит в работе. Это другой режим работы.

Почему работает

Три элемента работают как стопоры — каждый блокирует свой вид ошибки. Запрет на числа убирает возможность уйти от объяснений. Цитата как доказательство блокирует выдумки: если конкретного фрагмента нет в тексте работы, уровень ничем не обоснован. Наблюдаемые признаки на каждом уровне устраняют абстракции — «глубокий анализ» не видно в тексте, а «автор приводит контрпример» — видно. И главная находка: 70B модель на архитектуре Dense показала нулевое согласие с экспертами, а более компактная модель на архитектуре MoE обошла её. Большая модель «ломается» на жёстких ограничениях — начинает уходить в собственные рассуждения вместо следования заданной структуре. До 6 компетенций качество держится. Больше — модель начинает размываться.

Когда применять

Подбор персонала — для структурированного скрининга тестовых заданий, особенно когда нужно обосновать решение перед кандидатом и нанимающим менеджером. Образование — для развивающей обратной связи по эссе, проектам, лабораторным. Редактура и контент — для оценки текстов по заданным критериям качества. НЕ подходит для итоговой аттестации и выдачи сертификатов — авторы прямо пишут: LLM сейчас не готова к автономным решениям о допуске. И не подходит, если признаки уровней расплывчатые («хорошо написано», «глубокое понимание») — тогда модель будет сопоставлять галлюцинации с галлюцинациями.

Мини-рецепт

1. Выбери компетенции: 3-5, не больше. Каждая — конкретный измеримый аспект: «логика аргументации», «работа с источниками», «структура решения». Не «общее качество».
2. Пропиши уровни с маркерами: для каждой компетенции — 3-4 уровня. В каждом уровне — что конкретно видно в работе. Не «глубокий анализ», а «автор выдвигает гипотезу и приводит контрпример».
3. Добавь три запрета в промпт: никаких числовых оценок, цитата из работы для каждого вывода, уверенность (Высокая / Средняя / Низкая). Уверенность «Низкая» — сигнал проверить вручную.
4. Запроси итоговый профиль: сильные стороны, зоны роста, вопросы для дополнительного разбора. Это переводит оценку в конкретное действие.
5. Проверь модель: если большая модель выдаёт странные результаты на жёстко структурированном промпте — переключись на другую. Результат исследования: меньше не значит хуже.

Примеры

[ПЛОХО] : Оцени это тестовое задание аналитика, поставь оценку от 1 до 10
[ХОРОШО] : Ты — Head of Product с 8 лет опыта. Оцени тестовое задание кандидата. ПРАВИЛА: - Никаких числовых оценок и баллов - Каждый вывод — цитата из работы - Оценивай рассуждения, не только финальный ответ РУБРИКА: 1. ПОНИМАНИЕ ПРОБЛЕМЫ Начальный: повторяет условие задачи, не формулирует суть Базовый: формулирует проблему своими словами Уверенный: связывает проблему с бизнес-метриками Экспертный: переформулирует задачу, выявляя скрытые допущения 2. СТРУКТУРА РЕШЕНИЯ Начальный: список идей без приоритетов Базовый: есть логика, но шаги не связаны Уверенный: чёткая последовательность с обоснованием приоритетов Экспертный: учитывает ограничения ресурсов, риски, альтернативы ФОРМАТ — для каждой компетенции: [Компетенция]: [Уровень] Доказательство: "[цитата из работы]" Комментарий: [что именно это показывает] Уверенность: Высокая / Средняя / Низкая В конце — ПРОФИЛЬ: сильные стороны, пробелы, вопросы для собеседования. --- РАБОТА КАНДИДАТА: [текст работы]
Источник: Human-in-the-Loop Benchmarking of Heterogeneous LLMs for Automated Competency Assessment in Secondary Level Mathematics
ArXiv ID: 2604.26607 | Сгенерировано: 2026-04-30 05:28

Проблемы LLM

ПроблемаСутьКак обойти
Открытый запрос на оценку даёт шаблонный ответПросишь "оцени работу". Модель не знает твоих критериев. Выдаёт типичную обратную связь из обучающих данных: "хорошо написано, но можно улучшить структуру". Работает для любой задачи оценки — ответ расплывчатый всегда, когда критерии не заданы явноДай рубрику с описанием признаков каждого уровня. Модель переключается в режим сопоставления: ищет конкретные паттерны в тексте и матчит с уровнями. Это она делает хорошо
Числовая оценка позволяет модели не объяснять выводыПросишь поставить оценку. Модель пишет "7 из 10" и останавливается. Числовой ответ завершён сам по себе — нет давления объяснять. Результат: ты не знаешь почему 7, а не 6 или 8Запрети в промпте числа и баллы явно. Без числа модель вынуждена объяснять словами что именно видит в работе

Методы

МетодСуть
Три ограничения для структурированной оценкиДобавь в промпт три правила одновременно. Первое: "никаких числовых оценок и баллов" — модель вынуждена описывать, а не ставить цифру. Второе: "каждый вывод подкреплён цитатой из текста" — нет цитаты, нет вывода; блокирует галлюцинации. Третье: дай рубрику с наблюдаемыми признаками для каждого уровня — не "хорошо/плохо", а "автор цитирует источник", "приводит контрпример". Все три работают вместе: каждое убирает отдельный путь к "срезанию угла". Когда применять: любая оценка работ, резюме, тестовых заданий, текстов. Ограничение: признаки уровней должны быть конкретными и наблюдаемыми — размытые ("глубокий анализ") дадут галлюцинации
Запрос уверенности как фильтр для ручной проверкиВ конце блока по каждой компетенции добавь поле: "Уверенность: Высокая / Средняя / Низкая". Пример: Уверенность: Средняя. Почему работает: модель честно сигнализирует про граничные случаи — когда работа не попадает чётко в один уровень. Это не самооценка качества ответа, а маркер неоднозначности. Применяй: всё с пометкой "Средняя" или "Низкая" — проверяй вручную. Высокая уверенность — можно доверять

Тезисы

ТезисКомментарий
Для задач со строгими ограничениями архитектура модели важнее размераКогда задача требует жёстко следовать структуре (рубрика, формат, ограничения) — большая модель может работать хуже маленькой. Механизм: большие плотные модели при жёстких ограничениях начинают отклоняться в собственные рассуждения вместо того чтобы следовать заданной структуре. Модели с разреженной архитектурой лучше удерживают формат при ограничениях. Применяй: для задач строгой оценки не выбирай модель по параметрам — тестируй несколько. Большая лучшая
📖 Простыми словами

Human-in-the-Loop Benchmarking of HeterogeneousLLMsfor Automated Competency Assessment in Secondary Level Mathematics

arXiv: 2604.26607

Нейросети оценивают работы как типичные «добрые учителя»: льют воду, ставят оценки на глаз и боятся обидеть. Корень проблемы в том, что без жестких рамок LLM просто подбирает наиболее вероятные слова из интернета, выдавая бесполезное «в целом неплохо, но можно лучше». Чтобы заставить модель реально работать, нужно превратить её из гадалки в строгого аудитора, который не имеет права голоса, пока не найдет конкретную улику в тексте.

Это как если бы ты пришел к врачу, а он вместо «ну, вы выглядите приболевшим» достал бы чек-лист из 20 симптомов и начал сверять каждый с твоими анализами. Формально он просто ставит галочки, но на выходе ты получаешь не гадание на кофейной гуще, а точный диагноз. Метод работает именно так: мы отбираем у модели право на интуицию и заставляем её работать «по приборам».

Суть метода — паттерн оценочного промпта. Сначала даешь модели роль узкого эксперта, затем подсовываешь многомерную рубрику с четкими признаками (никаких «красиво», только «использовано 3 метафоры»). Главная фишка — запрет на числа и требование составить карту доказательств. Модель не может просто поставить 4 из 5, она обязана процитировать фрагмент работы, который доказывает соответствие критерию. Если цитаты нет — значит, и навыка нет, никакой магии и додумок.

Этот подход тестировали на школьной математике, но принцип универсален. Он идеально ложится на оценку тестовых заданий в HR, проверку юридических договоров или аудит текстов копирайтеров. Везде, где нужно уйти от субъективного «нравится» к воспроизводимому результату, этот паттерн спасает ситуацию. Ты просто меняешь математические формулы на критерии бизнес-анализа, а механика цитирования доказательств остается прежней.

Короче: хватит просить AI «оценить текст» — он просто нальет тебе патоки. Используй структурированную рубрику и запрет на баллы, заставляя модель работать только с фактами из текста. Это превращает галлюцинирующий чат-бот в профессиональный инструмент оценки, который выдает результат, понятный и тебе, и тому, кого ты оцениваешь. Кто не внедрит такие рамки, так и будет тонуть в бесполезном фидбеке.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с