3,583 papers
arXiv:2606.08625 74 7 июня 2026 г. FREE

Rubric-Based Evaluation: структурированная оценка по критериям вместо целостного суждения

КЛЮЧЕВАЯ СУТЬ
Попросишь LLM «оцени текст» — получишь что-то вроде «в целом неплохо, но можно улучшить». Потому что модель не знает, что ты считаешь хорошим — и угадывает по усреднённым паттернам обучения. Метод рубрик позволяет получить конкретный разбор по пунктам вместо общей мямли: что именно работает, что нет, и с чего начинать правки. Принцип: разбить нужное качество на 3–7 независимых проверяемых критериев — и пройти по каждому отдельно. Вопрос «есть ли призыв к действию?» — однозначный. «Текст хороший?» — нет.
Адаптировать под запрос

TL;DR

Когда просишь LLM оценить текст, идею или код вопросом «это хорошо?» — модель выдаёт расплывчато. Рубрика — это список явных, независимых критериев, по каждому из которых модель выносит отдельный вердикт. Не «оцени в целом», а «проверь по пяти пунктам, каждый — отдельно». Это переносит оценку из интуиции в структуру.

Главная находка: LLM плохо работает с размытыми запросами типа «напиши хорошо» или «оцени качество». Модель не знает, что именно считать хорошим в твоём контексте — и угадывает. Результат: то занижает, то завышает, то игнорирует важное. Исследования показывают, что явный список критериев стабильно превосходит любой «целостный» запрос — особенно там, где нет однозначного правильного ответа (тексты, питчи, планы, стратегии).

Метод работает в два шага. Сначала разбиваешь нужное тебе качество на независимые пункты — каждый проверяем отдельно. Потом просишь модель пройти по каждому пункту и вынести вердикт — с объяснением. Финальный итог модель формирует сама на основе поштучных оценок, а не интуиции.


🔬

Схема метода

(Оба шага можно вложить в один промпт)

ШАГ 1: Создай рубрику — список 3–7 критериев под задачу → каждый критерий = одна проверяемая вещь

ШАГ 2: Оцени текст/результат по рубрике → по каждому пункту: вердикт + объяснение + что улучшить

ШАГ 3 (опционально): Перепиши с учётом провальных пунктов → улучшенная версия

Два уровня рубрики — выбираешь под задачу: - Аналитический (шкала 1–5 по каждому критерию) → для субъективных задач: тексты, презентации, стратегии - Атомарный (Да / Нет по каждому пункту) → для объективных задач: инструкции, технические требования, юридические условия


🚀

Пример применения

Задача: Ты написал коммерческое предложение для нового клиента — небольшой кофейни в Москве. Хочешь проверить его перед отправкой, но не знаешь, что именно не так.

Промпт:

Оцени моё коммерческое предложение по рубрике из 5 критериев. 
По каждому критерию:
— вердикт: ДА / ЧАСТИЧНО / НЕТ
— 1–2 предложения объяснения
— конкретное предложение по улучшению, если нужно

КРИТЕРИИ:
1. Боль клиента — явно ли обозначена проблема, которую решаем?
2. Конкретность предложения — понятно ли ЧТО именно предлагаем и в каком формате?
3. Доказательства — есть ли аргументы доверия: кейсы, цифры, социальное подтверждение?
4. Призыв к действию — понятно ли что нужно сделать дальше и почему сейчас?
5. Тон под аудиторию — подходит ли стиль для малого бизнеса (не слишком формальный, не слишком фамильярный)?

Итог: назови 1–2 самых критичных пункта, которые нужно исправить в первую очередь.

МОЁ КП:
[вставь текст]

Результат: Модель пройдёт по каждому из пяти пунктов и выдаст таблицу вердиктов с конкретными замечаниями. Ты сразу увидишь, где КП провисает — не «в целом слабовато», а «боль клиента не названа, призыв к действию размытый». В конце — приоритизация: с чего начинать правки.


🧠

Почему это работает

LLM не умеет читать мысли. Когда пишешь «оцени качество» — модель не знает твои приоритеты. Она угадывает по общим паттернам из обучения и выдаёт ответ, который звучит разумно, но не обязательно полезен для твоей конкретной задачи. Размытый запрос → размытый ответ.

Модель хорошо справляется с узкими, конкретными проверками. Вопрос «есть ли в тексте призыв к действию?» — однозначный. Модель ищет конкретный элемент и либо находит, либо нет. Чем уже вопрос — тем точнее ответ. Рубрика превращает большую, нечёткую задачу в набор маленьких, чётких.

Рычаги управления промптом: - Число критериев → 3–4 для быстрой проверки, 7–10 для глубокого аудита - Формат вердикта → Да/Нет для чёткости, шкала 1–5 для нюансов, процент для сравнения вариантов - Инструкция по итогу → «назови главное» для фокуса, «перепиши провальные блоки» для немедленного результата - Источник критериев → ты пишешь сам, или просишь модель сначала предложить критерии под задачу, а потом оценить


📋

Шаблон промпта

Оцени {текст/результат/план} по следующей рубрике.

По каждому критерию укажи:
— вердикт: {ДА / ЧАСТИЧНО / НЕТ} или {оценка 1–5}
— краткое объяснение (1–2 предложения)
— конкретное предложение по улучшению

КРИТЕРИИ:
1. {Критерий 1} — {что именно проверяем}
2. {Критерий 2} — {что именно проверяем}
3. {Критерий 3} — {что именно проверяем}
4. {Критерий 4} — {что именно проверяем}
5. {Критерий 5} — {что именно проверяем}

Итог: {назови 2 главных пункта для исправления / перепиши слабые блоки / сравни с идеальным вариантом}

{ТЕКСТ/МАТЕРИАЛ}:
[вставь сюда]

Что подставлять: - {текст/результат/план} — что оцениваем: КП, статья, питч, инструкция, стратегия - {Критерий} — одна конкретная вещь, которую модель может проверить независимо - {что именно проверяем} — уточнение: как выглядит «хорошо» по этому критерию - {итог} — что делать с результатом: приоритизировать правки или сразу переписать


🚀 Быстрый старт — вставь в чат:

Вот шаблон рубричной оценки. Адаптируй под мою задачу: [твоя задача].
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит: какой материал оцениваем, кто аудитория, какие приоритеты важны — потому что без этого критерии будут общими и размытыми. Она предложит готовую рубрику под твою задачу и сразу применит её.


⚠️

Ограничения

⚠️ Качество критериев решает всё: Плохая рубрика хуже, чем никакая. Если критерии размыты («текст должен быть интересным»), модель не знает что проверять — и результат ненадёжен. Каждый критерий должен быть проверяем: либо есть, либо нет.

⚠️ Субъективные критерии работают слабее: «Тон должен быть тёплым» — модель оценит, но её «тёплый» может не совпасть с твоим. Для субъективных аспектов помогает пример: «тон как у Фёдора Овчинникова в блоге Додо».

⚠️ Рубрика не заменяет экспертизу предметной области: Для юридических или медицинских текстов критерии нужно брать из профессиональных стандартов, а не придумывать самому — иначе рискуешь оценить не то, что важно.

⚠️ Самооценка модели — не объективная истина: Когда LLM оценивает текст, который сама же написала, она склонна завышать оценки. Лучше: написала в одном чате → оцениваешь в другом (чистый контекст).


🔍

Как исследовали

Это обзорная работа — авторы из Харбинского технологического института и Университета Цинхуа систематически проанализировали несколько сотен исследований о рубриках в LLM, вышедших с 2022 по 2026 год. Идея была такая: разные команды независимо друг от друга пришли к одному и тому же — структурированные критерии работают лучше, чем целостный скалярный балл. Авторы собрали эти разрозненные находки в единую карту.

Самый показательный вывод пришёл из сравнения атомарных рубрик с классическими скалярными оценками: системы, которые разбивают задачу на независимые проверяемые пункты («выполнено / не выполнено»), стабильно превосходят подходы типа «оцени качество от 1 до 10» — и по точности, и по согласованности между разными оценщиками. Это воспроизводится в математике, медицине, праве и открытых текстовых задачах.

Любопытная деталь: исследователи зафиксировали пять исторических фаз — как рубрики эволюционировали вместе с моделями. Сначала это были просто инструменты оценки, потом стали обучающими сигналами, а сейчас начинают возникать внутри самих моделей как встроенный механизм самоконтроля. Это объясняет, почему Claude и GPT-4 сами предлагают критерии, когда ты просишь их «улучшить» текст — это не случайность, это структура, на которой они обучались.


💡

Адаптации и экстраполяции

1. Рубрика для генерации, а не только оценки

🔧 Техника: рубрика как ТЗ → точнее первый черновик

Вместо «напиши КП для кофейни» → сначала определи критерии хорошего КП, потом дай их в промпт как требования к генерации.

Напиши коммерческое предложение, которое соответствует всем пунктам:

✓ Боль клиента — названа явно в первом абзаце
✓ Предложение — конкретное: что, в каком формате, по какой цене
✓ Доказательства — минимум один реальный кейс или цифра
✓ Призыв к действию — один, чёткий, с дедлайном или причиной действовать сейчас
✓ Объём — не больше одной страницы А4

Аудитория: владелец небольшой кофейни в Москве, занят, читает быстро.

Модель получает рубрику как чеклист требований — и генерирует сразу под них, а не угадывает.


2. Итеративное улучшение через рубрику

🔧 Техника: оцени → найди слабые места → улучши слабые места

Шаг 1: оцени этот текст по рубрике [критерии]
Шаг 2: найди 2 пункта с самой низкой оценкой
Шаг 3: перепиши только эти блоки — остальное не трогай

Это позволяет редактировать хирургически, а не переписывать всё целиком.


🔗

Ресурсы

Работа: From Holistic Evaluation to Structured Criteria: Rubrics Across the Evolving LLM Landscape (2026)

Авторы: Hao Chen, Ziyu Han (Харбинский технологический институт), Yukun Yan, Maosong Sun (Университет Цинхуа), Qingfu Zhu, Wanxiang Che

GitHub: github.com/AI9Stars/LLM-Rubrics-Survey

Ключевые работы из обзора: HealthBench (Arora et al., 2025), G-Eval (Liu et al., 2023), Constitutional AI (Bai et al., 2022), Checklist-as-Reward (Viswanathan et al., 2025)


📋 Дайджест исследования

Ключевая суть

Попросишь LLM «оцени текст» — получишь что-то вроде «в целом неплохо, но можно улучшить». Потому что модель не знает, что ты считаешь хорошим — и угадывает по усреднённым паттернам обучения. Метод рубрик позволяет получить конкретный разбор по пунктам вместо общей мямли: что именно работает, что нет, и с чего начинать правки. Принцип: разбить нужное качество на 3–7 независимых проверяемых критериев — и пройти по каждому отдельно. Вопрос «есть ли призыв к действию?» — однозначный. «Текст хороший?» — нет.

Принцип работы

Рубрика — это как технический осмотр автомобиля. Не «нормально ли едет?», а двадцать конкретных проверок: двигатель, тормоза, свет. Каждый пункт — отдельно. Модель хорошо справляется с узкими проверками — и плывёт на широких. Два формата под разные задачи: Да/Нет по каждому критерию — для технических требований и инструкций; шкала 1–5 — для субъективного (тексты, презентации, стратегии). Финальный итог модель формирует из поштучных оценок — а не из интуиции.

Почему работает

Размытый запрос → размытый ответ. Это не баг, это устройство модели. У неё нет твоих приоритетов в голове — она берёт усреднённые. Спросишь «хорошо ли написано?» — получишь усреднённый ответ на усреднённый вопрос. Узкий вопрос имеет однозначный ответ. «Есть ли в тексте конкретный призыв к действию?» — либо есть, либо нет. Рубрика превращает одну большую нечёткую задачу в пять маленьких конкретных. Модель перестаёт угадывать — и начинает проверять.

Когда применять

Тексты, коммерческие предложения, питчи, стратегии, инструкции, планы — любая задача без объективного правильного ответа. Особенно когда нужно не просто «нравится / не нравится», а конкретные правки с приоритетами. НЕ подходит для быстрой проверки на лету — рубрику нужно составить заранее, это занимает 5–10 минут. Также не заменяет экспертизу в узких областях: критерии для юридических или медицинских текстов лучше брать из профессиональных стандартов, а не придумывать самому.

Мини-рецепт

1. Определи что значит «хорошо» для твоей задачи: запиши 3–7 критериев. Каждый должен быть проверяемым — не «текст интересный», а «есть конкретный пример с цифрами».
2. Добавь уточнение к каждому критерию: как выглядит хороший результат именно по этому пункту.
3. Попроси модель пройти по каждому: вердикт «ДА / ЧАСТИЧНО / НЕТ» или оценку 1–5, одно-два предложения объяснения, конкретное предложение по улучшению.
4. Добавь итог в конце: «назови 2 самых критичных пункта — с чего начинать правки».
5. Нет времени составлять критерии самому? Попроси модель: Предложи рубрику из 5 критериев для оценки [твой тип задачи] — и сразу применй её к этому тексту: [вставь текст]

Примеры

[ПЛОХО] : Оцени моё коммерческое предложение — всё ли хорошо?
[ХОРОШО] : Оцени КП по рубрике из 5 критериев. По каждому: ДА / ЧАСТИЧНО / НЕТ + одно-два предложения объяснения + что именно исправить. КРИТЕРИИ: 1. Боль клиента — явно ли названа проблема, которую решаем? 2. Конкретность — понятно ли, что именно предлагаем и в каком формате? 3. Доказательства — есть ли кейсы, цифры или подтверждения доверия? 4. Призыв к действию — понятно ли, что делать дальше и почему сейчас? 5. Тон — подходит ли для малого бизнеса, не слишком официально и не фамильярно? Итог: назови 2 самых критичных пункта, которые нужно исправить в первую очередь. МОЁ КП: [вставь текст]
Источник: From Holistic Evaluation to Structured Criteria: Rubrics Across the Evolving LLM Landscape
ArXiv ID: 2606.08625 | Сгенерировано: 2026-06-09 05:41

Проблемы LLM

ПроблемаСутьКак обойти
Размытый запрос на оценку размытый выводПишешь "оцени качество" или "напиши хорошо". Модель не знает твои приоритеты. Она угадывает по общим паттернам из обучения. Один раз занижает. Другой раз завышает. Важное пропускает. Проблема универсальная: тексты, планы, код, стратегии — вездеЗамени один большой вопрос списком конкретных. "Есть ли призыв к действию?" лучше чем "КП хорошее?". Чем уже вопрос — тем точнее ответ
Модель завышает оценку своего текстаПросишь написать и сразу оценить в одном чате. Модель склонна ставить себе выше. Оценка ненадёжнаПиши в одном чате. Оценивай в новом — с чистым контекстом

Методы

МетодСуть
Рубрика — явный список критериев для оценкиСоставь 3–7 критериев под задачу. Каждый критерий — одна конкретная вещь для проверки. Попроси модель пройти по каждому отдельно: вердикт + объяснение + что улучшить. Два формата: Да/Нет — для технических задач (инструкции, требования). Шкала 1–5 — для субъективных (тексты, презентации). Шаблон: Оцени {материал} по критериям. По каждому: вердикт / объяснение / что улучшить. 1. {Критерий} — {что именно проверяем}. Когда работает: любая оценка без однозначно правильного ответа. Когда не работает: размытые критерии ("текст должен быть интересным") — модель не знает что искать
📖 Простыми словами

From Holistic Evaluation to Structured Criteria: Rubrics Across the EvolvingLLMLandscape

arXiv: 2606.08625

Когда ты просишь нейронку оценить текст фразой «ну как тебе?», она включает режим вежливого соседа и выдает порцию бесполезного одобрения. Проблема в том, что у LLM нет встроенного мерила крутости — она просто подбирает наиболее вероятные слова. Если запрос размыт, модель гадает на кофейной гуще, пытаясь угадать твои ожидания. Чтобы получить адекватный фидбек, нужно переходить от холистической оценки к структурированным рубрикам. Это база: ты не спрашиваешь мнение, ты даешь жесткий чек-лист, где каждый пункт изолирован от других.

Это как судейство в фигурном катании против криков толпы «красиво!». Толпа оценивает общее впечатление, а судья ставит баллы отдельно за технику, отдельно за артистизм и отдельно за сложность прыжков. Если свалить всё в кучу, модель начнет лажать из-за эффекта ореола: если текст написан красиво, она простит ему фактические ошибки. Рубрикация заставляет нейронку фокусироваться на деталях по очереди, не давая общему впечатлению замылить ей «глаза».

На практике это работает через декомпозицию критериев. Вместо «проверь письмо» ты скармливаешь модели три четких параметра: релевантность оффера (насколько это нужно кофейне в Москве), тон общения (не слишком ли официально) и призыв к действию (понятно ли, что делать дальше). По каждому пункту модель должна вынести отдельный вердикт. Такой подход превращает оценку из гадания в промышленный аудит, где каждый косяк подсвечен отдельно, а не спрятан за общими фразами про «высокое качество контента».

Метод тестировали на сложных текстах, но принцип универсален. Это работает для кода, стратегий, дизайна или даже личных писем. Если ты не задал критерии, ты отдаешь результат на волю случая. Структурированные рубрики превращают LLM из сомнительного советчика в дотошного редактора, который не просто говорит «фигня», а четко указывает, в каком месте и почему ты провалился. SEO для смыслов начинается именно здесь: когда ты учишь модель видеть структуру, а не просто буквы.

Короче: хватит ждать от нейронки телепатии. Если хочешь нормальный результат, забудь про общие вопросы и начни внедрять независимые критерии. Это единственный способ заставить модель работать на 100% её возможностей, а не выдавать среднюю температуру по больнице. Либо ты строишь систему оценки, либо продолжаешь получать «разумно звучащий мусор», который ни на шаг не приближает тебя к цели.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с