3,583 papers
arXiv:2604.24710 74 27 апр. 2026 г. FREE

Case-Specific Rubrics: оценка AI-контента через взвешенные критерии, сгенерированные LLM

КЛЮЧЕВАЯ СУТЬ
LLM нестабильна при общей оценке — это структурная проблема, не случайность. Без явных критериев модель каждый раз заново угадывает, что считать 'хорошим'. Один и тот же текст при повторном запросе 'оцени качество' — разные баллы каждый раз. Метод позволяет сравнивать тексты с воспроизводимой точностью — хоть 10 вариантов лендинга, хоть 100 резюме кандидатов. Фишка: сначала принуди модель превратить неявные стандарты в явный список критериев с весами — потом оценивай по ним. Модель отлично следует явным инструкциям, а не угадывает их. Медиана разброса при повторных оценках — 0%, а качество рубрики не уступает экспертной.
Адаптировать под запрос

TL;DR

Вместо общих вопросов «это хорошо написано?» — сначала просишь LLM сгенерировать набор конкретных, взвешенных критериев для именно этой задачи, а потом той же LLM оцениваешь по ним любое количество текстов. Рубрика — не «чеклист на все случаи жизни», а инструмент, «заточенный» под конкретный контекст.

Проблема в том, что общая оценка «насколько это хорошо?» работает плохо: два человека с одним вопросом придут к разным ответам, потому что держат в голове разные неозвученные критерии. LLM — не исключение. Попросишь оценить текст «в целом» — получишь размытый отзыв, который меняется от запроса к запросу. Нет явных критериев → нет стабильной оценки.

Решение: перед оценкой принудительно материализовать критерии в явные пункты с весами. Рубрика из 4-6 пунктов, каждый привязан к конкретному требованию задачи — и оценка становится воспроизводимой. Бонус: LLM-рубрика, сгенерированная за секунды, по качеству ранжирования не уступает экспертной.


🔬

Схема метода

ШАГ 1 (в одном промпте): Описываешь контекст задачи →
         LLM генерирует рубрику: список критериев + веса

ШАГ 2 (в том же или следующем запросе): Даёшь текст →
         LLM оценивает каждый критерий от 0 до 1 →
         считает взвешенный итоговый балл

ОПЦИОНАЛЬНО — Валидация рубрики:
         Проверяешь на «лучшем» и «худшем» примере →
         рубрика принята, если лучший получает балл выше худшего

Оба шага работают в одном промпте — сначала просишь создать рубрику, потом сразу оценить текст.


🚀

Пример применения

Задача: Ты основатель стартапа и написал три варианта описания продукта для главной страницы. Нужно выбрать лучший — не «на глаз», а с обоснованием.

Промпт:

Ты — опытный продуктовый маркетолог для B2B SaaS в России.

Контекст: Я пишу описание продукта для главной страницы сервиса 
автоматизации бухгалтерии для малого бизнеса. Основная аудитория — 
ИП и ООО с 1-10 сотрудниками, которые устали от ручного учёта в 
таблицах и боятся ошибок в отчётах в ФНС.

ШАГ 1 — Создай рубрику оценки.
Требования:
- 5 критериев, специфичных ДЛЯ ЭТОЙ задачи и аудитории
- Каждый критерий начинается с "Reward for..."
- У каждого критерия — вес от 1 до 5 (важность для конверсии)
- Обязательно включи критерий про ясность ключевой выгоды
- Обязательно включи критерий про релевантность боли аудитории

Выведи рубрику таблицей: | Критерий | Вес |

ШАГ 2 — Оцени этот текст по созданной рубрике:

[ТЕКСТ ДЛЯ ОЦЕНКИ]
"Автоматизируйте учёт. Наш сервис подключается к вашей 1С и 
самостоятельно формирует все отчёты."

Для каждого критерия: оценка от 0 до 1 + одно предложение почему.
Итоговый балл = сумма(вес × оценка) / сумма(весов) × 100%.
В конце — топ-3 конкретных слабых места текста.

Результат: Модель сначала выдаст таблицу из 5 критериев с весами — например, «Reward for явного упоминания страха ошибок в ФНС (вес 5)» или «Reward for конкретной выгоды без жаргона (вес 4)». Затем оценит текст по каждому пункту, покажет промежуточные баллы и итоговый процент. В конце — три конкретных проблемы с указанием, какой критерий провален. Формат делает оценку сравнимой: следующий вариант текста можно прогнать по той же рубрике и сравнить баллы.


🧠

Почему это работает

Слабость LLM при общей оценке — это нестабильность. Один и тот же текст при повторном запросе «оцени качество» даст разный результат, потому что модель каждый раз «угадывает» неявные критерии заново. Нет якоря → нет воспроизводимости.

Сильная сторона LLM — точно следовать явным инструкциям. Если критерии прописаны, модель применяет их последовательно. Исследование подтвердило: при наличии рубрики разброс между повторными оценками — близко к нулю (медиана 0%).

Метод использует это прямолинейно: сначала принудительно материализуем неявные стандарты в явные критерии, потом применяем их к тексту. Рубрика становится «контрактом оценки» — и модель его соблюдает.

Рычаги управления промптом: - Число критериев (4-6 оптимально) → больше = точнее, но дольше и дороже - Шкала весов → можно использовать 1-3 вместо 1-5 для простых задач - Формулировка критериев → «Reward for...» формат задаёт позитивный фрейм (за что начисляется балл), а не негативный - Валидация на примерах → если есть два текста, где один точно лучше — проверь рубрику на них перед массовым применением


📋

Шаблон промпта

Ты — эксперт по {роль эксперта}.

Контекст задачи: {описание конкретного документа/контента + 
аудитория + цель + ключевые ограничения}

ШАГ 1 — Создай рубрику оценки для ЭТОЙ задачи.
- {число_критериев} критериев, каждый начинается с "Reward for..."
- У каждого критерия — вес от 1 до 5 (5 = критически важно)
- Критерии привязаны к ЭТОМУ контексту, не универсальные
- Обязательно включи критерий: полнота раскрытия главной задачи
- Обязательно включи критерий: отсутствие лишней/нерелевантной информации

Выведи таблицей: | Критерий | Вес |

ШАГ 2 — Оцени текст по созданной рубрике:

{текст для оценки}

Для каждого критерия:
- Оценка: 0 (не выполнен) / 0.5 (частично) / 1 (полностью)
- Одно предложение — почему такая оценка

Итоговый балл = сумма(вес × оценка) / сумма(весов) × 100%

Выведи: итоговый балл + топ-{число} слабых мест с конкретными 
рекомендациями.

Плейсхолдеры: - {роль эксперта} — маркетолог, редактор, юрист, HR-специалист - {описание контекста} — тип документа, аудитория, цель - {число_критериев} — 4 для простых задач, 5-6 для сложных - {текст для оценки} — вставляешь сам текст - {число} — сколько слабых мест выводить (обычно 3)


🚀 Быстрый старт — вставь в чат:

Вот шаблон Case-Specific Rubric. Адаптируй под мою задачу: [твоя задача]. 
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит: какой тип документа, для кого и какова цель оценки — потому что без этого невозможно создать критерии, специфичные для задачи (а не универсальную «чеклист-пустышку»). Она возьмёт структуру из шаблона и сгенерирует рубрику под твой контекст.


⚠️

Ограничения

⚠️ Сжатие потолка (ceiling compression): Когда все варианты текста высокого качества, рубрика перестаёт различать их — баллы кластеризуются у максимума. Метод лучше работает для сравнения неравных вариантов.

⚠️ Субъективные критерии: Если суть задачи — «какой тон лучше?» или «насколько это вдохновляет?» — рубрика поможет меньше. Метод силён там, где критерии можно сформулировать как проверяемые факты.

⚠️ Качество рубрики = потолок оценки: LLM-рубрика воспроизводима, но не магична. Если ты поставил неточную задачу при генерации критериев — оценка будет точной по неправильным критериям. Мусор на входе → мусор на выходе.

⚠️ Не для одноразовых задач: Создавать рубрику имеет смысл, когда нужно сравнить несколько вариантов или оценивать однотипные тексты многократно. Для разовой оценки одного текста — оверкилл.


🔍

Как исследовали

Команда из Canvas Medical (медицинские электронные карты) взяла 823 реальных врачебных приёма и попросила 20 клиницистов написать рубрики оценки — конкретные критерии для каждого случая. Параллельно те же рубрики генерировал GPT-o3 по тому же шаблону.

Ключевой вопрос: насколько LLM-рубрика согласуется с врачебной? Измеряли через ранговую корреляцию Кендалла (tau) — насколько похоже два эксперта ранжируют одни и те же тексты от лучшего к худшему. В первых экспериментах врач-врач соглашались лучше (tau 0.47-0.57), чем врач-LLM (0.34-0.44). Но в поздних экспериментах, когда AI-система улучшилась, всё перевернулось: LLM-рубрика согласовалась с врачами лучше, чем врачи между собой (tau 0.42-0.46 против 0.38-0.43).

Это неожиданный результат — исследователи разобрали его на два эффекта. Первый: когда тексты стали лучше, их труднее различать вообще (любой оценщик начинает «угадывать»). Второй: LLM-рубрики действительно улучшились. Именно второй эффект важен на практике: в зоне высокого качества LLM-рубрики надёжнее врачебных.

Цена оказалась ключевым аргументом: клиницист — 18 минут и ~$29.50 за рубрику, LLM — $0.02. Разница в 1000 раз при сопоставимом качестве ранжирования.


💡

Адаптации и экстраполяции

🔧 Валидация рубрики перед массовым применением

Если у тебя есть хотя бы два текста, где один точно лучше другого — используй их чтобы проверить рубрику перед тем, как оценивать 10+ вариантов:

Перед оценкой партии текстов проверь рубрику:

Текст A (я считаю лучшим): {текст A}
Текст B (я считаю худшим): {текст B}

Оцени оба по рубрике. Если B получил балл выше A — 
уточни критерии: что именно делает A лучше, 
но не отражено в текущей рубрике?

Это прямой перенос принципа «best-worst validation» из исследования: рубрика принята только если воспроизводит твоё суждение о паре примеров.


🔧 Итеративное улучшение текста через рубрику

Рубрика — не просто оценка, а инструкция к правке:

Оцени текст по рубрике → 
Найди критерии с оценкой ниже 0.7 →
Перепиши текст, явно адресуя слабые места →
Оцени снова по той же рубрике →
Сравни баллы

Рубрика остаётся стабильной якорной точкой между итерациями — ты видишь, что именно улучшилось, а что нет.


🔧 Сравнение формулировок одного сообщения

Перед отправкой важного письма клиенту, инвестору или партнёру:

Сгенерируй рубрику для: деловое письмо с просьбой 
об отсрочке платежа, адресат — поставщик, отношения 
важно сохранить.

Оцени два варианта письма по рубрике 
и укажи, какой отправить и почему.

🔗

Ресурсы

Название: Case-Specific Rubrics for Clinical AI Evaluation: Methodology, Validation, and LLM-Clinician Agreement Across 823 Encounters

Авторы: Aaryan Shah, Andrew Hines, Alexia Downs, Denis Bajet, Paulius Mui MD, Fabiano Araujo MD PhD, Laura Offutt MD, Aida Rutledge MD, Elizabeth Jimenez

Организации: Canvas Medical (San Francisco), Stanford University (Department of Biomedical Data Science), XPC (X Primary Care), FCA Consulting, University of Nevada Reno

Репозиторий с промптами и скриптами: упоминается в статье как companion GitHub repository (Canvas Medical)

Связанные концепции: HealthBench (HealthBench applied expert-written criteria across clinical scenarios for ChatGPT), PDQI-9/PDSQI-9 (стандартные инструменты оценки врачебной документации), Kendall's tau (метрика ранговой корреляции)


📋 Дайджест исследования

Ключевая суть

LLM нестабильна при общей оценке — это структурная проблема, не случайность. Без явных критериев модель каждый раз заново угадывает, что считать 'хорошим'. Один и тот же текст при повторном запросе 'оцени качество' — разные баллы каждый раз. Метод позволяет сравнивать тексты с воспроизводимой точностью — хоть 10 вариантов лендинга, хоть 100 резюме кандидатов. Фишка: сначала принуди модель превратить неявные стандарты в явный список критериев с весами — потом оценивай по ним. Модель отлично следует явным инструкциям, а не угадывает их. Медиана разброса при повторных оценках — 0%, а качество рубрики не уступает экспертной.

Принцип работы

Не 'оцени текст', а 'сначала создай критерии — потом оцени'. Стандартный подход: один запрос 'дай обратную связь по тексту'. Проблема — модель каждый раз по-разному взвешивает неявные стандарты. Сегодня важна структура, завтра — тон, послезавтра — конкретность. Оценки между собой несравнимы. Рубрика — это 'контракт оценки': явный список из 4-6 критериев с весами, заточенных под конкретную задачу и аудиторию. Шаг 1: описываешь контекст → LLM генерирует рубрику. Шаг 2: даёшь текст → LLM оценивает каждый критерий от 0 до 1 → считает взвешенный итоговый балл. Оба шага работают в одном промпте.

Почему работает

У модели ограниченный 'бюджет внимания'. Попросишь оценить 'в целом' — она сама решает в моменте, какой аспект важнее. Попросишь оценить по списку из 5 пунктов — следует списку точно, не импровизирует. Рубрика превращает творческую задачу 'пойми что хорошо' в механическую задачу 'проверь по списку'. Модель хороша в механических задачах. Именно поэтому исследование показало: LLM-рубрика, сгенерированная за секунды, по качеству ранжирования не уступает экспертной. Проверено на 823 клинических случаях, где оценки LLM сравнивали с оценками врачей.

Когда применять

Для любой задачи, где нужно сравнить несколько вариантов текста или регулярно оценивать однотипный контент — описания продуктов, резюме соискателей, статьи, ответы службы поддержки, коммерческие предложения — особенно когда важно объяснить решение: 'почему вариант А лучше варианта Б'. НЕ подходит: для разовой оценки одного текста (создание рубрики избыточно) и для задач типа 'какой тон вдохновляет больше?' — метод работает там, где критерии можно сформулировать как проверяемые факты, а не вкусовщину.

Мини-рецепт

1. Дай роль и контекст: накорми модель деталями — тип контента, аудитория, цель текста, ключевые ограничения. Чем точнее контекст, тем точнее рубрика. Без этого получишь 'чеклист на все случаи жизни' — универсальный и бесполезный.

2. Попроси создать рубрику: Создай рубрику оценки для ЭТОЙ задачи: 5 критериев, каждый начинается с 'Reward for...', у каждого вес от 1 до 5 (5 = критически важно для цели). Критерии специфичны для моего контекста, без универсальных пунктов. Выведи таблицей: | Критерий | Вес |

3. Сразу оцени текст: в том же промпте добавь текст и попроси оценить каждый критерий по шкале 0 / 0.5 / 1 с одним предложением обоснования. Итоговый балл = сумма(вес × оценка) / сумма(весов) × 100%.

4. Проверь рубрику на полярных примерах: если есть два текста — один явно лучше другого — прогони оба по рубрике. Работает, если лучший получает балл выше. Не работает — попроси модель скорректировать веса.

5. Сравнивай варианты по одной рубрике: одни и те же критерии для всех версий текста. Менять пункты между оценками нельзя — иначе баллы несравнимы.

Примеры

[ПЛОХО] : Оцени это описание продукта и скажи что можно улучшить
[ХОРОШО] : Ты — маркетолог для малого бизнеса в России. Контекст: описание сервиса автоматизации отчётов для ИП и ООО с 1-10 сотрудниками. Аудитория ведёт учёт в таблицах и боится ошибок в отчётах в налоговую. ШАГ 1 — Создай рубрику: 5 критериев 'Reward for...', вес 1-5, специфичных для этой задачи и аудитории. Обязательно включи критерий про ясность главной выгоды и критерий про релевантность страха аудитории. Выведи таблицей: | Критерий | Вес | ШАГ 2 — Оцени текст по рубрике: [Автоматизируйте учёт. Наш сервис подключается к вашей программе и сам формирует все отчёты.] Для каждого критерия: оценка 0/0.5/1 + одно предложение почему. Итог = взвешенный балл в %. Топ-3 конкретных слабых места.
Источник: Case-Specific Rubrics for Clinical AI Evaluation: Methodology, Validation, and LLM-Clinician Agreement Across 823 Encounters
ArXiv ID: 2604.24710 | Сгенерировано: 2026-04-28 06:25

Проблемы LLM

ПроблемаСутьКак обойти
Оценка без явных критериев нестабильнаПросишь модель "оценить качество текста". Получаешь разные результаты при повторных запросах. Модель каждый раз угадывает неявные критерии заново. Нет якоря нет воспроизводимости. Работает плохо для любой задачи оценки или выбораСначала попроси модель сгенерировать явные критерии с весами. Потом оценивай по ним. Критерии становятся "контрактом" — модель его соблюдает

Методы

МетодСуть
Рубрика перед оценкой — делает результат стабильнымШаг 1. Опиши контекст задачи. Попроси создать 4–6 критериев с весами. Формат: Reward for [конкретное требование] + вес 1–5. Шаг 2. Подай текст. Попроси оценить каждый критерий от 0 до 1. Итог: сумма(вес × оценка) / сумма(весов) × 100%. Оба шага — в одном запросе. Почему работает: LLM хорошо следует явным инструкциям. Плохо — восстанавливает неявные. Рубрика убирает "угадывание". Когда применять: сравниваешь несколько вариантов, оцениваешь однотипные тексты многократно. Когда не работает: одноразовая оценка одного текста — избыточно; субъективные критерии ("насколько вдохновляет") — метод слабее

Тезисы

ТезисКомментарий
Явные критерии делают оценку воспроизводимойМодель стабильно применяет то, что явно написано. Без инструкций — каждый раз "изобретает" стандарт заново. Разброс между повторными оценками с рубрикой — близко к нулю. Разброс без рубрики — непредсказуем. Применяй: перед любой оценкой сначала материализуй критерии в явный список. Потом оценивай
📖 Простыми словами

Case-Specific Rubrics for ClinicalAIEvaluation: Methodology, Validation, andLLM-Clinician Agreement Across 823 Encounters

arXiv: 2604.24710

Суть метода в том, что нейронки лажают, когда их просят оценить что-то абстрактно «хорошо» или «плохо». Это происходит потому, что у модели нет жесткого якоря: каждый раз она выдумывает критерии оценки заново, как сонный препод на экзамене. Чтобы это исправить, исследователи предложили сначала заставить LLM создать индивидуальную рубрику под конкретную задачу, а уже потом по этой линейке измерять результат. Это превращает гадание на кофейной гуще в строгую экспертизу, где каждый балл обоснован конкретным пунктом.

Это как если бы ты пришел в ресторан и вместо «сделайте мне вкусно» выдал повару чек-лист из десяти пунктов: прожарка медиум-рар, соус без кинзы, подача на теплой тарелке. Формально повар может ошибиться, но вероятность получить фигню стремится к нулю, потому что у него перед глазами четкий чертеж идеального блюда. Без такой рубрики ты получаешь рандом, с ней — предсказуемый результат, который можно повторить хоть сто раз подряд.

В основе лежат кейс-специфичные рубрики, которые модель генерирует сама для себя. Сначала ты скармливаешь ей контекст, и она выдает набор взвешенных критериев — например, для медицинского диагноза это будет точность терминов и полнота анамнеза, а для стартапа — четкость ценностного предложения. Затем та же или другая модель прогоняет тексты через эти фильтры. В итоге согласованность оценок взлетает до небес, потому что AI больше не нужно гадать, что ты имел в виду под словом «качественно».

Хотя метод обкатывали на суровых клинических данных и 823 медицинских записях, принцип универсален. Тестируешь ли ты скрипты продаж, выбираешь лучший вариант лендинга или проверяешь код — динамические критерии работают везде. Это избавляет от необходимости писать огромные промпты-инструкции вручную. Ты просто делегируешь нейронке создание «судейской коллегии», которая будет судить твой контент по законам именно твоей ниши, а не по средним показателям по больнице.

Главный вывод: хватит просить AI «проверить текст» — это путь в никуда и гарантированная нестабильность. Сначала заставь модель прописать правила игры, утверди их, и только потом выпускай её на поле. Метод рубрик делает оценку прозрачной и исключает ситуацию, когда модель сегодня хвалит твой текст, а завтра называет его мусором. Кто внедрит этот двухэтапный процесс, получит контроль над качеством, пока остальные будут жаловаться на «галлюцинации» и рандомные ответы.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с