TL;DR
Вместо общих вопросов «это хорошо написано?» — сначала просишь LLM сгенерировать набор конкретных, взвешенных критериев для именно этой задачи, а потом той же LLM оцениваешь по ним любое количество текстов. Рубрика — не «чеклист на все случаи жизни», а инструмент, «заточенный» под конкретный контекст.
Проблема в том, что общая оценка «насколько это хорошо?» работает плохо: два человека с одним вопросом придут к разным ответам, потому что держат в голове разные неозвученные критерии. LLM — не исключение. Попросишь оценить текст «в целом» — получишь размытый отзыв, который меняется от запроса к запросу. Нет явных критериев → нет стабильной оценки.
Решение: перед оценкой принудительно материализовать критерии в явные пункты с весами. Рубрика из 4-6 пунктов, каждый привязан к конкретному требованию задачи — и оценка становится воспроизводимой. Бонус: LLM-рубрика, сгенерированная за секунды, по качеству ранжирования не уступает экспертной.
Схема метода
ШАГ 1 (в одном промпте): Описываешь контекст задачи →
LLM генерирует рубрику: список критериев + веса
ШАГ 2 (в том же или следующем запросе): Даёшь текст →
LLM оценивает каждый критерий от 0 до 1 →
считает взвешенный итоговый балл
ОПЦИОНАЛЬНО — Валидация рубрики:
Проверяешь на «лучшем» и «худшем» примере →
рубрика принята, если лучший получает балл выше худшего
Оба шага работают в одном промпте — сначала просишь создать рубрику, потом сразу оценить текст.
Пример применения
Задача: Ты основатель стартапа и написал три варианта описания продукта для главной страницы. Нужно выбрать лучший — не «на глаз», а с обоснованием.
Промпт:
Ты — опытный продуктовый маркетолог для B2B SaaS в России.
Контекст: Я пишу описание продукта для главной страницы сервиса
автоматизации бухгалтерии для малого бизнеса. Основная аудитория —
ИП и ООО с 1-10 сотрудниками, которые устали от ручного учёта в
таблицах и боятся ошибок в отчётах в ФНС.
ШАГ 1 — Создай рубрику оценки.
Требования:
- 5 критериев, специфичных ДЛЯ ЭТОЙ задачи и аудитории
- Каждый критерий начинается с "Reward for..."
- У каждого критерия — вес от 1 до 5 (важность для конверсии)
- Обязательно включи критерий про ясность ключевой выгоды
- Обязательно включи критерий про релевантность боли аудитории
Выведи рубрику таблицей: | Критерий | Вес |
ШАГ 2 — Оцени этот текст по созданной рубрике:
[ТЕКСТ ДЛЯ ОЦЕНКИ]
"Автоматизируйте учёт. Наш сервис подключается к вашей 1С и
самостоятельно формирует все отчёты."
Для каждого критерия: оценка от 0 до 1 + одно предложение почему.
Итоговый балл = сумма(вес × оценка) / сумма(весов) × 100%.
В конце — топ-3 конкретных слабых места текста.
Результат: Модель сначала выдаст таблицу из 5 критериев с весами — например, «Reward for явного упоминания страха ошибок в ФНС (вес 5)» или «Reward for конкретной выгоды без жаргона (вес 4)». Затем оценит текст по каждому пункту, покажет промежуточные баллы и итоговый процент. В конце — три конкретных проблемы с указанием, какой критерий провален. Формат делает оценку сравнимой: следующий вариант текста можно прогнать по той же рубрике и сравнить баллы.
Почему это работает
Слабость LLM при общей оценке — это нестабильность. Один и тот же текст при повторном запросе «оцени качество» даст разный результат, потому что модель каждый раз «угадывает» неявные критерии заново. Нет якоря → нет воспроизводимости.
Сильная сторона LLM — точно следовать явным инструкциям. Если критерии прописаны, модель применяет их последовательно. Исследование подтвердило: при наличии рубрики разброс между повторными оценками — близко к нулю (медиана 0%).
Метод использует это прямолинейно: сначала принудительно материализуем неявные стандарты в явные критерии, потом применяем их к тексту. Рубрика становится «контрактом оценки» — и модель его соблюдает.
Рычаги управления промптом: - Число критериев (4-6 оптимально) → больше = точнее, но дольше и дороже - Шкала весов → можно использовать 1-3 вместо 1-5 для простых задач - Формулировка критериев → «Reward for...» формат задаёт позитивный фрейм (за что начисляется балл), а не негативный - Валидация на примерах → если есть два текста, где один точно лучше — проверь рубрику на них перед массовым применением
Шаблон промпта
Ты — эксперт по {роль эксперта}.
Контекст задачи: {описание конкретного документа/контента +
аудитория + цель + ключевые ограничения}
ШАГ 1 — Создай рубрику оценки для ЭТОЙ задачи.
- {число_критериев} критериев, каждый начинается с "Reward for..."
- У каждого критерия — вес от 1 до 5 (5 = критически важно)
- Критерии привязаны к ЭТОМУ контексту, не универсальные
- Обязательно включи критерий: полнота раскрытия главной задачи
- Обязательно включи критерий: отсутствие лишней/нерелевантной информации
Выведи таблицей: | Критерий | Вес |
ШАГ 2 — Оцени текст по созданной рубрике:
{текст для оценки}
Для каждого критерия:
- Оценка: 0 (не выполнен) / 0.5 (частично) / 1 (полностью)
- Одно предложение — почему такая оценка
Итоговый балл = сумма(вес × оценка) / сумма(весов) × 100%
Выведи: итоговый балл + топ-{число} слабых мест с конкретными
рекомендациями.
Плейсхолдеры:
- {роль эксперта} — маркетолог, редактор, юрист, HR-специалист
- {описание контекста} — тип документа, аудитория, цель
- {число_критериев} — 4 для простых задач, 5-6 для сложных
- {текст для оценки} — вставляешь сам текст
- {число} — сколько слабых мест выводить (обычно 3)
🚀 Быстрый старт — вставь в чат:
Вот шаблон Case-Specific Rubric. Адаптируй под мою задачу: [твоя задача].
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит: какой тип документа, для кого и какова цель оценки — потому что без этого невозможно создать критерии, специфичные для задачи (а не универсальную «чеклист-пустышку»). Она возьмёт структуру из шаблона и сгенерирует рубрику под твой контекст.
Ограничения
⚠️ Сжатие потолка (ceiling compression): Когда все варианты текста высокого качества, рубрика перестаёт различать их — баллы кластеризуются у максимума. Метод лучше работает для сравнения неравных вариантов.
⚠️ Субъективные критерии: Если суть задачи — «какой тон лучше?» или «насколько это вдохновляет?» — рубрика поможет меньше. Метод силён там, где критерии можно сформулировать как проверяемые факты.
⚠️ Качество рубрики = потолок оценки: LLM-рубрика воспроизводима, но не магична. Если ты поставил неточную задачу при генерации критериев — оценка будет точной по неправильным критериям. Мусор на входе → мусор на выходе.
⚠️ Не для одноразовых задач: Создавать рубрику имеет смысл, когда нужно сравнить несколько вариантов или оценивать однотипные тексты многократно. Для разовой оценки одного текста — оверкилл.
Как исследовали
Команда из Canvas Medical (медицинские электронные карты) взяла 823 реальных врачебных приёма и попросила 20 клиницистов написать рубрики оценки — конкретные критерии для каждого случая. Параллельно те же рубрики генерировал GPT-o3 по тому же шаблону.
Ключевой вопрос: насколько LLM-рубрика согласуется с врачебной? Измеряли через ранговую корреляцию Кендалла (tau) — насколько похоже два эксперта ранжируют одни и те же тексты от лучшего к худшему. В первых экспериментах врач-врач соглашались лучше (tau 0.47-0.57), чем врач-LLM (0.34-0.44). Но в поздних экспериментах, когда AI-система улучшилась, всё перевернулось: LLM-рубрика согласовалась с врачами лучше, чем врачи между собой (tau 0.42-0.46 против 0.38-0.43).
Это неожиданный результат — исследователи разобрали его на два эффекта. Первый: когда тексты стали лучше, их труднее различать вообще (любой оценщик начинает «угадывать»). Второй: LLM-рубрики действительно улучшились. Именно второй эффект важен на практике: в зоне высокого качества LLM-рубрики надёжнее врачебных.
Цена оказалась ключевым аргументом: клиницист — 18 минут и ~$29.50 за рубрику, LLM — $0.02. Разница в 1000 раз при сопоставимом качестве ранжирования.
Адаптации и экстраполяции
🔧 Валидация рубрики перед массовым применением
Если у тебя есть хотя бы два текста, где один точно лучше другого — используй их чтобы проверить рубрику перед тем, как оценивать 10+ вариантов:
Перед оценкой партии текстов проверь рубрику:
Текст A (я считаю лучшим): {текст A}
Текст B (я считаю худшим): {текст B}
Оцени оба по рубрике. Если B получил балл выше A —
уточни критерии: что именно делает A лучше,
но не отражено в текущей рубрике?
Это прямой перенос принципа «best-worst validation» из исследования: рубрика принята только если воспроизводит твоё суждение о паре примеров.
🔧 Итеративное улучшение текста через рубрику
Рубрика — не просто оценка, а инструкция к правке:
Оцени текст по рубрике →
Найди критерии с оценкой ниже 0.7 →
Перепиши текст, явно адресуя слабые места →
Оцени снова по той же рубрике →
Сравни баллы
Рубрика остаётся стабильной якорной точкой между итерациями — ты видишь, что именно улучшилось, а что нет.
🔧 Сравнение формулировок одного сообщения
Перед отправкой важного письма клиенту, инвестору или партнёру:
Сгенерируй рубрику для: деловое письмо с просьбой
об отсрочке платежа, адресат — поставщик, отношения
важно сохранить.
Оцени два варианта письма по рубрике
и укажи, какой отправить и почему.
Ресурсы
Название: Case-Specific Rubrics for Clinical AI Evaluation: Methodology, Validation, and LLM-Clinician Agreement Across 823 Encounters
Авторы: Aaryan Shah, Andrew Hines, Alexia Downs, Denis Bajet, Paulius Mui MD, Fabiano Araujo MD PhD, Laura Offutt MD, Aida Rutledge MD, Elizabeth Jimenez
Организации: Canvas Medical (San Francisco), Stanford University (Department of Biomedical Data Science), XPC (X Primary Care), FCA Consulting, University of Nevada Reno
Репозиторий с промптами и скриптами: упоминается в статье как companion GitHub repository (Canvas Medical)
Связанные концепции: HealthBench (HealthBench applied expert-written criteria across clinical scenarios for ChatGPT), PDQI-9/PDSQI-9 (стандартные инструменты оценки врачебной документации), Kendall's tau (метрика ранговой корреляции)
