TL;DR
Когда просишь LLM оценить текст, идею или код вопросом «это хорошо?» — модель выдаёт расплывчато. Рубрика — это список явных, независимых критериев, по каждому из которых модель выносит отдельный вердикт. Не «оцени в целом», а «проверь по пяти пунктам, каждый — отдельно». Это переносит оценку из интуиции в структуру.
Главная находка: LLM плохо работает с размытыми запросами типа «напиши хорошо» или «оцени качество». Модель не знает, что именно считать хорошим в твоём контексте — и угадывает. Результат: то занижает, то завышает, то игнорирует важное. Исследования показывают, что явный список критериев стабильно превосходит любой «целостный» запрос — особенно там, где нет однозначного правильного ответа (тексты, питчи, планы, стратегии).
Метод работает в два шага. Сначала разбиваешь нужное тебе качество на независимые пункты — каждый проверяем отдельно. Потом просишь модель пройти по каждому пункту и вынести вердикт — с объяснением. Финальный итог модель формирует сама на основе поштучных оценок, а не интуиции.
Схема метода
(Оба шага можно вложить в один промпт)
ШАГ 1: Создай рубрику — список 3–7 критериев под задачу → каждый критерий = одна проверяемая вещь
ШАГ 2: Оцени текст/результат по рубрике → по каждому пункту: вердикт + объяснение + что улучшить
ШАГ 3 (опционально): Перепиши с учётом провальных пунктов → улучшенная версия
Два уровня рубрики — выбираешь под задачу: - Аналитический (шкала 1–5 по каждому критерию) → для субъективных задач: тексты, презентации, стратегии - Атомарный (Да / Нет по каждому пункту) → для объективных задач: инструкции, технические требования, юридические условия
Пример применения
Задача: Ты написал коммерческое предложение для нового клиента — небольшой кофейни в Москве. Хочешь проверить его перед отправкой, но не знаешь, что именно не так.
Промпт:
Оцени моё коммерческое предложение по рубрике из 5 критериев.
По каждому критерию:
— вердикт: ДА / ЧАСТИЧНО / НЕТ
— 1–2 предложения объяснения
— конкретное предложение по улучшению, если нужно
КРИТЕРИИ:
1. Боль клиента — явно ли обозначена проблема, которую решаем?
2. Конкретность предложения — понятно ли ЧТО именно предлагаем и в каком формате?
3. Доказательства — есть ли аргументы доверия: кейсы, цифры, социальное подтверждение?
4. Призыв к действию — понятно ли что нужно сделать дальше и почему сейчас?
5. Тон под аудиторию — подходит ли стиль для малого бизнеса (не слишком формальный, не слишком фамильярный)?
Итог: назови 1–2 самых критичных пункта, которые нужно исправить в первую очередь.
МОЁ КП:
[вставь текст]
Результат: Модель пройдёт по каждому из пяти пунктов и выдаст таблицу вердиктов с конкретными замечаниями. Ты сразу увидишь, где КП провисает — не «в целом слабовато», а «боль клиента не названа, призыв к действию размытый». В конце — приоритизация: с чего начинать правки.
Почему это работает
LLM не умеет читать мысли. Когда пишешь «оцени качество» — модель не знает твои приоритеты. Она угадывает по общим паттернам из обучения и выдаёт ответ, который звучит разумно, но не обязательно полезен для твоей конкретной задачи. Размытый запрос → размытый ответ.
Модель хорошо справляется с узкими, конкретными проверками. Вопрос «есть ли в тексте призыв к действию?» — однозначный. Модель ищет конкретный элемент и либо находит, либо нет. Чем уже вопрос — тем точнее ответ. Рубрика превращает большую, нечёткую задачу в набор маленьких, чётких.
Рычаги управления промптом: - Число критериев → 3–4 для быстрой проверки, 7–10 для глубокого аудита - Формат вердикта → Да/Нет для чёткости, шкала 1–5 для нюансов, процент для сравнения вариантов - Инструкция по итогу → «назови главное» для фокуса, «перепиши провальные блоки» для немедленного результата - Источник критериев → ты пишешь сам, или просишь модель сначала предложить критерии под задачу, а потом оценить
Шаблон промпта
Оцени {текст/результат/план} по следующей рубрике.
По каждому критерию укажи:
— вердикт: {ДА / ЧАСТИЧНО / НЕТ} или {оценка 1–5}
— краткое объяснение (1–2 предложения)
— конкретное предложение по улучшению
КРИТЕРИИ:
1. {Критерий 1} — {что именно проверяем}
2. {Критерий 2} — {что именно проверяем}
3. {Критерий 3} — {что именно проверяем}
4. {Критерий 4} — {что именно проверяем}
5. {Критерий 5} — {что именно проверяем}
Итог: {назови 2 главных пункта для исправления / перепиши слабые блоки / сравни с идеальным вариантом}
{ТЕКСТ/МАТЕРИАЛ}:
[вставь сюда]
Что подставлять:
- {текст/результат/план} — что оцениваем: КП, статья, питч, инструкция, стратегия
- {Критерий} — одна конкретная вещь, которую модель может проверить независимо
- {что именно проверяем} — уточнение: как выглядит «хорошо» по этому критерию
- {итог} — что делать с результатом: приоритизировать правки или сразу переписать
🚀 Быстрый старт — вставь в чат:
Вот шаблон рубричной оценки. Адаптируй под мою задачу: [твоя задача].
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит: какой материал оцениваем, кто аудитория, какие приоритеты важны — потому что без этого критерии будут общими и размытыми. Она предложит готовую рубрику под твою задачу и сразу применит её.
Ограничения
⚠️ Качество критериев решает всё: Плохая рубрика хуже, чем никакая. Если критерии размыты («текст должен быть интересным»), модель не знает что проверять — и результат ненадёжен. Каждый критерий должен быть проверяем: либо есть, либо нет.
⚠️ Субъективные критерии работают слабее: «Тон должен быть тёплым» — модель оценит, но её «тёплый» может не совпасть с твоим. Для субъективных аспектов помогает пример: «тон как у Фёдора Овчинникова в блоге Додо».
⚠️ Рубрика не заменяет экспертизу предметной области: Для юридических или медицинских текстов критерии нужно брать из профессиональных стандартов, а не придумывать самому — иначе рискуешь оценить не то, что важно.
⚠️ Самооценка модели — не объективная истина: Когда LLM оценивает текст, который сама же написала, она склонна завышать оценки. Лучше: написала в одном чате → оцениваешь в другом (чистый контекст).
Как исследовали
Это обзорная работа — авторы из Харбинского технологического института и Университета Цинхуа систематически проанализировали несколько сотен исследований о рубриках в LLM, вышедших с 2022 по 2026 год. Идея была такая: разные команды независимо друг от друга пришли к одному и тому же — структурированные критерии работают лучше, чем целостный скалярный балл. Авторы собрали эти разрозненные находки в единую карту.
Самый показательный вывод пришёл из сравнения атомарных рубрик с классическими скалярными оценками: системы, которые разбивают задачу на независимые проверяемые пункты («выполнено / не выполнено»), стабильно превосходят подходы типа «оцени качество от 1 до 10» — и по точности, и по согласованности между разными оценщиками. Это воспроизводится в математике, медицине, праве и открытых текстовых задачах.
Любопытная деталь: исследователи зафиксировали пять исторических фаз — как рубрики эволюционировали вместе с моделями. Сначала это были просто инструменты оценки, потом стали обучающими сигналами, а сейчас начинают возникать внутри самих моделей как встроенный механизм самоконтроля. Это объясняет, почему Claude и GPT-4 сами предлагают критерии, когда ты просишь их «улучшить» текст — это не случайность, это структура, на которой они обучались.
Адаптации и экстраполяции
1. Рубрика для генерации, а не только оценки
🔧 Техника: рубрика как ТЗ → точнее первый черновик
Вместо «напиши КП для кофейни» → сначала определи критерии хорошего КП, потом дай их в промпт как требования к генерации.
Напиши коммерческое предложение, которое соответствует всем пунктам:
✓ Боль клиента — названа явно в первом абзаце
✓ Предложение — конкретное: что, в каком формате, по какой цене
✓ Доказательства — минимум один реальный кейс или цифра
✓ Призыв к действию — один, чёткий, с дедлайном или причиной действовать сейчас
✓ Объём — не больше одной страницы А4
Аудитория: владелец небольшой кофейни в Москве, занят, читает быстро.
Модель получает рубрику как чеклист требований — и генерирует сразу под них, а не угадывает.
2. Итеративное улучшение через рубрику
🔧 Техника: оцени → найди слабые места → улучши слабые места
Шаг 1: оцени этот текст по рубрике [критерии]
Шаг 2: найди 2 пункта с самой низкой оценкой
Шаг 3: перепиши только эти блоки — остальное не трогай
Это позволяет редактировать хирургически, а не переписывать всё целиком.
Ресурсы
Работа: From Holistic Evaluation to Structured Criteria: Rubrics Across the Evolving LLM Landscape (2026)
Авторы: Hao Chen, Ziyu Han (Харбинский технологический институт), Yukun Yan, Maosong Sun (Университет Цинхуа), Qingfu Zhu, Wanxiang Che
GitHub: github.com/AI9Stars/LLM-Rubrics-Survey
Ключевые работы из обзора: HealthBench (Arora et al., 2025), G-Eval (Liu et al., 2023), Constitutional AI (Bai et al., 2022), Checklist-as-Reward (Viswanathan et al., 2025)
