TL;DR
Критерии оценки, которые вы даёте модели, — это не просто инструкции. Это пространство поиска: модель ищет проблемы именно там, куда вы её направили. Дайте широкий список критериев — она найдёт много, в том числе мнимых. Дайте узкий — пропустит реальные ошибки. Исследование называет это эффектом rubric as search space.
Главная боль: когда просишь модель оценить или отрецензировать что-то, результат непредсказуем. То она цепляется к мелочам и выдаёт длинный список замечаний к простому тексту. То пропускает серьёзный изъян в сложном документе. Кажется, дело в «настроении» модели — но на самом деле дело в несоответствии критериев и сложности задачи.
Решение: подбирай ширину критериев под сложность материала. Короткий простой текст — 2-3 ключевых критерия. Сложный многоуровневый документ — разверни полный список. Ошибка в обе стороны: и слишком мало, и слишком много критериев снижают качество оценки.
Схема метода
Оба шага — в одном промпте:
ШАГ 1: Оцени сложность материала → выбери уровень критериев
[простой] → 2-3 критерия
[средний] → 5-7 критериев
[сложный] → полный разбор по всем аспектам
ШАГ 2: Применяй только выбранные критерии → оценка по ним
Пример применения
Задача: Владелец небольшого бизнеса просит оценить коммерческое предложение для сетевого ритейлера. Документ — 2 страницы, структурированный, со спецификой B2B. Хочется не «в целом норм», а конкретных замечаний.
Промпт:
Оцени это коммерческое предложение как опытный закупщик федерального ритейлера.
Перед оценкой: посмотри на объём и сложность документа и выбери подходящую
глубину разбора.
Если документ простой (1 страница, понятная структура) — проверь только:
ценность предложения, чёткость условий, призыв к действию.
Если документ средней сложности — добавь: соответствие потребностям ритейлера,
конкурентные преимущества, реалистичность сроков.
Если документ сложный (много условий, нестандартные схемы) — проверяй всё
выше плюс: риски для партнёра, юридические оговорки, логистику.
Скажи какой уровень выбрал и почему. Затем дай оценку по выбранным критериям.
[вставь текст КП]
Результат:
Модель сначала объявит выбранный уровень сложности и обоснует выбор. Затем выдаст оценку по конкретному набору критериев — не длинный список всего подряд, а прицельные замечания под сложность документа. Простое КП получит чёткий разбор по трём параметрам без мусора. Сложное — развёрнутый анализ с нюансами.
Почему это работает
Модель не «думает» о задаче целиком. Она генерирует текст, следуя заданным инструкциям. Если в промпте перечислено 15 критериев, она обязана что-то сказать по каждому — даже если реальных проблем нет. Результат: список из семи замечаний, три из которых притянуты за уши.
Обратная ошибка тоже реальна. Дашь один критерий «напиши что не так» — модель найдёт первые два-три очевидных момента и остановится. Глубокие системные проблемы останутся незамеченными.
Рычаги управления в промпте: - Число критериев → меньше критериев = точнее, меньше мусора; больше = шире покрытие, но риск ложных замечаний - Явное разделение уровней (простой/средний/сложный) → даёт модели инструкцию самой откалибровать глубину, а не применять одно и то же ко всему - Требование объяснить выбор уровня → делает рассуждение явным, можно скорректировать если ошиблась - Конкретные имена критериев (не «проверь качество», а «проверь: чёткость условий, реалистичность сроков») → сужает поиск до нужного
Шаблон промпта
Оцени {что оцениваем} как {роль эксперта}.
Перед оценкой определи сложность материала:
Если {что оцениваем} простое ({признак простоты}) — проверяй только:
- {критерий 1}
- {критерий 2}
Если средней сложности ({признак средней сложности}) — добавь:
- {критерий 3}
- {критерий 4}
- {критерий 5}
Если сложное ({признак сложности}) — проверяй всё выше плюс:
- {критерий 6}
- {критерий 7}
- {критерий 8}
Сначала скажи какой уровень выбрал и почему.
Затем дай оценку строго по выбранным критериям.
{текст или описание для оценки}
Что подставлять:
- {что оцениваем} — текст, документ, идею, код, план
- {роль эксперта} — редактор, инвестор, HR, Product Manager
- {признак простоты/средней/сложности} — короткий/длинный, одно условие/много условий, стандартный/нестандартный
- {критерий 1-8} — конкретные аспекты оценки, от ключевых к второстепенным
🚀 Быстрый старт — вставь в чат:
Вот шаблон для калиброванной оценки. Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит: что оцениваем, кто эксперт, по каким критериям — потому что ей нужно заполнить плейсхолдеры конкретными параметрами, иначе шаблон не заработает. Она возьмёт паттерн трёх уровней и адаптирует под твою задачу.
Ограничения
⚠️ Ручная калибровка: Шаблон работает, когда ты сам знаешь какие критерии важны. Если критерии не продуманы — модель применит неправильные.
⚠️ Субъективные задачи: При оценке креатива, стиля, «ощущения» — разделение на уровни сложности менее чёткое, и модель может ошибиться с выбором уровня.
⚠️ Автоматический роутинг не воспроизводим в чате: В исследовании маршрутизация уровня сложности была обучена на отдельной модели. В чате ты либо делаешь это вручную, либо просишь модель определить самой — это менее надёжно.
Как исследовали
Команда из Нанкинского университета взяла задачу оценки качества машинного перевода — конкретно поиск ошибочных фрагментов в переводах с китайского и немецкого на английский. Они сравнили три стратегии: (1) без критериев вообще, (2) один фиксированный набор критериев для всех переводов, (3) динамический выбор критериев под каждый перевод.
Интересный момент: исследователи сначала просто расширили список критериев и ожидали улучшений — вспомнили больше ошибок, но одновременно нашли много лишнего. Это и навело на идею, что нужна не просто широта, а соответствие сложности.
Финальная система использует два легковесных классификатора: первый — «есть ли вообще ошибки?», второй — «нужно ли расширять критерии дальше?». Вместе они дали лучший баланс точности и полноты на бенчмарке WMT23. На китайско-английских парах улучшение составило около 9 баллов MCC по сравнению с базовой моделью того же размера.
Что удивляет: простые тексты с одной ошибкой почти всегда попадали в «компактный» режим, а переводы с несколькими ошибками — в «развёрнутый». То есть модель интуитивно нащупала ту же логику, которую исследователи закладывали намеренно.
Адаптации и экстраполяции
🔧 Техника: явный вывод уровня → прозрачность калибровки
Добавь "Объясни выбор уровня в одном предложении" — увидишь как модель понимает сложность материала. Если ошиблась, можешь скорректировать прямо в диалоге: "На самом деле документ сложнее, потому что..." → переоценит с нужным уровнем.
🔧 Экстраполяция: принцип «поиска» для генерации, не только оценки
Тот же принцип работает в обратную сторону — при генерации контента. Не «напиши подробный пост» (широкие критерии = объёмный, раздутый результат), а "напиши пост, focusing on: [3 конкретных аспекта]". Узкий список → плотный, конкретный текст без воды.
Ресурсы
Rubric-as-Experts: Case-Specific MQM Rubrics for Translation Quality Evaluation
Weilu Xu, Yunzhi Shen, Xinye Wang, Ranfei Dang, Shujian Huang
National Key Laboratory for Novel Software Technology, Nanjing University
Базируется на стандарте MQM (Multidimensional Quality Metrics): Lommel et al., 2014; Freitag et al., 2021
Бенчмарк: WMT23 span-level QE, языковые пары Zh-En и En-De
