TL;DR
Когда просишь LLM оценить что-то — текст, ответ, идею — она системно ошибается именно на средних по качеству работах. Явно отличное и явно плохое модель опознаёт уверенно. Но всё, что попадает в серую зону — "частично правильно", "неплохо, но не убедительно" — оценивается хаотично и ненадёжно.
Проблема в том, что у LLM нет хорошего ориентира для "средней" работы без достаточного числа примеров. Чёткие полюса — "идеально" и "совсем мимо" — у модели распознаются по контрасту. А серая зона требует тонкого понимания именно что делает ответ "почти правильным", а не "неправильным". Без достаточного числа размеченных примеров модель не может провести эту границу.
Два рычага, которые это исправляют: первый — количество примеров (10+ примеров существенно лучше, чем 2–4); второй — аналитический рубрик, где оценка разбита на отдельные бинарные критерии ("да/нет" по каждому пункту) вместо одной общей оценки. Вместе они сдвигают модель от угадывания к систематической работе.
Схема метода
Это не пошаговая техника, а принцип качественной оценки через LLM. Два уровня патча:
УРОВЕНЬ 1 — Аналитический рубрик
Вместо: "Оцени от 1 до 10"
Делай: Разбей критерии оценки на 5–10 бинарных вопросов
Каждый вопрос → отдельный "да/нет" с пояснением
Итоговый балл = сумма "да"
УРОВЕНЬ 2 — Примеры с покрытием серой зоны
Вместо: 1–2 примера или только полюса
Делай: 10+ примеров, равномерно по качеству
Обязательно: 3–4 примера из серой зоны
Формат: [текст] → [оценка по каждому критерию] → [итог]
Оба уровня в одном промпте.
Пример применения
Задача: Ты нанимаешь менеджера по продажам. В день приходит 30–50 откликов. Явно слабые и явно сильные видны сразу — а вот "средние" кандидаты выглядят одинаково и тяжело сравниваются. Просишь Claude разобрать отклики по рубрику.
Промпт:
Ты — опытный рекрутер on-demand. Твоя задача — оценить сопроводительное письмо
кандидата на позицию менеджера по продажам.
Оценивай по 6 критериям. По каждому — только "да" (1) или "нет" (0)
и одно предложение с пояснением:
1. Конкретные цифры результатов (выручка, конверсия, объём) — есть/нет
2. Понимание нашего продукта или рынка — есть/нет
3. Описан метод работы с клиентом, а не просто "умею продавать" — есть/нет
4. Мотивация к этой роли, а не к "продажам вообще" — есть/нет
5. Грамотность и структура письма — есть/нет
6. Упомянута конкретная ситуация-успех — есть/нет
Итог: сумма баллов, одна строка вывода.
---
Примеры оценок:
[Письмо 1 — сильный кандидат]
"В прошлом году закрыл 47 сделок в сегменте B2B SaaS, средний чек 280к руб.
Вашу платформу знаю — тестировал конкурентов. Предпочитаю методологию
SPIN при работе с enterprise."
→ 1: да (47 сделок, 280к) | 2: да (тестировал конкурентов) | 3: да (SPIN) |
4: да (enterprise-фокус совпадает) | 5: да | 6: да
→ Итог: 6/6 — приоритетный кандидат
[Письмо 2 — слабый кандидат]
"Я коммуникабельный, стрессоустойчивый и ориентирован на результат.
Хочу развиваться в продажах."
→ 1: нет | 2: нет | 3: нет | 4: нет | 5: да (грамотно) | 6: нет
→ Итог: 1/6 — отказ
[Письмо 3 — средний кандидат]
"Работал в b2b два года, хорошие отношения с клиентами, умею закрывать сложные
сделки. Ваша компания интересна мне своим подходом."
→ 1: нет (нет цифр) | 2: нет (общие слова) | 3: частично/нет (нет метода) |
4: нет (не конкретно) | 5: да | 6: нет
→ Итог: 1/6 — отказ, несмотря на 2 года опыта
---
Теперь оцени это письмо:
{вставь письмо кандидата}
Результат: Модель выдаст оценку построчно по каждому критерию — с кратким обоснованием и итоговым баллом. Ключевое: средний кандидат не "провалится" и не "пройдёт" из-за общего впечатления — он получит конкретный профиль слабых мест. Ты видишь не "6/10", а "нет цифр, нет метода, нет конкретики про компанию".
Почему это работает
LLM при оценке опирается на паттерн-матчинг — поиск соответствия между тем, что видит, и тем, что знает из примеров. Крайние случаи легко распознаются: "идеальный ответ" и "совсем мимо" хорошо представлены в обучающих данных модели. А вот "частично правильный" — нет. Модель буквально не знает, к какому полюсу его прислонить.
Аналитический рубрик обходит эту проблему. Вместо одного сложного суждения "насколько хорошо?" модель делает 6–10 простых суждений "есть это или нет?". Каждый бинарный вопрос — уже не серая зона, а чёткий полюс. Сложное суждение разбивается на простые.
Примеры из серой зоны делают рубрик живым. Без них модель знает критерии формально, но не понимает где граница применения. Показывая "средний кандидат → 1/6, вот почему", ты обучаешь модель прямо в промпте — без fine-tuning, одним контекстом.
Рычаги управления: - Число примеров — 2–4 достаточно для крайних случаев, 10+ нужно для серой зоны. Экономишь токены — добавь хотя бы 3 примера из середины. - Число критериев — 5–10 бинарных вопросов. Меньше 5 — слишком крупно, слишком много серой зоны внутри критерия. Больше 10 — модель начинает дублировать. - Формат примеров — показывай не только итоговый балл, но и оценку по каждому критерию. Это и есть "разметка серой зоны".
Шаблон промпта
Ты — эксперт в {область оценки}. Оценивай {что оцениваем} по {число} критериям.
По каждому критерию — только "да" (1) или "нет" (0) и одно пояснение:
1. {Критерий 1 — конкретный, бинарный}
2. {Критерий 2 — конкретный, бинарный}
3. {Критерий 3 — конкретный, бинарный}
[добавь до 10 критериев]
Итог: сумма баллов + одна строка вывода.
---
Примеры:
[Пример 1 — сильный]
"{текст примера}"
→ 1: да/нет (пояснение) | 2: да/нет | 3: да/нет
→ Итог: X/{число} — {вывод}
[Пример 2 — слабый]
"{текст примера}"
→ 1: да/нет | 2: да/нет | 3: да/нет
→ Итог: X/{число} — {вывод}
[Пример 3 — средний, серая зона]
"{текст примера}"
→ 1: да/нет | 2: да/нет | 3: да/нет
→ Итог: X/{число} — {вывод, объясняющий почему средний балл = конкретный вывод}
[Добавь ещё 2–3 примера из серой зоны]
---
Теперь оцени:
{твой текст для оценки}
Что подставлять:
- {область оценки} — рекрутинг, редактура, проверка идей, анализ текстов
- {что оцениваем} — резюме, питч, рекламный текст, ответ клиента
- {число критериев} — 5–10, бинарные и конкретные
- {критерии} — формулируй через проверяемые факты, не через ощущения: "есть конкретная цифра" вместо "убедительно"
- Примеры из серой зоны — самое важное, их должно быть 3–5
🚀 Быстрый старт — вставь в чат:
Вот шаблон оценки через аналитический рубрик с примерами.
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит про область оценки, что именно оцениваем и попросит примеры из твоей практики — потому что без конкретных примеров из серой зоны рубрик не сработает для нюансированных случаев.
Ограничения
⚠️ Серая зона субъективных критериев: Если критерий нельзя сформулировать бинарно ("есть / нет"), метод теряет силу. "Текст читается легко" — не работает. "Средняя длина предложения до 15 слов" — работает.
⚠️ Нужны примеры из вашей реальности: Чужие примеры заменить нельзя. Если у тебя нет 10 размеченных примеров — хотя бы 3 из серой зоны напиши вручную, иначе рубрик будет ненадёжен именно там, где важен.
⚠️ Нестабильность у разных моделей: В оригинальном исследовании Claude показал "эрратичное поведение" — отличные результаты на одном наборе данных и худшие из всех на другом. Если критична стабильность — используй GPT-4o или тестируй обе модели на своём наборе примеров.
⚠️ Число примеров влияет нелинейно: 2–4 примера дают резкое падение качества на серой зоне. 6–10 — примерно одинаковы. Эффект "ещё больше = ещё лучше" затухает после 10.
Ресурсы
Название: Quality-Conditioned Agreement in Automated Short Answer Scoring: Mid-Range Degradation and the Impact of Task-Specific Adaptation
Авторы: Abigail Victoria Gurin Schleifer, Moriah Ariely, Beata Beigman Klebanov, Asaf Salman, Giora Alexandron
Организации: Weizmann Institute of Science (Реховот, Израиль), ETS (Принстон, США)
Связанные работы: Ariely et al. (2025) — рубрик по биологии; Grévisse (2024) — оценка LLM в медицинских курсах; Kortemeyer (2023, 2024) — сравнение GPT-4 и BERT в физике
