TL;DR
Современные LLM оценивают чужую работу по заданным критериям точнее, чем два живых эксперта согласуются между собой — и для этого достаточно одного простого промпта: вопрос + критерии оценки + работа + инструкция поставить балл. Никакого сложного промптинга, никаких «думающих» режимов — минимальные настройки.
Исследователи обнаружили неожиданное: модели не соглашаются друг с другом сильнее, чем расходятся живые экзаменаторы. Два человека смотрят на один и тот же эссе — один ставит 14/20, другой 16/20. LLM с простым промптом попадает точнее, чем каждый из них предсказывает оценку другого. Причём это работает и для субъективных текстов (английское сочинение), и для точных задач (математика с рукописными решениями).
Главный практический вывод: структура «критерии + работа + оцени» — это полноценный инструмент проверки. Не эвристика, не вспомогательный инструмент. Замена второго экзаменатора.
Схема метода
Всё работает в одном промпте, одном запросе:
ВХОД 1: Задание / вопрос / что оценивается
ВХОД 2: Критерии оценки / рубрика / чекист
ВХОД 3: Работа, которую нужно оценить
ИНСТРУКЦИЯ: Оцени по критериям, поставь балл
→ ВЫХОД: Оценка + обоснование
Никаких промежуточных шагов. Никакого расширенного мышления. Один запрос.
Пример применения
Задача: Ты написал питч-дек для инвестора в стартап по доставке готовой еды в офисы Москвы. Хочешь понять, где слабые места — до встречи с инвестором из Flashpoint или АФК Система.
Промпт:
Ты — опытный венчурный аналитик. Оцени питч по следующим критериям.
Критерии оценки питча (каждый по шкале 1–10):
1. Чёткость проблемы и целевой аудитории
2. Убедительность рыночной возможности (объём рынка, тренды)
3. Уникальность решения и защитные барьеры
4. Реалистичность юнит-экономики и бизнес-модели
5. Команда: опыт, релевантность, доверие
6. Ясность "следующего шага" — куда идут деньги инвестора
Вот питч:
[вставь текст питча]
Поставь оценку по каждому критерию. Укажи конкретно, что работает и что провалено.
Итоговый вывод: стал бы ты запрашивать следующую встречу — и почему.
Результат: Модель выдаст оценку по каждому из шести критериев с конкретным обоснованием. Покажет, где питч убеждает, где теряет доверие. Финальный вердикт сформулирует как инвестор — не как ассистент, которому нужно понравиться. Если критерии чёткие — оценка будет резче и полезнее, чем «всё хорошо, но надо доработать».
Почему это работает
LLM обучены на огромном массиве человеческих оценок: разборы, рецензии, фидбеки, размеченные тексты. Модель не «думает» о качестве — она генерирует текст, который соответствует паттерну «опытный эксперт оценивает работу по критериям». Чем чётче критерии, тем точнее попадание в паттерн.
Проблема оценки без критериев — модель сама придумывает, что важно. Это как попросить экзаменатора оценить сочинение, не дав программу. Оценки будут разные у разных моделей, потому что каждая опирается на свои «умолчания». Явные критерии убирают эту неопределённость — точно так же, как схема ответов (mark scheme) стандартизирует оценку живых экзаменаторов.
Важный рычаг — выбор модели в зависимости от нужного режима: исследование показало, что модели расходятся не в точности, а в строгости. GPT-5.5, Claude Haiku 4.5 и Claude Opus 4.8 — нейтральны. Claude Sonnet 4.6 и Gemma 4 26B — систематически строже среднего. Это не баг, это управляемый параметр. Хочешь жёсткий фидбек до встречи с инвестором — бери Sonnet. Хочешь взвешенную оценку — GPT-5.5.
Шаблон промпта
Ты — {роль эксперта}.
Критерии оценки:
1. {критерий 1} — {что именно оцениваем}
2. {критерий 2} — {что именно оцениваем}
3. {критерий 3} — {что именно оцениваем}
[добавь нужное количество]
Задание / контекст: {что это за работа, для кого, в каких условиях}
Работа для оценки:
{текст / описание / ответ}
Оцени каждый критерий по шкале 1–{максимум}.
Укажи: что сделано хорошо, что провалено, что нужно исправить.
Финальный вывод: {конкретный итог — «взял бы на работу», «опубликовал бы», «отправил бы инвестору»}.
Что подставлять:
- {роль эксперта} — конкретная, не общая: «опытный редактор деловых текстов», «HR директор в IT-компании», «преподаватель физики с 10-летним стажем»
- {критерии} — чем точнее, тем лучше. «Логика аргументов» слабее, чем «каждый тезис подкреплён фактом или примером»
- {максимум} — 5 для быстрой оценки, 10 для детализированной
- {финальный вывод} — сформулируй как бинарное решение: берёт / не берёт, публикует / не публикует
🚀 Быстрый старт — вставь в чат:
Вот шаблон для оценки работы по критериям.
Адаптируй под мою задачу: [опиши что нужно оценить и кто оценивает].
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит, что оцениваем, какая роль эксперта нужна и какие критерии важны — потому что без этого она выберет критерии сама, и результат будет размытым.
Ограничения
⚠️ Систематическое смещение по строгости: Claude Sonnet 4.6 и Gemma 4 26B стабильно занижают оценки на английских текстах. Если используешь оценку для сравнения разных работ — бери одну модель для всех.
⚠️ Размытые критерии = случайная оценка: Метод работает только с чёткими критериями. «Оцени качество» без расшифровки даст ответ, который звучит убедительно, но воспроизвести его второй раз нельзя.
⚠️ Два эксперта — не вся популяция: Исследование сравнивало модели с двумя конкретными экзаменаторами, не со всем сообществом. Это строгий и честный стандарт, но не абсолютный.
⚠️ Расширенное мышление не помогает: В исследовании специально отключили «думающие» режимы (extended reasoning). Для задач оценки это не нужно — и, возможно, вредит скорости и стоимости без выигрыша в качестве.
Как исследовали
Команда Medly AI собрала 32 534 реальных ученических работы — GCSE-экзамены британских школьников 16 лет по пяти предметам (английский язык, математика, биология, химия, физика). Каждую работу независимо проверили два живых сертифицированных экзаменатора. Часть работ — рукописные: формулы, расчёты, нарисованные от руки.
Идея была простой: взять самый дешёвый возможный промпт (вопрос + схема ответа + работа ученика + «поставь балл») и проверить, насколько модель совпадает с каждым экзаменатором — по сравнению с тем, насколько два экзаменатора совпадают между собой. Это честная планка: не «лучше случайного угадывания», а «лучше второго живого специалиста».
Результат удивил: топовые модели согласуются с экзаменаторами точнее, чем два экзаменатора согласуются друг с другом — по всем пяти предметам. Особенно разрыв заметен в английском языке: задача, которую раньше считали слишком субъективной для автоматизации. При этом разница между дешёвыми и дорогими моделями оказалась минимальной — Claude Haiku 4.5 за копейки бьёт Claude Opus 4.8 на английских текстах.
Интересная деталь: исследователи намеренно отключили «режим мышления» (reasoning) везде, где это было технически возможно. Это тест сценария «минимальная стоимость + минимальная задержка». И он сработал.
Адаптации и экстраполяции
1. Калиброванная строгость под задачу
🔧 Добавь параметр строгости → контролируй режим фидбека
Выбор модели даёт разную строгость автоматически. Но можно задать явно:
Оценивай строго — как приёмная комиссия топ-вуза, которая ищет причины отказать,
а не похвалить. Не смягчай формулировки.
Или наоборот:
Оценивай как наставник, который хочет помочь автору улучшить работу,
а не сломать уверенность.
2. Самооценка в процессе
Тот же принцип работает для самопроверки до финального варианта:
Вот мои критерии для [тип работы]: {список}
Вот черновик: {текст}
Сначала оцени черновик по каждому критерию с конкретными примерами из текста.
Потом — переработанная версия, которая устраняет слабые места.
Модель сначала играет роль экзаменатора, потом — соавтора. Это другой сценарий, но тот же принцип: явные критерии → предсказуемая оценка.
Ресурсы
Название: LLM Performance on a Real, Double-Marked GCSE Benchmark
Авторы: Malachy Fox, Kavi Samra, Paul Jung — Medly AI
Датасет: github.com/medlyai/medly-marking-benchmark
Контакт: malachy@medlyai.com
