3,583 papers
arXiv:2606.24973 70 23 июня 2026 г. FREE

LLM как второй экзаменатор: минимальный промпт с критериями работает лучше живого проверяющего

КЛЮЧЕВАЯ СУТЬ
Два живых экзаменатора расходятся в оценках эссе сильнее, чем модель расходится с каждым из них — и для этого хватает одного простого промпта без трюков. Метод позволяет получить полноценную оценку любой работы — питча, резюме, эссе, кода — структурированную и воспроизводимую. Схема одного запроса: роль эксперта + явные критерии + работа + «поставь балл». Модель не придумывает что важно — она работает как экзаменатор с готовой схемой ответов. Точность попадания выше, чем согласие между двумя живыми проверяющими.
Адаптировать под запрос

TL;DR

Современные LLM оценивают чужую работу по заданным критериям точнее, чем два живых эксперта согласуются между собой — и для этого достаточно одного простого промпта: вопрос + критерии оценки + работа + инструкция поставить балл. Никакого сложного промптинга, никаких «думающих» режимов — минимальные настройки.

Исследователи обнаружили неожиданное: модели не соглашаются друг с другом сильнее, чем расходятся живые экзаменаторы. Два человека смотрят на один и тот же эссе — один ставит 14/20, другой 16/20. LLM с простым промптом попадает точнее, чем каждый из них предсказывает оценку другого. Причём это работает и для субъективных текстов (английское сочинение), и для точных задач (математика с рукописными решениями).

Главный практический вывод: структура «критерии + работа + оцени» — это полноценный инструмент проверки. Не эвристика, не вспомогательный инструмент. Замена второго экзаменатора.


🔬

Схема метода

Всё работает в одном промпте, одном запросе:

ВХОД 1: Задание / вопрос / что оценивается
ВХОД 2: Критерии оценки / рубрика / чекист
ВХОД 3: Работа, которую нужно оценить
ИНСТРУКЦИЯ: Оцени по критериям, поставь балл

→ ВЫХОД: Оценка + обоснование

Никаких промежуточных шагов. Никакого расширенного мышления. Один запрос.


🚀

Пример применения

Задача: Ты написал питч-дек для инвестора в стартап по доставке готовой еды в офисы Москвы. Хочешь понять, где слабые места — до встречи с инвестором из Flashpoint или АФК Система.

Промпт:

Ты — опытный венчурный аналитик. Оцени питч по следующим критериям.

Критерии оценки питча (каждый по шкале 1–10):
1. Чёткость проблемы и целевой аудитории
2. Убедительность рыночной возможности (объём рынка, тренды)
3. Уникальность решения и защитные барьеры
4. Реалистичность юнит-экономики и бизнес-модели
5. Команда: опыт, релевантность, доверие
6. Ясность "следующего шага" — куда идут деньги инвестора

Вот питч:
[вставь текст питча]

Поставь оценку по каждому критерию. Укажи конкретно, что работает и что провалено. 
Итоговый вывод: стал бы ты запрашивать следующую встречу — и почему.

Результат: Модель выдаст оценку по каждому из шести критериев с конкретным обоснованием. Покажет, где питч убеждает, где теряет доверие. Финальный вердикт сформулирует как инвестор — не как ассистент, которому нужно понравиться. Если критерии чёткие — оценка будет резче и полезнее, чем «всё хорошо, но надо доработать».


🧠

Почему это работает

LLM обучены на огромном массиве человеческих оценок: разборы, рецензии, фидбеки, размеченные тексты. Модель не «думает» о качестве — она генерирует текст, который соответствует паттерну «опытный эксперт оценивает работу по критериям». Чем чётче критерии, тем точнее попадание в паттерн.

Проблема оценки без критериев — модель сама придумывает, что важно. Это как попросить экзаменатора оценить сочинение, не дав программу. Оценки будут разные у разных моделей, потому что каждая опирается на свои «умолчания». Явные критерии убирают эту неопределённость — точно так же, как схема ответов (mark scheme) стандартизирует оценку живых экзаменаторов.

Важный рычаг — выбор модели в зависимости от нужного режима: исследование показало, что модели расходятся не в точности, а в строгости. GPT-5.5, Claude Haiku 4.5 и Claude Opus 4.8 — нейтральны. Claude Sonnet 4.6 и Gemma 4 26B — систематически строже среднего. Это не баг, это управляемый параметр. Хочешь жёсткий фидбек до встречи с инвестором — бери Sonnet. Хочешь взвешенную оценку — GPT-5.5.


📋

Шаблон промпта

Ты — {роль эксперта}.

Критерии оценки:
1. {критерий 1} — {что именно оцениваем}
2. {критерий 2} — {что именно оцениваем}
3. {критерий 3} — {что именно оцениваем}
[добавь нужное количество]

Задание / контекст: {что это за работа, для кого, в каких условиях}

Работа для оценки:
{текст / описание / ответ}

Оцени каждый критерий по шкале 1–{максимум}. 
Укажи: что сделано хорошо, что провалено, что нужно исправить.
Финальный вывод: {конкретный итог — «взял бы на работу», «опубликовал бы», «отправил бы инвестору»}.

Что подставлять: - {роль эксперта} — конкретная, не общая: «опытный редактор деловых текстов», «HR директор в IT-компании», «преподаватель физики с 10-летним стажем» - {критерии} — чем точнее, тем лучше. «Логика аргументов» слабее, чем «каждый тезис подкреплён фактом или примером» - {максимум} — 5 для быстрой оценки, 10 для детализированной - {финальный вывод} — сформулируй как бинарное решение: берёт / не берёт, публикует / не публикует

🚀 Быстрый старт — вставь в чат:

Вот шаблон для оценки работы по критериям. 
Адаптируй под мою задачу: [опиши что нужно оценить и кто оценивает].
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит, что оцениваем, какая роль эксперта нужна и какие критерии важны — потому что без этого она выберет критерии сама, и результат будет размытым.


⚠️

Ограничения

⚠️ Систематическое смещение по строгости: Claude Sonnet 4.6 и Gemma 4 26B стабильно занижают оценки на английских текстах. Если используешь оценку для сравнения разных работ — бери одну модель для всех.

⚠️ Размытые критерии = случайная оценка: Метод работает только с чёткими критериями. «Оцени качество» без расшифровки даст ответ, который звучит убедительно, но воспроизвести его второй раз нельзя.

⚠️ Два эксперта — не вся популяция: Исследование сравнивало модели с двумя конкретными экзаменаторами, не со всем сообществом. Это строгий и честный стандарт, но не абсолютный.

⚠️ Расширенное мышление не помогает: В исследовании специально отключили «думающие» режимы (extended reasoning). Для задач оценки это не нужно — и, возможно, вредит скорости и стоимости без выигрыша в качестве.


🔍

Как исследовали

Команда Medly AI собрала 32 534 реальных ученических работы — GCSE-экзамены британских школьников 16 лет по пяти предметам (английский язык, математика, биология, химия, физика). Каждую работу независимо проверили два живых сертифицированных экзаменатора. Часть работ — рукописные: формулы, расчёты, нарисованные от руки.

Идея была простой: взять самый дешёвый возможный промпт (вопрос + схема ответа + работа ученика + «поставь балл») и проверить, насколько модель совпадает с каждым экзаменатором — по сравнению с тем, насколько два экзаменатора совпадают между собой. Это честная планка: не «лучше случайного угадывания», а «лучше второго живого специалиста».

Результат удивил: топовые модели согласуются с экзаменаторами точнее, чем два экзаменатора согласуются друг с другом — по всем пяти предметам. Особенно разрыв заметен в английском языке: задача, которую раньше считали слишком субъективной для автоматизации. При этом разница между дешёвыми и дорогими моделями оказалась минимальной — Claude Haiku 4.5 за копейки бьёт Claude Opus 4.8 на английских текстах.

Интересная деталь: исследователи намеренно отключили «режим мышления» (reasoning) везде, где это было технически возможно. Это тест сценария «минимальная стоимость + минимальная задержка». И он сработал.


💡

Адаптации и экстраполяции

1. Калиброванная строгость под задачу

🔧 Добавь параметр строгости → контролируй режим фидбека

Выбор модели даёт разную строгость автоматически. Но можно задать явно:

Оценивай строго — как приёмная комиссия топ-вуза, которая ищет причины отказать, 
а не похвалить. Не смягчай формулировки.

Или наоборот:

Оценивай как наставник, который хочет помочь автору улучшить работу, 
а не сломать уверенность.

2. Самооценка в процессе

Тот же принцип работает для самопроверки до финального варианта:

Вот мои критерии для [тип работы]: {список}

Вот черновик: {текст}

Сначала оцени черновик по каждому критерию с конкретными примерами из текста.
Потом — переработанная версия, которая устраняет слабые места.

Модель сначала играет роль экзаменатора, потом — соавтора. Это другой сценарий, но тот же принцип: явные критерии → предсказуемая оценка.


🔗

Ресурсы

Название: LLM Performance on a Real, Double-Marked GCSE Benchmark

Авторы: Malachy Fox, Kavi Samra, Paul Jung — Medly AI

Датасет: github.com/medlyai/medly-marking-benchmark

Контакт: malachy@medlyai.com


📋 Дайджест исследования

Ключевая суть

Два живых экзаменатора расходятся в оценках эссе сильнее, чем модель расходится с каждым из них — и для этого хватает одного простого промпта без трюков. Метод позволяет получить полноценную оценку любой работы — питча, резюме, эссе, кода — структурированную и воспроизводимую. Схема одного запроса: роль эксперта + явные критерии + работа + «поставь балл». Модель не придумывает что важно — она работает как экзаменатор с готовой схемой ответов. Точность попадания выше, чем согласие между двумя живыми проверяющими.

Принцип работы

Стандартный промпт «оцени» — это как попросить судью вынести решение без кодекса. Модель сама решает что важно, и результат непредсказуем: второй раз даст другой ответ, другая модель — третий. Когда даёшь явные критерии — модель переключается с режима «придумать что важно» на режим «применить готовые правила». Вердикты становятся воспроизводимыми. Дополнительный рычаг: выбор модели управляет строгостью, а не точностью. Claude Sonnet и Gemma систематически занижают оценки — это не сбой, это настраиваемый параметр. Нужен жёсткий разбор до встречи с инвестором — бери Sonnet. Нужна взвешенная оценка — GPT.

Почему работает

LLM обучены на огромном массиве человеческих оценок: рецензии, разборы, размеченные тексты, фидбеки. Модель не «думает» о качестве — она воспроизводит паттерн «опытный эксперт оценивает работу по критериям». Чем точнее критерии — тем уже паттерн, который нужно воспроизвести, и тем точнее попадание. «Логика аргументов» — широкий паттерн, сотни разных оценщиков. «Каждый тезис подкреплён конкретным фактом или примером» — узкий, один конкретный тип проверяющего. Отдельный вывод исследования: расширенный анализ (extended thinking) не помогает. Для оценки по критериям он не нужен — только замедляет и удорожает.

Когда применять

Любая работа с чёткими критериями: питч-деки, эссе, резюме, код-ревью, учебные ответы — особенно когда нужно воспроизводимое мнение «второго эксперта» до дорогой встречи с живым человеком. НЕ подходит для задач без критериев — «оцени насколько это хорошо» без расшифровки даст звучный ответ, который нельзя воспроизвести дважды и не с чем сравнить.

Мини-рецепт

1. Задай роль конкретно: не «эксперт», а «венчурный аналитик с фокусом на потребительские стартапы» или «HR директор в продуктовой IT-компании». Чем точнее роль — тем уже паттерн.
2. Напиши критерии с расшифровкой: не «логика», а «каждый тезис подкреплён конкретным фактом или цифрой». Размытый критерий = случайная оценка.
3. Добавь бинарный вердикт в конце: «запросил бы следующую встречу — да или нет, одной фразой». Без этого модель будет мямлить про «есть потенциал, но нужно доработать».
4. Выбери модель под задачу: нужен жёсткий разбор перед питчем — Claude Sonnet. Нужна взвешенная оценка для сравнения нескольких работ — GPT. Главное: для сравнения разных работ бери одну и ту же модель.

Примеры

[ПЛОХО] : Оцени мой питч для инвестора. Что думаешь?
[ХОРОШО] : Ты — венчурный аналитик. Оцени питч по критериям (каждый по шкале 1–10): 1. Чёткость проблемы и целевой аудитории 2. Убедительность объёма рынка — цифры, тренды, источники 3. Реалистичность юнит-экономики: стоимость привлечения клиента, маржа, срок окупаемости 4. Команда: есть ли опыт в этой нише [текст питча] По каждому критерию: что работает, что провалено. Итог: запросил бы следующую встречу — да или нет, одной фразой.
Источник: LLM Performance on a Real, Double-Marked GCSE Benchmark
ArXiv ID: 2606.24973 | Сгенерировано: 2026-06-28 21:23

Проблемы LLM

ПроблемаСутьКак обойти
Без явных критериев модель оценивает по своим умолчаниямПросишь "оцени этот текст". Модель оценивает — но сама решает что важно. Другая модель решает иначе. Повторяешь запрос — снова другой результат. Оценка звучит уверенно, но не воспроизводимаДай явные критерии списком. Каждый критерий — конкретный признак, а не слово. Не "логичность", а "каждый тезис подкреплён фактом или примером"

Методы

МетодСуть
Роль + критерии + работа + оцени — полноценный второй экспертСтруктура запроса: 1) Ты — {конкретная роль}. 2) Критерии: 1. {что именно}, 2. {что именно}.... 3) Текст работы. 4) Оцени каждый критерий по шкале 1–{N}. Скажи что хорошо, что провалено. Финальный вывод: {бинарное решение}. Почему работает: модель обучена на огромном массиве человеческих оценок. Явные критерии выравнивают её на нужный паттерн. Без критериев — модель выбирает паттерн сама. Когда работает: у тебя есть чёткий стандарт. Когда не работает: критерии размыты или субъективны без проверки

Тезисы

ТезисКомментарий
Строгость модели — управляемый параметр, не багРазные модели систематически смещены: одни занижают оценки, другие нейтральны. Это стабильное свойство, не случайный шум. Механика: модели обучены на разных данных с разными "редакторскими" стандартами. Применяй: выбирай модель под нужный режим. Нужен жёсткий фидбек — бери заведомо строгую модель. Нужна взвешенная оценка — нейтральную. Главное: для сравнения нескольких работ всегда используй одну и ту же модель
📖 Простыми словами

LLMPerformance on a Real, Double-Marked GCSE Benchmark

arXiv: 2606.24973

Нейросети научились оценивать чужую работу точнее, чем живые люди, и это не преувеличение, а сухая статистика. Фундаментальная механика здесь проста: LLM — это гигантская библиотека паттернов, в которую загрузили миллионы экспертных разборов и рецензий. Когда ты просишь модель проверить текст, она не «включает мозг», а просто сопоставляет твою писанину с шаблоном идеального ответа, который уже сидит у нее в базе. Оказалось, что один четкий промпт с критериями оценки работает стабильнее, чем два опытных эксперта, которые вечно спорят из-за настроения или усталости.

Это как если бы ты пришел сдавать экзамен строгому профессору, но вместо живого человека перед тобой сидел робот, знающий наизусть все методички мира. Живой препод может занизить балл, потому что ты ему не понравился или он не выспался, а алгоритм беспристрастен. Это формальная справедливость в чистом виде: модели плевать на контекст, она просто сверяет твой результат с эталоном и выносит вердикт. В итоге разброс мнений у людей оказывается выше, чем погрешность у нейронки.

Чтобы эта магия сработала, не нужно городить огород из сложных цепочек рассуждений или заставлять модель «думать трижды». Работает максимально примитивная связка: вопрос + критерии + сама работа + команда «поставь балл». Например, если ты принесешь нейронке питч-дек для инвестора и дашь четкий чек-лист фонда, она разнесет его в пух и прах именно там, где реально есть дыры. Никакого шаманства, просто прямое сопоставление данных, которое у LLM получается лучше, чем у любого уставшего аналитика.

Принцип универсален и выходит далеко за рамки школьных тестов или проверки эссе. Эту схему можно натянуть на что угодно: от аудита юридических договоров до проверки кода или маркетинговых стратегий. Везде, где есть четкие правила игры, нейросеть выступает идеальным судьей. Тестировали на экзаменах, но по факту мы получили универсальный инструмент для автоматического контроля качества в любой нише, где раньше требовался дорогой человеческий глаз.

Главный вывод: эпоха субъективного фидбека заканчивается, наступает время алгоритмического аудита. Если хочешь понять, насколько хорош твой продукт или текст, не ищи «эксперта» — просто дай нейронке правильные критерии. Это быстрее, дешевле и, как доказали цифры, тупо точнее. Кто продолжит полагаться на «мне кажется» живых людей, проиграет тем, кто внедрит автоматическую оценку в свои процессы уже сегодня.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с