3,583 papers
arXiv:2603.25133 73 26 мар. 2026 г. FREE

Оценка по критериям: как получить точный разбор от LLM — по одному пункту за раз

КЛЮЧЕВАЯ СУТЬ
Дал модели чеклист из 10 критериев — получил красивое враньё. Это не баг конкретной модели. Критерии в её голове перетекают друг в друга: общее впечатление от текста давит на каждый пункт в отдельности. Метод позволяет получить точную бинарную оценку каждого критерия — с цитатами и обоснованием, а не общим суждением. Один критерий = один запрос — и модель переключается из режима «общей оценки» в режим «поиска доказательств». Точность растёт на 7–12 процентных пунктов — даже GPT-4o на сложных случаях раньше ошибался почти в каждом втором.
Адаптировать под запрос

TL;DR

Когда просишь LLM оценить текст сразу по нескольким критериям — она путается и ошибается значительно чаще. Точность растёт на 7–12 процентных пунктов, если давать каждый критерий отдельным запросом. Добавь к этому требование объяснить логику перед вердиктом — погрешность падает ещё сильнее.

Проблема в том, что при оценке по чеклисту критерии мешают друг другу. Модель держит в голове всё сразу и смазывает детали — точно как эксперт, которому дали 10 вопросов одновременно вместо одного. Даже GPT-4o на сложных случаях угадывает правильно лишь немногим чаще, чем в половине случаев.

Решение — два простых правила: один критерий за раз + сначала обоснование, потом вердикт. Модель фокусируется на конкретной задаче, ищет доказательства в тексте, а не опирается на общее впечатление. Это работает при любой оценке текста, питча, ответа, документа.


🔬

Схема метода

ШАГ 1 (отдельный запрос): вставить текст + один критерий → объяснение + вердикт ДА/НЕТ
ШАГ 2 (отдельный запрос): вставить текст + следующий критерий → объяснение + вердикт ДА/НЕТ
...
ИТОГ (отдельный запрос): собрать все вердикты → суммарная оценка и рекомендации

Если критериев немного (2–3) — можно объединить в один структурированный запрос, но строго с разделением по блокам.


🚀

Пример применения

Задача: Антон написал коммерческое предложение для корпоративного клиента на интеграцию с 1С. Хочет проверить его перед отправкой — соответствует ли оно критериям сильного КП.

Промпт (для каждого критерия отдельно):

Вот коммерческое предложение:
"""
[текст КП]
"""

Твоя задача — оценить этот текст по одному критерию.

Критерий: В тексте есть конкретная выгода для клиента, выраженная 
в деньгах, времени или измеримом результате — не общими словами.

Порядок работы:
1. Найди в тексте фрагменты, которые относятся к этому критерию
2. Процитируй их и объясни — выполняет ли текст требование и почему
3. Финальный вердикт: ВЫПОЛНЕНО / НЕ ВЫПОЛНЕНО

Начни с анализа. Вердикт — в конце.

Потом повторяешь запрос с другим критерием: например, "есть ли призыв к действию с конкретным следующим шагом" или "написано ли под ЛПР, а не технаря".

Результат: По каждому критерию модель выдаст цитаты из текста с пояснением, почему они подтверждают или нарушают требование, и чёткий бинарный вердикт. Никакого "в целом неплохо" — только конкретика с доказательствами.


🧠

Почему это работает

LLM при оценке по чеклисту смотрит на текст как на целое. Если общее впечатление хорошее — она склонна ставить галочки. Если один критерий явно не выполнен — это тянет вниз оценку соседних. Критерии не изолированы в голове модели, они перетекают друг в друга.

Зато модель хорошо умеет работать с фокусным запросом. Когда есть один конкретный вопрос и текст — она ищет доказательства, а не формирует общее суждение. Это другой режим работы: не "какой текст?" а "есть ли в тексте X?".

Требование объяснить логику перед вердиктом — это не вежливость, это механика. Когда модель сначала пишет обоснование, она вынуждена найти конкретный фрагмент в тексте. Без этого шага — опирается на интуицию. С ним — на доказательства. Именно поэтому точность растёт: обоснование работает как якорь.

Рычаги управления: - Количество критериев за раз → 1 критерий точнее; 2–3 в одном промпте допустимо при жёстком разделении блоков - Инструкция "сначала цитата" → добавь "процитируй текст перед объяснением" — точность растёт ещё - Бинарный вердикт → держи формат ДА/НЕТ, иначе модель уйдёт в "частично выполнено" и потеряешь чёткость - Финальный запрос-агрегатор → после всех критериев отдельным запросом: "Вот вердикты по 5 критериям. Что исправить в первую очередь и почему?"


📋

Шаблон промпта

Вот {тип текста — КП, статья, питч, описание, вакансия}:
"""
{текст}
"""

Оцени этот текст по одному критерию.

Критерий: {конкретный критерий одним предложением}

Порядок:
1. Найди в тексте фрагменты, связанные с этим критерием. Процитируй их.
2. Объясни: выполняет ли текст требование? Почему да или почему нет?
3. Финальный вердикт: ВЫПОЛНЕНО / НЕ ВЫПОЛНЕНО

Начни с анализа, вердикт — в конце.

Что подставлять: - {тип текста} — что оцениваем: КП, лендинг, описание товара, резюме, питч - {текст} — сам текст целиком - {критерий} — одно конкретное требование, например: "есть конкретная цена или ценовой диапазон", "понятно кто целевой клиент", "есть социальное доказательство — кейс или цифра"


🚀 Быстрый старт — вставь в чат:

Вот шаблон оценки текста по критериям. 
Адаптируй под мою задачу: [опиши что хочешь оценить и по каким критериям].
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит какой текст оценивать и какие критерии важны — потому что без этого она не знает на что ориентироваться. Она возьмёт структуру из шаблона и адаптирует под твою задачу.


⚠️

Ограничения

⚠️ Сложные и субъективные критерии: Если критерий сам по себе размытый ("текст звучит убедительно"), метод не поможет — проблема в критерии, не в методе оценки. Формулируй критерии бинарно и конкретно.

⚠️ Количество запросов: Чем больше критериев — тем больше отдельных запросов. Для 10+ критериев это займёт время. Приоритизируй: выбери 3–5 ключевых, остальное — в финальный агрегирующий запрос.

⚠️ Действительно неоднозначные случаи: Даже при идеальной технике, на по-настоящему спорных вопросах ("достаточно ли подробно раскрыта тема") лучшие модели ошибаются почти в каждом пятом случае. Верифицируй критичные решения самостоятельно.

⚠️ Простые однозначные требования: Если критерий элементарный ("есть ли слово X в тексте") — отдельный запрос избыточен. Метод даёт выигрыш на сложных, неочевидных критериях.


🔍

Как исследовали

Команда из Фудань и Ant Group построила бенчмарк из 3 486 оценочных заданий — каждое это тройка: инструкция + ответ модели + один конкретный критерий. Половина заданий была размечена как лёгкие (EASY), половина — как тяжёлые (HARD). Тяжёлые отбирались специально: это случаи, где несколько сильных моделей-судей разошлись во мнениях.

Потом на этом бенчмарке прогнали больше десятка моделей — от маленьких открытых до GPT-5, o3, Gemini Pro — и сравнили подходы: один критерий за раз или весь список разом, с объяснением или без. Результат удивил: GPT-4o, которую повсеместно используют как судью в академических бенчмарках, на тяжёлых случаях выдаёт 55.97% — это почти уровень монетки. А вот o3 справляется значительно лучше — 84.8%.

Интересная деталь: исследователи специально использовали реальные ответы моделей, а не сконструированные ошибки. Это важно — предыдущие работы делали искусственные провалы, которые легко поймать. Здесь ошибки живые, из реальной работы LLM, поэтому выводы отражают то, с чем сталкиваешься на практике. Отсюда и вывод: доверять GPT-4o как объективному судье текста — рискованно, особенно в сложных ситуациях.


💡

Адаптации и экстраполяции

🔧 Техника: Агрегирующий запрос в конце → приоритизация правок

После того как прогнал текст по всем критериям по одному, собери вердикты в один финальный запрос:

Вот результаты оценки {текста} по критериям:

Критерий 1 «{название}»: НЕ ВЫПОЛНЕНО — {цитата пояснения}
Критерий 2 «{название}»: ВЫПОЛНЕНО
Критерий 3 «{название}»: НЕ ВЫПОЛНЕНО — {цитата пояснения}

На основе этих оценок:
1. Какие две правки дадут наибольший эффект? Почему?
2. Что можно оставить как есть?
3. Предложи конкретную формулировку для правки критерия 1.

Это превращает набор вердиктов в план действий — модель уже знает что не так, остаётся только приоритизировать.

🔧 Техника: Самопроверка перед сдачей → критерии из задания

Если получил задание с конкретными требованиями ("напиши в стиле Х, объём Y, без Z"), после выполнения прогони результат через шаблон — по каждому требованию из задания отдельно. Это систематичнее, чем просить "проверь всё сразу".


🔗

Ресурсы

RubricEval: A Rubric-Level Meta-Evaluation Benchmark for LLM Judges in Instruction Following

Авторы: Tianjun Pan, Xuan Lin, Wenyan Yang, Qianyu He, Shisong Chen, Licai Qi, Wanqing Xu, Hongwei Feng, Bo Xu, Yanghua Xiao

Организации: Fudan University, Donghua University, Ant Group


📋 Дайджест исследования

Ключевая суть

Дал модели чеклист из 10 критериев — получил красивое враньё. Это не баг конкретной модели. Критерии в её голове перетекают друг в друга: общее впечатление от текста давит на каждый пункт в отдельности. Метод позволяет получить точную бинарную оценку каждого критерия — с цитатами и обоснованием, а не общим суждением. Один критерий = один запрос — и модель переключается из режима «общей оценки» в режим «поиска доказательств». Точность растёт на 7–12 процентных пунктов — даже GPT-4o на сложных случаях раньше ошибался почти в каждом втором.

Принцип работы

Добавь к каждому запросу инструкцию: «сначала процитируй фрагмент из текста, потом объясни, потом — вердикт ВЫПОЛНЕНО / НЕ ВЫПОЛНЕНО». Без цитаты модель опирается на общее суждение. С цитатой — вынуждена найти конкретный фрагмент перед тем как делать вывод. Обоснование перед вердиктом работает как якорь: нет фрагмента — нет вывода. Это меняет не качество модели, а режим её работы.

Почему работает

LLM при оценке чеклиста работает как эксперт, которому дали 10 вопросов одновременно. Ответы влияют друг на друга. Сильное впечатление от одного пункта тянет вверх соседние — даже если те не выполнены. Слабый пункт тянет вниз хорошие. Один критерий убирает этот шум: модель не «оценивает текст» — она ищет конкретное свидетельство. Требование начать с цитаты усиливает эффект — модель не может написать обоснование без опоры на текст. Оценка строится на доказательствах, а не на первом впечатлении.

Когда применять

Оценка любых текстов по конкретным критериям — коммерческие предложения, питчи, статьи, ответы поддержки, вакансии, технические задания. Особенно когда критериев больше трёх и нужна чёткая бинарная оценка каждого, а не «в целом неплохо». НЕ подходит для: размытых субъективных критериев («текст звучит убедительно» — сначала переформулируй бинарно, иначе проблема в критерии, не в методе); простых механических проверок («есть ли слово X в тексте») — там отдельный запрос избыточен.

Мини-рецепт

1. Разбей чеклист на части: каждый критерий — отдельный запрос. Если критериев 2–3 — можно в одном, но строго по блокам с явным разделением.
2. Шаблон запроса: вставь текст + один критерий + инструкцию: «Процитируй фрагменты из текста по этому критерию. Объясни: выполняет ли текст требование и почему. Финальный вердикт: ВЫПОЛНЕНО / НЕ ВЫПОЛНЕНО. Начни с анализа, вердикт — в конце.»
3. Держи формат бинарным: только ВЫПОЛНЕНО / НЕ ВЫПОЛНЕНО, без «частично» и «в целом». Как только даёшь модели уйти в «скорее выполнено» — теряешь чёткость.
4. Агрегируй в конце отдельным запросом: Вот вердикты по [N] критериям: [список]. Что исправить в первую очередь и почему?

Примеры

[ПЛОХО] : Оцени мой питч по критериям: ясность, убедительность, призыв к действию, целевая аудитория, уникальность
[ХОРОШО] : Вот питч: """ [текст] """ Оцени по одному критерию. Критерий: в тексте есть конкретный следующий шаг для клиента — не «свяжитесь с нами», а что именно сделать, к кому обратиться и в какие сроки. Порядок: 1. Процитируй фрагменты из текста, которые относятся к этому критерию 2. Объясни: выполняет ли текст требование и почему 3. Финальный вердикт: ВЫПОЛНЕНО / НЕ ВЫПОЛНЕНО Начни с анализа, вердикт — в конце.
Источник: RubricEval: A Rubric-Level Meta-Evaluation Benchmark for LLM Judges in Instruction Following
ArXiv ID: 2603.25133 | Сгенерировано: 2026-03-27 04:26

Проблемы LLM

ПроблемаСутьКак обойти
При оценке по нескольким критериям сразу модель путаетсяПросишь оценить текст по чеклисту из 5+ пунктов. Модель держит все критерии одновременно. Формирует общее впечатление о тексте. Это впечатление "просачивается" в каждый отдельный критерий. Текст с хорошим вступлением получает завышенные оценки по структуре и логике — хотя там отдельные проблемы. Критерии не изолированы: они тянут оценки друг другаДавай по одному критерию за запрос. Точность растёт на 7–12 процентных пунктов. На сложных текстах — разница между "немного лучше случайного" и надёжной оценкой

Методы

МетодСуть
Один критерий + обоснование перед вердиктомВставляй текст + один критерий в каждый запрос. Инструкция внутри запроса: 1. Найди цитаты. 2. Объясни. 3. Вердикт: ВЫПОЛНЕНО / НЕ ВЫПОЛНЕНО. Вердикт — строго в конце, не в начале. Почему: Один критерий убирает интерференцию между пунктами. Требование процитировать текст перед выводом заставляет модель искать конкретные доказательства, а не опираться на ощущение от текста. Когда применять: оценка КП, статьи, резюме, ответа — любой текст с несколькими конкретными требованиями. Когда избыточно: критерий элементарный ("есть ли слово X"), критериев 1–2 и они чёткие
📖 Простыми словами

RubricEval: A Rubric-Level Meta-Evaluation Benchmark forLLMJudges in Instruction Following

arXiv: 2603.25133

Когда ты просишь нейронку оценить текст по списку критериев, она ведет себя как уставший препод в конце сессии: ставит оценку за «общее впечатление», а не за реальные знания. Проблема в том, что LLM не умеет изолировать параметры. Если текст написан бодро, модель на радостях влепит высший балл и за логику, и за грамотность, даже если там фактическая ошибка на ошибке. Это называется эффектом ореола, и для серьезной аналитики это полный провал, потому что критерии в «голове» модели просто слипаются в одну невнятную кучу.

Это как если бы ты пришел в ресторан, где один человек одновременно и повар, и официант, и гардеробщик. Пока он несет твое пальто, у него подгорает стейк, а в счете он ошибается, потому что думает о грязных тарелках. Вроде сервис есть, но результат — каша. Чтобы получить нормальный ужин, тебе нужны разные люди на разных позициях, которые не лезут в дела друг друга.

Исследование RubricEval доказывает: чтобы выжать из AI адекватную оценку, нужно использовать атомарные проверки. Точность подскакивает на 7–12%, если ты перестанешь скармливать модели весь чеклист целиком. Вместо одного жирного промпта делай серию коротких: один запрос — один критерий. Вдобавок заставляй модель сначала прописать логику (Chain-of-Thought), а только потом ставить оценку. Когда нейронка сначала «рассуждает вслух», она реже лажает с итоговым вердиктом.

Этот принцип универсален и применим везде, от проверки кода до оценки рекламных креативов. Если ты проверяешь коммерческое предложение, не спрашивай: "Хорошее ли оно?". Спроси сначала только про соответствие болям клиента, вторым чатом — про четкость оффера, третьим — про грамотность. Да, это дольше и дороже по токенам, но зато ты получаешь объективный аудит, а не галлюцинации на тему того, какой ты молодец.

Короче, завязывай с многозадачностью для нейронок — они в ней захлебываются. Один критерий — один промпт — это золотой стандарт, который отделяет любительское «поиграться» от работающего бизнес-инструмента. Либо ты дробишь задачи на части, либо получаешь среднюю температуру по больнице, которая красиво выглядит, но ни черта не значит.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с