arXiv:2606.29920 76 29 июня 2026 г. FREE

RuVerBench: надёжная LLM-оценка по критериям — четыре правила, которые работают

КЛЮЧЕВАЯ СУТЬ

Обнаружено: LLM оценивает список из семи критериев как один огромный вопрос, а не как семь отдельных. Внимание делится — точность падает на 10-30 пунктов. Этот метод позволяет проверять тексты, питчи и код по критериям с точностью до 94% — без кода, в обычном чате. Фишка: один критерий — один запрос. Узкий вопрос = сосредоточенная модель. Три независимых прохода на каждый критерий плюс голосование убирают случайный шум.

Адаптировать под запрос

⚡

TL;DR

Когда просишь LLM оценить текст, питч или код по конкретным критериям — она ошибается чаще, чем кажется. Проблема не в умственных способностях модели, а в том как именно формулируешь задачу: сколько критериев отдаёшь за раз, насколько строго описываешь требования и сколько раз перепроверяешь.

Модели ошибаются двумя способами. Частичное удовлетворение — модель видит, что критерий выполнен наполовину, и засчитывает как выполненный полностью. Расширение требований — модель придумывает условия, которых в критерии не было: требует конкретную формулировку, когда критерий только про смысл. Плюс разные модели системно «строгие» или «мягкие» — и это не баг, это постоянный профиль.

Исследование даёт четыре принципа, которые напрямую меняют качество LLM-оценки: по одному критерию за раз, несколько независимых проходов, правильный выбор модели под нужный уровень строгости, точная формулировка для слабых моделей. Всё это работает в обычном чате без кода.

🔬

Схема метода

ПРИНЦИП 1: Один критерий — один запрос
Задача → отдавай по одному критерию, не списком

ПРИНЦИП 2: Голосование (3-5 прогонов одного критерия)
Запрос → получи 3 оценки → возьми большинство

ПРИНЦИП 3: Выбирай модель под нужную строгость
Знай профиль: GPT строже / Gemini+Claude мягче (в коде)

ПРИНЦИП 4: Для слабых моделей — точная формулировка
Claude Sonnet/GPT-4o mini → строго пропишь "explicit and complete"

Все шаги выполняются в одном чате, но разными запросами — не одним большим промптом.

🚀

Пример применения

Задача: Ты написал лендинг для нового SaaS-продукта и просишь GPT оценить его перед запуском. Раньше ты кидал всё сразу: "оцени по этим 7 критериям". Теперь — по одному.

Промпт (один критерий за раз):

Оцени следующий текст лендинга по одному конкретному критерию.

Текст лендинга:
[вставь текст]

Критерий для проверки:
"В тексте явно указана целевая аудитория — конкретная роль или тип бизнеса, а не абстрактное 'все компании'."

Ответь только: ВЫПОЛНЕН или НЕ ВЫПОЛНЕН.
Затем одним предложением — почему именно так.

Этот же промпт отправь три раза (просто нажми снова). Если два из трёх раза — ВЫПОЛНЕН, считается выполненным.

Результат: Каждый прогон даст бинарный вердикт + короткое обоснование. При трёх прогонах увидишь насколько уверена модель: три одинаковых = высокая надёжность, два против одного = граничный случай, стоит перечитать критерий. Для следующего критерия — запускаешь новый промпт с тем же текстом, но другим критерием.

🧠

Почему это работает

Проблема: LLM оценивает весь список критериев как один большой вопрос. Её внимание делится между ними, и для длинных текстов это катастрофа — по данным исследования, при 4-5 критериях одновременно точность падает на 10-30 пунктов в сложных задачах. Это как просить человека одновременно считать слова, проверять пунктуацию и оценивать структуру — что-то обязательно пропустит.

Сильная сторона LLM: Модель хорошо справляется, когда задача сфокусирована. Один критерий + один текст = узкий вопрос, на котором можно сосредоточиться. Исследование показывает: топовые модели достигают 94% точности в таком режиме.

Как метод использует это: Изолируя каждый критерий, мы убираем размытие внимания. Голосование из трёх прогонов убирает случайный шум — модель не всегда даёт одинаковый ответ на один вопрос, и большинство из трёх стабилизирует результат. Три прогона дают большую часть эффекта — дальше отдача снижается.

Рычаги управления: - Слово "explicit" в критерии → делает модель строже, меньше засчитывает половинчатые выполнения - "acceptable if equivalent meaning" → делает модель мягче, принимает перефразирование - 5 прогонов вместо 3 → выше надёжность, но прирост небольшой — обычно хватает 3 - Разные модели для разного: GPT-5 → строже следит за деталями в коде; Gemini/Claude → мягче, лучше для творческих критериев

📋

Шаблон промпта

Проверь текст по одному критерию.

Текст:
{текст_для_оценки}

Критерий:
"{формулировка_критерия}"

Правила проверки:
- Отвечай только ВЫПОЛНЕН или НЕ ВЫПОЛНЕН
- Не добавляй требования, которых нет в критерии
- Частичное выполнение = НЕ ВЫПОЛНЕН
- После вердикта — одно предложение с объяснением

Вердикт:

Плейсхолдеры: - {текст_для_оценки} — твой текст, питч, код, ответ - {формулировка_критерия} — один конкретный критерий в кавычках

Важно в формулировке критерия: - Конкретно: "в тексте есть конкретная цифра ROI" — хорошо - Не конкретно: "текст убедительный" — модель будет фантазировать - Одно условие на критерий: "текст содержит цену И срок поставки" — лучше разбить на два отдельных

🚀 Быстрый старт — вставь в чат:

Вот шаблон для надёжной LLM-оценки по критериям. 
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит про текст и критерии — потому что без конкретного содержания она не знает что именно и по каким правилам оценивать.

⚠️

Ограничения

⚠️ Субъективные критерии: Метод плохо работает для критериев вроде "текст звучит профессионально" или "тон дружелюбный". Точность падает — такие критерии лучше оценивать самому.

⚠️ Длинные тексты (50 000+ символов): Для очень длинных документов (технические отчёты, большие спецификации) даже одиночный критерий может потребовать анализа всего документа. Точность ниже — доверяй меньше.

⚠️ Даже лучшие модели ошибаются: Топовые модели достигают ~90-95% точности, но не 100%. Для критически важных решений (юридические тексты, финансовые документы) — LLM-оценка как первый фильтр, не окончательный.

⚠️ Строгость модели меняется по домену: GPT строже при оценке кода, мягче при оценке текстов. Gemini и Claude — наоборот. Если нужна консистентность — фиксируй одну модель для одной задачи.

🔍

Как исследовали

Команда из Tsinghua University и Tencent Hunyuan собрала 2 458 примеров из двух реальных задач: глубокие исследовательские отчёты (в среднем 7 000 токенов) и агентные траектории кода (в среднем 49 000 токенов — это примерно 150 страниц текста). К каждому примеру — один чёткий критерий и человеческая разметка "выполнен / не выполнен". Разметчики с точностью выше 90% на пилоте, 500 человеко-часов разметки, межразметчиковое согласие κ = 0.808 — это очень высокий стандарт для таких работ.

Протестировали 18 моделей, включая GPT-5, Gemini 3.1 Pro, Claude Opus 4.7, DeepSeek, Qwen. Сравнивали с человеческими метками как золотым стандартом.

Самый неожиданный результат: топовые модели с похожими общими оценками делают совершенно разные ошибки. Пересечение ошибок между GPT-5, Gemini и Claude — всего 16-20%. Это значит, что провал — не в "сложных" примерах, а в разных слепых пятнах каждой модели. Следствие: ансамбль из разных моделей дал бы больше, чем голосование одной модели пять раз.

💡

Адаптации и экстраполяции

1. Ансамбль разных моделей вместо повторений одной

Поскольку разные модели ошибаются в разных местах — можно получить 3 голоса от разных моделей. Это точнее, чем 3 прогона одной:

🔧 Техника: один критерий → три модели → большинство

Запрос с одним критерием → отправь в GPT-4o, Claude Sonnet, Gemini Flash → возьми 2 из 3. Это занимает 3 минуты и даёт более устойчивый результат.

2. Запрос строгого и мягкого вердикта в одном промпте

Вместо двух запросов — попроси модель дать оба варианта оценки:

Оцени критерий дважды:

1. СТРОГО: засчитывай только если критерий выполнен полностью и явно
2. МЯГКО: засчитывай если смысл выполнен, даже если не буквально

Текст: {текст}
Критерий: "{критерий}"

Строгий вердикт: [ВЫПОЛНЕН/НЕ ВЫПОЛНЕН] + объяснение
Мягкий вердикт: [ВЫПОЛНЕН/НЕ ВЫПОЛНЕН] + объяснение

Если оба варианта — НЕ ВЫПОЛНЕН, всё ясно. Если строгий не выполнен, а мягкий выполнен — граничный случай, решай сам. Если оба — ВЫПОЛНЕН, можешь быть уверен.

🔗

Ресурсы

Работа: "Can LLM-as-a-Judge Reliably Verify Rubrics in Agentic Scenarios?"

Датасет и код: https://github.com/THU-KEG/RuVerBench

Авторы: Yangda Peng, Yunjia Qi, Hao Peng, Haotian Xia, Guanzhong He, Xintong Shi, Richeng Xuan, Songyuanyi Lu, Yixian Liu, Zhichao Hu, Yuhong Liu, Lei Hou, Bin Xu, Juanzi Li

Организации: Department of Computer Science and Technology, Tsinghua University; Tencent Hunyuan

📋 Дайджест исследования

Ключевая суть

Принцип работы

Модели ошибаются двумя способами. Первый — частичное удовлетворение: критерий выполнен наполовину, засчитывается как выполненный. Второй — расширение требований: модель добавляет условия, которых в критерии не было. Изоляция критерия убирает обе ошибки сразу. Нет размытия внимания — нет половинчатых решений. Плюс разные модели системно строгие или мягкие: это постоянный профиль, не случайность. GPT строже в коде, Gemini и Claude — мягче. Знаешь профиль — выбираешь модель под нужный результат.

Почему работает

LLM при длинном списке критериев работает как человек, которого попросили одновременно считать слова, проверять пунктуацию и оценивать структуру. Что-то обязательно сползёт. При одном критерии задача становится узкой. Топовые модели в сосредоточенном режиме дотягиваются до 94% точности — против падения на 10-30 пунктов при списковой проверке. Три прохода на один критерий дают большую часть прироста стабильности. Четыре-пять — незначительный довесок.

Когда применять

Проверка структурированных текстов — лендинги, питч-деки, технические спецификации, чек-листы приёмки кода — особенно когда критериев больше трёх и ошибка дорого стоит. НЕ подходит для субъективных критериев вроде «текст звучит профессионально» или «тон дружелюбный». Там точность падает. Такие вещи лучше оценивать самому.

Мини-рецепт

1. Разбей список: возьми критерии оценки и раздели на отдельные. Один критерий — одно условие. «Текст содержит цену и срок поставки» — это два критерия, не один.
2. Один запрос — один критерий: вставь текст и один критерий в шаблон. Попроси только «ВЫПОЛНЕН или НЕ ВЫПОЛНЕН» плюс одно предложение обоснования.
3. Три прохода: запусти тот же промпт три раза подряд. Два из трёх одинаковых — итоговый вердикт.
4. Выбери модель под задачу: GPT строже к деталям в коде, Gemini и Claude мягче при оценке творческих текстов. Фиксируй одну модель на одну задачу — чтобы получать сопоставимые результаты.
5. Ужесточи или смягчи формулировку: добавь слово «явно» в критерий — модель перестанет засчитывать половинчатые выполнения. Добавь «или равнозначный смысл» — примет перефразирование.

Примеры

[ПЛОХО] :

Оцени этот лендинг по 7 критериям: целевая аудитория, уникальное предложение, призыв к действию, социальные доказательства, цена, доверие, мобильность.

[ХОРОШО] :

Проверь текст по одному критерию.

Текст: [вставь текст]

Критерий: «В тексте явно указана целевая аудитория — конкретная роль или тип бизнеса, а не абстрактное «все компании».»

Правила: отвечай только ВЫПОЛНЕН или НЕ ВЫПОЛНЕН. Частичное выполнение = НЕ ВЫПОЛНЕН. Не добавляй требований, которых нет в критерии. После вердикта — одно предложение с объяснением.

Затем этот же промпт — три раза. Два одинаковых из трёх — финальный ответ.

Источник: Can LLM-as-a-Judge Reliably Verify Rubrics in Agentic Scenarios?

ArXiv ID: 2606.29920 | Сгенерировано: 2026-06-30 05:23

Проблемы LLM

Проблема	Суть	Как обойти
При оценке по списку критериев точность падает	Просишь проверить текст по 4-5 критериям сразу. Внимание модели делится между ними. Она начинает смешивать критерии, терять детали, пропускать нарушения. Чем длиннее текст — тем хуже. Падение точности: 10-30 пунктов в сложных задачах	Отдавай по одному критерию за запрос. Тот же текст, тот же запрос — но один критерий. Потом следующий
Модель засчитывает частичное выполнение как полное	Критерий выполнен наполовину. Модель засчитывает как выполненный. Не потому что не поняла — потому что по умолчанию «мягко» трактует граничные случаи. Ты думаешь требование выполнено. На самом деле — нет	Добавь в запрос явное правило: «Частичное выполнение = НЕ ВЫПОЛНЕН». Или добавь слово `explicit` в сам критерий — это делает модель строже

Методы

Метод Суть

Один критерий + голосование из трёх прогонов Берёшь один критерий. Отправляешь один и тот же запрос три раза. Смотришь на большинство: 2 из 3 — итоговый вердикт. Почему работает: Модель не всегда даёт одинаковый ответ. Три прогона убирают случайный шум. Один критерий — убирает размытие внимания. Вместе дают точность до 94% у топовых моделей. Дополнительно: три ВЫПОЛНЕН из трёх — высокая надёжность. Два против одного — граничный случай, перечитай критерий. Когда не работает: субъективные критерии без чёткого признака («звучит профессионально», «тон дружелюбный»)

Слово explicit для управления строгостью Добавь слово explicit в формулировку критерия или в правила проверки. "Целевая аудитория указана явно и конкретно (explicit)". Почему работает: Это слово переключает модель в строгий режим. Меньше засчитывается «подразумевается» и «можно предположить». Обратно: "acceptable if equivalent meaning" — делает модель мягче, принимает перефразирование. Когда применять: строгий режим — для фактических требований. Мягкий — для творческих

Метод	Суть
Один критерий + голосование из трёх прогонов	Берёшь один критерий. Отправляешь один и тот же запрос три раза. Смотришь на большинство: 2 из 3 — итоговый вердикт. Почему работает: Модель не всегда даёт одинаковый ответ. Три прогона убирают случайный шум. Один критерий — убирает размытие внимания. Вместе дают точность до 94% у топовых моделей. Дополнительно: три ВЫПОЛНЕН из трёх — высокая надёжность. Два против одного — граничный случай, перечитай критерий. Когда не работает: субъективные критерии без чёткого признака («звучит профессионально», «тон дружелюбный»)
Слово `explicit` для управления строгостью	Добавь слово `explicit` в формулировку критерия или в правила проверки. `"Целевая аудитория указана явно и конкретно (explicit)"`. Почему работает: Это слово переключает модель в строгий режим. Меньше засчитывается «подразумевается» и «можно предположить». Обратно: `"acceptable if equivalent meaning"` — делает модель мягче, принимает перефразирование. Когда применять: строгий режим — для фактических требований. Мягкий — для творческих

Тезисы

Тезис	Комментарий
Разные модели системно строже или мягче — и это стабильный профиль	Это не случайные ошибки. Каждая модель имеет постоянный «характер» при оценке: одни систематически строже, другие мягче. GPT строже при оценке кода. Gemini и Claude — мягче в том же домене. Профиль не меняется от запроса к запросу. Применяй: выбирай модель под нужный уровень строгости задачи. Для фактических требований — бери строгую модель. Фиксируй одну модель на одну задачу, иначе результаты несравнимы

Тезис

Комментарий

Разные модели системно строже или мягче — и это стабильный профиль

Это не случайные ошибки. Каждая модель имеет постоянный «характер» при оценке: одни систематически строже, другие мягче. GPT строже при оценке кода. Gemini и Claude — мягче в том же домене. Профиль не меняется от запроса к запросу. Применяй: выбирай модель под нужный уровень строгости задачи. Для фактических требований — бери строгую модель. Фиксируй одну модель на одну задачу, иначе результаты несравнимы

📖 Простыми словами

CanLLM-as-a-Judge Reliably Verify Rubrics inAgenticScenarios?

arXiv: 2606.29920

Когда ты просишь нейронку оценить твой текст или код по списку требований, она работает не как беспристрастный судья, а как перегруженный стажер. Проблема в том, что LLM воспринимает пачку критериев как один гигантский ком данных, где фокус размывается. В итоге модель начинает «галлюцинировать» согласие там, где его нет, или просто пропускает косяки, потому что её внимание размазано тонким слоем по всем пунктам сразу.

Это как если бы ты пришел к шеф-повару и попросил его одновременно проверить суп на соль, чистоту тарелки, температуру подачи и наличие аллергенов, пока он бежит по кухне. Формально он кивнет на всё, но по факту просто не успеет вникнуть в детали каждого вопроса. В итоге ты получаешь вердикт «нормально», хотя суп пересолен, а тарелка со сколом. Модель просто имитирует качественную проверку, не справляясь с многозадачностью.

Исследователи выяснили, что точность оценки летит в трубу, как только критериев становится больше двух-трех. В сложных сценариях точность падает на 10–30 пунктов, если свалить всё в одну кучу. Чтобы это реально работало, нужно использовать атомарную проверку: один промпт — один критерий. Только когда модель фокусируется на чем-то конкретном, например, только на наличии призыва к действию или только на отсутствии багов в логике, она перестает лажать и начинает выдавать адекватный результат.

Этот принцип — декомпозиция оценки — применим везде, от проверки юридических договоров до оценки ответов чат-ботов в поддержке. Неважно, насколько умна модель (GPT-4 или Claude 3), лимит внимания всё равно существует. Если ты хочешь, чтобы AI реально нашел ошибки в твоем лендинге или статье, заставь его пройтись по тексту несколько раз с разными задачами, а не один раз «посмотреть вообще всё».

Короче, пора перестать верить в магическую способность нейронок жонглировать десятью задачами одновременно. Один критерий за раз — это единственный способ получить честный фидбек, а не вежливую отписку. Если не разделять задачи, ты просто платишь за иллюзию контроля, пока модель радостно подтверждает твои же ошибки, потому что ей так проще.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

Выберите модель ИИ:

Ваш запрос:

0 / 2000

~0.5-2 N-токенов ~10-30с

~0.3-1 N-токенов ~5-15с

Меню