TL;DR
Когда просишь LLM оценить текст, питч или код по конкретным критериям — она ошибается чаще, чем кажется. Проблема не в умственных способностях модели, а в том как именно формулируешь задачу: сколько критериев отдаёшь за раз, насколько строго описываешь требования и сколько раз перепроверяешь.
Модели ошибаются двумя способами. Частичное удовлетворение — модель видит, что критерий выполнен наполовину, и засчитывает как выполненный полностью. Расширение требований — модель придумывает условия, которых в критерии не было: требует конкретную формулировку, когда критерий только про смысл. Плюс разные модели системно «строгие» или «мягкие» — и это не баг, это постоянный профиль.
Исследование даёт четыре принципа, которые напрямую меняют качество LLM-оценки: по одному критерию за раз, несколько независимых проходов, правильный выбор модели под нужный уровень строгости, точная формулировка для слабых моделей. Всё это работает в обычном чате без кода.
Схема метода
ПРИНЦИП 1: Один критерий — один запрос
Задача → отдавай по одному критерию, не списком
ПРИНЦИП 2: Голосование (3-5 прогонов одного критерия)
Запрос → получи 3 оценки → возьми большинство
ПРИНЦИП 3: Выбирай модель под нужную строгость
Знай профиль: GPT строже / Gemini+Claude мягче (в коде)
ПРИНЦИП 4: Для слабых моделей — точная формулировка
Claude Sonnet/GPT-4o mini → строго пропишь "explicit and complete"
Все шаги выполняются в одном чате, но разными запросами — не одним большим промптом.
Пример применения
Задача: Ты написал лендинг для нового SaaS-продукта и просишь GPT оценить его перед запуском. Раньше ты кидал всё сразу: "оцени по этим 7 критериям". Теперь — по одному.
Промпт (один критерий за раз):
Оцени следующий текст лендинга по одному конкретному критерию.
Текст лендинга:
[вставь текст]
Критерий для проверки:
"В тексте явно указана целевая аудитория — конкретная роль или тип бизнеса, а не абстрактное 'все компании'."
Ответь только: ВЫПОЛНЕН или НЕ ВЫПОЛНЕН.
Затем одним предложением — почему именно так.
Этот же промпт отправь три раза (просто нажми снова). Если два из трёх раза — ВЫПОЛНЕН, считается выполненным.
Результат: Каждый прогон даст бинарный вердикт + короткое обоснование. При трёх прогонах увидишь насколько уверена модель: три одинаковых = высокая надёжность, два против одного = граничный случай, стоит перечитать критерий. Для следующего критерия — запускаешь новый промпт с тем же текстом, но другим критерием.
Почему это работает
Проблема: LLM оценивает весь список критериев как один большой вопрос. Её внимание делится между ними, и для длинных текстов это катастрофа — по данным исследования, при 4-5 критериях одновременно точность падает на 10-30 пунктов в сложных задачах. Это как просить человека одновременно считать слова, проверять пунктуацию и оценивать структуру — что-то обязательно пропустит.
Сильная сторона LLM: Модель хорошо справляется, когда задача сфокусирована. Один критерий + один текст = узкий вопрос, на котором можно сосредоточиться. Исследование показывает: топовые модели достигают 94% точности в таком режиме.
Как метод использует это: Изолируя каждый критерий, мы убираем размытие внимания. Голосование из трёх прогонов убирает случайный шум — модель не всегда даёт одинаковый ответ на один вопрос, и большинство из трёх стабилизирует результат. Три прогона дают большую часть эффекта — дальше отдача снижается.
Рычаги управления: - Слово "explicit" в критерии → делает модель строже, меньше засчитывает половинчатые выполнения - "acceptable if equivalent meaning" → делает модель мягче, принимает перефразирование - 5 прогонов вместо 3 → выше надёжность, но прирост небольшой — обычно хватает 3 - Разные модели для разного: GPT-5 → строже следит за деталями в коде; Gemini/Claude → мягче, лучше для творческих критериев
Шаблон промпта
Проверь текст по одному критерию.
Текст:
{текст_для_оценки}
Критерий:
"{формулировка_критерия}"
Правила проверки:
- Отвечай только ВЫПОЛНЕН или НЕ ВЫПОЛНЕН
- Не добавляй требования, которых нет в критерии
- Частичное выполнение = НЕ ВЫПОЛНЕН
- После вердикта — одно предложение с объяснением
Вердикт:
Плейсхолдеры:
- {текст_для_оценки} — твой текст, питч, код, ответ
- {формулировка_критерия} — один конкретный критерий в кавычках
Важно в формулировке критерия: - Конкретно: "в тексте есть конкретная цифра ROI" — хорошо - Не конкретно: "текст убедительный" — модель будет фантазировать - Одно условие на критерий: "текст содержит цену И срок поставки" — лучше разбить на два отдельных
🚀 Быстрый старт — вставь в чат:
Вот шаблон для надёжной LLM-оценки по критериям.
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит про текст и критерии — потому что без конкретного содержания она не знает что именно и по каким правилам оценивать.
Ограничения
⚠️ Субъективные критерии: Метод плохо работает для критериев вроде "текст звучит профессионально" или "тон дружелюбный". Точность падает — такие критерии лучше оценивать самому.
⚠️ Длинные тексты (50 000+ символов): Для очень длинных документов (технические отчёты, большие спецификации) даже одиночный критерий может потребовать анализа всего документа. Точность ниже — доверяй меньше.
⚠️ Даже лучшие модели ошибаются: Топовые модели достигают ~90-95% точности, но не 100%. Для критически важных решений (юридические тексты, финансовые документы) — LLM-оценка как первый фильтр, не окончательный.
⚠️ Строгость модели меняется по домену: GPT строже при оценке кода, мягче при оценке текстов. Gemini и Claude — наоборот. Если нужна консистентность — фиксируй одну модель для одной задачи.
Как исследовали
Команда из Tsinghua University и Tencent Hunyuan собрала 2 458 примеров из двух реальных задач: глубокие исследовательские отчёты (в среднем 7 000 токенов) и агентные траектории кода (в среднем 49 000 токенов — это примерно 150 страниц текста). К каждому примеру — один чёткий критерий и человеческая разметка "выполнен / не выполнен". Разметчики с точностью выше 90% на пилоте, 500 человеко-часов разметки, межразметчиковое согласие κ = 0.808 — это очень высокий стандарт для таких работ.
Протестировали 18 моделей, включая GPT-5, Gemini 3.1 Pro, Claude Opus 4.7, DeepSeek, Qwen. Сравнивали с человеческими метками как золотым стандартом.
Самый неожиданный результат: топовые модели с похожими общими оценками делают совершенно разные ошибки. Пересечение ошибок между GPT-5, Gemini и Claude — всего 16-20%. Это значит, что провал — не в "сложных" примерах, а в разных слепых пятнах каждой модели. Следствие: ансамбль из разных моделей дал бы больше, чем голосование одной модели пять раз.
Адаптации и экстраполяции
1. Ансамбль разных моделей вместо повторений одной
Поскольку разные модели ошибаются в разных местах — можно получить 3 голоса от разных моделей. Это точнее, чем 3 прогона одной:
🔧 Техника: один критерий → три модели → большинство
Запрос с одним критерием → отправь в GPT-4o, Claude Sonnet, Gemini Flash → возьми 2 из 3. Это занимает 3 минуты и даёт более устойчивый результат.
2. Запрос строгого и мягкого вердикта в одном промпте
Вместо двух запросов — попроси модель дать оба варианта оценки:
Оцени критерий дважды:
1. СТРОГО: засчитывай только если критерий выполнен полностью и явно
2. МЯГКО: засчитывай если смысл выполнен, даже если не буквально
Текст: {текст}
Критерий: "{критерий}"
Строгий вердикт: [ВЫПОЛНЕН/НЕ ВЫПОЛНЕН] + объяснение
Мягкий вердикт: [ВЫПОЛНЕН/НЕ ВЫПОЛНЕН] + объяснение
Если оба варианта — НЕ ВЫПОЛНЕН, всё ясно. Если строгий не выполнен, а мягкий выполнен — граничный случай, решай сам. Если оба — ВЫПОЛНЕН, можешь быть уверен.
Ресурсы
Работа: "Can LLM-as-a-Judge Reliably Verify Rubrics in Agentic Scenarios?"
Датасет и код: https://github.com/THU-KEG/RuVerBench
Авторы: Yangda Peng, Yunjia Qi, Hao Peng, Haotian Xia, Guanzhong He, Xintong Shi, Richeng Xuan, Songyuanyi Lu, Yixian Liu, Zhichao Hu, Yuhong Liu, Lei Hou, Bin Xu, Juanzi Li
Организации: Department of Computer Science and Technology, Tsinghua University; Tencent Hunyuan
