3,583 papers
arXiv:2604.15302 70 16 апр. 2026 г. FREE

LLM-судья: критерий важнее модели — как понять, когда верить оценке ИИ

КЛЮЧЕВАЯ СУТЬ
Парадокс: в среднем LLM-оценщик даёт противоречивые оценки меньше чем в 5% случаев. Звучит отлично. Но проверь конкретный текст — и противоречия возникают в 33–67% случаев. Средняя цифра маскирует реальную картину. Метод повторной оценки позволяет отличить надёжный вывод от гадания — до того как принять решение на его основе. Попроси модель оценить текст трижды с чистым контекстом. Разброс ≤1 балл — верь. Разброс ≥2 баллов — это не сбой модели, это сигнал: текст объективно трудно оценить.
Адаптировать под запрос

TL;DR

Когда просишь ChatGPT или Claude оценить качество текста, надёжность ответа зависит не от того, какую модель выбрал — а от того, что именно оцениваешь. Все протестированные модели одинаково хорошо справляются с оценкой релевантности и связности текста — и одинаково плохо с оценкой беглости речи и фактической согласованности. Смена модели не меняет картину.

Проблема — скрытая нестабильность. Если попросить модель сравнить несколько текстов попарно, она выдаёт противоречия: A лучше B, B лучше C, но С лучше A. Это не сбой конкретной модели — это сигнал о том, что тексты трудно различить. На уровне отдельных документов такие противоречия возникают в 33–67% случаев — хотя средняя статистика выглядит безупречно (меньше 5%). Средняя цифра маскирует реальную проблему.

Метод решения — двойная проверка с помощью повторных оценок: попросить модель оценить текст несколько раз независимо. Если оценки скачут — дело не в модели, дело в тексте: он объективно трудно оцениваем. Если оценки стабильны — можно доверять. Плюс: знать, каким критериям верить по умолчанию, а к каким относиться со скептицизмом.


🔬

Схема метода

ШАГ 1: Выбери надёжный критерий оценки
   → Надёжные:   релевантность, связность/логика текста
   → Ненадёжные: беглость речи, фактическая согласованность

ШАГ 2: Попроси модель оценить текст 3 раза независимо
   → Каждый раз: новый запрос (или очисти контекст)
   → Зафиксируй оценки: например, 4, 4, 3

ШАГ 3: Проверь разброс оценок
   → Разброс ≤ 1 балл → оценка надёжна, доверяй
   → Разброс ≥ 2 баллов → текст объективно неоднозначен, нужна ручная проверка

Все шаги выполняются в обычном чате, отдельными запросами.

🚀

Пример применения

Задача: Ты редактор в стартапе, запускаете рассылку. Написали три варианта письма для инвесторов — нужно выбрать лучший. Просишь Claude оценить.

Промпт — один запрос (повторить 3 раза с чистым контекстом):

Оцени этот текст по критерию «релевантность»: 
насколько содержание письма соответствует интересам инвестора 
на стадии pre-seed в B2B SaaS.

Используй шкалу от 1 до 5, где:
1 — совершенно не по теме
5 — идеально попадает в интересы аудитории

Сначала дай оценку (цифру), потом одним абзацем объясни почему.

[Текст письма]

Результат: Получишь три независимых оценки — например, 4, 4, 3. Разброс в 1 балл: оценке можно доверять, текст действительно немного не дотягивает по релевантности. Если получишь 2, 4, 5 — это сигнал: письмо написано так, что его можно прочитать по-разному, нужна правка до отправки. Попросить оценить «грамотность речи» или «фактическую точность» по той же схеме — можно, но верить этим оценкам стоит меньше.


🧠

Почему это работает

LLM не держит оценку в голове стабильно. Каждый новый запрос — это генерация с нуля. Если текст объективно неоднозначен (два варианта почти равны по качеству), модель в разные сессии может «склониться» в разные стороны. Это не баг конкретной модели — так работают все большие языковые модели.

Критерии разные по природе. Релевантность — это вопрос "по теме или нет". У него есть чёткий ответ, и модели на него отвечают стабильно. Беглость речи — это вопрос вкуса и нюансов стиля. Нейронные тексты обычно все пишут грамматически правильно, различий почти нет — и модель буквально не знает, что выбрать. Поэтому оценки скачут.

Нестабильность оценки = свойство текста, не модели. Если три запроса к Claude дают разные оценки — это не значит, что Claude плохая. Это значит, что текст объективно трудно оценить: либо он неоднозначен, либо критерий к нему неприменим. Именно это подтвердило исследование: разные модели (GPT-4o-mini, Llama, Qwen, Mistral) ставили широкие оценки одним и тем же документам — независимо от модели.


📋

Шаблон промпта

Оцени этот текст по критерию «{критерий}»:
{описание критерия одним предложением}

Шкала от 1 до 5:
1 — {описание минимума}
5 — {описание максимума}

Сначала поставь оценку (цифру), 
потом одним абзацем объясни почему.

{текст для оценки}

Что подставлять: - {критерий}релевантность или связность/логика (надёжные) либо беглость/согласованность (с осторожностью) - {описание критерия} — конкретизируй под задачу: "насколько текст решает задачу целевой аудитории" - {описание минимума/максимума} — опиши полюса шкалы своими словами

Повтори запрос 3 раза с чистым контекстом. Сравни оценки.


🚀 Быстрый старт — вставь в чат:

Вот шаблон для надёжной оценки текста через LLM. 
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит какой текст оцениваем, для кого он предназначен и по какому критерию — потому что без этого невозможно прописать полюса шкалы и сформулировать критерий точно. Она возьмёт паттерн из шаблона и адаптирует под твою задачу.


📌

Почему именно эти критерии

Надёжные (доверяй): - Релевантность — "по теме или нет" — у вопроса есть объективный ответ - Связность/логика (coherence) — структура и последовательность текста видна моделям чётко

Ненадёжные (проверяй повторно): - Беглость речи (fluency) — нейросеть-автор уже пишет грамматически правильно, различий почти нет, модель-судья "гадает" - Фактическая согласованность (consistency) — требует глубокой проверки фактов, с чем 24–72B модели работают нестабильно


⚠️

Ограничения

⚠️ Работает для текстовой оценки, не для генерации: Метод полезен, когда ты уже используешь ИИ как "судью" — оценщика чужого или своего текста. Для генерации не применим.

⚠️ Нестабильная оценка ≠ плохой текст: Широкий разброс оценок говорит, что текст трудно оценить по выбранному критерию. Это может означать, что критерий не подходит к этому тексту — а не что текст плохой.

⚠️ Три повтора — это минимум: Два запроса могут дать случайное совпадение. Три — уже показывают паттерн.

⚠️ Исследование — на задачах суммаризации: Тестировали на оценке резюме статей. Для других жанров (рекламные тексты, юридические документы, художественный текст) пропорции могут отличаться, но принцип "критерий важнее модели" вероятно сохраняется.


📌

Адаптации

🔧 Техника: добавить критерии сравнения → узнать, на что обращать внимание

Вместо оценки по одному критерию — попроси разграничить:

Оцени этот текст по двум критериям отдельно:

КРИТЕРИЙ 1 — Релевантность (насколько по теме):
[оценка 1-5 + объяснение]

КРИТЕРИЙ 2 — Беглость речи (насколько гладко читается):
[оценка 1-5 + объяснение]

Важно: оценивай каждый критерий независимо.

{текст}

Если оценки по обоим критериям совпадают в трёх повторах — текст однозначно хорош или плох. Если расходятся — знаешь точно, над чем работать.


🔧 Экстраполяция: применить принцип повторной оценки к другим задачам

Тот же принцип работает не только для оценки текстов. Если просишь ИИ принять решение (выбрать стратегию, оценить риск, дать рекомендацию) — повтори запрос 3 раза с разными формулировками. Расхождение в ответах = ты попал в "серую зону" задачи. Либо уточни вводные, либо принимай решение сам — ИИ здесь не поможет надёжно.


🔍

Как исследовали

Исследователи из BITS Pilani взяли набор данных SummEval — 30 реальных документов, для каждого восемь вариантов краткого пересказа (summary), оценённых людьми по шкале 1–5 по четырём критериям. Затем прогнали через четыре модели (GPT-4o-mini, Llama-3.1-70B, Qwen-2.5-72B, Mistral-Small) в двух режимах: попарное сравнение (какой summary лучше?) и прямая оценка (оцени от 1 до 5).

Попарных вызовов API потребовалось 40 320 — чтобы проверить, насколько транзитивны предпочтения модели. Логика простая: если модель говорит A > B, B > C — она должна сказать A > C. Если нет — это противоречие. Оказалось, что у 33–67% документов есть хотя бы одно такое противоречие, хотя средняя статистика выглядит чистой (< 5%).

Самое интересное: когда исследователи попытались исправить противоречия математическим методом (MFAS — алгоритм минимального обратного дугового набора), это не помогло. Потому что противоречия не систематические — они сосредоточены в нескольких "трудных" документах, где варианты текстов почти неразличимы по качеству. Ты не можешь исправить неопределённость — только обнаружить её.


🔗

Ресурсы

Статья: Diagnosing LLM Judge Reliability: Conformal Prediction Sets and Transitivity Violations — Preprint, under review.

Авторы: Manan Gupta, Dhruv Kumar — BITS Pilani, Pilani Campus, India

Данные: SummEval benchmark (Fabbri et al., 2021) — публично доступный датасет оценки суммаризации

Код и кэш результатов: авторы обещают открытый релиз


📋 Дайджест исследования

Ключевая суть

Парадокс: в среднем LLM-оценщик даёт противоречивые оценки меньше чем в 5% случаев. Звучит отлично. Но проверь конкретный текст — и противоречия возникают в 33–67% случаев. Средняя цифра маскирует реальную картину. Метод повторной оценки позволяет отличить надёжный вывод от гадания — до того как принять решение на его основе. Попроси модель оценить текст трижды с чистым контекстом. Разброс ≤1 балл — верь. Разброс ≥2 баллов — это не сбой модели, это сигнал: текст объективно трудно оценить.

Принцип работы

Надёжность оценки определяет критерий, а не выбор модели. GPT-4o-mini, Llama, Qwen, Mistral — все четыре провалились на одних и тех же документах, независимо друг от друга. Релевантность — вопрос «по теме или нет»: у него есть объективный ответ, модели отвечают стабильно. Беглость речи — вопрос вкуса: нейросети уже пишут грамматически правильно, различий почти нет — и модель-судья буквально гадает. Ещё есть транзитивные противоречия: A лучше B, B лучше C, но C лучше A. Это не баг — это сигнал, что тексты трудно различить.

Почему работает

LLM генерирует оценку с нуля каждый раз. Если два текста почти равны по качеству — в разные сессии модель «склоняется» в разные стороны. Это не нестабильность модели. Нестабильная оценка — свойство текста. Три повтора это вскрывают. Два запроса ещё могут случайно совпасть. На трёх — уже виден паттерн: либо оценки стабильны, либо текст объективно неоднозначен.

Когда применять

Когда используешь ИИ как оценщика готового текста — выбираешь лучший вариант письма, проверяешь статью, ранжируешь несколько вариантов. Особенно полезно когда тексты похожи и непонятно, какой лучше. НЕ подходит для генерации — только для оценки уже написанного. И не заменяет ручную проверку там, где критерий по природе нестабильный (беглость речи, фактическая точность).

Мини-рецепт

1. Выбери надёжный критерий: релевантность (по теме или нет) или связность (логика и структура текста). Беглость речи и фактическую точность — только с осторожностью, оценки будут скакать.
2. Опиши шкалу конкретно: не просто «от 1 до 5», а «1 — совсем не по теме, 5 — идеально попадает в задачу аудитории». Расплывчатая шкала даёт расплывчатые оценки.
3. Повтори три раза: каждый раз новый чат или очищенный контекст. Зафиксируй три цифры.
4. Смотри на разброс: ≤1 балла — доверяй, оценка стабильна. ≥2 баллов — текст неоднозначен, нужна правка или ручная проверка перед решением.

Примеры

[ПЛОХО] : Оцени качество этого письма для инвесторов
[ХОРОШО] : Оцени этот текст по критерию «релевантность»: насколько письмо попадает в интересы инвестора на стадии посевного раунда в сфере образовательных технологий. Шкала 1–5: 1 — совсем не по теме, 5 — идеально попадает в интересы аудитории. Сначала оценка (цифра), потом одним абзацем — почему. [текст письма] — повторить 3 раза с чистым контекстом, сравнить три цифры. Разброс в 1 балл — письмо читается однозначно. Разброс в 2–3 балла — письмо неоднозначное, надо переписать до отправки.
Источник: Diagnosing LLM Judge Reliability: Conformal Prediction Sets and Transitivity Violations
ArXiv ID: 2604.15302 | Сгенерировано: 2026-04-17 05:25

Проблемы LLM

ПроблемаСутьКак обойти
Средняя надёжность оценки скрывает хаос на уровне отдельных текстовПросишь модель оценить несколько текстов. Средний процент ошибок выглядит хорошо — меньше 5%. Но на конкретных документах противоречий 33–67%. Модель говорит: A лучше B, B лучше C, C лучше A. Средняя цифра не показывает это. Ты видишь чистую статистику — и доверяешь оценке которой нельзя доверятьНе смотри только на среднее. Повторяй оценку одного текста 3 раза в разных сессиях. Если оценки скачут — доверять нельзя. Если стабильны — можно

Методы

МетодСуть
Тройная независимая оценка — проверка надёжностиПопроси модель оценить один и тот же текст 3 раза. Каждый раз — новая сессия, чистый контекст. Зафиксируй оценки. Разброс до 1 балла оценке можно доверять. Разброс 2 и больше текст объективно трудно оценить. Почему работает: каждый новый запрос — генерация с нуля. Стабильный ответ значит: у задачи есть чёткий сигнал. Нестабильный — текст неоднозначен, модель буквально выбирает случайно. Когда применять: выбираешь лучший из нескольких текстов, оцениваешь качество перед публикацией. Когда не нужно: текст явно плохой или явно хороший — достаточно одной оценки

Тезисы

ТезисКомментарий
Критерий оценки важнее выбора моделиРазные модели ведут себя одинаково на одних и тех же текстах. Меняешь GPT-4 на Llama — надёжность не меняется. Зато меняется радикально если меняешь что оцениваешь. Одни критерии дают стабильный результат на любой модели. Другие — нестабильный на всех. Применяй: сначала выбери правильный критерий, потом выбирай модель. Не наоборот
Надёжность критерия предсказуема — можно знать заранееОценка релевантности (по теме или нет) и связности (логика и структура) работает стабильно. У этих вопросов есть объективный ответ. Оценка беглости речи и фактической точности — нестабильна. Беглость: LLM-тексты почти все грамматически правильны, различий почти нет, модель-судья угадывает. Точность: требует глубокой проверки фактов, с этим средние модели не справляются. Применяй: для сравнения текстов используй релевантность и связность. Беглость и точность — только с повторной проверкой
📖 Простыми словами

DiagnosingLLMJudge Reliability: Conformal Prediction Sets and Transitivity Violations

arXiv: 2604.15302

Использовать нейронки вроде GPT-4 или Claude в роли судей — идея заманчивая, но коварная. Фундаментальная проблема в том, что LLM-судья не имеет внутренней шкалы ценностей. Когда ты просишь модель оценить текст, она не «измеряет» его линейкой, а просто генерирует наиболее вероятный ответ в моменте. Если задача сложная или неоднозначная, модель начинает метаться. Исследование показало, что надежность оценки зависит не от крутизны алгоритма, а от типа критерия: есть вещи, которые нейронки «видят» четко, а есть те, где они гадают на кофейной гуще.

Это как нанять на работу дегустатора, который идеально отличает соленое от сладкого, но абсолютно не понимает разницу между «изысканным» и «претенциозным» вином. В первом случае он выдаст четкий вердикт, во втором — будет нести чушь с очень умным видом. Ты можешь сменить дегустатора на более дорогого, но если критерий размыт, результат останется рандомным тычком в небо.

В цифрах и фактах это выглядит так: все модели, от средних до топовых, показывают стабильно высокий результат на релевантности и связности текста. Тут они профи. Но как только дело доходит до беглости речи или фактической точности, наступает полный облом. Модели начинают нарушать транзитивность: это когда нейронка говорит, что вариант А лучше Б, Б лучше В, но при этом В внезапно лучше А. Такой логический коллапс случается у всех моделей одинаково часто, что доказывает: смена модели не лечит кривые критерии.

Принцип универсален и применим не только к текстам. Если ты используешь AI для скоринга резюме, оценки кода или проверки качества ответов поддержки, помни: субъективные метрики — это ловушка. Тестировали на лингвистических задачах, но это работает везде. Если критерий нельзя измерить жестко, нейронка превращается в генератор случайных чисел, который просто подстраивается под твой тон. SEO-оптимизация текстов под такие оценки — это бег по кругу, где ты пытаешься угодить судье, который сам не знает, чего хочет.

Короче: не надейся, что GPT-5 внезапно станет объективным критиком там, где лажает GPT-4. Главный вывод исследования — проблема в метриках, а не в мозгах. Если хочешь адекватной оценки, дроби задачу на максимально тупые и понятные куски, где сложно ошибиться. Иначе ты просто получишь галлюцинацию об экспертности, которая похоронит твой проект под слоем уверенного, но абсолютно бесполезного бреда.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с