3,583 papers
arXiv:2602.17170 76 19 фев. 2026 г. FREE

LLM как судья: систематические перекосы в оценке и как это влияет на вашу работу

КЛЮЧЕВАЯ СУТЬ
Проблема: каждая протестированная модель стабильно завышает оценки при использовании шкалы — с высокой уверенностью, даже когда неправа. Шкала 1-10 даёт в 2-3 раза больше ошибок, чем простое «да/нет». Бинарный формат с конкретными критериями позволяет получать от LLM оценки, которым можно доверять — вместо баллов, накрученных длиной текста и совпадением слов. Фишка: не проси «оцени» — проси «проверь каждое условие и ответь да или нет», плюс явный запрет учитывать объём. При парных сравнениях без ничьих точность вырастала до 85-93%.
Адаптировать под запрос

TL;DR

Когда просишь LLM оценить текст, идею или ответ — модель систематически завышает оценки. Это не случайные ошибки: исследование показало, что все протестированные модели стабильно ставят более высокие баллы, чем поставил бы человек, причём делают это с высокой уверенностью, даже когда неправы.

Главная проблема: у LLM два слепых пятна. Первое — длина текста. Более длинный вариант получает более высокую оценку, даже если содержит ровно тот же смысл, просто растянутый. Второе — совпадение слов. Если текст содержит те же слова, что и запрос, модель считает его более релевантным, независимо от реального смысла. То есть LLM реагирует на форму, а не на суть.

Из этого вытекает практическое следствие: шкала оценок хуже бинарного выбора. Когда просишь поставить баллы от 1 до 10 — ошибок в два-три раза больше, чем когда просишь ответить просто «да/нет». Для надёжной оценки через LLM нужно переформатировать задачу.


🔬

Схема метода

Это не одна техника, а набор принципов для работы с LLM-оценкой. Применяются в одном промпте:

ПРИНЦИП 1: Бинарный вопрос → точнее шкалы
  Вместо "Оцени от 1 до 10" → "Соответствует / Не соответствует"

ПРИНЦИП 2: Конкретные критерии → защита от поверхностных сигналов
  Вместо "Насколько это хорошо?" → список проверяемых условий

ПРИНЦИП 3: Запрет на уверенность как сигнал
  "Я уверен" от модели ≠ правильный ответ

ПРИНЦИП 4: Антидлинный фильтр
  Явно укажи: "Не учитывай объём текста, оценивай только содержание"

Все шаги — в одном промпте.


🚀

Пример применения

Задача: Ты пишешь описание своего продукта для маркетплейса и хочешь, чтобы ChatGPT оценил — попадает ли текст в запрос покупателя «беспроводные наушники для спорта до 5000 рублей».


Опасный промпт (модель будет завышать):

Оцени это описание по шкале от 1 до 10, насколько оно подходит 
покупателю, который ищет беспроводные наушники для спорта до 5000 рублей.

[описание товара на 300 слов]

Проблема: длинный текст + есть слова «беспроводные», «спорт», «5000» → модель завысит оценку вне зависимости от реального качества.


Надёжный промпт:

Оцени описание товара по каждому критерию. Отвечай только ДА или НЕТ.
Не учитывай длину текста и наличие конкретных слов — оценивай только смысл.

Критерии:
1. В описании ясно, что наушники беспроводные (не проводные)?
2. Есть конкретные характеристики, важные для спорта (влагозащита, крепление, автономность)?
3. Указана цена или ценовой диапазон, из которого ясно, что товар до 5000 рублей?
4. Покупатель после прочтения поймёт, чем этот товар лучше дешёвых аналогов?

[вставь описание товара]

После ДА/НЕТ по каждому пункту — одно предложение почему.

Результат: Модель пройдёт по конкретным критериям и даст бинарный вердикт по каждому. Не будет общей «восьмёрки», которая ни о чём. Будет видно, какой именно критерий провален — и что конкретно дописать в описание.


🧠

Почему это работает

LLM не «читает» текст как человек. Модель генерирует следующий токен на основе паттернов. Когда видит слова из запроса в тексте — это сильный статистический сигнал: «документ связан с темой». В обучающих данных релевантные тексты часто содержат те же слова, что и вопрос. Модель выучила этот паттерн и применяет его как правило.

Длинный текст = больше шансов случайно попасть в критерии. Каждое дополнительное предложение — ещё одна попытка «зацепить» нужное слово или мысль. Поэтому растянутый текст со средним содержанием обходит по оценке короткий, но точный.

Бинарный вопрос отрезает «серую зону». На шкале 0–3 модель охотно ставит 1 вместо 0 («ну, что-то похожее есть»). При бинарном выборе — приходится либо да, либо нет. Когда исследователи убирали возможность «ничья» в парных сравнениях, точность подскакивала до 85–93%. Структура вопроса меняет поведение модели.

Рычаги управления: - Список конкретных критериев → лишает модель свободы интерпретировать «хорошо» по-своему - Явный запрет учитывать длину → снижает длинный-текстовый bias - Формат ДА/НЕТ → принуждает к чёткой позиции - «Почему» после каждого пункта → заставляет обосновывать, а не угадывать


📋

Шаблон промпта

Оцени {объект оценки} по каждому критерию. Отвечай только ДА или НЕТ.
Не учитывай объём текста и наличие конкретных слов — оценивай только смысл.

Критерии:
1. {конкретный проверяемый факт 1}?
2. {конкретный проверяемый факт 2}?
3. {конкретный проверяемый факт 3}?
4. {конкретный проверяемый факт 4}?

{вставь текст для оценки}

После ДА/НЕТ по каждому пункту — одно предложение обоснования.
В конце: итоговый вердикт «Соответствует / Не соответствует» и что именно нужно исправить.

Что подставлять: - {объект оценки} — что именно оцениваем: описание товара, резюме, питч, статью - {конкретный проверяемый факт} — не «хорошо ли написано», а конкретное условие, которое можно подтвердить или опровергнуть: «указан бюджет», «есть дедлайн», «названо целевое действие»

🚀 Быстрый старт — вставь в чат:

Вот шаблон для надёжной оценки через LLM. Адаптируй под мою задачу.
Задавай вопросы, чтобы сформулировать критерии.

[вставить шаблон выше]

LLM спросит: что оцениваем и по каким критериям — потому что без конкретных критериев бинарная оценка не работает. Она поможет сформулировать проверяемые условия вместо расплывчатых «было ли хорошо».


⚠️

Ограничения

⚠️ Субъективные критерии: Метод работает только с проверяемыми условиями («есть цена» / «нет цены»). Для оценки «насколько текст живой и интересный» — всё равно нужен человек. LLM и здесь будет завышать и реагировать на форму.

⚠️ Тонкие различия: Когда оба варианта «неплохие», LLM плохо различает лучший от хуже. Почти в трети случаев модель считает «неприемлемый» вариант таким же хорошим, как «лучший». Для финального отбора из двух качественных вариантов — проси развёрнутый аргумент, не просто выбор.

⚠️ Уверенность ≠ точность: Если модель написала «я уверен» или «однозначно» — это не сигнал надёжности. Исследование показало, что уверенность при правильных и неправильных ответах статистически неотличима. Не интерпретируй тон как качество.

⚠️ Грубая оценка надёжнее тонкой: Бинарное «подходит / не подходит» точнее, чем «оцени от 1 до 10». Чем детальнее шкала — тем больше ошибок. Если нужна градация — используй максимум три уровня, не десять.


🔍

Как исследовали

Команда Университета Квинсленда взяла два реальных датасета TREC (поисковые запросы с человеческими оценками релевантности от 0 до 3) и прогнала через четыре открытые модели: Llama, Gemma, Mistral, Qwen. Затем сравнивала метки моделей с метками людей.

Интересный дизайн в части лексических экспериментов: они брали изначально нерелевантные тексты и вставляли в начало одно предложение — в одном случае с правильным смыслом, но без слов из запроса (SEM-вариант), в другом — с бессмысленным набором слов из запроса (LEX-вариант), в третьем — буквально сам запрос (QRY-вариант). Результат оказался неожиданно жёстким: вставка бессмысленного предложения с нужными словами существенно поднимала оценку нерелевантного текста. А вставка предложения с точным ответом на запрос, но без точных слов — модели недооценивали.

Для проверки влияния длины переписали те же тексты — краткая версия и расширенная, при сохранённом смысле (верификацию делал Gemini-2.5-Flash). Грейды упали для сжатых версий и выросли для расширенных. Форма победила содержание.

Что особенно тревожно: почти никакой разницы в уверенности модели между правильными и неправильными ответами. 95%+ уверенности — и когда права, и когда ошибается. Это разрушает идею использовать «уверенность модели» как фильтр качества.


📌

Адаптации

💡 Адаптация для найма: Оцениваешь резюме или тестовое задание. Вместо «оцени кандидата по 10-балльной шкале» — составь список конкретных требований и попроси бинарный вердикт по каждому. Явно напиши «объём ответа не является критерием».

💡 Адаптация для контента: Проверяешь текст перед публикацией. Замени общее «хорошо ли написано» на проверяемые пункты: «есть ли конкретный призыв к действию», «упомянута ли проблема читателя в первых двух предложениях», «есть ли конкретный пример».

🔧 Техника: явный антибиас-запрет → защита от длинного текста

Добавь в любой оценочный промпт:

Важно: не учитывай объём текста при оценке. 
Более длинный ответ не является более полным или качественным 
только за счёт длины.

Это не панацея, но снижает длинный bias — модель получает явную инструкцию, которая конкурирует с встроенным паттерном.

🔧 Техника: принудительный выбор без «ничья» → острее различение

Когда сравниваешь два варианта текста, идеи или решения:

Сравни вариант А и вариант Б. Ты обязан выбрать один лучший.
Вариант «оба одинаковые» — не допускается. 
Обоснуй выбор конкретным аргументом.

Почти треть ошибок в пairwise сравнениях — это «ничья» (модель не может различить). Принудительный выбор с обоснованием вытаскивает реальное предпочтение модели.


🔗

Ресурсы

When LLM Judges Inflate Scores: Exploring Overrating in Relevance Assessment SIGIR '26, July 20–24, 2026, Melbourne, Australia

Авторы: Chuting Yu, Hang Li, Joel Mackenzie, Teerapong Leelanupab — University of Queensland, Brisbane, Australia

Код и результаты: https://open-science.anonymous-github.xyz/r/Exploring-Overrating-F11D

Связанные работы упомянутые в статье: - UMBRELA framework (Upadhyay et al.) — открытый фреймворк для оценки через LLM - Alaofi et al. 2024 — про keyword stuffing в LLM-оценке


📋 Дайджест исследования

Ключевая суть

Проблема: каждая протестированная модель стабильно завышает оценки при использовании шкалы — с высокой уверенностью, даже когда неправа. Шкала 1-10 даёт в 2-3 раза больше ошибок, чем простое «да/нет». Бинарный формат с конкретными критериями позволяет получать от LLM оценки, которым можно доверять — вместо баллов, накрученных длиной текста и совпадением слов. Фишка: не проси «оцени» — проси «проверь каждое условие и ответь да или нет», плюс явный запрет учитывать объём. При парных сравнениях без ничьих точность вырастала до 85-93%.

Принцип работы

У модели два слепых пятна. Первое: длинный текст — выше оценка. Больше слов — больше шансов случайно попасть в нужные критерии. Второе: слова из запроса в тексте — сильный сигнал «это подходит», независимо от смысла. Модель реагирует на форму: есть нужные слова и объём — вот тебе восьмёрка. Список конкретных проверяемых условий лишает её этой свободы. Приходится ответить ДА или НЕТ, а не зависнуть в привычной «серой зоне». И ещё один неочевидный факт: уверенный тон модели («Я убеждён, что...») статистически не отличается при правильных и неправильных ответах. Уверенность — просто стиль, не показатель точности.

Почему работает

В обучающих данных релевантные тексты часто содержали те же слова, что и запрос. Модель выучила этот паттерн как правило: совпадение слов = хорошо. Длинный текст даёт больше попыток «зацепить» нужное — поэтому растянутый вариант со средним содержанием обходит короткий, но точный. Бинарный вопрос убирает серую зону: вместо «ну, поставлю единицу из трёх — там хоть что-то есть» — только да или нет. Конкретные критерии режут простор для догадок — модели не из чего генерировать «восьмёрку». Обоснование после каждого пункта дополнительно вскрывает случаи, когда модель угадывает, а не понимает.

Когда применять

Оценка текстов → описания товаров, питчи, резюме, статьи, ответы поддержки — особенно когда нужен конкретный вердикт «подходит или нет». Лучше всего работает для проверки соответствия чётким требованиям: есть цена / нет цены, указана влагозащита / не указана. НЕ подходит для тонких субъективных оценок — «живость текста», «харизма», «тональность». Здесь LLM всё равно будет завышать и клевать на форму. И не используй для финального выбора между двумя качественными вариантами: почти в трети случаев модель считает «неприемлемый» вариант таким же хорошим, как лучший. Проси развёрнутый аргумент, а не просто выбор.

Мини-рецепт

1. Забудь про шкалу: вместо «оцени от 1 до 10» сформулируй 3-5 конкретных проверяемых условий. Не «хорошо ли написано», а «указана ли цена», «есть ли конкретные результаты в цифрах», «понятно ли целевое действие».
2. Бинарный формат: «Отвечай только ДА или НЕТ по каждому критерию».
3. Явный запрет: добавь в промпт — «Не учитывай объём текста и наличие конкретных слов — оценивай только смысл».
4. Обоснование: попроси одно предложение после каждого ДА/НЕТ — так видно, где модель понимает, а где угадывает.
5. Итог: «В конце — вердикт Соответствует / Не соответствует и что конкретно нужно исправить».

Примеры

[ПЛОХО] : Оцени это резюме от 1 до 10 — насколько кандидат подходит на роль продакт-менеджера
[ХОРОШО] : Оцени резюме по каждому критерию. Отвечай только ДА или НЕТ. Не учитывай объём текста и совпадение слов — оценивай только смысл. Критерии: 1. Есть опыт запуска продукта с нуля? 2. Упомянута работа с данными и метриками? 3. Есть конкретные результаты с цифрами? 4. Понятно, чем именно кандидат управлял? После каждого ДА/НЕТ — одно предложение почему. В конце: Соответствует / Не соответствует и что нужно добавить в резюме. [резюме кандидата]
Источник: When LLM Judges Inflate Scores: Exploring Overrating in Relevance Assessment
ArXiv ID: 2602.17170 | Сгенерировано: 2026-02-20 10:35

Проблемы LLM

ПроблемаСутьКак обойти
LLM как судья систематически завышает оценкиПросишь оценить текст, ответ или вариант. Модель ставит выше, чем поставил бы человек. Всегда. Независимо от реального качества. Это не случайный шум — устойчивый перекос. Опасно при отборе лучшего варианта: все варианты получают высокие оценки и неразличимыПереходи от оценки к проверке. Вместо "насколько хорошо" — серия конкретных "да/нет" по каждому критерию
LLM оценивает форму, а не смыслДва триггера завышения: 1) длинный текст — больше шансов зацепить нужные слова, поэтому длина воспринимается как качество; 2) совпадение слов из запроса — есть нужные слова текст кажется релевантным, даже если смысл не тот. Модель выучила: релевантные тексты содержат слова из вопроса. Это правило применяется механическиВ промпте явно напиши: "Не учитывай объём текста и наличие конкретных слов — оценивай только смысл." Добавь проверяемые критерии вместо общего вопроса

Методы

МетодСуть
Бинарные критерии вместо шкалы — точная оценка без перекосовЗамени "оцени от 1 до 10" на список конкретных вопросов с ответом ДА/НЕТ. Шаблон: Оцени {объект} по каждому критерию. Отвечай только ДА или НЕТ. Не учитывай объём текста и наличие конкретных слов — оценивай только смысл. 1. {проверяемый факт 1}? 2. {проверяемый факт 2}? После каждого пункта — одно предложение обоснования. Критерии должны быть проверяемыми: не "хорошо ли написано", а "указана цена", "есть дедлайн", "названо целевое действие". Почему работает: шкала даёт "серую зону" — модель ставит 1 вместо 0 ("ну, что-то похожее есть"). Бинарный выбор убирает эту зону: либо да, либо нет. Когда не работает: субъективные критерии ("насколько текст живой") — здесь LLM всё равно реагирует на форму. Нужен человек

Тезисы

ТезисКомментарий
Чем детальнее шкала — тем больше ошибокШкала 1–10 даёт в 2–3 раза больше ошибок, чем бинарный выбор. Причина: чем больше делений, тем шире "серая зона" где модель угадывает. На шкале 0–3 охотно ставит 1 вместо 0. При бинарном выборе — вынуждена занять позицию. Применяй: если нужна градация — максимум три уровня, не десять. Лучше "подходит / частично / не подходит", чем оценка по десятибалльной шкале
📖 Простыми словами

WhenLLMJudges Inflate Scores: Exploring Overrating in Relevance Assessment

arXiv: 2602.17170

Когда ты просишь ChatGPT или Claude оценить твой текст, идею или товар, ты ждешь честного фидбека, а получаешь эффект розовых очков. Модели не просто ошибаются — они систематически завышают оценки, превращаясь в льстивых помощников. Корень проблемы в том, что LLM не вникают в суть, а работают на статистических совпадениях: если в твоем тексте мелькают слова из запроса, модель ставит «отлично», даже если сам контент — полная чушь. Это галлюцинация релевантности, где форма важнее содержания.

Это как если бы ты пришел к учителю, который ставит пятерки всем, кто просто пришел на урок и принес тетрадку. Формально условия выполнены, тетрадка есть, буквы написаны, значит, ученик молодец. Учитель при этом абсолютно уверен в своей правоте и не замечает, что в тетрадке вместо сочинения написан рецепт борща. Модель ведет себя так же: она видит знакомые токены и радостно жмет на кнопку максимальный балл, игнорируя реальную пользу текста.

В реальности это ломает всю логику проверки качества. Исследование 2602.17170 показывает, что модели стабильно ставят баллы выше, чем живые эксперты, причем делают это с непоколебимой уверенностью. Главный триггер для этого обмана — совпадение ключевых слов. Если человек ищет «беспроводные наушники для бега», а ты подсовываешь ему текст про утюги, где в конце приписано «кстати, это не наушники для бега», модель может зацепиться за знакомые слова и выдать высокий рейтинг. Она видит паттерн, а не смысл.

Этот принцип универсален и касается не только поиска товаров. Он работает в оценке ответов чат-ботов, проверке студенческих работ и даже в анализе кода. Везде, где AI выступает судьей, он склонен к необоснованному оптимизму. Если ты используешь LLM для автоматической фильтрации контента или оценки качества работы сотрудников, помни: их рейтинг 4.8 из 5 на деле может оказаться жалкой тройкой с минусом. Модель просто «подсуживает» тем, кто научился использовать правильные слова-маркеры.

Короче: никогда не принимай оценку от AI за чистую монету без жестких рамок. Чтобы не получить бесполезный одобрямс, нужно заставлять модель сначала обосновывать оценку через критику, а не просто тыкать в цифры. Без этого ты рискуешь построить бизнес-процессы на фундаменте из дутых цифр и ложной уверенности. Кто продолжает верить «добрым» нейронкам на слово, тот в итоге сильно удивится, когда реальные пользователи разнесут его продукт в щепки.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с