TL;DR
Когда просишь LLM оценить текст, идею или ответ — модель систематически завышает оценки. Это не случайные ошибки: исследование показало, что все протестированные модели стабильно ставят более высокие баллы, чем поставил бы человек, причём делают это с высокой уверенностью, даже когда неправы.
Главная проблема: у LLM два слепых пятна. Первое — длина текста. Более длинный вариант получает более высокую оценку, даже если содержит ровно тот же смысл, просто растянутый. Второе — совпадение слов. Если текст содержит те же слова, что и запрос, модель считает его более релевантным, независимо от реального смысла. То есть LLM реагирует на форму, а не на суть.
Из этого вытекает практическое следствие: шкала оценок хуже бинарного выбора. Когда просишь поставить баллы от 1 до 10 — ошибок в два-три раза больше, чем когда просишь ответить просто «да/нет». Для надёжной оценки через LLM нужно переформатировать задачу.
Схема метода
Это не одна техника, а набор принципов для работы с LLM-оценкой. Применяются в одном промпте:
ПРИНЦИП 1: Бинарный вопрос → точнее шкалы
Вместо "Оцени от 1 до 10" → "Соответствует / Не соответствует"
ПРИНЦИП 2: Конкретные критерии → защита от поверхностных сигналов
Вместо "Насколько это хорошо?" → список проверяемых условий
ПРИНЦИП 3: Запрет на уверенность как сигнал
"Я уверен" от модели ≠ правильный ответ
ПРИНЦИП 4: Антидлинный фильтр
Явно укажи: "Не учитывай объём текста, оценивай только содержание"
Все шаги — в одном промпте.
Пример применения
Задача: Ты пишешь описание своего продукта для маркетплейса и хочешь, чтобы ChatGPT оценил — попадает ли текст в запрос покупателя «беспроводные наушники для спорта до 5000 рублей».
❌ Опасный промпт (модель будет завышать):
Оцени это описание по шкале от 1 до 10, насколько оно подходит
покупателю, который ищет беспроводные наушники для спорта до 5000 рублей.
[описание товара на 300 слов]
Проблема: длинный текст + есть слова «беспроводные», «спорт», «5000» → модель завысит оценку вне зависимости от реального качества.
✅ Надёжный промпт:
Оцени описание товара по каждому критерию. Отвечай только ДА или НЕТ.
Не учитывай длину текста и наличие конкретных слов — оценивай только смысл.
Критерии:
1. В описании ясно, что наушники беспроводные (не проводные)?
2. Есть конкретные характеристики, важные для спорта (влагозащита, крепление, автономность)?
3. Указана цена или ценовой диапазон, из которого ясно, что товар до 5000 рублей?
4. Покупатель после прочтения поймёт, чем этот товар лучше дешёвых аналогов?
[вставь описание товара]
После ДА/НЕТ по каждому пункту — одно предложение почему.
Результат: Модель пройдёт по конкретным критериям и даст бинарный вердикт по каждому. Не будет общей «восьмёрки», которая ни о чём. Будет видно, какой именно критерий провален — и что конкретно дописать в описание.
Почему это работает
LLM не «читает» текст как человек. Модель генерирует следующий токен на основе паттернов. Когда видит слова из запроса в тексте — это сильный статистический сигнал: «документ связан с темой». В обучающих данных релевантные тексты часто содержат те же слова, что и вопрос. Модель выучила этот паттерн и применяет его как правило.
Длинный текст = больше шансов случайно попасть в критерии. Каждое дополнительное предложение — ещё одна попытка «зацепить» нужное слово или мысль. Поэтому растянутый текст со средним содержанием обходит по оценке короткий, но точный.
Бинарный вопрос отрезает «серую зону». На шкале 0–3 модель охотно ставит 1 вместо 0 («ну, что-то похожее есть»). При бинарном выборе — приходится либо да, либо нет. Когда исследователи убирали возможность «ничья» в парных сравнениях, точность подскакивала до 85–93%. Структура вопроса меняет поведение модели.
Рычаги управления: - Список конкретных критериев → лишает модель свободы интерпретировать «хорошо» по-своему - Явный запрет учитывать длину → снижает длинный-текстовый bias - Формат ДА/НЕТ → принуждает к чёткой позиции - «Почему» после каждого пункта → заставляет обосновывать, а не угадывать
Шаблон промпта
Оцени {объект оценки} по каждому критерию. Отвечай только ДА или НЕТ.
Не учитывай объём текста и наличие конкретных слов — оценивай только смысл.
Критерии:
1. {конкретный проверяемый факт 1}?
2. {конкретный проверяемый факт 2}?
3. {конкретный проверяемый факт 3}?
4. {конкретный проверяемый факт 4}?
{вставь текст для оценки}
После ДА/НЕТ по каждому пункту — одно предложение обоснования.
В конце: итоговый вердикт «Соответствует / Не соответствует» и что именно нужно исправить.
Что подставлять:
- {объект оценки} — что именно оцениваем: описание товара, резюме, питч, статью
- {конкретный проверяемый факт} — не «хорошо ли написано», а конкретное условие, которое можно подтвердить или опровергнуть: «указан бюджет», «есть дедлайн», «названо целевое действие»
🚀 Быстрый старт — вставь в чат:
Вот шаблон для надёжной оценки через LLM. Адаптируй под мою задачу.
Задавай вопросы, чтобы сформулировать критерии.
[вставить шаблон выше]
LLM спросит: что оцениваем и по каким критериям — потому что без конкретных критериев бинарная оценка не работает. Она поможет сформулировать проверяемые условия вместо расплывчатых «было ли хорошо».
Ограничения
⚠️ Субъективные критерии: Метод работает только с проверяемыми условиями («есть цена» / «нет цены»). Для оценки «насколько текст живой и интересный» — всё равно нужен человек. LLM и здесь будет завышать и реагировать на форму.
⚠️ Тонкие различия: Когда оба варианта «неплохие», LLM плохо различает лучший от хуже. Почти в трети случаев модель считает «неприемлемый» вариант таким же хорошим, как «лучший». Для финального отбора из двух качественных вариантов — проси развёрнутый аргумент, не просто выбор.
⚠️ Уверенность ≠ точность: Если модель написала «я уверен» или «однозначно» — это не сигнал надёжности. Исследование показало, что уверенность при правильных и неправильных ответах статистически неотличима. Не интерпретируй тон как качество.
⚠️ Грубая оценка надёжнее тонкой: Бинарное «подходит / не подходит» точнее, чем «оцени от 1 до 10». Чем детальнее шкала — тем больше ошибок. Если нужна градация — используй максимум три уровня, не десять.
Как исследовали
Команда Университета Квинсленда взяла два реальных датасета TREC (поисковые запросы с человеческими оценками релевантности от 0 до 3) и прогнала через четыре открытые модели: Llama, Gemma, Mistral, Qwen. Затем сравнивала метки моделей с метками людей.
Интересный дизайн в части лексических экспериментов: они брали изначально нерелевантные тексты и вставляли в начало одно предложение — в одном случае с правильным смыслом, но без слов из запроса (SEM-вариант), в другом — с бессмысленным набором слов из запроса (LEX-вариант), в третьем — буквально сам запрос (QRY-вариант). Результат оказался неожиданно жёстким: вставка бессмысленного предложения с нужными словами существенно поднимала оценку нерелевантного текста. А вставка предложения с точным ответом на запрос, но без точных слов — модели недооценивали.
Для проверки влияния длины переписали те же тексты — краткая версия и расширенная, при сохранённом смысле (верификацию делал Gemini-2.5-Flash). Грейды упали для сжатых версий и выросли для расширенных. Форма победила содержание.
Что особенно тревожно: почти никакой разницы в уверенности модели между правильными и неправильными ответами. 95%+ уверенности — и когда права, и когда ошибается. Это разрушает идею использовать «уверенность модели» как фильтр качества.
Адаптации
💡 Адаптация для найма: Оцениваешь резюме или тестовое задание. Вместо «оцени кандидата по 10-балльной шкале» — составь список конкретных требований и попроси бинарный вердикт по каждому. Явно напиши «объём ответа не является критерием».
💡 Адаптация для контента: Проверяешь текст перед публикацией. Замени общее «хорошо ли написано» на проверяемые пункты: «есть ли конкретный призыв к действию», «упомянута ли проблема читателя в первых двух предложениях», «есть ли конкретный пример».
🔧 Техника: явный антибиас-запрет → защита от длинного текста
Добавь в любой оценочный промпт:
Важно: не учитывай объём текста при оценке.
Более длинный ответ не является более полным или качественным
только за счёт длины.
Это не панацея, но снижает длинный bias — модель получает явную инструкцию, которая конкурирует с встроенным паттерном.
🔧 Техника: принудительный выбор без «ничья» → острее различение
Когда сравниваешь два варианта текста, идеи или решения:
Сравни вариант А и вариант Б. Ты обязан выбрать один лучший.
Вариант «оба одинаковые» — не допускается.
Обоснуй выбор конкретным аргументом.
Почти треть ошибок в пairwise сравнениях — это «ничья» (модель не может различить). Принудительный выбор с обоснованием вытаскивает реальное предпочтение модели.
Ресурсы
When LLM Judges Inflate Scores: Exploring Overrating in Relevance Assessment SIGIR '26, July 20–24, 2026, Melbourne, Australia
Авторы: Chuting Yu, Hang Li, Joel Mackenzie, Teerapong Leelanupab — University of Queensland, Brisbane, Australia
Код и результаты: https://open-science.anonymous-github.xyz/r/Exploring-Overrating-F11D
Связанные работы упомянутые в статье: - UMBRELA framework (Upadhyay et al.) — открытый фреймворк для оценки через LLM - Alaofi et al. 2024 — про keyword stuffing в LLM-оценке
