3,583 papers
arXiv:2603.24586 76 25 мар. 2026 г. FREE

LLM-судья врёт предсказуемо: три смещения и как их закрыть

КЛЮЧЕВАЯ СУТЬ
LLM меняет вердикт в 8–45% случаев только от перестановки вариантов местами — тексты не менялись. Метод рубрик + двойная проверка позволяет отличить устойчивую оценку от случайной: модель больше не «голосует» по позиции, а оценивает по явным критериям. Добавь список из 3–5 конкретных критериев и спрашивай дважды с переставленными вариантами — совпали оба ответа: вердикту можно доверять; разошлись: смотри не на итог, а на оценки по каждому пункту отдельно — там и есть настоящая информация.
Адаптировать под запрос

TL;DR

Когда просишь LLM выбрать лучший из двух вариантов, она делает это с систематическими смещениями — не случайными, а предсказуемыми. Она выбирает вариант, который идёт первым в промпте. Она предпочитает длинные объяснения. Она ценит формальную корректность, но игнорирует читаемость и контекст задачи.

Это не баг конкретной модели. Исследователи Carnegie Mellon протестировали 13 разных систем — от GPT до специально обученных «судейских» моделей. Все уступили живому человеку на 12–23%. И дополнительное обучение не помогает: специализированные судьи не стабильно лучше обычного Claude или GPT-4o.

Решение простое: давай модели явный список критериев (рубрик) и спрашивай дважды с переставленными вариантами. Это устраняет позиционное смещение и направляет внимание туда, где LLM-судья слепа.


🔬

Схема метода

ШАГ 1: Составь рубрик → 3–5 конкретных критериев под свою задачу
ШАГ 2: Первый запрос → вариант A, затем вариант B → оценка по рубрику
ШАГ 3: Второй запрос → вариант B, затем вариант A (переставлены) → оценка
ШАГ 4: Сравни вердикты → если совпали — доверяй; если нет — смотри не на итог, 
        а на оценки по отдельным критериям

Все шаги — в обычном чате, никакого кода.


🚀

Пример применения

Задача: Выбираешь между двумя описаниями товара для Wildberries — один написал сам, второй сгенерила нейросеть. Хочешь спросить Claude, какой лучше.

Промпт (первый запрос):

Оцени два варианта описания товара для Wildberries по этим критериям:

1. Конкретность — есть ли реальные цифры, размеры, детали, или только общие слова
2. Краткость — нет ли лишнего, что не помогает покупателю принять решение
3. Понимание покупателя — учтены ли его реальные сомнения, а не абстрактные «преимущества»
4. Стиль под платформу — легко ли сканировать глазами при быстром просмотре

Оценивай каждый критерий отдельно для каждого варианта. Не давай одного общего вердикта без разбора по пунктам.

Вариант A:
[твой текст]

Вариант B:
[текст от нейросети]

Второй запрос (перестановка):

Теперь оцени снова по тем же четырём критериям, но в другом порядке:

Вариант A:
[текст от нейросети]

Вариант B:
[твой текст]

Результат: Получишь два оценочных листа по 4 критериям. Если итоговый победитель в обоих запросах один — это устойчивая оценка, ей можно доверять. Если модель переключилась — не смотри на общий вердикт, смотри на оценки по конкретным пунктам. Именно там реальная информация о том, чем варианты отличаются.


🧠

Почему это работает

LLM не читает два варианта «одновременно». Она генерирует ответ последовательно — и первый вариант в промпте сильнее влияет на то, что она «держит в голове» к моменту финального вывода. В исследовании модели меняли решение в 8–45% случаев только из-за перестановки — без изменения самих текстов.

Без рубрика у LLM нет якоря. Она опирается на то, что умеет проверять: длинный ли текст, правильная ли структура, много ли объяснений. Но не на то, что важно вам: подходит ли тон под аудиторию, учтены ли специфика ниши, не перегружен ли читатель. Явный список критериев — это якорь, который перенаправляет внимание туда, куда нужно тебе, а не туда, куда модель тянется по умолчанию.

Рычаги управления: - Количество критериев: 3–5 оптимально. Больше — модель начинает усреднять и конфликтовать между ними - Инструкция «оценивай каждый критерий отдельно» → убирает тенденцию давать один общий вердикт без обоснования - Числовая оценка по критериям (1–5) → легче сравнивать результаты двух запросов - Контр-инструкция против длины: добавь «длинный ответ с общими словами — это минус» → явно блокирует встроенное смещение модели к многословию


📋

Шаблон промпта

Оцени два варианта {что оцениваем} по этим критериям:

1. {критерий 1} — {что это значит конкретно}
2. {критерий 2} — {что это значит конкретно}
3. {критерий 3} — {что это значит конкретно}

Оценивай каждый критерий отдельно. 
Не давай одного общего вывода без разбора по пунктам.
{дополнительная контр-инструкция, если нужно: например, "краткость — плюс, а не минус"}

Вариант A:
{первый вариант}

Вариант B:
{второй вариант}

Затем повтори с переставленными A и B — тот же промпт, те же критерии, другой порядок.

Плейсхолдеры: - {что оцениваем} — текст, план, решение, структура, идея, письмо клиенту - {критерий N} — конкретный параметр, важный для твоей задачи - {что это значит конкретно} — 3–7 слов, иначе модель интерпретирует по-своему

🚀 Быстрый старт — вставь в чат:

Вот шаблон для честной оценки двух вариантов с защитой от смещений LLM-судьи. 
Адаптируй под мою задачу: {твоя задача}. 
Задавай вопросы, чтобы понять что я сравниваю и какие критерии важны.

[вставить шаблон выше]

LLM спросит что именно ты сравниваешь и что важно при оценке — потому что без этого критерии получатся общими и бесполезными. Она возьмёт структуру из шаблона и сделает рубрик под твою задачу.


⚠️

Ограничения

⚠️ Диагностирует, но не решает за тебя: Двойная проверка показывает, где судья нестабилен. Но если два запроса дают разные результаты — автоматического правильного ответа нет. Финальный выбор по критериям остаётся твоим.

⚠️ Неявный контекст не закрыть рубриком: LLM не знает историю твоего проекта, ожидания конкретного клиента, негласные стандарты команды. Рубрик помогает, но разрыв с живым экспертом, который «просто чувствует», остаётся.

⚠️ Длинные тексты — сильнее смещение: Чем длиннее варианты A и B, тем мощнее позиционный эффект. На больших текстах двойная проверка особенно важна.

⚠️ Не работает как «объективный арбитр»: Даже с рубриком LLM остаётся слабее человека-эксперта в той же области на 12–23%. Используй как инструмент структурирования мышления, не как финальный вердикт.


🔍

Как исследовали

Команда Carnegie Mellon взяла три реальных сценария взаимодействия разработчиков с AI: автодополнение кода в IDE (данные Copilot Arena), редактирование кода по инструкции (EDIT-Bench) и чат (Chatbot Arena, отфильтрованные примеры с кодом). Больше 500 примеров на каждый сценарий — не придуманные задачи, а реальные предпочтения реальных людей.

Идея была простой: сравнить что выбирают люди в реальной работе и что выбирают 13 разных моделей-судей. Чтобы понять почему расходятся — создали систему автоматической генерации рубриков: отдельная LLM смотрела на пары вариантов и выявляла, по каким критериям они отличаются. Потом обучили логистическую регрессию — она показала, какие критерии реально влияют на решение человека, а какие на решение LLM-судьи.

Самый неожиданный результат: специально обученные «судейские» модели (Prometheus, Atla Selene, Skywork Critic) не стабильно лучше обычных GPT-5 или Claude Sonnet. В чат-сценарии обычные модели оказались лучше специализированных. Это значит, что дообучение под задачу судьи не решает проблему — LLM просто не понимает неявный контекст так, как понимает человек с опытом в предметной области. Также выяснилось, что 11 из 16 выявленных тем оценки совпадают с классическими критериями качества кода из академических работ — и именно по ним LLM стабильно расходится с людьми.


💡

Адаптации и экстраполяции

🔧 Техника: попросить объяснить расхождение → диагностика слепых пятен

Если при двойной проверке оценка изменилась, добавь в следующий запрос:

В первом запросе ты выбрал вариант A. Во втором (те же тексты, другой порядок) — 
вариант B. По какому именно критерию из рубрика ты дал разный вес в двух случаях?

Модель пытается артикулировать своё смещение — и часто само это объяснение помогает тебе самому принять решение, не дожидаясь «правильного» вердикта.

🔧 Техника: добавить «антипредпочтения» в рубрик

Исследование показало, что LLM автоматически завышает оценку длинным объяснениям в чате. Если хочешь обратного — скажи явно:

При оценке: развёрнутый ответ с общими словами — это минус, не плюс. 
Предпочитаю конкретику без воды, даже если текст короче.

🔧 Экстраполяция: применить принцип к нетехническим задачам

Исследование про код — но позиционное смещение универсально. Просишь LLM выбрать лучшую бизнес-идею, питч, заголовок, план проекта — то же правило: спрашивай дважды с переставленными вариантами. Смещение не зависит от домена, оно в архитектуре генерации.


🔗

Ресурсы

Comparing Developer and LLM Biases in Code Evaluation Aditya Mittal, Ryan Shar, Zichu Wu, Shyam Agarwal, Tongshuang Wu, Chris Donahue, Ameet Talwalkar, Wayne Chi, Valerie Chen Carnegie Mellon University GitHub: https://github.com/rShar01/TRACE


📋 Дайджест исследования

Ключевая суть

LLM меняет вердикт в 8–45% случаев только от перестановки вариантов местами — тексты не менялись. Метод рубрик + двойная проверка позволяет отличить устойчивую оценку от случайной: модель больше не «голосует» по позиции, а оценивает по явным критериям. Добавь список из 3–5 конкретных критериев и спрашивай дважды с переставленными вариантами — совпали оба ответа: вердикту можно доверять; разошлись: смотри не на итог, а на оценки по каждому пункту отдельно — там и есть настоящая информация.

Принцип работы

LLM читает два варианта по очереди, а не одновременно. Первый успевает сильнее осесть к моменту финального вывода. Это позиционное смещение — первое из трёх. Плюс ещё два: модель тянется к длинным объяснениям и формально корректным ответам — даже когда это не то, что важно тебе. Без рубрика у неё нет якоря. Она оценивает то, что умеет проверять: длину, структуру, «правильность» формулировок. Но не то, что задал ты: тон под аудиторию, учёт контекста, реальную пользу. Явный список критериев — это якорь, который разворачивает внимание туда, куда нужно.

Почему работает

Тринадцать моделей протестировали против живого эксперта. Все проиграли на 12–23%. Специализированные «судейские» модели, натренированные именно для оценки, — не стабильно лучше обычного Claude или GPT-4o. Дообучение не помогает. Позиционное смещение встроено в саму архитектуру: модель генерирует ответ последовательно, и первый вариант сильнее давит на вывод — это не лечится, это обходится. Рубрик и перестановка не чинят модель. Они меняют структуру запроса так, чтобы смещение не решало за тебя.

Когда применять

Везде, где сравниваешь два варианта: тексты, описания товаров, письма клиентам, фрагменты кода, планы задач, ответы поддержки. Особенно полезно когда модель отвечает слишком уверенно — без единого «зато» в сторону проигравшего. Это верный признак позиционного смещения. Не подходит как замена живому эксперту в узкой области — разрыв в 12–23% никуда не девается. Используй как инструмент структурирования, а не как финальный арбитр.

Мини-рецепт

1. Составь рубрик: 3–5 критериев конкретно под свою задачу. Каждый критерий — 3–7 слов с коротким пояснением. Без пояснения модель интерпретирует по-своему.
2. Первый запрос: Вариант A идёт первым, Вариант B — вторым. Добавь инструкцию: «оценивай каждый критерий отдельно, без одного общего вывода». Если важна краткость — добавь: «длинный ответ с общими словами — это минус».
3. Второй запрос: Тот же промпт, те же критерии. Только поменяй местами: Вариант B первым, Вариант A вторым.
4. Сравни результаты: Совпали вердикты — оценке можно доверять. Разошлись — не ищи правого победителя. Смотри на оценки по конкретным пунктам в обоих ответах: именно там реальная разница между вариантами.

Примеры

[ПЛОХО] : Какое описание товара лучше — первое или второе?
[ХОРОШО] : Оцени два варианта описания товара для маркетплейса по критериям: 1. Конкретность — есть ли реальные цифры, размеры, детали или только общие слова 2. Краткость — нет ли лишнего, что не помогает покупателю решить 3. Понимание покупателя — учтены ли его реальные сомнения Оценивай каждый критерий отдельно. Не давай одного итогового вывода без разбора по пунктам. Вариант A: [текст] Вариант B: [текст] — затем повтори запрос с переставленными A и B. Если оба раза побеждает один и тот же вариант — выбор устойчивый. Если модель переключилась — сравни оценки по пунктам вручную.
Источник: Comparing Developer and LLM Biases in Code Evaluation
ArXiv ID: 2603.24586 | Сгенерировано: 2026-03-26 05:24

Проблемы LLM

ПроблемаСутьКак обойти
Оценка зависит от порядка вариантовПросишь выбрать лучший из двух. Модель генерирует ответ последовательно. Первый вариант сильнее «оседает» в контексте к моменту вывода. Итог: тот же текст на первом месте — чаще побеждает. В 8–45% случаев модель меняет решение если просто поменять A и B местами. Ни один вариант не изменилсяСпрашивай дважды. Первый раз: A потом B. Второй раз: B потом A. Если итог совпал — результату можно доверять. Если нет — смотри не на вердикт, а на оценки по отдельным критериям
Без критериев модель оценивает длину, а не качествоПросишь "выбери лучший". Нет точки опоры. Модель тянется к тому что умеет измерить: длинный ли текст, правильная ли структура, много ли объяснений. Это не то что тебе нужно. Читаемость, контекст задачи, тон под аудиторию — модель игнорируетДавай явный список критериев. 3–5 пунктов, каждый с расшифровкой. Добавь контр-инструкцию: "длинный ответ с общими словами — минус". Это явно блокирует встроенное смещение к многословию

Методы

МетодСуть
Двойная оценка с перестановкой — защита от позиционного смещенияОдин и тот же запрос с оценкой — дважды. В первом: вариант A идёт первым. Во втором: вариант B идёт первым. Критерии и формулировки одинаковые. Смотришь на итог: оба раза победил один — оценка устойчива. Победители разные — не доверяй общему вердикту. Смотри на оценки по конкретным пунктам: там реальная информация. Когда применять: любое сравнение двух вариантов, где нужен надёжный результат
Явный список критериев как якорь для оценкиПиши критерии явно: 3–5 пунктов. К каждому — расшифровка 3–7 слов. Без расшифровки модель интерпретирует по-своему. Добавляй инструкцию: "оценивай каждый критерий отдельно. Не давай одного общего вердикта без разбора по пунктам". Можно добавить числовую шкалу 1–5 — проще сравнивать результаты двух запросов. Почему работает: критерии переключают внимание с того что модель проверяет по умолчанию (длина, структура) на то что важно тебе
📖 Простыми словами

Comparing Developer andLLMBiases in Code Evaluation

arXiv: 2603.24586

Нейросети в роли судей — это не беспристрастные алгоритмы, а предвзятые существа со своими странными «пунктиками». Когда ты просишь модель выбрать лучший вариант из двух, она не взвешивает их на аптекарских весах. Она работает как последовательный предсказатель, который заложник собственного контекста. Проблема в том, что LLM физически не может оценить оба текста одновременно: то, что она прочитала первым, задает тон всему рассуждению, а длинный текст кажется ей «умнее» просто из-за объема. Это не баг конкретной модели, а фундаментальный перекос в том, как они обрабатывают информацию.

Это как если бы ты пришел на дегустацию вин, но судья всегда отдавал победу тому бокалу, который стоит слева, или тому виноделу, который дольше всех распинал о «нотках ежевики». Формально экспертиза была, но по факту результат зависел от того, как расставили бутылки. В итоге мы получаем не объективную оценку, а рандомную лотерею, где побеждает тот, кто занял «правильное» место в промпте или налил больше воды в описание.

Исследование четко подсветило три главных косяка: позиционное смещение (первый вариант в списке выигрывает чаще), тяга к многословию (длинные объяснения кажутся модели качественнее) и формализм. Модели плевать на читаемость или реальный контекст задачи, она вцепляется в формальную корректность. В тестах нейронки меняли свое мнение в 8–45% случаев просто из-за того, что варианты поменяли местами. Это огромный разброс, который превращает «умную оценку» в тыканье пальцем в небо.

Принцип универсален: это касается не только кода, но и текстов для маркетплейсов, ответов поддержки или выбора лучшего заголовка для статьи. Если ты используешь ChatGPT или Claude, чтобы выбрать лучший вариант из предложенных, ты попадаешь в ловушку. Модель выберет то, что идет первым, или то, что выглядит солиднее по объему, даже если там написана полная чушь. Объективность LLM — это миф, который рассыпается, как только ты меняешь абзацы местами.

Короче: никогда не доверяй нейросети выбор «лучшего» в один проход. Чтобы получить хоть какой-то адекватный результат, нужно прогонять тест дважды, меняя варианты местами, и следить, чтобы тексты были примерно одной длины. Иначе ты просто кормишь свои предубеждения через алгоритм, который поддакивает тому, что увидел первым. Слепое доверие к оценке AI — это прямой путь к принятию мусорных решений, пока остальные будут играть в объективность.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с