3,583 papers
arXiv:2607.02104 70 2 июля 2026 г. FREE

Bias-Aware LLM Judging: дешёвые модели выбирают многословие, а не качество

КЛЮЧЕВАЯ СУТЬ
GPT-4o-mini выбирал более длинный текст в 100% случаев — при абсолютно одинаковом содержании обоих вариантов. Метод позволяет получить оценку реального качества, а не объёма — без смены инструмента и без кода. Два приёма в одном промпте: явный запрет учитывать длину + показ вариантов в обоих порядках (A→B, потом B→A). Если оба раунда указывают на один вариант — оценка надёжна. Если расходятся — видишь где позиционный перекос влияет.
Адаптировать под запрос

TL;DR

Когда просишь LLM сравнить два варианта — она чаще выбирает более длинный и оформленный ответ, а не более качественный. Это не случайный шум: это систематический перекос, который не исчезает при большем числе сравнений. Простой подсчёт побед даёт рейтинг презентации, не содержания.

Главная находка: перекос зависит от класса модели. Дешёвые и средние судьи (Llama, Qwen, GPT-4o-mini, Gemini Flash) сильно предпочитают многословные ответы даже при равном содержании — GPT-4o-mini выбирал расширенный вариант в 100% случаев при одинаковом качестве. Фронтирные модели (GPT-5.1/5.5, Claude Sonnet/Opus, Gemini Pro) практически свободны от этого перекоса и дают точные оценки «из коробки». Позиционный перекос (какой вариант показан первым) есть у всех, но направление разное у разных моделей.

Авторы предлагают байесовскую статистическую систему, которая отделяет «истинное качество» от влияния длины и позиции. Для применения без кода метод недоступен — но принципы переносятся в обычный чат напрямую.


🔬

Схема метода

ШАГ 1 (понять проблему):
LLM-судья видит варианты →
предпочитает более длинный/оформленный ❌

ШАГ 2 (компенсировать позиционный перекос):
Показать пару в порядке A→B, потом B→A →
взять мнение из обоих запросов

ШАГ 3 (компенсировать перекос многословия):
Явно запретить судье ориентироваться на длину/форматирование →
попросить оценивать только содержательное качество

ШАГ 4 (выбор судьи):
Для важных оценок — использовать фронтирную модель,
а не дешёвую → минимизировать изначальный перекос

Каждый шаг — отдельный запрос или часть промпта.

🚀

Пример применения

Задача: Ты написал два варианта питча для инвестора — короткий и ёмкий (150 слов) и развёрнутый с примерами (400 слов). Просишь Claude выбрать лучший. Без поправок Claude, скорее всего, выберет длинный — просто потому что он длиннее.

Промпт:

Ты — судья качества текстов. Твоя единственная задача: оценить, 
какой вариант точнее и убедительнее передаёт идею.

ВАЖНО: Тебе запрещено учитывать длину текста, количество 
примеров и форматирование. Длинный текст не лучше короткого 
автоматически. Оценивай только смысловую точность, 
убедительность аргументов и ясность идеи.

Вариант A:
[Короткий питч — 150 слов]

Вариант B:
[Развёрнутый питч — 400 слов]

Шаг 1: Выбери лучший. Объясни в 2 предложениях конкретно — 
что именно делает его лучше по содержанию.
Шаг 2: Назови одну слабость выбранного варианта.

---

Теперь тот же вопрос, но я меняю порядок:

Вариант A:
[Развёрнутый питч — 400 слов]

Вариант B:
[Короткий питч — 150 слов]

Шаг 1: Снова выбери лучший. Объясни в 2 предложениях.
Шаг 2: Назови одну слабость выбранного варианта.

---

Финал: Если оба раза выбран один и тот же вариант — ответ 
надёжен. Если разные — поясни в чём противоречие.

Результат: Модель выдаст два независимых сравнения в переставленном порядке. Если каждый раз побеждает один вариант — оценка надёжная. Если результаты расходятся — увидишь, что позиционный перекос влияет, и решишь сам. Блок «запрещено учитывать длину» снижает перекос многословия. Финальная проверка делает оценку прозрачной.


🧠

Почему это работает

Слабость LLM-судьи: Модель не видит «истинного качества» — она генерирует вероятностный ответ на основе всех признаков объекта сразу: содержания, длины, форматирования, позиции. Для неё «развёрнуто и структурировано» статистически коррелирует с «хорошо» — потому что в обучающих данных качество часто сопровождается объёмом. Это не баг, это паттерн, усвоенный из миллиардов примеров.

Почему это не лечится числом сравнений: Авторы доказали математически: если у судьи есть систематический перекос — сколько бы сравнений ты ни сделал, рейтинг будет сходиться к неправильному ответу. Это не шум, который усредняется — это смещение оценки. Чем больше данных, тем увереннее неправильный результат.

Рычаги управления в промпте: - Явный запрет — "не учитывай длину" снижает, но не устраняет перекос. Работает лучше с фронтирными моделями, хуже с дешёвыми - Перестановка порядка — нейтрализует позиционный перекос. Два запроса дают возможность проверить стабильность - Выбор модели — самый сильный рычаг. Claude Sonnet/Opus, GPT-4.1+, Gemini Pro практически не имеют перекоса многословия. GPT-4o-mini, Llama, Qwen — сильно смещены - Явный критерий — формулируй что именно оценивается ("убедительность аргумента", "точность формулировки") вместо абстрактного "лучший"


📋

Шаблон промпта

Ты — судья качества. Оценивай только {критерий}.

ЗАПРЕЩЕНО учитывать: длину текста, объём примеров, 
форматирование (заголовки, списки). Более длинный ответ 
не является более качественным автоматически.

---
РАУНД 1

Вариант A:
{вариант_1}

Вариант B:
{вариант_2}

Выбери лучший. Объясни в 2 предложениях по критерию: {критерий}.

---
РАУНД 2 (порядок изменён)

Вариант A:
{вариант_2}

Вариант B:
{вариант_1}

Снова выбери лучший. Объясни в 2 предложениях по критерию: {критерий}.

---
ИТОГ:
Если оба раунда дали одинаковый ответ — объяви победителя.
Если разные — объясни, в чём расхождение и что оно означает.

Что подставлять: - {критерий} — конкретный: "смысловая точность", "убедительность аргумента", "ясность для новичка", "соответствие задаче" - {вариант_1} / {вариант_2} — два варианта текста, которые сравниваешь


🚀 Быстрый старт — вставь в чат:

Вот шаблон для беспристрастного сравнения вариантов с LLM-судьёй. 
Адаптируй под мою задачу: [твоя задача — например, "оцени два варианта 
заголовка для поста"].
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит какой критерий оценки и попросит два варианта текста — потому что без этого нельзя запустить двойное сравнение и финальный вердикт.


⚠️

Ограничения

⚠️ Полная система требует кода: Байесовская модель с компенсацией перекосов — это алгоритм на Python с L-BFGS оптимизацией. В чате работают только принципы, не сама система.

⚠️ Дешёвые модели остаются смещёнными: Даже с правильным промптом Llama, Qwen, GPT-4o-mini сохраняют часть перекоса. Явный запрет снижает, но не устраняет. Для критических оценок — используй фронтирную модель.

⚠️ Двойное сравнение вдвое дороже по токенам: Два раунда = два запроса. Для разовых задач — нормально. Для массовой оценки — накладно.

⚠️ Контрольное исследование — не реальные задачи: Авторы проверяли на специально сконструированных ответах с известным «истинным качеством». Насколько выводы переносятся на творческие или субъективные задачи — отдельный вопрос.

⚠️ Эффект зависит от природы задачи: Перекос многословия силён когда «развёрнутость» выглядит как компетентность. Для технических задач с чёткими критериями (правильно/неправильно) эффект слабее.


🔗

Ресурсы

Ask the Right Comparison: Bias-Aware Bayesian Active Top-k Ranking with LLM Judges

Авторы: Jian Xu, Delu Zeng, John Paisley, Qibin Zhao

Организации: RIKEN iTHEMS, RIKEN AIP, South China University of Technology, Columbia University

Контакт: jian.xu@riken.jp

Ключевые работы на которые опирается: MT-Bench (Zheng et al. 2023), исследования позиционного перекоса (Wang et al. 2024), LLMBar (Zeng et al. 2024), вербальный перекос (Dubois et al. 2024)


📋 Дайджест исследования

Ключевая суть

GPT-4o-mini выбирал более длинный текст в 100% случаев — при абсолютно одинаковом содержании обоих вариантов. Метод позволяет получить оценку реального качества, а не объёма — без смены инструмента и без кода. Два приёма в одном промпте: явный запрет учитывать длину + показ вариантов в обоих порядках (A→B, потом B→A). Если оба раунда указывают на один вариант — оценка надёжна. Если расходятся — видишь где позиционный перекос влияет.

Принцип работы

В обучающих данных объём и оформление статистически коррелируют с качеством. Там где хорошо — там обычно подробно. Модель усвоила это. Теперь «длинно и структурировано» для неё звучит как «хорошо». Прикол: это не случайная ошибка, которая усредняется — это системное смещение, которое тянет результат в неправильную сторону с каждым новым сравнением. Явный запрет в промпте («не учитывай длину и форматирование») частично отключает этот паттерн. Двойная проверка порядком выявляет, осталось ли влияние позиции.

Почему работает

Авторы доказали математически: систематический перекос не исчезает с числом сравнений. Больше данных — увереннее неправильный рейтинг. Это не шум, который усредняется. Это смещение оценки. Ключевая разница между дешёвыми и дорогими моделями: Claude Sonnet/Opus и GPT-4.1+ почти не смещены — они реально смотрят на содержание. GPT-4o-mini, Llama, Qwen — плывут в сторону многословия даже при правильном промпте. Явный запрет снижает перекос. Но у дешёвых моделей не устраняет — только ослабляет.

Когда применять

Сравнение текстовых вариантов — особенно когда один явно длиннее другого: питчи для инвесторов, заголовки постов, письма клиентам, объяснения одной и той же идеи разным аудиториям. НЕ подходит для: технических задач с однозначным правильным ответом (там перекос слабее) и массовой оценки сотен вариантов — два раунда на каждую пару вдвое дороже по токенам.

Мини-рецепт

1. Выбери судью: Для важной оценки — Claude Sonnet/Opus или GPT-4.1+. Они почти не смещены. GPT-4o-mini, Llama, Qwen дадут перекошенный результат даже с правильным промптом.

2. Сформулируй конкретный критерий: Не «лучший вариант» — а «убедительность аргумента», «ясность для новичка», «точность формулировки». Чем конкретнее — тем меньше модель опирается на объём.

3. Добавь явный запрет: Вставь в промпт: <запрет>Тебе запрещено учитывать длину текста, количество примеров, форматирование. Более длинный ответ не является более качественным автоматически.

4. Два раунда в одном промпте: Сначала A→B, потом B→A. Два независимых сравнения с одним критерием.

5. Проверь совпадение: Оба раунда — один вариант: результат надёжен. Разные варианты: позиционный перекос влияет, решай сам.

Примеры

[ПЛОХО] : Вот два варианта питча для инвестора — выбери лучший.
[ХОРОШО] : Ты — судья качества текстов. Оценивай только убедительность аргументов. ЗАПРЕЩЕНО учитывать: длину текста, количество примеров, форматирование. Длинный текст не значит лучший автоматически. РАУНД 1 Вариант A: [питч на 150 слов] Вариант B: [питч на 400 слов] Выбери лучший. Объясни в 2 предложениях — конкретно по содержанию, не по объёму. РАУНД 2 (порядок изменён) Вариант A: [питч на 400 слов] Вариант B: [питч на 150 слов] Снова выбери лучший. Объясни в 2 предложениях. ИТОГ: Если оба раунда — один и тот же вариант: объяви победителя. Если разные: объясни в чём противоречие и что оно означает.
Источник: Ask the Right Comparison: Bias-Aware Bayesian Active Top-k Ranking with LLM Judges
ArXiv ID: 2607.02104 | Сгенерировано: 2026-07-03 04:44

Проблемы LLM

ПроблемаСутьКак обойти
LLM-судья выбирает длинный ответ, а не качественныйПросишь модель сравнить два варианта. Она видит короткий и длинный. Выбирает длинный. Не потому что он лучше — а потому что в обучении «подробно» часто означало «хорошо». Проблема есть у всех дешёвых и средних моделей. GPT-4o-mini выбирал более длинный в 100% случаев при одинаковом содержании. Рейтинг получается рейтингом оформления, а не смыслаДобавь в промпт прямой запрет: «Тебе запрещено учитывать длину текста и форматирование. Длинный ответ не лучше короткого автоматически». Для важных оценок — переключись на фронтирную модель. Простой запрет помогает, но не устраняет полностью
Порядок вариантов влияет на выбор судьиПоказываешь два варианта: A и B. Модель чаще выбирает тот, что стоит первым. Перестановка (B и A) может изменить результат. Перекос есть у всех моделей, но направление разноеОтправь два разных запроса. В первом — порядок A, B. Во втором — порядок B, A. Если оба раза победил один вариант — оценка надёжна. Если разные — принимай решение сам, видя противоречие

Методы

МетодСуть
Двойное сравнение — проверка на позиционный перекосОтправь два запроса с переставленным порядком вариантов. Запрос 1: «Вариант A: {текст\_1}. Вариант B: {текст\_2}. Выбери лучший». Запрос 2: «Вариант A: {текст\_2}. Вариант B: {текст\_1}. Выбери лучший». Добавь финальный блок: «Если оба раза выбран одинаковый — объяви победителя. Если разные — объясни противоречие». Почему работает: Позиционный перекос действует в одном направлении — «первый выглядит лучше». Перестановка ставит каждый вариант на обе позиции. Если результат устойчив — это мнение о содержании, а не о позиции. Когда применять: Любые попарные сравнения текстов, заголовков, питчей, ответов. Когда не нужно: Варианты явно разного уровня и ты уже знаешь ответ
Явный запрет критериев — снижает перекос судьиВ промпт добавляй прямой запрет нежелательных критериев. Шаблон: ЗАПРЕЩЕНО учитывать: {список}. Оценивай только {критерий}. Например: «Запрещено учитывать длину, количество примеров, наличие заголовков и списков. Оценивай только точность формулировки». Почему работает: Модель по умолчанию использует все видимые признаки. Явная инструкция подавляет нежелательные сигналы. Важно: Указывай конкретный критерий, а не абстрактное «лучший». «Убедительность аргумента», «ясность для новичка», «соответствие задаче» — работает. «Что лучше» — нет. С фронтирными моделями запрет работает хорошо. С дешёвыми — снижает, но не устраняет

Тезисы

ТезисКомментарий
Систематический перекос не исчезает с числом сравненийОбычный шум усредняется: больше данных — точнее результат. Систематический перекос работает иначе. Чем больше сравнений — тем увереннее неправильный вывод. Механика: каждое сравнение добавляет одинаково смещённый голос. Сто смещённых голосов дают смещённый итог, а не нейтральный. Применяй: Не пытайся "перебить" перекос числом запросов. Меняй модель или структуру промпта
📖 Простыми словами

Ask the Right Comparison:Bias-Aware Bayesian Active Top-$k$ Ranking withLLMJudges

arXiv: 2607.02104

Когда ты просишь нейронку выбрать лучший текст из двух, она не взвешивает смыслы на аптекарских весах, а работает как вероятностная машина. Проблема в том, что для LLM-судьи качество намертво склеено с формой: если текст длинный, разбит на пункты и выглядит солидно, модель ставит ему лайк чисто на автомате. Это системный перекос, зашитый в саму природу нейросетей, которые в процессе обучения усвоили простую и ложную мантру: «много букв и красивый список — значит, автор молодец».

Это как если бы ты выбирал себе юриста, ориентируясь не на выигранные дела, а на дороговизну его костюма и толщину папки с документами. Ты смотришь на внешние атрибуты, потому что лень вникать в суть, и нейронка делает ровно то же самое. Она выбирает не того, кто прав, а того, кто убедительнее выглядит. В итоге обычный подсчет побед в тестах превращается в фарс: мы измеряем не интеллект модели, а её умение лить воду и расставлять буллиты.

Чтобы пробить эту стену, исследователи предлагают метод Bayesian Active Top-k Ranking, который учитывает предвзятость судьи как математическую константу. Вместо того чтобы верить модели на слово, система заранее закладывает погрешность на длину или позицию ответа. Если одна модель победила только за счет того, что её текст был в три раза длиннее, метод пессимизирует этот результат, вычитая «бонус за графоманию» и оставляя голый остаток реальной пользы.

Этот принцип критически важен не только для тестов в лабораториях, но и для любого бизнес-процесса на базе AI. Если ты используешь ChatGPT для фильтрации резюме, оценки идей или выбора лучшего рекламного слогана, ты рискуешь нанять самого болтливого, а не самого умного. SEO для роботов уже здесь: теперь тексты оптимизируют не под ключевые слова, а под «вкус» нейронки, заставляя её галлюцинировать качеством там, где есть только объем.

Короче, слепо доверять оценкам LLM — это путь к деградации контента, где побеждает самый длинный и причесанный суррогат. Нужно либо использовать байесовские фильтры для очистки результатов от шума, либо смириться с тем, что твой «объективный» рейтинг — это просто хит-парад самых графоманистых моделей. Презентация победила содержание, и если не менять механику оценки, мы окончательно утонем в красиво оформленной чепухе.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с