TL;DR
Когда просишь LLM сравнить два варианта — она чаще выбирает более длинный и оформленный ответ, а не более качественный. Это не случайный шум: это систематический перекос, который не исчезает при большем числе сравнений. Простой подсчёт побед даёт рейтинг презентации, не содержания.
Главная находка: перекос зависит от класса модели. Дешёвые и средние судьи (Llama, Qwen, GPT-4o-mini, Gemini Flash) сильно предпочитают многословные ответы даже при равном содержании — GPT-4o-mini выбирал расширенный вариант в 100% случаев при одинаковом качестве. Фронтирные модели (GPT-5.1/5.5, Claude Sonnet/Opus, Gemini Pro) практически свободны от этого перекоса и дают точные оценки «из коробки». Позиционный перекос (какой вариант показан первым) есть у всех, но направление разное у разных моделей.
Авторы предлагают байесовскую статистическую систему, которая отделяет «истинное качество» от влияния длины и позиции. Для применения без кода метод недоступен — но принципы переносятся в обычный чат напрямую.
Схема метода
ШАГ 1 (понять проблему):
LLM-судья видит варианты →
предпочитает более длинный/оформленный ❌
ШАГ 2 (компенсировать позиционный перекос):
Показать пару в порядке A→B, потом B→A →
взять мнение из обоих запросов
ШАГ 3 (компенсировать перекос многословия):
Явно запретить судье ориентироваться на длину/форматирование →
попросить оценивать только содержательное качество
ШАГ 4 (выбор судьи):
Для важных оценок — использовать фронтирную модель,
а не дешёвую → минимизировать изначальный перекос
Каждый шаг — отдельный запрос или часть промпта.
Пример применения
Задача: Ты написал два варианта питча для инвестора — короткий и ёмкий (150 слов) и развёрнутый с примерами (400 слов). Просишь Claude выбрать лучший. Без поправок Claude, скорее всего, выберет длинный — просто потому что он длиннее.
Промпт:
Ты — судья качества текстов. Твоя единственная задача: оценить,
какой вариант точнее и убедительнее передаёт идею.
ВАЖНО: Тебе запрещено учитывать длину текста, количество
примеров и форматирование. Длинный текст не лучше короткого
автоматически. Оценивай только смысловую точность,
убедительность аргументов и ясность идеи.
Вариант A:
[Короткий питч — 150 слов]
Вариант B:
[Развёрнутый питч — 400 слов]
Шаг 1: Выбери лучший. Объясни в 2 предложениях конкретно —
что именно делает его лучше по содержанию.
Шаг 2: Назови одну слабость выбранного варианта.
---
Теперь тот же вопрос, но я меняю порядок:
Вариант A:
[Развёрнутый питч — 400 слов]
Вариант B:
[Короткий питч — 150 слов]
Шаг 1: Снова выбери лучший. Объясни в 2 предложениях.
Шаг 2: Назови одну слабость выбранного варианта.
---
Финал: Если оба раза выбран один и тот же вариант — ответ
надёжен. Если разные — поясни в чём противоречие.
Результат: Модель выдаст два независимых сравнения в переставленном порядке. Если каждый раз побеждает один вариант — оценка надёжная. Если результаты расходятся — увидишь, что позиционный перекос влияет, и решишь сам. Блок «запрещено учитывать длину» снижает перекос многословия. Финальная проверка делает оценку прозрачной.
Почему это работает
Слабость LLM-судьи: Модель не видит «истинного качества» — она генерирует вероятностный ответ на основе всех признаков объекта сразу: содержания, длины, форматирования, позиции. Для неё «развёрнуто и структурировано» статистически коррелирует с «хорошо» — потому что в обучающих данных качество часто сопровождается объёмом. Это не баг, это паттерн, усвоенный из миллиардов примеров.
Почему это не лечится числом сравнений: Авторы доказали математически: если у судьи есть систематический перекос — сколько бы сравнений ты ни сделал, рейтинг будет сходиться к неправильному ответу. Это не шум, который усредняется — это смещение оценки. Чем больше данных, тем увереннее неправильный результат.
Рычаги управления в промпте: - Явный запрет — "не учитывай длину" снижает, но не устраняет перекос. Работает лучше с фронтирными моделями, хуже с дешёвыми - Перестановка порядка — нейтрализует позиционный перекос. Два запроса дают возможность проверить стабильность - Выбор модели — самый сильный рычаг. Claude Sonnet/Opus, GPT-4.1+, Gemini Pro практически не имеют перекоса многословия. GPT-4o-mini, Llama, Qwen — сильно смещены - Явный критерий — формулируй что именно оценивается ("убедительность аргумента", "точность формулировки") вместо абстрактного "лучший"
Шаблон промпта
Ты — судья качества. Оценивай только {критерий}.
ЗАПРЕЩЕНО учитывать: длину текста, объём примеров,
форматирование (заголовки, списки). Более длинный ответ
не является более качественным автоматически.
---
РАУНД 1
Вариант A:
{вариант_1}
Вариант B:
{вариант_2}
Выбери лучший. Объясни в 2 предложениях по критерию: {критерий}.
---
РАУНД 2 (порядок изменён)
Вариант A:
{вариант_2}
Вариант B:
{вариант_1}
Снова выбери лучший. Объясни в 2 предложениях по критерию: {критерий}.
---
ИТОГ:
Если оба раунда дали одинаковый ответ — объяви победителя.
Если разные — объясни, в чём расхождение и что оно означает.
Что подставлять:
- {критерий} — конкретный: "смысловая точность", "убедительность аргумента", "ясность для новичка", "соответствие задаче"
- {вариант_1} / {вариант_2} — два варианта текста, которые сравниваешь
🚀 Быстрый старт — вставь в чат:
Вот шаблон для беспристрастного сравнения вариантов с LLM-судьёй.
Адаптируй под мою задачу: [твоя задача — например, "оцени два варианта
заголовка для поста"].
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит какой критерий оценки и попросит два варианта текста — потому что без этого нельзя запустить двойное сравнение и финальный вердикт.
Ограничения
⚠️ Полная система требует кода: Байесовская модель с компенсацией перекосов — это алгоритм на Python с L-BFGS оптимизацией. В чате работают только принципы, не сама система.
⚠️ Дешёвые модели остаются смещёнными: Даже с правильным промптом Llama, Qwen, GPT-4o-mini сохраняют часть перекоса. Явный запрет снижает, но не устраняет. Для критических оценок — используй фронтирную модель.
⚠️ Двойное сравнение вдвое дороже по токенам: Два раунда = два запроса. Для разовых задач — нормально. Для массовой оценки — накладно.
⚠️ Контрольное исследование — не реальные задачи: Авторы проверяли на специально сконструированных ответах с известным «истинным качеством». Насколько выводы переносятся на творческие или субъективные задачи — отдельный вопрос.
⚠️ Эффект зависит от природы задачи: Перекос многословия силён когда «развёрнутость» выглядит как компетентность. Для технических задач с чёткими критериями (правильно/неправильно) эффект слабее.
Ресурсы
Ask the Right Comparison: Bias-Aware Bayesian Active Top-k Ranking with LLM Judges
Авторы: Jian Xu, Delu Zeng, John Paisley, Qibin Zhao
Организации: RIKEN iTHEMS, RIKEN AIP, South China University of Technology, Columbia University
Контакт: jian.xu@riken.jp
Ключевые работы на которые опирается: MT-Bench (Zheng et al. 2023), исследования позиционного перекоса (Wang et al. 2024), LLMBar (Zeng et al. 2024), вербальный перекос (Dubois et al. 2024)
