TL;DR
Когда просишь LLM сравнить несколько вариантов (тексты, идеи, решения) — обычно выбираешь один как эталон и сравниваешь с ним остальные по очереди. Исследование показывает: правильный выбор этого эталона критичен. Использование очевидно лучшего или худшего варианта делает большинство сравнений бессмысленными — не потому что LLM плохо работает, а потому что сами сравнения становятся слишком предсказуемыми.
Боль понятная: ты даёшь Claude пять вариантов письма клиенту, просишь сравнить каждый с лучшим — и получаешь предсказуемое "остальные четыре хуже". Информации ноль. Если сравниваешь с худшим — все четыре "лучше" — и тоже ничего полезного. Эталон на краях шкалы создаёт перекошенные сравнения, где большинство ответов заранее известны.
Решение контр-интуитивное: используй средний вариант как эталон. Средний пример создаёт максимально информативные сравнения — часть вариантов окажется лучше, часть хуже, и ты получишь реальную картину различий.
Схема метода
Один промпт на каждую пару (или один промпт со всеми вариантами, если их немного):
ШАГ 1: Оцени варианты "на глаз" → выбери один средний (не лучший, не худший)
ШАГ 2: Каждый вариант сравни с выбранным эталоном → LLM выносит вердикт по паре
ШАГ 3: Собери вердикты → составь рейтинг по количеству выигрышей над эталоном
Шаги 1 требует твоего суждения. Шаг 2 — отдельный запрос в LLM на каждую пару ИЛИ один запрос, если варианты короткие. Шаг 3 — считаешь сам или просишь LLM агрегировать.
Пример применения
Задача: У тебя 5 вариантов оффера для Wildberries. Нужно выбрать лучший. Просить LLM оценить все сразу — получишь кашу. Сравнивать попарно все со всеми — 10 запросов.
Промпт (шаг 2 — сравнение пары):
Ты — покупатель на Wildberries. Ищешь беспроводные наушники до 3000 рублей.
Тебе показывают два оффера. Оцени, какой лучше удерживает внимание и побуждает
к покупке. Объясни коротко почему.
Оффер А (эталон):
[сюда вставляешь средний вариант]
Оффер Б:
[сюда вставляешь один из оставшихся]
Ответь: "А лучше" / "примерно одинаково" / "Б лучше" — и 1-2 предложения почему.
Результат:
Модель выдаст чёткий вердикт по паре с коротким объяснением. Повторяешь для каждого оставшегося варианта. В итоге видишь: скольким офферам удалось обойти средний эталон, скольким — нет. Это и есть твой рейтинг.
Почему это работает
LLM плохо сортирует много вариантов одновременно — теряет нить, смешивает критерии. Но хорошо справляется с парным выбором: "вот два варианта, какой лучше?" Поэтому метод сравнения с эталоном лучше, чем "оцени все пять".
Проблема крайних эталонов — насыщение сигнала. Если эталон очевидно лучший, почти все остальные проигрывают. Если очевидно худший — все выигрывают. Оба случая не помогают расставить остальных между собой. Представь: ты просишь определить кто быстрее бегает среди пяти студентов, сравнивая каждого с Усэйном Болтом. Все пятеро проиграют — и ты ничего не узнаешь об их относительной скорости.
Средний эталон создаёт максимальный разброс. Одни варианты его обойдут, другие проиграют — и именно эта разница даёт информацию. Исследование показало: у среднего эталона информативных сравнений ~60%, у лучшего — всего 45% (55% сравнений вообще ничего не добавляют к картине).
Шаблон промпта
Ты — {роль_оценщика: покупатель / HR / редактор / инвестор}.
Твоя задача: определи, какой вариант лучше справляется с {цель: привлечь внимание /
убедить / передать идею}.
Вариант А (точка отсчёта):
{средний_вариант}
Вариант Б:
{оцениваемый_вариант}
Ответь строго: "А лучше" / "примерно одинаково" / "Б лучше".
Затем 1-2 предложения: почему именно так.
Плейсхолдеры:
- {роль_оценщика} — кого симулирует LLM: целевая аудитория или эксперт
- {цель} — критерий сравнения, один конкретный
- {средний_вариант} — твой выбранный эталон средного уровня
- {оцениваемый_вариант} — то, что сравниваешь с эталоном
Повторяй промпт для каждой пары. Меняется только {оцениваемый_вариант}.
🚀 Быстрый старт — вставь в чат:
Вот шаблон парного сравнения вариантов через LLM-оценщика.
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит: сколько вариантов, по какому критерию оценивать, кто целевая аудитория — потому что без этого нельзя правильно задать роль оценщика и выбрать эталон.
Ограничения
⚠️ Нужно выбрать эталон вручную: Метод предполагает, что ты заранее определяешь "средний" вариант. Это субъективно — особенно если все варианты похожи по качеству. Совет: выбирай тот, который тебе кажется "ни рыба ни мясо".
⚠️ Не работает для 2-3 вариантов: С малым числом вариантов проще попросить LLM сравнить все сразу или использовать обычный попарный разбор. Эталонный метод даёт преимущество от 4-5+ вариантов.
⚠️ Один критерий за раз: Смешивать несколько критериев в одном сравнении размывает вердикт. Лучше делать отдельные раунды под разные критерии (убедительность, краткость, тон).
⚠️ Порядок подачи влияет на результат: LLM немного предпочитает первый или второй вариант в зависимости от формулировки. Чередуй: в одном запросе эталон — А, в другом — Б, и усредняй.
Как исследовали
Команда из IBM Research и Еврейского университета Иерусалима провела масштабный эксперимент: 850 тысяч парных сравнений с 22 разными моделями в роли эталона. Суть: они измерили, насколько точно рейтинг, полученный через якорное сравнение, совпадает с "настоящим" рейтингом — полным попарным сравнением всех моделей между собой и человеческими оценками с Chatbot Arena.
Главный сюрприз: лучшая модель (o3) оказалась худшим якорем — её рейтинг расходился с человеческим на 0.19 по шкале корреляции Кендалла, тогда как средняя модель (Gemma 3 27B) давала лучшее соответствие. Это противоречило тому, что делали все крупные бенчмарки — Arena-Hard и AlpacaEval традиционно использовали сильные модели как эталон.
Объяснение оказалось простым: o3 побеждала 500 из 750 примеров — это значит, 67% сравнений не несли никакой информации о том, кто лучше среди проигравших. Средняя модель создавала примерно 50/50 распределение побед и поражений — максимум различающей силы. Дополнительно выяснилось, что выбор якоря влияет на результат так же сильно, как выбор судьи-модели — то есть ошибиться с якорем так же плохо, как ошибиться с оценщиком.
Ресурсы
Название работы: Mediocrity is the key for LLM as a Judge Anchor Selection
Авторы: Shachar Don-Yehiya, Asaf Yehudai, Leshem Choshen, Omri Abend
Организации: The Hebrew University of Jerusalem, IBM Research, MIT, MIT-IBM Watson AI Lab
Данные и код: github.com/IBM/Anchor-Selection | huggingface.co/datasets/ibm-research/900K-Judgements
