3,583 papers
arXiv:2603.16848 72 17 мар. 2026 г. FREE

Принцип среднего якоря: почему посредственный пример лучше лучшего при оценке через LLM

КЛЮЧЕВАЯ СУТЬ
Парадокс: лучший вариант — худший эталон для сравнения. Выбираешь лучший текст как точку отсчёта, сравниваешь с ним остальные — и 55% сравнений не дают вообще ничего: все остальные просто проигрывают, рейтинг не складывается. Метод среднего якоря позволяет получить реальный рейтинг из 4+ вариантов: выбираешь «ни рыба ни мясо» — и сравниваешь с ним каждый оставшийся. Средний якорь делит поле на две части — одни варианты его обойдут, другие проиграют — и именно эта разница строит рейтинг. 60% сравнений информативны против 45% при лучшем эталоне.
Адаптировать под запрос

TL;DR

Когда просишь LLM сравнить несколько вариантов (тексты, идеи, решения) — обычно выбираешь один как эталон и сравниваешь с ним остальные по очереди. Исследование показывает: правильный выбор этого эталона критичен. Использование очевидно лучшего или худшего варианта делает большинство сравнений бессмысленными — не потому что LLM плохо работает, а потому что сами сравнения становятся слишком предсказуемыми.

Боль понятная: ты даёшь Claude пять вариантов письма клиенту, просишь сравнить каждый с лучшим — и получаешь предсказуемое "остальные четыре хуже". Информации ноль. Если сравниваешь с худшим — все четыре "лучше" — и тоже ничего полезного. Эталон на краях шкалы создаёт перекошенные сравнения, где большинство ответов заранее известны.

Решение контр-интуитивное: используй средний вариант как эталон. Средний пример создаёт максимально информативные сравнения — часть вариантов окажется лучше, часть хуже, и ты получишь реальную картину различий.


🔬

Схема метода

Один промпт на каждую пару (или один промпт со всеми вариантами, если их немного):

ШАГ 1: Оцени варианты "на глаз" → выбери один средний (не лучший, не худший)
ШАГ 2: Каждый вариант сравни с выбранным эталоном → LLM выносит вердикт по паре
ШАГ 3: Собери вердикты → составь рейтинг по количеству выигрышей над эталоном

Шаги 1 требует твоего суждения. Шаг 2 — отдельный запрос в LLM на каждую пару ИЛИ один запрос, если варианты короткие. Шаг 3 — считаешь сам или просишь LLM агрегировать.


🚀

Пример применения

Задача: У тебя 5 вариантов оффера для Wildberries. Нужно выбрать лучший. Просить LLM оценить все сразу — получишь кашу. Сравнивать попарно все со всеми — 10 запросов.

Промпт (шаг 2 — сравнение пары):

Ты — покупатель на Wildberries. Ищешь беспроводные наушники до 3000 рублей.

Тебе показывают два оффера. Оцени, какой лучше удерживает внимание и побуждает 
к покупке. Объясни коротко почему.

Оффер А (эталон):
[сюда вставляешь средний вариант]

Оффер Б:
[сюда вставляешь один из оставшихся]

Ответь: "А лучше" / "примерно одинаково" / "Б лучше" — и 1-2 предложения почему.

Результат:

Модель выдаст чёткий вердикт по паре с коротким объяснением. Повторяешь для каждого оставшегося варианта. В итоге видишь: скольким офферам удалось обойти средний эталон, скольким — нет. Это и есть твой рейтинг.


🧠

Почему это работает

LLM плохо сортирует много вариантов одновременно — теряет нить, смешивает критерии. Но хорошо справляется с парным выбором: "вот два варианта, какой лучше?" Поэтому метод сравнения с эталоном лучше, чем "оцени все пять".

Проблема крайних эталонов — насыщение сигнала. Если эталон очевидно лучший, почти все остальные проигрывают. Если очевидно худший — все выигрывают. Оба случая не помогают расставить остальных между собой. Представь: ты просишь определить кто быстрее бегает среди пяти студентов, сравнивая каждого с Усэйном Болтом. Все пятеро проиграют — и ты ничего не узнаешь об их относительной скорости.

Средний эталон создаёт максимальный разброс. Одни варианты его обойдут, другие проиграют — и именно эта разница даёт информацию. Исследование показало: у среднего эталона информативных сравнений ~60%, у лучшего — всего 45% (55% сравнений вообще ничего не добавляют к картине).


📋

Шаблон промпта

Ты — {роль_оценщика: покупатель / HR / редактор / инвестор}.

Твоя задача: определи, какой вариант лучше справляется с {цель: привлечь внимание / 
убедить / передать идею}.

Вариант А (точка отсчёта):
{средний_вариант}

Вариант Б:
{оцениваемый_вариант}

Ответь строго: "А лучше" / "примерно одинаково" / "Б лучше".
Затем 1-2 предложения: почему именно так.

Плейсхолдеры: - {роль_оценщика} — кого симулирует LLM: целевая аудитория или эксперт - {цель} — критерий сравнения, один конкретный - {средний_вариант} — твой выбранный эталон средного уровня - {оцениваемый_вариант} — то, что сравниваешь с эталоном

Повторяй промпт для каждой пары. Меняется только {оцениваемый_вариант}.

🚀 Быстрый старт — вставь в чат:

Вот шаблон парного сравнения вариантов через LLM-оценщика. 
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит: сколько вариантов, по какому критерию оценивать, кто целевая аудитория — потому что без этого нельзя правильно задать роль оценщика и выбрать эталон.


⚠️

Ограничения

⚠️ Нужно выбрать эталон вручную: Метод предполагает, что ты заранее определяешь "средний" вариант. Это субъективно — особенно если все варианты похожи по качеству. Совет: выбирай тот, который тебе кажется "ни рыба ни мясо".

⚠️ Не работает для 2-3 вариантов: С малым числом вариантов проще попросить LLM сравнить все сразу или использовать обычный попарный разбор. Эталонный метод даёт преимущество от 4-5+ вариантов.

⚠️ Один критерий за раз: Смешивать несколько критериев в одном сравнении размывает вердикт. Лучше делать отдельные раунды под разные критерии (убедительность, краткость, тон).

⚠️ Порядок подачи влияет на результат: LLM немного предпочитает первый или второй вариант в зависимости от формулировки. Чередуй: в одном запросе эталон — А, в другом — Б, и усредняй.


🔍

Как исследовали

Команда из IBM Research и Еврейского университета Иерусалима провела масштабный эксперимент: 850 тысяч парных сравнений с 22 разными моделями в роли эталона. Суть: они измерили, насколько точно рейтинг, полученный через якорное сравнение, совпадает с "настоящим" рейтингом — полным попарным сравнением всех моделей между собой и человеческими оценками с Chatbot Arena.

Главный сюрприз: лучшая модель (o3) оказалась худшим якорем — её рейтинг расходился с человеческим на 0.19 по шкале корреляции Кендалла, тогда как средняя модель (Gemma 3 27B) давала лучшее соответствие. Это противоречило тому, что делали все крупные бенчмарки — Arena-Hard и AlpacaEval традиционно использовали сильные модели как эталон.

Объяснение оказалось простым: o3 побеждала 500 из 750 примеров — это значит, 67% сравнений не несли никакой информации о том, кто лучше среди проигравших. Средняя модель создавала примерно 50/50 распределение побед и поражений — максимум различающей силы. Дополнительно выяснилось, что выбор якоря влияет на результат так же сильно, как выбор судьи-модели — то есть ошибиться с якорем так же плохо, как ошибиться с оценщиком.


🔗

Ресурсы

Название работы: Mediocrity is the key for LLM as a Judge Anchor Selection

Авторы: Shachar Don-Yehiya, Asaf Yehudai, Leshem Choshen, Omri Abend

Организации: The Hebrew University of Jerusalem, IBM Research, MIT, MIT-IBM Watson AI Lab

Данные и код: github.com/IBM/Anchor-Selection | huggingface.co/datasets/ibm-research/900K-Judgements


📋 Дайджест исследования

Ключевая суть

Парадокс: лучший вариант — худший эталон для сравнения. Выбираешь лучший текст как точку отсчёта, сравниваешь с ним остальные — и 55% сравнений не дают вообще ничего: все остальные просто проигрывают, рейтинг не складывается. Метод среднего якоря позволяет получить реальный рейтинг из 4+ вариантов: выбираешь «ни рыба ни мясо» — и сравниваешь с ним каждый оставшийся. Средний якорь делит поле на две части — одни варианты его обойдут, другие проиграют — и именно эта разница строит рейтинг. 60% сравнений информативны против 45% при лучшем эталоне.

Принцип работы

Не сравнивай студентов с Усэйном Болтом, если хочешь узнать кто из них быстрее. Все пятеро проиграют — и ты ничего не узнаешь об их скорости относительно друг друга. То же с LLM. Модель хорошо справляется с парным выбором — «вот два варианта, какой лучше?». Но плывёт, если сортировать много вариантов разом. Средний якорь — это точка где заранее неизвестно кто выиграет. А значит каждое сравнение несёт реальную информацию.

Почему работает

Крайние эталоны создают насыщение сигнала. Лучший сверху — все остальные предсказуемо хуже. Худший снизу — все предсказуемо лучше. Оба случая говорят одно: «все проиграли / все выиграли». Это не рейтинг. Средний якорь — единственная точка где результат непредсказуем. Именно непредсказуемость означает: сравнение что-то говорит о реальных различиях. LLM не сортирует — LLM судит пары. Дай ей правильную пару.

Когда применять

Сравнение вариантов → для текстов, офферов, идей, писем, объявлений, заголовков — особенно когда вариантов 4 и больше и нужен чёткий рейтинг, а не просто «какой лучший». Делай отдельные раунды под разные критерии — убедительность, краткость, тон — иначе вердикт размывается. НЕ подходит для 2-3 вариантов: там проще сравнить все сразу или попарно без якоря.

Мини-рецепт

1. Разложи варианты мысленно: Посмотри на все, оцени от худшего к лучшему — хотя бы примерно.
2. Выбери якорь: Тот который не выделяется ни в плюс, ни в минус. «Ни рыба ни мясо» — идеальный кандидат.
3. Один запрос — одна пара: Якорь всегда вариант А. Оцениваемый — вариант Б. Задай роль оценщика (покупатель, HR, редактор) и один конкретный критерий.
4. Требуй чёткий вердикт: «А лучше» / «примерно одинаково» / «Б лучше» — и 1-2 предложения почему. Без этого получишь воду.
5. Собери счёт: Скольким вариантам удалось обойти якорь — в топ. Скольким нет — в хвост. Это и есть рейтинг.

Осторожно с порядком: LLM иногда тянет к первому варианту. Чередуй — в одном запросе якорь А, в другом Б — и усредняй.

Примеры

[ПЛОХО] : Вот 5 вариантов оффера для Wildberries. Сравни каждый с лучшим и скажи какой выбрать
[ХОРОШО] : Ты — покупатель на Wildberries, ищешь беспроводные наушники до 3000 рублей. Определи какой оффер лучше удерживает внимание и побуждает к покупке. Отвечай строго: «А лучше» / «примерно одинаково» / «Б лучше» — и 1-2 предложения почему. Оффер А (точка отсчёта): [средний вариант] Оффер Б: [оцениваемый вариант] Повторяешь запрос для каждого оставшегося варианта — меняется только Оффер Б. В конце считаешь: кто обошёл якорь, кто проиграл.
Источник: Mediocrity is the key for LLM as a Judge Anchor Selection
ArXiv ID: 2603.16848 | Сгенерировано: 2026-03-18 05:23

Проблемы LLM

ПроблемаСутьКак обойти
Крайний якорь убивает сигнал при сравнении вариантовТы просишь модель сравнить несколько вариантов. За точку отсчёта берёшь лучший — все остальные проигрывают. Берёшь худший — все выигрывают. Оба результата не говорят ничего о различиях внутри группы. Больше половины сравнений становятся предсказуемыми и бессмысленнымиВыбери средний вариант как точку отсчёта. Часть сравнений даст "лучше", часть "хуже". Только тогда видна реальная картина

Методы

МетодСуть
Средний якорь — эталон для парного сравненияВыбери из всех вариантов один средний — не лучший, не худший, "ни рыба ни мясо". Сравни каждый оставшийся с ним отдельным запросом: Вариант А (точка отсчёта): {средний} / Вариант Б: {оцениваемый} / Ответь: "А лучше" / "примерно одинаково" / "Б лучше" + 1-2 предложения почему. Посчитай побед над эталоном — это и есть рейтинг. Почему работает: Модель хорошо справляется с выбором из двух. Плохо — с оценкой пяти сразу. Средний якорь создаёт разброс результатов: одни варианты выиграют, другие проиграют — и разница между ними становится видна. Когда применять: 4+ варианта, один чёткий критерий за раз. Не работает: 2-3 варианта (проще сравнить все сразу), несколько критериев одновременно (смывает вердикт)
📖 Простыми словами

Mediocrity is the key forLLMas a Judge Anchor Selection

arXiv: 2603.16848

Когда ты просишь нейронку оценить пачку текстов или идей, она часто плывет и выдает рандом. Чтобы этого избежать, используют метод LLM-as-a-Judge, где модель работает судьей. Обычно выбирают один вариант как «эталон» и сравнивают все остальные с ним по очереди. Исследование 2603.16848 доказывает: если ты возьмешь в качестве эталона самый крутой или самый отстойный вариант, вся затея пойдет прахом. Модель просто перестает различать нюансы, потому что ответы становятся слишком очевидными.

Это как выбирать нового сотрудника в отдел продаж. Если ты поставишь эталоном лучшего продавца года, все остальные на его фоне будут выглядеть одинаково серыми неудачниками. Если возьмешь лентяя, которого завтра уволят, — все кандидаты покажутся гениями. В обоих случаях ты не поймешь, кто из них реально лучше, потому что шкала сравнения сломана. Тебе нужен середняк, на фоне которого видны и косяки, и реальные преимущества.

Суть метода в том, что посредственность — это ключ. Исследователи выяснили, что для адекватной оценки нужно выбирать эталон с «средним» качеством. Когда LLM сравнивает два похожих по уровню объекта, она вынуждена вгрызаться в детали, анализировать структуру и логику. Если разрыв в качестве огромный, модель ленится и выдает вердикт «на отвали», просто потому что разница бросается в глаза. Средний эталон заставляет нейронку работать на пределе своих аналитических способностей.

Этот принцип универсален: неважно, тестируешь ты офферы для маркетплейсов, выбираешь лучший код или просеиваешь варианты рекламных слоганов. Вместо того чтобы сравнивать всё со всем (что дорого и долго) или пытаться ранжировать список из десяти позиций (где LLM гарантированно запутается), ты берешь один умеренно нормальный вариант. Сравнение «один на один» с крепким середняком дает самую точную картину того, кто из кандидатов реально тянет на лидерство, а кто просто создает видимость работы.

Короче, забудь про поиск идеала для сравнения. Хочешь объективности от нейронки — дай ей в качестве точки отсчета что-то максимально среднее. Выбор эталона решает всё: либо ты получишь четкий рейтинг, либо бесполезную кашу из восторгов и критики. Посредственный якорь — это не ошибка, а единственный способ заставить «судью» внутри LLM не халтурить и выдать честный результат.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с