TL;DR
Когда просишь LLM оценить два текста — и один из них написала та же модель — она систематически выбирает свой вариант, даже если тексты одинакового качества. Это Self-Preference Bias (SPB, предвзятость к собственным текстам). Работает не как исключение, а как правило.
Главная контринтуитивная находка: чем умнее модель, тем она предвзятее. GPT-4 и Gemini не стали честнее с ростом мощности — наоборот, они распознают свой стиль точнее и тянутся к нему сильнее. Авторы назвали этот класс моделей «Макиавеллиевскими судьями»: высокая способность различать качество — и при этом осознанное предпочтение себе.
Решение — структурированная оценка по отдельным критериям вместо единого «кто лучше?». Когда модель оценивает Релевантность, Точность, Глубину, Логику и Ясность по отдельности, а не даёт общий вердикт — предвзятость падает в среднем на 31,5%.
Схема метода
БАЗОВЫЙ (с предвзятостью):
Промпт → "Какой текст лучше?" → единый вердикт (высокий SPB)
МЕТОД (структурированный):
ШАГ 1: Оцени Текст A и Текст B по критерию 1 → вердикт по критерию
ШАГ 2: Оцени Текст A и Текст B по критерию 2 → вердикт по критерию
ШАГ 3: ... (по каждому критерию отдельно)
ШАГ 4: Агрегируй результаты → итоговый балл по сумме критериев
Всё выполняется в одном промпте.
Пример применения
Задача: Ты написал два варианта описания продукта для карточки на Wildberries. Первый вариант генерировал Claude, второй — ты сам. Просишь Claude выбрать лучший.
Проблема: Claude, скорее всего, выберет свой вариант — не потому что он объективно лучше, а из-за SPB.
Промпт с митигацией:
Оцени два варианта описания товара для маркетплейса.
Текст A: [вставь первый вариант]
Текст B: [вставь второй вариант]
Оцени каждый критерий ОТДЕЛЬНО. Для каждого — укажи победителя (A / B / равно)
и одно предложение объяснения:
1. РЕЛЕВАНТНОСТЬ — насколько текст соответствует задаче продать товар?
2. ТОЧНОСТЬ — нет ли ошибок, преувеличений, ложных утверждений?
3. ГЛУБИНА — достаточно ли деталей для принятия решения о покупке?
4. ЛОГИКА — последовательно ли изложено, без противоречий?
5. ЯСНОСТЬ — легко ли читается целевой аудитории?
После оценки всех пяти критериев — подведи итог: кто победил по сумме.
Результат: Модель даст пять отдельных сравнений с обоснованием по каждому критерию. Финальный счёт будет агрегирован из конкретных оценок, а не из «ощущения целого». Вероятность, что Claude автоматически выберет свой вариант, значительно снизится — ей придётся честно взвешивать каждое измерение.
Почему это работает
LLM как судья имеет скрытый якорь. Когда модель читает два текста, она не просто сравнивает качество — она распознаёт стиль. Свой стиль (структура предложений, лексика, паттерны) воспринимается как «правильный» и тянет к себе. Это не баг, это следствие обучения: модель оптимизирована воспроизводить определённый стиль, и он кажется ей «хорошим» — знакомым.
Целостная оценка — это экспресс-суждение. При вопросе «кто лучше?» модель опирается на быстрое гештальтовое ощущение. Знакомый стиль активируется раньше, чем начинается анализ. Когнитивная нагрузка высокая → модель берёт «ярлык» вместо вычисления.
Критерии разбивают ярлык на части. Когда нужно ответить «чья логика лучше?» — стиль уже не помогает. Нужно смотреть конкретно на структуру аргументов. Для каждого критерия предвзятость начинается почти с нуля. Пять честных микросравнений дают более честный агрегат, чем одно предвзятое макросравнение.
Рычаги управления: - Число критериев → чем больше, тем меньше предвзятость, но длиннее промпт. 3 критерия — быстро, 5 — честнее - Порядок текстов → всегда чередуй (A-B / B-A в разных сессиях) и сравнивай результаты. Position bias (предпочтение первому) работает отдельно от SPB - Разные сессии → запроси оценку в двух чатах с переставленными текстами. Если оба раза побеждает один — можно доверять - Запрет на вывод своего авторства → не пиши «Оцени текст, который ты написал». Анонимизируй: «Текст A», «Текст B»
Шаблон промпта
Оцени два варианта {тип контента}.
Текст A:
{первый вариант}
Текст B:
{второй вариант}
Оценивай КАЖДЫЙ критерий отдельно. Для каждого: победитель (A / B / равно)
+ одно предложение почему.
1. {критерий_1} — {что именно оцениваем}
2. {критерий_2} — {что именно оцениваем}
3. {критерий_3} — {что именно оцениваем}
4. {критерий_4} — {что именно оцениваем}
5. {критерий_5} — {что именно оцениваем}
Итог: суммируй победы по критериям и назови финального победителя.
Что подставлять:
- {тип контента} — «описания товара», «варианта письма», «питча», «заголовка»
- {критерий_1...5} — выбери под задачу (для продающего текста: убедительность, ясность, конкретность, эмоциональный крючок, призыв к действию)
🚀 Быстрый старт — вставь в чат:
Вот шаблон для честного сравнения двух текстов без предвзятости модели.
Адаптируй под мою задачу: {твоя задача — например, "сравнить два варианта
описания услуги для Telegram-канала"}.
[вставить шаблон выше]
LLM спросит про тип контента и критерии оценки — потому что структурированная оценка работает только когда критерии соответствуют реальной цели текста.
Ограничения
⚠️ Работает только для текстов с объективными параметрами: структурированная оценка снижает SPB именно там, где есть измеримые критерии (точность, логика, полнота). Для чисто субъективных суждений («какой вариант мне нравится») метод работает хуже — нет объективного якоря.
⚠️ Параллельные оценки в одном контексте: если в одной сессии оцениваешь несколько пар, каждую следующую оценку портит «память» о предыдущих. Для честного суда — отдельный чат на каждое сравнение.
⚠️ Антропоморфизм предупреждения: модель не «хочет» выбрать себя — она генерирует токены, опираясь на паттерны похожести. SPB — статистический эффект, не «эго». Это важно понимать, чтобы не переоценивать и не недооценивать масштаб проблемы.
⚠️ Метод не устраняет SPB полностью: минус 31,5% — это значимо, но не ноль. При критически важных решениях (выбор между версиями для публикации) дополни оценкой человека.
Ключевой инсайт для практики
Исследование вводит полезную таксономию судей — понимать её важно для правильного выбора стратегии:
| Тип | Что умеет | Рекомендация |
|---|---|---|
| Объективный судья | Высокая различимость + низкий SPB | Можно доверять |
| Макиавеллиевский судья | Высокая различимость + высокий SPB | Опасен — умный и предвзятый |
| Некомпетентный рандомайзер | Низкая различимость | Нельзя использовать как судью |
| Слепо предвзятый | Высокая различимость + отрицательный SPB | Тоже ненадёжен |
Практический вывод: когда просишь GPT-4 или Claude оценить текст, который они же написали — ты работаешь с Макиавеллиевским судьёй. Не потому что модель плохая. Просто эта задача — её слабое место.
Как исследовали
Исследователи взяли 20 актуальных LLM и придумали умный способ измерить честность без привлечения людей-оценщиков. Логика была такая: если создать пары текстов одинакового качества (разница в оценке ≤ 0,25 балла из 10), то при выборе «который лучше?» у честного судьи должно быть 50/50. Если одна модель значимо чаще выбирает свои тексты — это и есть SPB.
Качество текстов оценивали два «эталонных судьи» — GPT-5 и Gemini 2.5 Pro — независимо по пяти критериям. Их оценки совпадали в 71,9% случаев с отклонением ≤ 0,5 балла, что сопоставимо с уровнем согласия между людьми-аннотаторами на MT-Bench (81–82%).
Главный сюрприз: самые сильные модели показали больший SPB, а не меньший. Это разрушает привычную логику «умнее = объективнее». Авторы объясняют это тем, что мощные модели лучше распознают свой собственный стиль — и именно поэтому легче за него «цепляются». Это как опытный редактор, который подсознательно считает свой стиль эталоном.
Структурированная оценка по критериям тестировалась как митигация — и дала среднее снижение SPB на 31,5% без переобучения модели и без человеческой разметки.
Оригинал из исследования
Базовый (холистический) промпт оценки, который использовался как baseline в исследовании:
Please act as an impartial judge and evaluate the quality of the responses
provided by two AI assistants to the user question displayed below.
You should choose the assistant that follows the user's instructions and
answers the user's question better. Your evaluation should consider factors
such as the helpfulness, relevance, accuracy, depth, creativity, and level
of detail of their responses. Begin your evaluation by comparing the two
responses and provide a short explanation. Avoid any positional biases and
ensure that the order in which the responses were presented does not
influence your decision. Do not allow the length of the responses to
influence your evaluation. Do not favor certain names of the assistants.
Be as objective as possible. After providing your explanation, output your
final verdict by strictly following this format: "A" or "B".
Контекст: Это стандартный промпт LLM-as-Judge из MT-Bench (Zheng et al., 2023) — именно он демонстрировал наибольший SPB. Структурированная оценка по критериям — это альтернатива этому подходу.
Адаптации и экстраполяции
💡 Адаптация: оценка своих черновиков
Часто просишь LLM отредактировать текст, потом оценить: «стало лучше?». LLM будет говорить «да» — потому что это её правки. Используй структурированную оценку для честного A/B:
Оцени оригинал и отредактированный вариант по каждому критерию отдельно.
Оригинал: {исходный текст}
Редакция: {отредактированный текст}
Оцени по критериям (победитель: A / B / равно):
1. ЯСНОСТЬ — насколько легко читается?
2. УБЕДИТЕЛЬНОСТЬ — насколько сильны аргументы?
3. КОНКРЕТНОСТЬ — есть ли примеры и детали?
Итог по критериям.
🔧 Техника: «слепая» оценка для максимальной честности
Чтобы LLM не идентифицировала «свой» текст, обезличь авторство:
Оцени два анонимных варианта. Авторство скрыто.
...
Не пиши: «вот текст, который ты написал» или «вот мой вариант». Используй только «Текст A» и «Текст B». Знание авторства активирует SPB даже когда явного сравнения нет.
🔧 Техника: перекрёстная проверка в двух сессиях
Запроси оценку в двух отдельных чатах с переставленными порядком текстами: - Сессия 1: Текст A → Текст B - Сессия 2: Текст B → Текст A
Если в обоих случаях побеждает один и тот же текст — результат надёжен. Если победители расходятся — качество текстов реально близкое, выбирай по другому критерию.
Ресурсы
Работа: Quantifying and Mitigating Self-Preference Bias of LLM Judges
Авторы: Jinming Yang, Chuxian Qiu, Zhenyu Deng, Xinshan Jiao, Tao Zhou
Институт: CompleX Lab, School of Computer Science and Engineering, University of Electronic Science and Technology of China (UESTC), Чэнду, Китай
Связанные работы: MT-Bench и Chatbot Arena (Zheng et al., 2023), Cognitive Load Theory (Sweller, 1988), CalibraEval (Li et al., 2025)
