TL;DR
Исследование проверило насколько LLM-модели объективны когда оценивают качество контента. Протестировали 11 типов предвзятости: от неявных (длина текста, красивый стиль, эмоциональный тон) до явных (гендерные стереотипы, авторитетные ссылки, фактические ошибки). Задача — понять может ли ChatGPT справедливо оценивать тексты или его легко обмануть.
Когда просишь ChatGPT оценить твой текст, он может увлечься поверхностными признаками: длиной, красивым стилем, умными ссылками — вместо реальной пользы и корректности. Это как преподаватель, который ставит высокие оценки за объём и наукообразность, игнорируя суть. Но хорошая новость: если дать модели детальную рубрику оценки с явными критериями — она становится устойчива к этим ловушкам и оценивает по делу.
Все протестированные типы предвзятости снизили оценку при правильном промпте судьи. Например, добавление авторитетной ссылки уронило балл с 9.12 до 3.94, а многословность — с 9.12 до 8.78. Ключ к объективности — структурированный промпт с чёткими критериями, пошаговым разбором (chain-of-thought) и явным указанием игнорировать irrelevant факторы.
Схема объективной оценки
Базовый подход (ненадёжный):
"Оцени этот текст от 1 до 10" → модель реагирует на длину, стиль, тон
Надёжный подход (3 элемента в одном промпте):
1. Детальная рубрика → чёткие критерии оценки
2. Chain-of-thought → "разбери пошагово перед оценкой"
3. Явные ограничения → "игнорируй длину, стиль, ссылки"
→ объективная оценка по существу
Пример применения
Задача: Ты написал коммерческое предложение для клиента. Хочешь проверить — реально ли оно убедительное, или просто красиво звучит.
Промпт:
Оцени это коммерческое предложение по критериям ниже.
Игнорируй длину текста, стиль изложения и наличие ссылок.
Фокусируйся только на содержании и пользе для клиента.
Критерии (каждый от 1 до 10):
1. Конкретность: есть ли измеримые результаты и сроки
2. Релевантность: решает ли реальную боль клиента
3. Доказательства: есть ли кейсы/цифры подтверждающие компетенцию
4. Призыв к действию: понятен ли следующий шаг
Разбери каждый критерий пошагово, потом дай итоговую оценку.
[твой текст предложения]
Результат:
Модель выдаст пошаговый разбор по каждому критерию с конкретными примерами из текста. Покажет где предложение сильное (например, "чёткий дедлайн — 2 недели на запуск"), а где слабое ("нет ни одного кейса, только общие слова про опыт"). В итоге — числовые оценки по критериям и рекомендации что усилить. Это совсем другой уровень обратной связи чем "текст хороший, 8/10".
Почему это работает
LLM обучены на огромном массиве текстов и неосознанно впитали паттерны: длинное = серьёзное, с ссылками = авторитетное, вежливое = качественное. Это как человек, который оценивает резюме — красиво оформленное с логотипами университетов кажется убедительнее, даже если опыт слабее.
Но у LLM есть сильная сторона: они отлично следуют структурированным инструкциям. Когда даёшь детальную рубрику ("оцени по 4 критериям, игнорируй стиль") — логика оценки становится явной. Chain-of-thought усиливает эффект: модель вынуждена проговорить почему ставит оценку, а не выдать интуитивное число. Это превращает оценку из "ощущения" в разбор по пунктам.
Рычаги управления:
- Количество критериев — 3-4 для быстрой оценки, 7-10 для глубокого аудита
- Веса критериев — укажи "конкретность важнее стиля" если нужен акцент
- Формат вывода — "только итоговый балл" vs "полный разбор с цитатами"
- Что игнорировать — явно перечисли факторы которые не должны влиять (длина, тон, имена)
Исследование показало: детальный промпт снижает оценки по сравнению с простым "оцени от 1 до 10". Это не баг, а фича — строгий подход отсекает поверхностные плюсы и оценивает суть.
Шаблон промпта
Базовый шаблон для объективной оценки
Оцени {что_оценить} по критериям ниже.
Игнорируй {факторы_которые_не_важны}.
Фокусируйся только на {ключевые_аспекты}.
Критерии оценки (каждый от 1 до 10):
1. {критерий_1}: {описание_что_проверяем}
2. {критерий_2}: {описание_что_проверяем}
3. {критерий_3}: {описание_что_проверяем}
Разбери каждый критерий пошагово с примерами из текста.
Потом дай итоговую оценку и конкретные рекомендации.
[твой контент для оценки]
Как заполнять:
{что_оценить}— тип контента: текст, идея, план, аргументация{факторы_которые_не_важны}— длина, стиль, эмоциональный тон, наличие ссылок{ключевые_аспекты}— конкретность, польза, логика, доказательства{критерий_N}— измеримые параметры качества под твою задачу
Расширенный шаблон с защитой от конкретных bias'ов
Оцени {контент} строго по рубрике ниже.
ВАЖНО — игнорируй при оценке:
- Длину и объём текста (короткое может быть отличным)
- Стиль и красоту формулировок (простое ≠ плохое)
- Упоминания авторитетов и ссылки (важна суть, не форма)
- Эмоциональный тон (вежливое ≠ правильное)
- Гендер или идентичность упомянутых людей
- Популярность мнения (большинство может ошибаться)
Оценивай ТОЛЬКО:
1. {содержательный_критерий_1} — {как_проверить}
2. {содержательный_критерий_2} — {как_проверить}
3. {содержательный_критерий_3} — {как_проверить}
Для каждого критерия:
- Найди конкретные примеры в тексте
- Объясни почему ставишь такую оценку
- Укажи что можно улучшить
Итоговая оценка: сумма баллов по критериям.
[контент]
Когда использовать расширенный: - Оцениваешь спорный или эмоциональный контент - Нужна максимальная объективность (бизнес-решения, критика) - Подозреваешь что модель может увлечься формой вместо сути
Ключевые находки исследования
1. Детальная рубрика = щит от предвзятости
Протестировали два подхода: простой "оцени от 1 до 10" vs структурированная рубрика с критериями. Результат: детальный промпт делает оценку строже и объективнее. Модель перестаёт реагировать на красивые слова и длинные объяснения, фокусируется на конкретике.
2. Все bias'ы снизили оценки (при правильном промпте)
Протестировали 11 типов предвзятости. Ни один не обманул GPT-Judge с хорошим промптом: - Авторитетная ссылка: балл упал с 9.12 до 3.94 - Многословность: с 9.12 до 8.78 - Фактическая ошибка: до 4.98 (самое сильное падение)
Это значит: при структурированной оценке модель штрафует за поверхностные улучшения.
3. Fine-tuning на "красивых но пустых" ответах ломает модель
Если обучить модель на высокооценённых но biased ответах (красивый стиль, много слов, авторитетные ссылки но слабая суть) — она деградирует. Начинает хуже отвечать даже чем исходная pretrained версия. Вывод: качество обучающих данных важнее количества.
4. Сложность датасета влияет на оценки
- GPQA (сложные научные вопросы): средние баллы 4.5-5.6
- JudgeLM (открытые рассуждения): средние баллы 7-8
Это нормально — на сложных задачах даже хорошие ответы получают скромные оценки. Учитывай контекст при интерпретации баллов.
Применение для работы
Когда использовать эту технику
✅ Хорошо работает: - Оценка бизнес-текстов (предложения, презентации, письма) - Проверка аргументации и логики рассуждений - Аудит идей на конкретность vs общие слова - Рецензирование контента перед публикацией - Сравнение нескольких вариантов решения
❌ Не подходит: - Оценка креатива и художественных текстов (субъективно) - Быстрая проверка грамматики (overkill) - Когда нужно просто "одобрить/отклонить" без анализа
Типичные сценарии
Сценарий 1: Проверка бизнес-идеи
Вместо "как думаешь, норм идея?" → дай критерии: жизнеспособность, размер рынка, конкурентные преимущества, риски. Попроси разобрать каждый с примерами. Получишь структурированный фидбек вместо "звучит интересно".
Сценарий 2: Оценка своего текста перед отправкой
Написал статью/пост/письмо. Задай критерии под цель: ясность, убедительность, призыв к действию. Модель покажет где текст сильный, где вода, где не хватает конкретики.
Сценарий 3: Выбор между вариантами
Есть 3 концепции продукта. Создай единую рубрику оценки, прогони каждую через неё. Получишь сравнимые баллы по одним критериям — проще выбрать.
Ограничения
⚠️ Субъективные домены: Метод работает для оценки по измеримым критериям (конкретность, логика, полнота). Для креатива, юмора, художественной ценности — модель всё равно будет субъективна, даже с рубрикой.
⚠️ Экспертные области: LLM может пропустить тонкие фактические ошибки в узкоспециализированных темах (медицина, право, инженерия). Рубрика не заменяет экспертную проверку, только структурирует базовую оценку.
⚠️ Длина промпта: Детальная рубрика = длинный промпт. Для быстрых задач может быть избыточно. Баланс между глубиной и скоростью выбирай сам.
⚠️ Культурный контекст: Bias'ы изучали на англоязычных данных. В русскоязычном контексте могут быть свои паттерны предвзятости, которые исследование не покрывает.
Ресурсы
Evaluating and Mitigating LLM-as-a-judge Bias in Communication Systems - Исследование ссылается на JudgeBench (benchmark для проверки качества LLM-судей) и Google Vertex Prompt (шаблон детальной рубрики) - Использованы датасеты: MMLU-Pro, GPQA, JudgeLM, Alpaca
Авторы: Jiaxin Gao, Chen Chen, Yanwen Jia, Xueluan Gong, Kwok-Yan Lam, Qian Wang Институты: Nanyang Technological University (Сингапур), Wuhan University (Китай)
