TL;DR
Когда несколько LLM оценивают один текст и соглашаются — это не сигнал качества, а сигнал общей слепоты. Исследование Microsoft Research показывает: на субъективных задачах LLM-оценщики сжимаются в узкий угол зрения, который почти перпендикулярен тому, как оценивают люди. Они согласны между собой именно потому, что ошибаются одинаково.
Главная находка — геометрическая: представь компас. Человек показывает на север. LLM показывает почти на восток — под углом 87-89° к человеку. Все 41 протестированная модель показывает примерно на восток, поэтому они дружно «соглашаются». Но это консенсус внутри тупика. При этом два случайно взятых человека расходятся друг с другом только на 78-81° — то есть любые два человека ближе друг к другу, чем любой LLM к человеку. На объективных, проверяемых задачах (найди фактическую ошибку, проверь логику) картина противоположная: LLM вполне надёжны.
Единственное, что частично разворачивает LLM в нужную сторону — давать ему несколько примеров с уже выставленными человеческими оценками прямо в промпте. Даже небольшая модель с таким «якорем» обогнала GPT-4o по близости к человеческой оценке. Fine-tuning, кстати, не помогает: восстанавливает разброс оценок, но не меняет направление.
Схема проблемы
ОБЪЕКТИВНАЯ ЗАДАЧА (факты, ошибки, логика, верификация)
LLM-оценка → ✅ примерно совпадает с человеком — доверяй
СУБЪЕКТИВНАЯ ЗАДАЧА (стиль, убедительность, культура, эмоции, нюанс)
LLM-1 ┐
LLM-2 ├──→ все согласны между собой ≠ человеческая оценка ❌
LLM-N ┘ (ловушка консенсуса)
ЧТО ПОМОГАЕТ при субъективной задаче:
Дай LLM 3-5 примеров с человеческими оценками → якорь → лучше, но не идеально
Пример применения
Задача: Ты написал питч-письмо инвестору для стартапа. Просишь ChatGPT оценить убедительность — «отлично, профессионально». Просишь Claude — то же самое. Два ИИ согласились, значит, письмо работает?
Нет. Оба смотрят в одну сторону — в сторону «корпусно-частых паттернов убедительности». Опытный инвестор читает по-другому: чувствует искренность, нестандартность тезиса, реальность боли. Это субъективная ось, и LLM на неё не настроены по умолчанию.
Промпт с калибровкой:
Ты оцениваешь питч-письма для венчурного инвестора.
Вот примеры с человеческими оценками:
Письмо 1:
«Мы строим маркетплейс для репетиторов. Рынок — 50 млрд рублей.
Наша команда — выпускники МФТИ. Ищем 5 млн рублей на рост.»
Оценка инвестора: 2/5 — нет боли клиента, команда не убеждает без трек-рекорда
Письмо 2:
«Каждый третий родитель в России тратит 3+ часа на поиск репетитора.
Мы сократили это до 10 минут. За 4 месяца — 1200 сделок без рекламы.
Ищем партнёра на масштабирование в СНГ.»
Оценка инвестора: 4/5 — есть боль, есть тракшн, понятный запрос
---
Теперь оцени моё письмо по тем же критериям.
Объясни конкретно: что сильное, что слабое, что изменить:
[вставь своё письмо]
Результат: Модель покажет оценку по той же шкале и конкретные комментарии в духе примеров. С якорем она подстраивает «ось оценки» под человеческий образец — комментарии станут конкретнее и острее. Без якоря — будет говорить «убедительно и профессионально» даже если письмо слабое.
Почему это работает
LLM обучены на текстах людей, но не на том, как люди оценивают. Модель видела миллиарды «хороших текстов» — но «хороших» по меркам частотности в обучающем корпусе. Субъективные измерения — культурная уместность, эмоциональная точность, нюансы убедительности — редко встречались в явном виде. Поэтому у моделей нет надёжного «компаса» в эту сторону.
Все LLM смотрят в одну сторону — потому что обучены похоже. Модели, натренированные на схожих данных похожими методами, проецируют текст на одни и те же признаки. Поэтому они соглашаются — не потому что правы, а потому что ошибаются синхронно. Исследование показало: модели одного семейства (например, qwen3-235b и qwen3-next-80b) согласны между собой сильнее всего — как будто списывают.
Дать примеры — значит показать компас. Когда ты вставляешь в промпт несколько пар «текст → человеческая оценка», ты буквально разворачиваешь модель в нужную сторону. Она видит конкретный ориентир и подстраивается. Это частично работает — лучше, чем fine-tuning. Но полностью заменить живого человека на субъективных задачах не получается.
Рычаги: - Больше примеров → точнее калибровка (3-5 минимум, 7-10 лучше) - Конкретный критерий вместо общего «качества» → ближе к человеку (не «оцени текст», а «оцени ясность первого предложения») - Не спрашивай у нескольких LLM и не считай их согласие валидацией — для субъективных задач это ловушка
Шаблон промпта
Ты оцениваешь {тип контента} по критерию: {конкретный критерий}.
Вот примеры с человеческими оценками:
Пример 1:
{образец контента}
Оценка: {оценка} — {краткое объяснение от человека}
Пример 2:
{образец контента}
Оценка: {оценка} — {краткое объяснение от человека}
Пример 3:
{образец контента}
Оценка: {оценка} — {краткое объяснение от человека}
---
Теперь оцени следующий {тип контента} по тем же критериям.
Объясни конкретно: что сильное, что слабое, что изменить.
{твой контент}
Что подставлять:
- {тип контента} — питч-письмо / маркетинговый текст / резюме / описание продукта / пост для Telegram
- {конкретный критерий} — убедительность для инвестора / ясность для новичка в теме / эмоциональный тон / культурная уместность
- {оценка} — 1-5, 1-10, или словесно: слабо / средне / сильно
🚀 Быстрый старт — вставь в чат:
Вот шаблон оценки с калибровкой по человеческим примерам.
Адаптируй под мою задачу: [что оцениваешь и по какому критерию].
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит, что именно оцениваешь, по каким критериям — и попросит хотя бы 2-3 примера с оценками от человека. Это главное: без якорных примеров калибровка не работает. Если примеров нет — это сигнал, что задача слишком субъективная и лучше дойти до живого человека.
Ограничения
⚠️ Субъективный потолок: Даже с калибровкой LLM не дотягивает до уровня опытного человека. Для задач с высокой культурной нагрузкой — региональная реклама, эмоциональные нюансы, профессиональная экспертиза — нужен живой человек в петле.
⚠️ Нужны примеры с оценками: Калибровка требует готовых пар «текст → человеческая оценка». Если их нет, придётся потратить время на сбор или найти людей для разметки хотя бы 3-5 примеров.
⚠️ Множество моделей не спасает: Брать GPT + Claude + Gemini и смотреть на консенсус — не валидация. Для субъективных задач это может быть признаком синхронной ошибки, а не правоты.
⚠️ Объективные задачи — другой мир: Проверка фактов, поиск логических противоречий, грамматика, верификация — LLM работает хорошо и без калибровки. Ограничение касается только субъективной оценки.
Как исследовали
Команда Microsoft Research задалась простым, но острым вопросом: LLM-судьи хорошо соглашаются между собой — потому что правы или потому что ошибаются одинаково? Чтобы ответить, они провели 244 000 оценочных событий: 41 LLM-судья, 8 индийских языков (бенгальский, хинди, тамильский и другие), плюс живые люди-оценщики с реальными оценками тех же текстов. Использовали два датасета: медицинские советы (community-health) и культурные вопросы по финансам, здоровью, быту.
Ключевой инструмент — геометрический анализ. Вместо того чтобы просто смотреть «совпадают ли оценки», они мерили угол между направлением LLM-оценок и направлением человеческих оценок в многомерном пространстве. Итог: LLM-судьи на субъективных задачах сидят под углом 87-89° от людей. Люди между собой — 78-81°. То есть случайная пара людей ближе друг к другу, чем любой LLM к человеку.
Удивительная находка: fine-tuning (дообучение) восстановило разброс оценок — с 0.32 до 1.08 по сигма-ratio — но совсем не изменило угол. Модели стали использовать весь диапазон шкалы, но по-прежнему смотрели не туда. Только post-hoc калибровка с живыми примерами немного разворачивала модель правильно. Небольшой 24B Indic-судья с калибровкой показал r=0.184 против r=0.123 у GPT — это выше, хотя до человеческого потолка (r=0.474) далеко. Вывод прямой: лучше дай модели якорь от человека, чем бери самую большую модель.
Ресурсы
Название работы: The Geometry of LLM-as-Judge: Why Inter-LLM Consensus Is Not Human Alignment
Авторы: Sourabrata Mukherjee, Hamna Hamna, Kalika Bali, Sunayana Sitaram
Организация: Microsoft Research
Email: t-somukherje@microsoft.com, Sunayana.Sitaram@microsoft.com
Датасеты: Samiksha (community-health benchmark), Pariksha/DLQ (real-world cultural QA)
Связанные работы: Zheng et al. 2023 (LLM-as-judge), Hada et al. 2024 (межкультурная деградация), Rafailov et al. 2023 (DPO)
