3,583 papers
arXiv:2606.03043 74 2 июня 2026 г. FREE

Консенсус LLM ≠ человеческая оценка: почему согласие нескольких моделей не значит «людям понравится»

КЛЮЧЕВАЯ СУТЬ
Парадокс: чем больше LLM-оценщиков соглашаются между собой на субъективной задаче — тем подозрительнее это должно быть. Microsoft Research измерили угол между тем, как оценивают модели, и тем, как оценивают люди: 87-89°. Почти прямой. При этом два случайных человека расходятся между собой только на 78-81° — то есть любые два человека ближе друг к другу, чем любая модель к человеку. Метод «дай нескольким LLM оценить и посмотри на консенсус» позволяет быстро отфильтровать тексты — но только на объективных задачах: факты, логика, грамматика. На субъективных консенсус моделей — это сигнал синхронной ошибки, а не правоты. Спасает одно: дай модели 3-7 живых примеров с человеческими оценками прямо в промпте — с якорем небольшая модель обгоняет GPT-4o по близости к человеческой оценке.
Адаптировать под запрос

TL;DR

Когда несколько LLM оценивают один текст и соглашаются — это не сигнал качества, а сигнал общей слепоты. Исследование Microsoft Research показывает: на субъективных задачах LLM-оценщики сжимаются в узкий угол зрения, который почти перпендикулярен тому, как оценивают люди. Они согласны между собой именно потому, что ошибаются одинаково.

Главная находка — геометрическая: представь компас. Человек показывает на север. LLM показывает почти на восток — под углом 87-89° к человеку. Все 41 протестированная модель показывает примерно на восток, поэтому они дружно «соглашаются». Но это консенсус внутри тупика. При этом два случайно взятых человека расходятся друг с другом только на 78-81° — то есть любые два человека ближе друг к другу, чем любой LLM к человеку. На объективных, проверяемых задачах (найди фактическую ошибку, проверь логику) картина противоположная: LLM вполне надёжны.

Единственное, что частично разворачивает LLM в нужную сторону — давать ему несколько примеров с уже выставленными человеческими оценками прямо в промпте. Даже небольшая модель с таким «якорем» обогнала GPT-4o по близости к человеческой оценке. Fine-tuning, кстати, не помогает: восстанавливает разброс оценок, но не меняет направление.


📌

Схема проблемы

ОБЪЕКТИВНАЯ ЗАДАЧА (факты, ошибки, логика, верификация)
  LLM-оценка → ✅ примерно совпадает с человеком — доверяй

СУБЪЕКТИВНАЯ ЗАДАЧА (стиль, убедительность, культура, эмоции, нюанс)
  LLM-1 ┐
  LLM-2 ├──→ все согласны между собой  ≠  человеческая оценка ❌
  LLM-N ┘          (ловушка консенсуса)

ЧТО ПОМОГАЕТ при субъективной задаче:
  Дай LLM 3-5 примеров с человеческими оценками → якорь → лучше, но не идеально

🚀

Пример применения

Задача: Ты написал питч-письмо инвестору для стартапа. Просишь ChatGPT оценить убедительность — «отлично, профессионально». Просишь Claude — то же самое. Два ИИ согласились, значит, письмо работает?

Нет. Оба смотрят в одну сторону — в сторону «корпусно-частых паттернов убедительности». Опытный инвестор читает по-другому: чувствует искренность, нестандартность тезиса, реальность боли. Это субъективная ось, и LLM на неё не настроены по умолчанию.

Промпт с калибровкой:

Ты оцениваешь питч-письма для венчурного инвестора.

Вот примеры с человеческими оценками:

Письмо 1:
«Мы строим маркетплейс для репетиторов. Рынок — 50 млрд рублей.
Наша команда — выпускники МФТИ. Ищем 5 млн рублей на рост.»
Оценка инвестора: 2/5 — нет боли клиента, команда не убеждает без трек-рекорда

Письмо 2:
«Каждый третий родитель в России тратит 3+ часа на поиск репетитора.
Мы сократили это до 10 минут. За 4 месяца — 1200 сделок без рекламы.
Ищем партнёра на масштабирование в СНГ.»
Оценка инвестора: 4/5 — есть боль, есть тракшн, понятный запрос

---

Теперь оцени моё письмо по тем же критериям.
Объясни конкретно: что сильное, что слабое, что изменить:

[вставь своё письмо]

Результат: Модель покажет оценку по той же шкале и конкретные комментарии в духе примеров. С якорем она подстраивает «ось оценки» под человеческий образец — комментарии станут конкретнее и острее. Без якоря — будет говорить «убедительно и профессионально» даже если письмо слабое.


🧠

Почему это работает

LLM обучены на текстах людей, но не на том, как люди оценивают. Модель видела миллиарды «хороших текстов» — но «хороших» по меркам частотности в обучающем корпусе. Субъективные измерения — культурная уместность, эмоциональная точность, нюансы убедительности — редко встречались в явном виде. Поэтому у моделей нет надёжного «компаса» в эту сторону.

Все LLM смотрят в одну сторону — потому что обучены похоже. Модели, натренированные на схожих данных похожими методами, проецируют текст на одни и те же признаки. Поэтому они соглашаются — не потому что правы, а потому что ошибаются синхронно. Исследование показало: модели одного семейства (например, qwen3-235b и qwen3-next-80b) согласны между собой сильнее всего — как будто списывают.

Дать примеры — значит показать компас. Когда ты вставляешь в промпт несколько пар «текст → человеческая оценка», ты буквально разворачиваешь модель в нужную сторону. Она видит конкретный ориентир и подстраивается. Это частично работает — лучше, чем fine-tuning. Но полностью заменить живого человека на субъективных задачах не получается.

Рычаги: - Больше примеров → точнее калибровка (3-5 минимум, 7-10 лучше) - Конкретный критерий вместо общего «качества» → ближе к человеку (не «оцени текст», а «оцени ясность первого предложения») - Не спрашивай у нескольких LLM и не считай их согласие валидацией — для субъективных задач это ловушка


📋

Шаблон промпта

Ты оцениваешь {тип контента} по критерию: {конкретный критерий}.

Вот примеры с человеческими оценками:

Пример 1:
{образец контента}
Оценка: {оценка} — {краткое объяснение от человека}

Пример 2:
{образец контента}
Оценка: {оценка} — {краткое объяснение от человека}

Пример 3:
{образец контента}
Оценка: {оценка} — {краткое объяснение от человека}

---

Теперь оцени следующий {тип контента} по тем же критериям.
Объясни конкретно: что сильное, что слабое, что изменить.

{твой контент}

Что подставлять: - {тип контента} — питч-письмо / маркетинговый текст / резюме / описание продукта / пост для Telegram - {конкретный критерий} — убедительность для инвестора / ясность для новичка в теме / эмоциональный тон / культурная уместность - {оценка} — 1-5, 1-10, или словесно: слабо / средне / сильно

🚀 Быстрый старт — вставь в чат:

Вот шаблон оценки с калибровкой по человеческим примерам.
Адаптируй под мою задачу: [что оцениваешь и по какому критерию].
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит, что именно оцениваешь, по каким критериям — и попросит хотя бы 2-3 примера с оценками от человека. Это главное: без якорных примеров калибровка не работает. Если примеров нет — это сигнал, что задача слишком субъективная и лучше дойти до живого человека.


⚠️

Ограничения

⚠️ Субъективный потолок: Даже с калибровкой LLM не дотягивает до уровня опытного человека. Для задач с высокой культурной нагрузкой — региональная реклама, эмоциональные нюансы, профессиональная экспертиза — нужен живой человек в петле.

⚠️ Нужны примеры с оценками: Калибровка требует готовых пар «текст → человеческая оценка». Если их нет, придётся потратить время на сбор или найти людей для разметки хотя бы 3-5 примеров.

⚠️ Множество моделей не спасает: Брать GPT + Claude + Gemini и смотреть на консенсус — не валидация. Для субъективных задач это может быть признаком синхронной ошибки, а не правоты.

⚠️ Объективные задачи — другой мир: Проверка фактов, поиск логических противоречий, грамматика, верификация — LLM работает хорошо и без калибровки. Ограничение касается только субъективной оценки.


🔍

Как исследовали

Команда Microsoft Research задалась простым, но острым вопросом: LLM-судьи хорошо соглашаются между собой — потому что правы или потому что ошибаются одинаково? Чтобы ответить, они провели 244 000 оценочных событий: 41 LLM-судья, 8 индийских языков (бенгальский, хинди, тамильский и другие), плюс живые люди-оценщики с реальными оценками тех же текстов. Использовали два датасета: медицинские советы (community-health) и культурные вопросы по финансам, здоровью, быту.

Ключевой инструмент — геометрический анализ. Вместо того чтобы просто смотреть «совпадают ли оценки», они мерили угол между направлением LLM-оценок и направлением человеческих оценок в многомерном пространстве. Итог: LLM-судьи на субъективных задачах сидят под углом 87-89° от людей. Люди между собой — 78-81°. То есть случайная пара людей ближе друг к другу, чем любой LLM к человеку.

Удивительная находка: fine-tuning (дообучение) восстановило разброс оценок — с 0.32 до 1.08 по сигма-ratio — но совсем не изменило угол. Модели стали использовать весь диапазон шкалы, но по-прежнему смотрели не туда. Только post-hoc калибровка с живыми примерами немного разворачивала модель правильно. Небольшой 24B Indic-судья с калибровкой показал r=0.184 против r=0.123 у GPT — это выше, хотя до человеческого потолка (r=0.474) далеко. Вывод прямой: лучше дай модели якорь от человека, чем бери самую большую модель.


🔗

Ресурсы

Название работы: The Geometry of LLM-as-Judge: Why Inter-LLM Consensus Is Not Human Alignment

Авторы: Sourabrata Mukherjee, Hamna Hamna, Kalika Bali, Sunayana Sitaram

Организация: Microsoft Research

Email: t-somukherje@microsoft.com, Sunayana.Sitaram@microsoft.com

Датасеты: Samiksha (community-health benchmark), Pariksha/DLQ (real-world cultural QA)

Связанные работы: Zheng et al. 2023 (LLM-as-judge), Hada et al. 2024 (межкультурная деградация), Rafailov et al. 2023 (DPO)


📋 Дайджест исследования

Ключевая суть

Парадокс: чем больше LLM-оценщиков соглашаются между собой на субъективной задаче — тем подозрительнее это должно быть. Microsoft Research измерили угол между тем, как оценивают модели, и тем, как оценивают люди: 87-89°. Почти прямой. При этом два случайных человека расходятся между собой только на 78-81° — то есть любые два человека ближе друг к другу, чем любая модель к человеку. Метод «дай нескольким LLM оценить и посмотри на консенсус» позволяет быстро отфильтровать тексты — но только на объективных задачах: факты, логика, грамматика. На субъективных консенсус моделей — это сигнал синхронной ошибки, а не правоты. Спасает одно: дай модели 3-7 живых примеров с человеческими оценками прямо в промпте — с якорем небольшая модель обгоняет GPT-4o по близости к человеческой оценке.

Принцип работы

Не проси несколько LLM оценить текст и не считай их согласие подтверждением. Делай иначе: одна модель + якорные примеры с человеческими оценками. Все LLM обучены на похожих данных похожими методами — они не соглашаются, они синхронно ошибаются. Модели одного семейства (скажем, qwen3-235b и qwen3-next-80b) согласны между собой сильнее всего — как будто списывают с одной шпаргалки. Брать GPT + Claude + Gemini и смотреть на их единодушие — это не валидация. Это три компаса, которые все смотрят на восток, пока север совсем в другой стороне.

Почему работает

LLM обучали на текстах — но не на процессе человеческой оценки. Модель видела миллиарды «хороших» примеров, но «хороших» по частотности в обучающем корпусе, а не по человеческому вкусу. Субъективные оси — эмоциональная точность, культурная уместность, убедительность для конкретной аудитории — в корпусе почти не размечены, поэтому у моделей нет компаса в эту сторону. Когда даёшь модели якорные пары «текст → оценка живого человека», ты буквально разворачиваешь её в нужную сторону — она видит ориентир и подстраивается. Важно: дообучение (fine-tuning) тут не помогает. Оно восстанавливает разброс оценок, но не разворачивает вектор к человеку. Только примеры в промпте.

Когда применять

Субъективные тексты — маркетинговые материалы, питч-письма, посты, описания продуктов, резюме — особенно когда важна реакция конкретной аудитории: инвестора, покупателя, читателя. НЕ подходит для: проверки фактов, поиска логических противоречий, грамматики, верификации данных. На объективных задачах LLM работает надёжно и без всякой калибровки.

Мини-рецепт

1. Определи тип задачи: субъективная (стиль, убедительность, эмоции, культура) — нужна калибровка. Объективная (факты, логика, грамматика) — модель справится и без примеров.
2. Собери 3-7 живых примеров: возьми реальные тексты похожего типа и попроси человека из твоей целевой аудитории выставить оценки с коротким объяснением. Меньше трёх примеров — якорь слабый, толку мало.
3. Дай модели роль, критерий и примеры одним промптом: Ты оцениваешь {тип текста} по критерию: {конкретный критерий}. Примеры с оценками: Текст 1: «…» — оценка 2/5: нет боли клиента. Текст 2: «…» — оценка 4/5: есть тракшн, понятный запрос. Теперь оцени мой текст по тем же критериям и объясни конкретно: что сильное, что слабое, что изменить: {твой текст}
4. Не усредняй ответы нескольких моделей: одна модель с хорошими якорями лучше, чем три без них. Консенсус на субъективной задаче — ловушка, а не страховка.

Примеры

[ПЛОХО] : Оцени этот питч-текст для инвестора и скажи, насколько он убедительный: [текст]
[ХОРОШО] : Ты оцениваешь питч-письма для венчурного инвестора по критерию: убедительность и ясность ценностного предложения. Примеры с оценками инвестора: Письмо 1: «Мы строим маркетплейс для репетиторов. Рынок — 50 млрд рублей. Команда — выпускники МФТИ. Ищем 5 млн рублей на рост.» — оценка 2/5: нет боли клиента, команда не убеждает без трек-рекорда. Письмо 2: «Каждый третий родитель тратит 3+ часа на поиск репетитора. Мы сократили это до 10 минут. За 4 месяца — 1200 сделок без рекламы.» — оценка 4/5: есть боль, есть результат, понятный запрос. Теперь оцени моё письмо по тем же критериям. Объясни конкретно: что сильное, что слабое, что изменить: [твой текст]
Источник: The Geometry of LLM-as-Judge: Why Inter-LLM Consensus Is Not Human Alignment
ArXiv ID: 2606.03043 | Сгенерировано: 2026-06-03 07:29

Проблемы LLM

ПроблемаСутьКак обойти
Согласие нескольких LLM на субъективных задачах — ловушкаПросишь три модели оценить текст. Все говорят «убедительно и профессионально». Кажется — это подтверждение. Нет. Модели обучены похоже. Они смотрят на текст с одной стороны. Соглашаются потому что ошибаются синхронно. Любые два случайных человека ближе к общей оценке, чем любая модель к любому человеку. На субъективных задачах консенсус моделей — это сигнал общей слепоты, не качестваНе считай согласие нескольких моделей валидацией на субъективных задачах. Для оценки стиля, убедительности, эмоционального тона, культурной уместности — либо зови живого человека, либо давай модели якорные примеры с человеческими оценками прямо в запросе

Методы

МетодСуть
Якорные примеры с человеческими оценками — разворот модели в нужную сторонуВставь в запрос 3–7 пар: «текст оценка человека + краткое объяснение критерия». Попроси оценить новый текст по тем же критериям. Синтаксис: Вот примеры с оценками: [Пример 1:] ... Оценка: X/5 — {что именно слабо или сильно}. ... Теперь оцени следующий текст по тем же критериям. Почему работает: Без примеров у модели нет ориентира — она использует «частотный стандарт» из обучения. Примеры с оценками показывают конкретную человеческую шкалу. Модель подстраивает ось оценки под неё. Даже небольшая модель с якорем превосходит большую без него. Когда да: субъективная задача, есть хотя бы 3–5 примеров с реальными человеческими оценками. Когда нет: примеров нет совсем — это сигнал, что задача слишком субъективная. Нужен живой человек

Тезисы

ТезисКомментарий
LLM-оценщик надёжен на объективных задачах и ненадёжен на субъективныхОбъективные задачи: проверка фактов, поиск логических противоречий, грамматика, верификация. Тут у задачи есть правильный ответ. LLM хорошо справляется. Субъективные задачи: стиль, убедительность, культурная уместность, эмоциональный тон. Тут правильного ответа нет — только человеческое суждение. LLM здесь ненадёжен по умолчанию. Применяй: Перед тем как поставить LLM оценщиком — спроси себя: «Есть ли объективно правильный ответ?» Да — доверяй. Нет — добавляй якорные примеры или зови человека
📖 Простыми словами

The Geometry ofLLM-as-Judge: Why Inter-LLMConsensus Is Not Human Alignment

arXiv: 2606.03043

Когда несколько нейронок в один голос хвалят твой текст, это не значит, что ты гений — скорее всего, они просто одинаково заблуждаются. Исследование Microsoft Research доказывает: консенсус между LLM не имеет ничего общего с тем, как оценивают люди. На уровне математики их «мнения» схлопываются в узкий вектор, который направлен совсем не туда, куда смотрит живой человек. Модели соглашаются друг с другом не потому, что нашли истину, а потому, что у них общая слепота к сложным, субъективным вещам.

Это как если бы ты пришел в компанию друзей-роботов и спросил, идет ли тебе этот пиджак. Все роботы хором ответят «да, швы ровные, пуговиц пять», потому что они оценивают только технические параметры. Им плевать, что ты выглядишь в нем как дед, потому что понятие стиля в их прошивку не завезли. Ты радуешься одобрению, выходишь в свет и ловишь косые взгляды, потому что мнение толпы алгоритмов оказалось перпендикулярно реальности.

Проблема в том, что модели обучены на гигантских массивах данных, но они знают только, как текст выглядит, а не как он работает. У них нет внутреннего компаса для культурной уместности или эмоциональной точности. Если ты просишь ChatGPT и Claude оценить убедительность письма инвестору, они поставят высший балл за вежливость и структуру, но пропустят момент, что текст звучит как бездушная корпоративная отписка. Они синхронно лажают, принимая шаблонность за качество.

Этот принцип универсален: он касается не только текстов, но и любой оценки через LLM-as-Judge. Если ты используешь одну нейронку, чтобы проверять работу другой, ты строишь карточный домик. Это работает для кода или математики, где есть жесткие правила, но в маркетинге, дизайне или креативе согласие моделей — это шум, а не сигнал. Ты можешь бесконечно полировать продукт под фильтры ИИ, но в итоге получишь стерильную фигню, которая не цепляет живого пользователя.

Короче: хватит верить ИИ-ассистентам на слово, когда речь идет о вкусе или эмоциях. Если три разные модели сказали, что твой пост — огонь, это лишь значит, что он безопасный и предсказуемый. В субъективных задачах межмодельный консенсус — это ловушка, которая скрывает отсутствие реального понимания. Хочешь знать, работает ли твой контент — иди к людям, потому что нейронки пока что умеют только поддакивать друг другу в своем цифровом пузыре.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с