3,583 papers
arXiv:2601.20920 76 28 янв. 2026 г. FREE

LLM-оценки завышают слабый контент: как получить честную критику

КЛЮЧЕВАЯ СУТЬ
Проблема: Попросил LLM оценить свой питч/код/текст — получил расплывчатое '5-6 из 10, есть плюсы и минусы'. Анализ 125,000+ научных рецензий показал: LLM боится крайних оценок и сжимает шкалу к середине. Слабым работам ставит 4.78 вместо честных 4.15, сильным даёт почти столько же. Это rating compression — боязнь быть резким. Метод позволяет получить честную калибровку качества своего контента через LLM вместо безопасного ухода в середину. Фишка: калибруй модель через процентили (топ-1%, топ-10%) + требуй обеих сторон + дай конкретный baseline. Модель перестаёт hedge-ить ('в целом нормально') и начинает различать качество с конкретными примерами.
Адаптировать под запрос

TL;DR

LLM завышают оценки слабому контенту и сжимают шкалу оценок к середине. Анализ 125,000+ пар статья-рецензия с ML-конференций показал: модели плохо различают качество — слабым работам часто ставят 5-6 из 10 вместо честных 3-4, сильным тоже дают 6-7 вместо 8-9. Это rating compression — боязнь крайностей. Человеческие рецензии распределены от 1 до 10 с пиком на 6, LLM-рецензии кучкуются вокруг 5.

Сначала казалось, что LLM-рецензии фаворят LLM-тексты. LLM-ассистированная рецензия давала LLM-статье +0.63 балла против человеческой рецензии, а человеческой статье только +0.25. Разница 0.38 балла выглядела как систематический фаворитизм — "свой своему". Но это оказалась иллюзия от confounding: LLM-статьи просто чаще слабые (пик на оценке 3 против пика на 6 у человеческих).

Реальная причина — LLM добрее к слабым работам вообще. После контроля за качеством статей через within-paper анализ (сравнение рецензий на одну и ту же статью) дифференциал упал до +0.096 и стал статистически незначимым. На принятых статьях (высокое качество) никакой разницы вообще нет. Полностью LLM-generated рецензии показывают максимальную снисходительность к слабому контенту. Человек в петле (human-in-the-loop) критически важен — он модерирует крайности и заставляет модель различать качество.

📌

Находки исследования

📌

1. Rating Compression — LLM боится крайних оценок

Что происходит: - Человеческие рецензии: распределение от 1 до 10, пик на 6 (нормальная кривая) - LLM-рецензии: 26.65% текстов на конференциях, концентрация вокруг 5 (сжатие к середине) - Слабым статьям (качество 3) LLM даёт 4.78 vs человек 4.15 - Сильным статьям (качество 6+) LLM даёт почти столько же

Почему: Модель оптимизирована на "безопасные" ответы. Крайняя оценка требует уверенности и обоснования. Проще дать 5-6 и написать "есть сильные и слабые стороны".

📌

2. Leniency Bias — снисходительность к слабому

Что происходит: - На всём корпусе: LLM-рецензии +0.25 балла к человеческим статьям, +0.63 к LLM-статьям - На принятых статьях (высокое качество): разница исчезает, -0.05 и +0.08 соответственно - Fully LLM-generated рецензии: ещё более выраженная снисходительность - Human-in-the-loop: редуцирует leniency

Почему: LLM-статьи overrepresented среди слабых работ. Модель добрее к слабому контенту → создаётся иллюзия фаворитизма.

📌

3. Human-in-the-Loop как модератор

Что происходит: - Fully LLM-generated: максимальное сжатие оценок, не различает качество - LLM-assisted (человек редактирует): существенно лучше, но всё равно смещение к середине - Human reviews: лучшее различение качества, выше alignment с финальными решениями (77.7% vs 73.8%)

Почему: Человек калибрует шкалу, видит контекст, принимает на себя ответственность за резкую оценку.

📌

4. Metareview Leniency — LLM-метарецензии принимают чаще

Что происходит: - При одинаковых оценках рецензентов, LLM-aided metareviews чаще рекомендуют accept - Но fully LLM-generated metareviews, наоборот, строже - Это значит meta-reviewers не просто outsource решение LLM, а используют как инструмент

🚀

Пример применения

Задача: Ты написал питч для инвестора на 2 страницы о своём SaaS-сервисе для автоматизации HR. Хочешь понять — это сильный текст или слабый, прежде чем отправлять.

❌ Плохой промпт (получишь rating compression):

Оцени мой питч по 10-балльной шкале. Вот текст:

[текст питча]

✅ Хороший промпт (заставляет различать качество):

Ты опытный инвестор, видел 500+ питчей SaaS-стартапов.

Оцени мой питч, используя КАЛИБРОВКУ:
- 9-10: топ-1% питчей, которые ты видел (яркая идея + данные + storytelling)
- 7-8: топ-10%, сильный питч (один элемент не дотягивает)
- 5-6: средний питч на рынке (есть существенные дыры)
- 3-4: слабый питч (несколько критичных проблем)
- 1-2: очень слабый (фундаментальные провалы)

Сначала найди 2-3 конкретных примера СИЛЬНЫХ сторон. 
Потом найди 2-3 конкретных примера СЛАБЫХ сторон.
Сравни мой питч с baseline: средний питч на AngelList.
Дай оценку и объясни ПОЧЕМУ именно эта, не соседняя.

Вот текст:
[текст питча]

Результат: Модель не сможет дать абстрактное "5-6 из 10, есть плюсы и минусы". Калибровка через процентили заставляет её различать качество. Требование найти конкретные примеры обеих сторон убирает leniency. Сравнение с baseline (AngelList) даёт якорную точку. Требование объяснить "почему не соседняя оценка" заставляет обосновать вместо hedge.

🧠

Почему это работает

Слабость LLM: Модель оптимизирована на безопасность и helpful-ness. Резкая критика выглядит как "harmful", крайняя похвала — как "hallucination". Проще дать 5-6 с обтекаемым "есть сильные и слабые стороны". Это rating compression — сжатие шкалы к середине.

Сильная сторона LLM: Модель отлично следует структурированным инструкциям и различает качество, если дать ей явную шкалу и якоря. Она может найти конкретные примеры (сильные/слабые стороны), сравнить с baseline, аргументировать выбор — всё это она умеет хорошо.

Как метод использует это: Калибровка через процентили (топ-1%, топ-10%) даёт модели референсные точки вместо абстрактной шкалы 1-10. Требование найти конкретные примеры обеих сторон убирает возможность hedge ("в целом нормально"). Сравнение с baseline снимает leniency — модель не может просто "быть доброй", она должна сказать "лучше/хуже среднего питча на AngelList". Требование объяснить "почему 6, а не 7" заставляет обосновать границу. Всё это убирает степени свободы для безопасного ухода в середину.

Рычаги управления: - Калибровка (топ-1%, топ-10% vs 1-10 баллов) → процентили острее различают, баллы размывают - Baseline (конкретный: "средний питч на AngelList" vs абстрактный: "хороший питч") → конкретный снимает leniency - Требование обеих сторон ("найди 2-3 сильных + 2-3 слабых") → убирает hedge - Обоснование границы ("почему 6, а не 7") → заставляет аргументировать вместо шаблона

📋

Шаблон промпта для честной оценки

Ты {роль эксперта}, видел {число} примеров {тип контента}.

Оцени мой {тип контента}, используя КАЛИБРОВКУ:
- 9-10: топ-1% {типа контента}, которые ты видел ({что отличает лучшие})
- 7-8: топ-10% ({один элемент не дотягивает})
- 5-6: средний {тип контента} на рынке ({есть существенные дыры})
- 3-4: слабый ({несколько критичных проблем})
- 1-2: очень слабый ({фундаментальные провалы})

Сначала найди 2-3 конкретных примера СИЛЬНЫХ сторон.
Потом найди 2-3 конкретных примера СЛАБЫХ сторон.
Сравни с baseline: {конкретный baseline}.
Дай оценку и объясни ПОЧЕМУ именно эта, не соседняя.

Вот контент:
{твой контент}

Что подставлять: - {роль эксперта} — опытный инвестор / senior разработчик / редактор Forbes - {число} — 500+ / 1000+ (показывает масштаб опыта) - {тип контента} — питч / код / статья / скрипт видео - {что отличает лучшие} — конкретные критерии топа (яркая идея + данные + storytelling) - {конкретный baseline} — средний питч на AngelList / типичный код на GitHub / статья на VC.ru

⚠️

Ограничения

⚠️ Калибровка не убирает слепые зоны: Если модель не знает домен (узкая B2B-ниша, специфичная технология), она будет давать generic критику даже со структурным промптом. Шкала различит качество исполнения (структура, clarity), но не попадание в боли аудитории или инновационность для рынка.

⚠️ Human-в-петле всё равно нужен: LLM-оценка — это один data point, не истина. Исследование показало: даже с человеком в петле (LLM-assisted reviews) alignment с финальными решениями 73.8% против 77.7% у полностью человеческих. Используй модель для генерации критики разных углов, но решение принимай сам.

⚠️ Не работает для субъективных/вкусовых критериев: Модель может оценить "структуру аргумента", но не "насколько этот юмор зайдёт моей аудитории" или "достаточно ли провокационен заголовок для моего бренда". Там где критерий качества = "резонанс с конкретными людьми", LLM даст средненькую оценку.

🔍

Как исследовали

Команда из Cornell проанализировала 125,000+ пар статья-рецензия с трёх топовых ML-конференций (ICLR, NeurIPS, ICML) за 2024-2025 годы. Для каждой статьи и рецензии использовали статистический метод детекции LLM-текста: модель оценивает долю α LLM-сгенерированных токенов через maximum likelihood estimation. Порог α > 0.15 = LLM-assisted, ниже = human.

Почему именно так: OpenReview — единственная платформа с публичными данными о rejected papers (только ICLR), что позволило увидеть весь спектр качества. NeurIPS и ICML показывают только accepted → смещение выборки к сильным работам.

Что измеряли: Сравнивали 4 квадранта (human paper + human review, human + LLM, LLM + human, LLM + LLM) по оценкам, confidence, soundness, contribution. Сначала регрессия с контролем за областью статьи (область = confounder, влияет и на использование LLM, и на распределение оценок). Потом within-paper парный анализ — сравнили рецензии на одну и ту же статью (убирает между-статейный confounding).

Что удивило: Первоначальный эффект +0.38 балла "фаворитизма" LLM к LLM почти исчез (+0.096) после within-paper анализа. Это показало, что aggregate statistics врут без causal inference. На accepted papers эффект вообще нулевой. Оказалось, LLM-статьи overrepresented среди слабых работ (пик на оценке 3 против 6 у человеческих) → создавали spurious interaction effect.

Ключевой инсайт для практики: То, что выглядит как "LLM фаворят LLM-контент", на самом деле "LLM добрее к слабому контенту в принципе". Это меняет понимание bias: проблема не в том, что модель узнаёт свой output, а в том, что она не умеет быть резкой к плохому контенту. Rating compression — это боязнь крайностей, не preferential treatment.

Дополнительная проверка: Сгенерировали fully LLM reviews (промпт LLM без человека в петле) и сравнили с LLM-assisted (человек редактирует). Fully LLM показали максимальное сжатие оценок и leniency. Human-in-the-loop существенно редуцировал эти эффекты, но не убрал полностью.

Про metareviews: Проанализировали 10,000+ метарецензий (итоговые решения area chairs). LLM-assisted metareviews чаще рекомендовали accept при одинаковых reviewer scores. Но fully LLM-generated были строже. Это значит, люди не просто делегируют решение модели — они используют её как инструмент для формулировки, но judgment остаётся за человеком.

💡

Адаптации и экстраполяции

📌

🔧 Техника: Dual Review (оптимист + пессимист) → острее различение

Одна LLM-оценка сжимается к середине. Две роли с противоположными установками растягивают шкалу.

Дай две оценки моего {контент} от двух экспертов:

ЭКСПЕРТ-ОПТИМИСТ:
Ищи потенциал, сильные стороны, что может выстрелить. 
Оценка 1-10 + конкретные примеры что хорошо.

ЭКСПЕРТ-ПЕССИМИСТ:
Ищи риски, слабые места, что провалит проект.
Оценка 1-10 + конкретные примеры что плохо.

Потом дай КОНСЕНСУСНУЮ оценку: учти обе точки зрения, 
объясни какой вес дал каждому мнению и почему.

Контент:
{твой контент}

Эффект: Оптимист тянет вверх, пессимист вниз → консенсус не может сжаться в 5-6. Модель вынуждена различать: если обе роли дают 5, значит реально середина. Если оптимист 8, пессимист 4 → консенсус 6 с объяснением какие аргументы перевесили.

📌

🔧 Техника: Comparative Ranking (лесенка примеров) → калибровка шкалы

Вместо абстрактной шкалы дай модели конкретные примеры разного качества для сравнения.

Ты оцениваешь {тип контента}. Вот ЛЕСЕНКА примеров от слабых к сильным:

УРОВЕНЬ 3/10 (слабый):
{пример слабого}

УРОВЕНЬ 6/10 (средний):
{пример среднего}

УРОВЕНЬ 9/10 (сильный):
{пример сильного}

Теперь оцени мой {контент}: на какой ступени лесенки он находится? 
Сравни конкретно: в чём он лучше/хуже каждого примера.

Мой контент:
{твой контент}

Эффект: Модель не может дать абстрактное "6 из 10" — она должна сравнить с конкретными примерами. "Твой питч лучше примера уровня 3 (есть структура), но хуже уровня 6 (нет данных)" → это заставляет различать.

📌

🔧 Техника: Forced Choice (бинарные развилки) → обходим rating compression

LLM боится крайних оценок на шкале, но может делать бинарные выборы.

Оцениваем {контент} через серию бинарных вопросов. 
На каждый ответь ТОЛЬКО "А" или "Б" + одно предложение почему.

1. Это ближе к:
   А) Топ-20% {типа контента} на рынке
   Б) Средний или ниже среднего

[если А → продолжаем вверх, если Б → продолжаем вниз]

2А. Это ближе к:
   А) Топ-5% (выдающийся)
   Б) Топ-20%, но не топ-5% (хороший, но не прорыв)

2Б. Это ближе к:
   А) Средний (топ-50%)
   Б) Ниже среднего (слабый)

[продолжаем разбивать пополам]

После серии дай итоговую оценку по шкале, основываясь на том, 
в какой бакет попал контент.

Контент:
{твой контент}

Эффект: Binary tree обходит боязнь крайностей. Модель может сказать "ближе к А, чем к Б" на каждом шаге. Серия бинарных выборов → финальная позиция на шкале. Это процесс binary search по quality space.

🔗

Ресурсы

Do LLMs Favor LLMs? Quantifying Interaction Effects in Peer Review

Vibhhu Sharma, Thorsten Joachims, Sarah Dean

Cornell University, January 2025

Статистический метод детекции LLM-текста: Liang et al. (2024) — техника оценки доли α LLM-generated токенов через maximum likelihood на bag-of-words


📋 Дайджест исследования

Ключевая суть

Проблема: Попросил LLM оценить свой питч/код/текст — получил расплывчатое '5-6 из 10, есть плюсы и минусы'. Анализ 125,000+ научных рецензий показал: LLM боится крайних оценок и сжимает шкалу к середине. Слабым работам ставит 4.78 вместо честных 4.15, сильным даёт почти столько же. Это rating compression — боязнь быть резким. Метод позволяет получить честную калибровку качества своего контента через LLM вместо безопасного ухода в середину. Фишка: калибруй модель через процентили (топ-1%, топ-10%) + требуй обеих сторон + дай конкретный baseline. Модель перестаёт hedge-ить ('в целом нормально') и начинает различать качество с конкретными примерами.

Принцип работы

Не давай модели абстрактную шкалу 1-10 — дай референсные точки через процентили. Калибровка работает как якоря: 'топ-1% питчей' = конкретное представление качества, '5 из 10' = размытая середина. Требование найти 2-3 конкретных сильных + 2-3 слабых стороны убирает возможность обтекаемого 'есть плюсы и минусы'. Сравнение с baseline ('средний питч на AngelList' вместо абстрактного 'хороший питч') снимает leniency bias — модель не может просто 'быть доброй', она должна сказать лучше или хуже конкретного уровня. Требование объяснить 'почему 6, а не 7' заставляет обосновать границу вместо hedge.

Почему работает

LLM оптимизирована на безопасность и полезность. Резкая критика выглядит как 'harmful', крайняя похвала — как преувеличение. Проще дать 5-6 с обтекаемым комментарием — это rating compression. Структурированный промпт убирает степени свободы для ухода в середину. Процентили (топ-1%, топ-10%) дают модели конкретные референсы вместо абстрактной шкалы. Требование обеих сторон убирает hedge. Baseline снимает снисходительность — нельзя просто 'быть добрым', нужно сравнить с конкретным уровнем. Обоснование границы ('почему 6, а не 7') заставляет аргументировать. В исследовании human-in-the-loop показал 77.7% совпадения с финальными решениями против 73.8% у LLM-assisted рецензий — человек калибрует шкалу и берёт ответственность за резкую оценку.

Когда применять

Оценка своего контента перед публикацией/отправкой → конкретно для питчей инвесторам, кода перед ревью, статей/постов, сценариев видео, особенно когда нужна честная калибровка качества ('топ-10% или середнячок?'), а не просто 'всё нормально'. НЕ подходит для субъективных/вкусовых критериев ('зайдёт ли этот юмор моей аудитории', 'достаточно ли провокационен заголовок') — там где качество = резонанс с конкретными людьми, LLM даст средненькую оценку. НЕ заменяет человеческое решение — это один data point для калибровки, не истина.

Мини-рецепт

1. Задай роль эксперта с опытом: Ты опытный инвестор, видел 500+ питчей SaaS-стартапов (показывает масштаб для калибровки)
2. Дай шкалу через процентили, не баллы: 9-10 = топ-1% питчей (яркая идея + данные + storytelling), 7-8 = топ-10% (один элемент не дотягивает), 5-6 = средний на рынке (есть дыры), 3-4 = слабый (критичные проблемы), 1-2 = очень слабый (фундаментальные провалы)
3. Требуй обеих сторон: Сначала найди 2-3 конкретных примера СИЛЬНЫХ сторон. Потом 2-3 конкретных примера СЛАБЫХ сторон (убирает hedge)
4. Дай конкретный baseline: Сравни с baseline: средний питч на AngelList (снимает leniency)
5. Требуй обоснование границы: Дай оценку и объясни ПОЧЕМУ именно эта, не соседняя (заставляет аргументировать)

Примеры

[ПЛОХО] : Оцени мой питч SaaS-сервиса по 10-балльной шкале → получишь размытое 'структура хорошая, но не хватает конкретики, 6 из 10' (rating compression в действии)
[ХОРОШО] : Ты опытный инвестор, видел 500+ питчей. Оцени используя калибровку: 9-10 = топ-1% (яркая идея + данные + storytelling), 7-8 = топ-10%, 5-6 = средний, 3-4 = слабый, 1-2 = очень слабый. Найди 2-3 СИЛЬНЫХ примера, потом 2-3 СЛАБЫХ. Сравни с baseline: средний питч на AngelList. Объясни почему оценка X, а не X±1. Вот питч: [текст] → получишь честную калибровку с конкретными примерами обеих сторон и аргументацией границы
Источник: Do LLMs Favor LLMs? Quantifying Interaction Effects in Peer Review
ArXiv ID: 2601.20920 | Сгенерировано: 2026-01-31 09:42

Проблемы LLM

ПроблемаСутьКак обойти
Модель сжимает шкалу оценок к серединеПросишь оценить от 1 до 10. Получаешь 5-6 на всё подряд. Слабому контенту даёт 5. Сильному тоже 5-6. Реально плохому даёт 4. Отличному — 7. Шкала сжимается. Модель боится крайних оценок. Крайняя оценка требует уверенности и обоснования. Проще написать "есть сильные и слабые стороны" и поставить посерединеДай модели калибровку через процентили: "9-10 = топ-1% который ты видел, 7-8 = топ-10%, 5-6 = средний". Добавь конкретный baseline для сравнения: "средний питч на AngelList", "типичный код на GitHub". Требуй найти 2-3 примера сильных сторон И 2-3 слабых — убирает возможность hedge. Проси объяснить "почему 6 а не 7" — заставляет обосновать границу

Методы

МетодСуть
Калибровка оценок через якоря и обязательную критикуВместо "оцени от 1 до 10" дай модели структуру: Шкала через процентили: "9-10 = топ-1%, 7-8 = топ-10%, 5-6 = средний, 3-4 = слабый". Конкретный baseline: "сравни с типичным X на Y" (питч на AngelList, код на GitHub). Требование обеих сторон: "найди 2-3 сильных примера + 2-3 слабых". Обоснование границы: "объясни почему эта оценка, не соседняя". Почему работает: процентили дают референсные точки вместо абстрактных баллов. Baseline снимает "доброту" — модель должна сказать лучше/хуже среднего. Требование обеих сторон убирает возможность написать "в целом нормально". Обоснование границы заставляет аргументировать вместо безопасного ухода в середину. Работает для: оценки текстов, кода, идей, дизайна — любого контента где есть критерии качества. Не работает для: субъективных/вкусовых вещей ("зайдёт ли юмор моей аудитории"), доменов которые модель не знает (узкая B2B-ниша)
📖 Простыми словами

DoLLMsFavorLLMs? Quantifying Interaction Effects in Peer Review

arXiv: 2601.20920

Нейросети в роли судей — это не беспристрастные эксперты, а вежливые конформисты, которые боятся обидеть или перехвалить. Когда LLM просят оценить научную статью или бизнес-проект, она не ищет истину, а пытается попасть в безопасную середину. Проблема в том, что модели обучены быть «полезными и вежливыми», поэтому любая жесткая критика кажется им токсичностью, а восторг — предвзятостью. В итоге мы получаем rating compression: вместо честного разброса от единицы до десятки все оценки кучкуются в районе пятерки.

Это как если бы ты пришел на кулинарное шоу, где судья — очень воспитанный англичанин. Он попробует и пересоленную бурду, и шедевр от шеф-повара, но в обоих случаях скажет: «В этом что-то есть, ставлю пять из десяти». В итоге слабый контент получает незаслуженный бонус, а реально крутые идеи тонут в серости, потому что модель просто боится ставить высокие баллы. Исследование 125 тысяч рецензий подтвердило: там, где человек влепит заслуженную двойку, нейросеть стыдливо нарисует пять.

Цифры говорят сами за себя: человеческие оценки распределены по всей шкале, а LLM-рецензии застревают в лимбе. Если работа откровенно слабая, модель натягивает ей 5 или 6 вместо честных 3 баллов. Если работа гениальна, она все равно получит 6 или 7 вместо 9. Это сжатие шкалы убивает саму суть отбора: когда все «нормально», выбрать лучшее невозможно. Модели лажают в различении качества, превращая процесс оценки в бесконечный поток посредственности.

Этот принцип универсален и касается не только научных конференций. Если ты используешь ChatGPT, чтобы оценить свой питч-дек, статью или код, помни: нейросеть тебе льстит. Она работает как фильтр, который превращает контрастное изображение в серое пятно. Это работает везде, где нужно отделить зерна от плевел — от скоринга резюме до проверки маркетинговых стратегий. Ты можешь думать, что твой текст на 7 из 10, а на самом деле это мусор на троечку, который нейронка просто постеснялась разнести в пух и прах.

Короче: никогда не принимай оценку нейросети за чистую монету, особенно если она средняя. LLM завышают оценки слабому контенту, создавая иллюзию качества там, где его нет. Чтобы получить реальный фидбек, нужно либо выкручивать промпты на максимум критики, либо возвращаться к кожаным мешкам. Иначе ты рискуешь выпустить в мир посредственный продукт, будучи уверенным, что он «вполне ок» по версии алгоритма.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с