3,583 papers
arXiv:2604.19578 76 21 апр. 2026 г. FREE

LLM-уклон в оценке: модели уходят в резюме и поверхностную критику, пропуская глубину

КЛЮЧЕВАЯ СУТЬ
188 тысяч рецензий с ICLR и NeurIPS доказали: когда просишь LLM «оцени текст» — получаешь красиво написанный пересказ. Это не случайность, это предсказуемый уклон. Модель системно пропускает оригинальность, логику, воспроизводимость и сравнение с альтернативами — не потому что не умеет, а потому что не спросили. Метод явного перечисления критериев позволяет получить реальный разбор вместо грамотно оформленного резюме — достаточно один раз написать список в промпте, и у модели не останется пути для уклонения.
Адаптировать под запрос

TL;DR

Когда просишь LLM оценить текст, идею или план — она системно смещается в сторону поверхностного анализа: много резюмирует, хвалит за ясность изложения, но уходит от глубоких вопросов. Новизна идеи, крепость логики, воспроизводимость результатов, сравнение с альтернативами — эти измерения модель пропускает не случайно, а предсказуемо.

Авторы проанализировали ~188 000 рецензий с конференций ICLR и NeurIPS с 2016 по 2025 год. Рецензии, написанные с помощью LLM, стали длиннее и грамотнее — но сдвинулись в сторону пересказа и комментариев к «поверхностной ясности». Внимание к оригинальности, воспроизводимости и глубокой критической аргументации при этом упало. То есть текст выглядит более профессионально, но говорит о менее важном.

Исправляется это прямым указанием нужных измерений в промпте. Вместо «оцени мой текст» — «оцени по восьми критериям: резюме, мотивация, оригинальность, логика, содержательность, воспроизводимость, сравнение с альтернативами, ясность». Модель не пропустит их, только если они явно названы.


🔬

Схема метода

Два варианта — в зависимости от глубины нужного анализа:

ВАРИАНТ 1 — Один промпт с явным списком критериев:

ШАГ 1: Перечислить все 8 критериев оценки в промпте
         → Модель проходит по каждому, не пропуская неудобные
ШАГ 2: Указать приоритетные критерии (те, что LLM обычно пропускает)
         → Углублённый разбор по нужным измерениям
ВАРИАНТ 2 — Два отдельных запроса:

ШАГ 1: "Дай беглую оценку {текст}"
         → Смотришь, что модель выбрала сама (предсказуемо: резюме + ясность)

ШАГ 2: "Теперь оцени специально по тем критериям, которые пропустил:
         оригинальность, воспроизводимость, логика, сравнение с альтернативами"
         → Получаешь то, что без явного запроса было бы упущено

Оба варианта работают в обычном чате без дополнительных инструментов.


🚀

Пример применения

Задача: Ты написал лонгрид на VC.ru про то, почему стартапы в России не взлетают из-за проблем с unit-экономикой. Хочешь получить честную редакторскую оценку — не просто «хорошо написано», а именно: стоит ли публиковать, есть ли дыры в аргументах, чего не хватает.

Промпт:

Ты — строгий редактор VC.ru. Оцени мою статью по восьми критериям.
Для каждого критерия дай отдельную оценку и 2–3 конкретных наблюдения.

Критерии:
1. Резюме — точно ли я передал суть проблемы?
2. Мотивация — убедительно ли обосновал, почему это важно читателю?
3. Оригинальность — есть ли здесь что-то новое, или это пережёвывание известного?
4. Логика — крепкие ли аргументы, нет ли противоречий и подмены понятий?
5. Содержательность — достаточно ли глубоко раскрыта тема?
6. Воспроизводимость — могут ли читатели проверить мои утверждения или применить мои выводы?
7. Сравнение с альтернативами — рассмотрел ли я другие объяснения проблемы?
8. Ясность — насколько понятно и структурировано изложено?

После оценки по каждому критерию дай общий вывод: публиковать сейчас или доработать?
Что именно доработать — конкретно, без общих слов.

Текст статьи:
[вставь текст]

Результат: Модель пройдёт по всем восьми пунктам последовательно. По каждому — короткий вердикт и конкретные наблюдения. Критерии, которые модель обычно пропускает (особенно оригинальность и сравнение с альтернативами), теперь обязательно будут в ответе. В конце — итоговая рекомендация с конкретным списком правок.


🧠

Почему это работает

LLM обучена быть полезной — и это её ловушка. Когда задача звучит как «оцени текст», модель выбирает то, что выглядит как помощь: пересказывает содержание (показывает, что поняла) и комментирует ясность (самый очевидный, видимый критерий). Это не баг, это паттерн — она движется по пути наименьшего сопротивления.

Глубокая оценка требует явного «толчка». Оригинальность — означает знать контекст поля и сравнивать. Логика — значит искать противоречия, а не просто соглашаться. Воспроизводимость — означает задать неудобный вопрос: а можно ли это проверить? Без прямого указания модель эти вопросы системно пропускает. С указанием — берёт и раскрывает.

Рычаги управления: - Добавь или убери критерии — если оцениваешь стартап-питч, добавь «защита от конкурентов» и «реалистичность прогнозов»; убери «воспроизводимость» - Укажи роль — «строгий инвестор», «главред», «скептичный коллега» — острее выполнение роли, конкретнее критика - Попроси пронумеровать слабые места от самого критичного к менее критичному — получишь приоритизированный список правок - Задай тон — «будь безжалостен» или «работаем на доработку, не на разгром» — управляет тем, как модель формулирует критику


📋

Шаблон промпта

Ты — {роль: редактор / инвестор / критик / коллега-эксперт}.

Оцени {что оцениваем: текст / идею / план / стратегию} по следующим критериям.
По каждому — отдельный абзац с конкретными наблюдениями, без общих слов.

Критерии оценки:
1. Резюме — точно ли передана суть?
2. Мотивация — убедительно ли обоснована важность?
3. Оригинальность — есть ли что-то новое, или это известное?
4. Логика и обоснованность — крепкие ли аргументы, нет ли противоречий?
5. Содержательность — достаточно ли глубоко раскрыто?
6. Воспроизводимость — можно ли проверить утверждения или повторить результат?
7. Сравнение с альтернативами — рассмотрены ли другие подходы / объяснения?
8. Ясность — насколько понятно изложено?

{Дополнительный акцент, если нужен: "Особенно подробно — по критериям 3, 4 и 7."}

В конце: итоговый вывод и список конкретных правок по приоритету.

{Материал для оценки}:
[вставь текст / идею / план]

Что подставлять: - {роль} — кем должна выступать модель: «строгий редактор», «венчурный инвестор», «скептичный читатель» - {что оцениваем} — текст статьи, бизнес-идея, стратегия, питч, сценарий - {Дополнительный акцент} — если хочешь сделать упор на конкретных критериях — укажи их номера


🚀 Быстрый старт — вставь в чат:

Вот шаблон для глубокой оценки текста / идеи / плана через 8 критериев.
Адаптируй под мою задачу: [опиши что хочешь оценить].
Задавай вопросы, чтобы заполнить нужные поля.

[вставить шаблон выше]

LLM спросит роль и материал для оценки — потому что без них она не знает, с позиции кого критиковать и что именно оценивать.


⚠️

Ограничения

⚠️ Субъективные суждения: Критерии «оригинальность» и «сравнение с альтернативами» требуют знания контекста. Если модель не знает поле (например, нишевый рынок), оценка по этим пунктам будет поверхностной — даже если явно запрошена.

⚠️ Уверенность ≠ точность: Исследование показало, что больше всего LLM влияет на рецензии менее уверенных в теме проверяющих. Похоже работает и в обратную сторону: модель будет звучать уверенно даже там, где у неё нет реальной экспертизы. Глубокую оценку в узкой теме — верифицируй отдельно.

⚠️ Только ICLR и NeurIPS: Исследование анализировало академические рецензии в сфере AI. Закономерности применяются шире, но формальных данных по другим жанрам нет.

⚠️ Длина не равна глубине: После добавления явных критериев модель выдаст более длинный ответ. Это не гарантия глубины — только структура. Проверяй, чтобы ответ содержал конкретику, а не расширенное резюмирование под новыми подзаголовками.


🔗

Ресурсы

Статья: Impact of large language models on peer review opinions from a fine-grained perspective: Evidence from top conference proceedings in AI

Авторы: Wenqing Wu, Chengzhi Zhang, Yi Zhao, Tong Bao — Nanjing University of Science and Technology; Anhui University

Датасет и код: github.com/njust-winchy/LLM_impact

Данные рецензий: openreview.net

Методология аспектной разметки: Yuan et al., ASAP-Review — ReviewAdvisor Annotation Guidelines


📋 Дайджест исследования

Ключевая суть

188 тысяч рецензий с ICLR и NeurIPS доказали: когда просишь LLM «оцени текст» — получаешь красиво написанный пересказ. Это не случайность, это предсказуемый уклон. Модель системно пропускает оригинальность, логику, воспроизводимость и сравнение с альтернативами — не потому что не умеет, а потому что не спросили. Метод явного перечисления критериев позволяет получить реальный разбор вместо грамотно оформленного резюме — достаточно один раз написать список в промпте, и у модели не останется пути для уклонения.

Принцип работы

Без списка модель движется по пути наименьшего сопротивления. Пересказать содержание — показывает, что поняла. Похвалить ясность — самый видимый и безопасный критерий. Оригинальность требует знания контекста. Логика — поиска противоречий. Воспроизводимость — неудобного вопроса «а проверить это вообще можно?». Модель не задаёт неудобных вопросов сама — только если обязать явно. Перечисли критерии в промпте как пронумерованный список — и каждый станет обязательным пунктом ответа, который нельзя проигнорировать.

Почему работает

LLM обучена быть полезной — и это её ловушка. Полезность выглядит как «я поняла текст» (пересказ) плюс «хорошо написано» (самое очевидное). Рецензии с LLM в исследовании стали длиннее и грамотнее — но реже затрагивали оригинальность и воспроизводимость. Жесть в том, что уклон предсказуемый: одни и те же категории пропускаются раз за разом, а не случайно. Явный список критериев меняет это: модель обязана дать ответ по каждому пункту — и не может подменить «оригинальность» очередным комментарием про структуру.

Когда применять

Любая оценка через LLM — статьи, бизнес-идеи, стратегии, питчи, учебные работы, сценарии. Особенно когда нужна честная обратная связь, а не поддержка. Особенно когда есть подозрение, что текст «выглядит хорошо, но что-то не так» — модель без критериев это не поймает. НЕ подходит для узких нишевых тем без широкой публичной базы знаний: оригинальность в специфичном рынке или редкой технической теме модель оценит поверхностно даже при явном запросе — здесь нужна живая экспертиза.

Мини-рецепт

1. Задай роль: <роль>строгий редактор / венчурный инвестор / скептичный коллега — чем острее роль, тем конкретнее критика.
2. Перечисли критерии явно: все 8 пронумерованным списком — резюме, мотивация, оригинальность, логика, содержательность, воспроизводимость, сравнение с альтернативами, ясность. Без номера — нет обязательства отвечать.
3. Сделай акцент на слабых местах модели: добавь строку «Особенно подробно — по критериям 3, 4 и 7». Это те самые пункты, которые модель пропускает по умолчанию.
4. Попроси итог с приоритетами: «В конце — вывод и список правок от самого критичного к менее важному». Без этого модель выдаст равновесный список без иерархии — и непонятно, с чего начинать.

Примеры

[ПЛОХО] : Оцени мою статью про юнит-экономику стартапов
[ХОРОШО] : Ты — строгий редактор VC.ru. Оцени статью по 8 критериям. По каждому — отдельный абзац с конкретными наблюдениями, без общих слов. 1. Резюме — точно ли передана суть? 2. Мотивация — убедительно ли обоснована важность для читателя? 3. Оригинальность — есть ли что-то новое, или это пережёвывание известного? 4. Логика — крепкие ли аргументы, нет ли противоречий? 5. Содержательность — достаточно ли глубоко раскрыта тема? 6. Воспроизводимость — могут ли читатели проверить мои утверждения? 7. Сравнение с альтернативами — рассмотрел ли я другие объяснения проблемы? 8. Ясность — насколько понятно изложено? Особенно подробно — по критериям 3, 4 и 7. В конце: итоговый вывод и список правок от самого критичного к менее важному. [текст статьи]
Источник: Impact of large language models on peer review opinions from a fine-grained perspective: Evidence from top conference proceedings in AI
ArXiv ID: 2604.19578 | Сгенерировано: 2026-04-22 06:25

Проблемы LLM

ПроблемаСутьКак обойти
Модель оценивает поверхностно по умолчаниюПросишь оценить текст, идею или план. Модель пересказывает суть и хвалит за ясность изложения. Глубокие вопросы пропускает: новая ли идея? крепкие ли аргументы? можно ли проверить результаты? рассмотрены ли альтернативы? Это не случайность. Это предсказуемый уклон — воспроизводится каждый раз без явного запросаНазови нужные критерии прямо в запросе. Не "оцени текст", а "оцени по восьми критериям: резюме, мотивация, оригинальность, логика, содержательность, воспроизводимость, сравнение с альтернативами, ясность". Без названия — критерий будет пропущен

Методы

МетодСуть
Явный список критериев оценки — принудительное покрытиеПеречисли все нужные критерии в запросе через нумерованный список. По каждому попроси отдельный абзац с конкретными наблюдениями. Почему работает: модель не может пропустить названный пункт. Без списка она выбирает сама — и выбирает самое простое. Со списком вынуждена пройти по каждому. Акцент: добавь "особенно подробно по критериям 3 и 4" — если нужны конкретные измерения глубже. Шаблон: Ты — {роль}. Оцени {что} по критериям: 1. Резюме 2. Мотивация 3. Оригинальность 4. Логика 5. Содержательность 6. Воспроизводимость 7. Сравнение с альтернативами 8. Ясность. По каждому — отдельный абзац. В конце — список правок по приоритету. Работает: для любого оцениваемого материала — текст, идея, план, стратегия, питч. Не работает: оценка оригинальности в узкой теме без экспертизы модели — звучит уверенно, но может быть пустой
📖 Простыми словами

Impact oflargelanguagemodelson peer review opinions from a fine-grained perspective: Evidence from top conference proceedings inAI

arXiv: 2604.19578

Когда ты просишь нейронку оценить твой проект или статью, она работает не как суровый критик, а как вежливый стажер-первокурсник. Фундаментальная механика тут простая: LLM системно смещается в сторону поверхностного анализа. Вместо того чтобы копать вглубь, модель цепляется за форму — хвалит за «ясность изложения» и «структурированность», но в упор не видит дыр в логике или вторичности идей. Это происходит потому, что нейронка обучена быть максимально полезной и приятной, а самый простой способ казаться умным помощником — это пересказать твой же текст и сказать, что он легко читается.

Это как если бы ты принес чертеж вечного двигателя опытному инженеру, а он вместо того, чтобы ткнуть тебя носом в нарушение законов термодинамики, начал хвалить красивый шрифт в заголовке и ровные линии. Формально он изучил документ, но по факту — проигнорировал суть. Модель идет по пути наименьшего сопротивления: оценить «понятность» текста технически проще, чем проверить, не несешь ли ты полную чушь в расчетах или аргументации.

Исследователи выделили конкретный паттерн: в 10 из 15 случаев нейронка забивает на критические параметры. Она пропускает новизну идеи, воспроизводимость результатов и сравнение с альтернативами. Вместо жесткого разбора ты получаешь бесполезный одобрямс. Если в твоем плане стартапа есть фатальная ошибка в юнит-экономике, LLM, скорее всего, просто отметит, что «презентация выглядит профессионально», пока ты летишь в финансовую пропасть.

Этот эффект тестировали на серьезных научных рецензиях, но принцип универсален. Он работает везде: от оценки постов на VC до проверки бизнес-стратегий и кода. Везде, где требуется глубокая экспертиза, нейронка без специальных пинков будет выдавать «воду». Она превращает любую критику в позитивный фидбек, который приятно слышать, но который абсолютно бесполезен для дела, потому что не подсвечивает реальные риски.

Короче: никогда не принимай похвалу от AI за чистую монету — это галлюцинация вежливости. Если хочешь реальной пользы, не спрашивай «как тебе текст», а заставляй модель искать конкретные косяки, противоречия и слабые места. Иначе ты останешься с идеально оформленным, но совершенно нежизнеспособным продуктом, пока конкуренты будут делать ставку на суть, а не на «ясность изложения».

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с