TL;DR
Когда просишь LLM оценить текст, идею или план — она системно смещается в сторону поверхностного анализа: много резюмирует, хвалит за ясность изложения, но уходит от глубоких вопросов. Новизна идеи, крепость логики, воспроизводимость результатов, сравнение с альтернативами — эти измерения модель пропускает не случайно, а предсказуемо.
Авторы проанализировали ~188 000 рецензий с конференций ICLR и NeurIPS с 2016 по 2025 год. Рецензии, написанные с помощью LLM, стали длиннее и грамотнее — но сдвинулись в сторону пересказа и комментариев к «поверхностной ясности». Внимание к оригинальности, воспроизводимости и глубокой критической аргументации при этом упало. То есть текст выглядит более профессионально, но говорит о менее важном.
Исправляется это прямым указанием нужных измерений в промпте. Вместо «оцени мой текст» — «оцени по восьми критериям: резюме, мотивация, оригинальность, логика, содержательность, воспроизводимость, сравнение с альтернативами, ясность». Модель не пропустит их, только если они явно названы.
Схема метода
Два варианта — в зависимости от глубины нужного анализа:
ВАРИАНТ 1 — Один промпт с явным списком критериев:
ШАГ 1: Перечислить все 8 критериев оценки в промпте
→ Модель проходит по каждому, не пропуская неудобные
ШАГ 2: Указать приоритетные критерии (те, что LLM обычно пропускает)
→ Углублённый разбор по нужным измерениям
ВАРИАНТ 2 — Два отдельных запроса:
ШАГ 1: "Дай беглую оценку {текст}"
→ Смотришь, что модель выбрала сама (предсказуемо: резюме + ясность)
ШАГ 2: "Теперь оцени специально по тем критериям, которые пропустил:
оригинальность, воспроизводимость, логика, сравнение с альтернативами"
→ Получаешь то, что без явного запроса было бы упущено
Оба варианта работают в обычном чате без дополнительных инструментов.
Пример применения
Задача: Ты написал лонгрид на VC.ru про то, почему стартапы в России не взлетают из-за проблем с unit-экономикой. Хочешь получить честную редакторскую оценку — не просто «хорошо написано», а именно: стоит ли публиковать, есть ли дыры в аргументах, чего не хватает.
Промпт:
Ты — строгий редактор VC.ru. Оцени мою статью по восьми критериям.
Для каждого критерия дай отдельную оценку и 2–3 конкретных наблюдения.
Критерии:
1. Резюме — точно ли я передал суть проблемы?
2. Мотивация — убедительно ли обосновал, почему это важно читателю?
3. Оригинальность — есть ли здесь что-то новое, или это пережёвывание известного?
4. Логика — крепкие ли аргументы, нет ли противоречий и подмены понятий?
5. Содержательность — достаточно ли глубоко раскрыта тема?
6. Воспроизводимость — могут ли читатели проверить мои утверждения или применить мои выводы?
7. Сравнение с альтернативами — рассмотрел ли я другие объяснения проблемы?
8. Ясность — насколько понятно и структурировано изложено?
После оценки по каждому критерию дай общий вывод: публиковать сейчас или доработать?
Что именно доработать — конкретно, без общих слов.
Текст статьи:
[вставь текст]
Результат: Модель пройдёт по всем восьми пунктам последовательно. По каждому — короткий вердикт и конкретные наблюдения. Критерии, которые модель обычно пропускает (особенно оригинальность и сравнение с альтернативами), теперь обязательно будут в ответе. В конце — итоговая рекомендация с конкретным списком правок.
Почему это работает
LLM обучена быть полезной — и это её ловушка. Когда задача звучит как «оцени текст», модель выбирает то, что выглядит как помощь: пересказывает содержание (показывает, что поняла) и комментирует ясность (самый очевидный, видимый критерий). Это не баг, это паттерн — она движется по пути наименьшего сопротивления.
Глубокая оценка требует явного «толчка». Оригинальность — означает знать контекст поля и сравнивать. Логика — значит искать противоречия, а не просто соглашаться. Воспроизводимость — означает задать неудобный вопрос: а можно ли это проверить? Без прямого указания модель эти вопросы системно пропускает. С указанием — берёт и раскрывает.
Рычаги управления: - Добавь или убери критерии — если оцениваешь стартап-питч, добавь «защита от конкурентов» и «реалистичность прогнозов»; убери «воспроизводимость» - Укажи роль — «строгий инвестор», «главред», «скептичный коллега» — острее выполнение роли, конкретнее критика - Попроси пронумеровать слабые места от самого критичного к менее критичному — получишь приоритизированный список правок - Задай тон — «будь безжалостен» или «работаем на доработку, не на разгром» — управляет тем, как модель формулирует критику
Шаблон промпта
Ты — {роль: редактор / инвестор / критик / коллега-эксперт}.
Оцени {что оцениваем: текст / идею / план / стратегию} по следующим критериям.
По каждому — отдельный абзац с конкретными наблюдениями, без общих слов.
Критерии оценки:
1. Резюме — точно ли передана суть?
2. Мотивация — убедительно ли обоснована важность?
3. Оригинальность — есть ли что-то новое, или это известное?
4. Логика и обоснованность — крепкие ли аргументы, нет ли противоречий?
5. Содержательность — достаточно ли глубоко раскрыто?
6. Воспроизводимость — можно ли проверить утверждения или повторить результат?
7. Сравнение с альтернативами — рассмотрены ли другие подходы / объяснения?
8. Ясность — насколько понятно изложено?
{Дополнительный акцент, если нужен: "Особенно подробно — по критериям 3, 4 и 7."}
В конце: итоговый вывод и список конкретных правок по приоритету.
{Материал для оценки}:
[вставь текст / идею / план]
Что подставлять:
- {роль} — кем должна выступать модель: «строгий редактор», «венчурный инвестор», «скептичный читатель»
- {что оцениваем} — текст статьи, бизнес-идея, стратегия, питч, сценарий
- {Дополнительный акцент} — если хочешь сделать упор на конкретных критериях — укажи их номера
🚀 Быстрый старт — вставь в чат:
Вот шаблон для глубокой оценки текста / идеи / плана через 8 критериев.
Адаптируй под мою задачу: [опиши что хочешь оценить].
Задавай вопросы, чтобы заполнить нужные поля.
[вставить шаблон выше]
LLM спросит роль и материал для оценки — потому что без них она не знает, с позиции кого критиковать и что именно оценивать.
Ограничения
⚠️ Субъективные суждения: Критерии «оригинальность» и «сравнение с альтернативами» требуют знания контекста. Если модель не знает поле (например, нишевый рынок), оценка по этим пунктам будет поверхностной — даже если явно запрошена.
⚠️ Уверенность ≠ точность: Исследование показало, что больше всего LLM влияет на рецензии менее уверенных в теме проверяющих. Похоже работает и в обратную сторону: модель будет звучать уверенно даже там, где у неё нет реальной экспертизы. Глубокую оценку в узкой теме — верифицируй отдельно.
⚠️ Только ICLR и NeurIPS: Исследование анализировало академические рецензии в сфере AI. Закономерности применяются шире, но формальных данных по другим жанрам нет.
⚠️ Длина не равна глубине: После добавления явных критериев модель выдаст более длинный ответ. Это не гарантия глубины — только структура. Проверяй, чтобы ответ содержал конкретику, а не расширенное резюмирование под новыми подзаголовками.
Ресурсы
Статья: Impact of large language models on peer review opinions from a fine-grained perspective: Evidence from top conference proceedings in AI
Авторы: Wenqing Wu, Chengzhi Zhang, Yi Zhao, Tong Bao — Nanjing University of Science and Technology; Anhui University
Датасет и код: github.com/njust-winchy/LLM_impact
Данные рецензий: openreview.net
Методология аспектной разметки: Yuan et al., ASAP-Review — ReviewAdvisor Annotation Guidelines
