TL;DR
LLM умеют предсказывать экспертные оценки текстов с умеренной точностью — ChatGPT-4o и Gemini 2.0 Flash коррелируют с внутренними рецензиями департамента даже когда видят только заголовок и аннотацию. Исследователи дали моделям 58 академических статей и попросили оценить по критериям строгость (rigour), оригинальность (originality) и значимость (significance) — тем же, что используют эксперты в британской системе оценки исследований REF. Корреляция с экспертами оказалась положительной и умеренной (Spearman ρ = 0.39-0.51 для разных моделей).
Главная находка: LLM работают почти так же хорошо с одним только заголовком и аннотацией, как и с полным текстом статьи. Значит модели не оценивают, а угадывают — ловят поверхностные маркеры "хорошей науки" вместо глубокого анализа. Это как определить качество книги по обложке и аннотации — иногда сработает, но это не чтение. Модели распознают паттерны: правильная структура, академический стиль, упоминание методологии, дискуссия ограничений. Встретив эти сигналы, LLM выдаёт высокую оценку, даже не зная сути исследования.
Качество отзывов тоже различается: эксперты пишут конкретно ("обсуждение Old Norse должно упомянуть ambiguous agency в middle voice глаголах"), LLM — шаблонно и обобщённо ("литературный обзор недостаточен", "методология могла бы быть строже"). LLM-отзывы повторяются от запуска к запуску, содержат непрошенные советы по улучшению и демонстрируют отсутствие глубокого знания предметной области. Человеческие рецензии показывают знание контекста поля, LLM-рецензии — знание общих стандартов академического письма.
Схема метода
ПРОМПТ: Системная инструкция с критериями оценки + "Оцени этот текст" + {текст}
ВЫВОД:
→ Числовая оценка (обычно 2.5-3.5 по шкале 1-4)
→ Текстовый отзыв с комментариями по каждому критерию
ОСОБЕННОСТЬ: Усреднение 30 запусков даёт более стабильный результат
Один промпт, один запрос — модель сразу выдаёт оценку и отзыв.
Пример применения
Задача: Ты готовишь питч для инвестора под стартап-идею. Хочешь понять, насколько убедительно выглядит описание — строгая ли аргументация, оригинальна ли идея, значим ли потенциальный эффект.
Промпт:
Оцени этот текст по трём критериям:
1. СТРОГОСТЬ (Rigour): Насколько убедительна аргументация? Есть ли логические дыры? Подкреплены ли утверждения данными или примерами?
2. ОРИГИНАЛЬНОСТЬ (Originality): Насколько свежа идея? Отличается ли подход от существующих решений на рынке?
3. ЗНАЧИМОСТЬ (Significance): Насколько велик потенциальный эффект? Решает ли идея реальную боль пользователей?
Дай оценку по каждому критерию от 1 до 4 (где 4 — максимум) и напиши короткий комментарий.
---
[Текст питча]
Результат:
Модель выдаст три числовые оценки и короткий отзыв по каждому критерию. В отзыве увидишь общие замечания: "аргументация недостаточно подкреплена данными", "идея имеет потенциал, но не хватает конкретики", "значимость высока для целевой аудитории". Не жди глубокого анализа рынка или специфических инсайтов — модель ловит поверхностные сигналы: есть ли структура, звучит ли убедительно, упомянуты ли данные.
Почему это работает
LLM не умеют оценивать глубину содержания — у них нет embedded knowledge о конкретных статьях, исследованиях, рыночных трендах. Они не знают "это исследование из Nature 2023 года" или "эта идея уже реализована в стартапе X". Модели также не владеют узкоспециализированной экспертизой — не разбираются в Old Norse linguistics или нюансах блокчейн-протоколов глубже, чем поверхностно.
Зато LLM отлично распознают паттерны академического и делового письма — встречали миллионы примеров в обучающих данных. Модель "видит": правильная структура (введение, методы, обсуждение), академический стиль, упоминание ограничений, ссылки на литературу, конкретные примеры, числа и данные. Когда эти маркеры присутствуют, модель уверенно ставит высокую оценку.
Метод работает потому что surface patterns коррелируют с качеством — хорошие тексты чаще содержат чёткую структуру, обоснования, ссылки на данные. Но это корреляция, не причинность. LLM ловит форму, не суть. Поэтому модель работает почти так же хорошо с одним заголовком и аннотацией — там уже видны ключевые слова, стиль, структура. Полный текст добавляет детали, но не меняет общую картину паттернов.
Рычаги управления:
Критерии оценки — замени rigour/originality/significance на свои: практичность, креативность, риски. Модель адаптирует отзыв под новые критерии.
Шкала оценки — вместо 1-4 используй 1-10 или процентили (топ-10%, топ-25%). Модель склонна кучковаться вокруг 3 из 4 — расширенная шкала может дать больше разброса.
Специфичность запроса — добавь "укажи конкретные примеры из текста" или "сравни с лучшими практиками в [область]". Это заставит модель копаться глубже, хотя всё равно не даст экспертного уровня.
Множественные прогоны — запусти 3-5 раз и усредни оценки. Исследование показало: усреднение 30 запусков даёт стабильный результат. Для бытового использования хватит 3-5 — поймаешь вариативность без лишних затрат токенов.
Шаблон промпта
Оцени этот {тип_текста} по следующим критериям:
1. {КРИТЕРИЙ_1}: {описание что оцениваем}
2. {КРИТЕРИЙ_2}: {описание что оцениваем}
3. {КРИТЕРИЙ_3}: {описание что оцениваем}
Для каждого критерия:
- Дай оценку от 1 до 4 (где 1 = слабо, 4 = отлично)
- Напиши короткий комментарий с конкретными примерами из текста
---
{полный_текст_или_краткое_описание}
Подставь:
- {тип_текста} — статья, питч, бизнес-план, пост, письмо клиенту
- {КРИТЕРИЙ_1/2/3} — критерии под твою задачу. Примеры: строгость аргументации, оригинальность идеи, практичность решения, ясность изложения, убедительность для аудитории
- {описание} — что конкретно хочешь оценить в этом критерии
- {текст} — можешь дать полный текст или только ключевые части (title + intro + выводы). Исследование показало: модель работает почти так же хорошо с кратким вариантом
Для множественных оценок (если нужна точность):
После первого запуска напиши:
Повтори оценку ещё {N} раз для того же текста.
В конце покажи усреднённые оценки по каждому критерию.
Модель сгенерирует несколько вариантов и усреднит — это сглаживает случайную вариативность.
Ограничения
⚠️ Поверхностная оценка: LLM не читают глубоко — они ловят маркеры "правильного" текста (структура, стиль, ключевые слова), не суть. Модель может поставить высокую оценку тексту с красивыми словами и слабой аргументацией, если форма соблюдена.
⚠️ Отсутствие экспертизы: Модели не владеют глубоким знанием узких областей. Для оценки специализированного контента (научная статья по квантовой физике, техническая документация по криптографии) нужен человек-эксперт — LLM даст только общий фидбек.
⚠️ Шаблонность отзывов: Комментарии LLM повторяются и обобщены ("методология могла бы быть строже", "недостаточно данных"). Эксперты пишут конкретно ("не учтён фактор X", "противоречие с исследованием Y из 2022 года"). Не жди специфических инсайтов от модели.
⚠️ Завышенные оценки: LLM склонны кучковаться вокруг 3 из 4 (или 7-8 из 10). Абсолютные числа почти бесполезны — важен относительный ранг. Если оцениваешь несколько текстов, смотри кто выше/ниже, не на сами баллы.
⚠️ Title/abstract достаточно: Модель работает почти так же хорошо с одним заголовком и аннотацией, как и с полным текстом. Это подтверждает: LLM не "читает" глубоко, а сканирует паттерны. Хорошо для быстрой оценки, плохо для глубокого анализа.
Ресурсы
Large Language Models for Departmental Expert Review Quality Scores
Исследование сравнивало ChatGPT-4o, ChatGPT-4o mini, Gemini 2.0 Flash с внутренними экспертными рецензиями департамента Университета Шеффилда (58 статей из information science). Использовали критерии британской системы Research Excellence Framework (REF): rigour, originality, significance.
Liv Langfeldt, Dag W. Aksnes, Henrik Karlstrøm (Nordic Institute for Studies in Innovation, Research and Education, Норвегия) и Mike Thelwall (University of Sheffield, UK)
