3,583 papers
arXiv:2601.18945 74 26 янв. 2026 г. FREE

LLM как оценщики текстов: почему модели угадывают качество, не читая

КЛЮЧЕВАЯ СУТЬ
Парадокс: ChatGPT оценивает академические статьи почти так же точно по одному заголовку, как и после чтения всего текста. Метод позволяет получить быстрый первичный фидбек на любой текст (статья, питч, пост) по заданным критериям за 30 секунд. Фишка: модель не читает глубоко — она ловит поверхностные маркеры качества (структура, академический стиль, упоминание данных). Увидев правильные сигналы, LLM ставит высокую оценку. Корреляция с экспертами умеренная (ρ = 0.39-0.51), но достаточная для санитарной проверки перед отправкой реальному специалисту.
Адаптировать под запрос

TL;DR

LLM умеют предсказывать экспертные оценки текстов с умеренной точностью — ChatGPT-4o и Gemini 2.0 Flash коррелируют с внутренними рецензиями департамента даже когда видят только заголовок и аннотацию. Исследователи дали моделям 58 академических статей и попросили оценить по критериям строгость (rigour), оригинальность (originality) и значимость (significance) — тем же, что используют эксперты в британской системе оценки исследований REF. Корреляция с экспертами оказалась положительной и умеренной (Spearman ρ = 0.39-0.51 для разных моделей).

Главная находка: LLM работают почти так же хорошо с одним только заголовком и аннотацией, как и с полным текстом статьи. Значит модели не оценивают, а угадывают — ловят поверхностные маркеры "хорошей науки" вместо глубокого анализа. Это как определить качество книги по обложке и аннотации — иногда сработает, но это не чтение. Модели распознают паттерны: правильная структура, академический стиль, упоминание методологии, дискуссия ограничений. Встретив эти сигналы, LLM выдаёт высокую оценку, даже не зная сути исследования.

Качество отзывов тоже различается: эксперты пишут конкретно ("обсуждение Old Norse должно упомянуть ambiguous agency в middle voice глаголах"), LLM — шаблонно и обобщённо ("литературный обзор недостаточен", "методология могла бы быть строже"). LLM-отзывы повторяются от запуска к запуску, содержат непрошенные советы по улучшению и демонстрируют отсутствие глубокого знания предметной области. Человеческие рецензии показывают знание контекста поля, LLM-рецензии — знание общих стандартов академического письма.

🔬

Схема метода

ПРОМПТ: Системная инструкция с критериями оценки + "Оцени этот текст" + {текст}

ВЫВОД: 
→ Числовая оценка (обычно 2.5-3.5 по шкале 1-4)
→ Текстовый отзыв с комментариями по каждому критерию

ОСОБЕННОСТЬ: Усреднение 30 запусков даёт более стабильный результат

Один промпт, один запрос — модель сразу выдаёт оценку и отзыв.

🚀

Пример применения

Задача: Ты готовишь питч для инвестора под стартап-идею. Хочешь понять, насколько убедительно выглядит описание — строгая ли аргументация, оригинальна ли идея, значим ли потенциальный эффект.

Промпт:

Оцени этот текст по трём критериям:

1. СТРОГОСТЬ (Rigour): Насколько убедительна аргументация? Есть ли логические дыры? Подкреплены ли утверждения данными или примерами?

2. ОРИГИНАЛЬНОСТЬ (Originality): Насколько свежа идея? Отличается ли подход от существующих решений на рынке?

3. ЗНАЧИМОСТЬ (Significance): Насколько велик потенциальный эффект? Решает ли идея реальную боль пользователей?

Дай оценку по каждому критерию от 1 до 4 (где 4 — максимум) и напиши короткий комментарий.

---

[Текст питча]

Результат:

Модель выдаст три числовые оценки и короткий отзыв по каждому критерию. В отзыве увидишь общие замечания: "аргументация недостаточно подкреплена данными", "идея имеет потенциал, но не хватает конкретики", "значимость высока для целевой аудитории". Не жди глубокого анализа рынка или специфических инсайтов — модель ловит поверхностные сигналы: есть ли структура, звучит ли убедительно, упомянуты ли данные.

🧠

Почему это работает

LLM не умеют оценивать глубину содержания — у них нет embedded knowledge о конкретных статьях, исследованиях, рыночных трендах. Они не знают "это исследование из Nature 2023 года" или "эта идея уже реализована в стартапе X". Модели также не владеют узкоспециализированной экспертизой — не разбираются в Old Norse linguistics или нюансах блокчейн-протоколов глубже, чем поверхностно.

Зато LLM отлично распознают паттерны академического и делового письма — встречали миллионы примеров в обучающих данных. Модель "видит": правильная структура (введение, методы, обсуждение), академический стиль, упоминание ограничений, ссылки на литературу, конкретные примеры, числа и данные. Когда эти маркеры присутствуют, модель уверенно ставит высокую оценку.

Метод работает потому что surface patterns коррелируют с качеством — хорошие тексты чаще содержат чёткую структуру, обоснования, ссылки на данные. Но это корреляция, не причинность. LLM ловит форму, не суть. Поэтому модель работает почти так же хорошо с одним заголовком и аннотацией — там уже видны ключевые слова, стиль, структура. Полный текст добавляет детали, но не меняет общую картину паттернов.

Рычаги управления:

  • Критерии оценки — замени rigour/originality/significance на свои: практичность, креативность, риски. Модель адаптирует отзыв под новые критерии.

  • Шкала оценки — вместо 1-4 используй 1-10 или процентили (топ-10%, топ-25%). Модель склонна кучковаться вокруг 3 из 4 — расширенная шкала может дать больше разброса.

  • Специфичность запроса — добавь "укажи конкретные примеры из текста" или "сравни с лучшими практиками в [область]". Это заставит модель копаться глубже, хотя всё равно не даст экспертного уровня.

  • Множественные прогоны — запусти 3-5 раз и усредни оценки. Исследование показало: усреднение 30 запусков даёт стабильный результат. Для бытового использования хватит 3-5 — поймаешь вариативность без лишних затрат токенов.

📋

Шаблон промпта

Оцени этот {тип_текста} по следующим критериям:

1. {КРИТЕРИЙ_1}: {описание что оцениваем}

2. {КРИТЕРИЙ_2}: {описание что оцениваем}

3. {КРИТЕРИЙ_3}: {описание что оцениваем}

Для каждого критерия:
- Дай оценку от 1 до 4 (где 1 = слабо, 4 = отлично)
- Напиши короткий комментарий с конкретными примерами из текста

---

{полный_текст_или_краткое_описание}

Подставь: - {тип_текста} — статья, питч, бизнес-план, пост, письмо клиенту - {КРИТЕРИЙ_1/2/3} — критерии под твою задачу. Примеры: строгость аргументации, оригинальность идеи, практичность решения, ясность изложения, убедительность для аудитории - {описание} — что конкретно хочешь оценить в этом критерии - {текст} — можешь дать полный текст или только ключевые части (title + intro + выводы). Исследование показало: модель работает почти так же хорошо с кратким вариантом

Для множественных оценок (если нужна точность):

После первого запуска напиши:

Повтори оценку ещё {N} раз для того же текста. 
В конце покажи усреднённые оценки по каждому критерию.

Модель сгенерирует несколько вариантов и усреднит — это сглаживает случайную вариативность.

⚠️

Ограничения

⚠️ Поверхностная оценка: LLM не читают глубоко — они ловят маркеры "правильного" текста (структура, стиль, ключевые слова), не суть. Модель может поставить высокую оценку тексту с красивыми словами и слабой аргументацией, если форма соблюдена.

⚠️ Отсутствие экспертизы: Модели не владеют глубоким знанием узких областей. Для оценки специализированного контента (научная статья по квантовой физике, техническая документация по криптографии) нужен человек-эксперт — LLM даст только общий фидбек.

⚠️ Шаблонность отзывов: Комментарии LLM повторяются и обобщены ("методология могла бы быть строже", "недостаточно данных"). Эксперты пишут конкретно ("не учтён фактор X", "противоречие с исследованием Y из 2022 года"). Не жди специфических инсайтов от модели.

⚠️ Завышенные оценки: LLM склонны кучковаться вокруг 3 из 4 (или 7-8 из 10). Абсолютные числа почти бесполезны — важен относительный ранг. Если оцениваешь несколько текстов, смотри кто выше/ниже, не на сами баллы.

⚠️ Title/abstract достаточно: Модель работает почти так же хорошо с одним заголовком и аннотацией, как и с полным текстом. Это подтверждает: LLM не "читает" глубоко, а сканирует паттерны. Хорошо для быстрой оценки, плохо для глубокого анализа.

🔗

Ресурсы

Large Language Models for Departmental Expert Review Quality Scores

Исследование сравнивало ChatGPT-4o, ChatGPT-4o mini, Gemini 2.0 Flash с внутренними экспертными рецензиями департамента Университета Шеффилда (58 статей из information science). Использовали критерии британской системы Research Excellence Framework (REF): rigour, originality, significance.

Liv Langfeldt, Dag W. Aksnes, Henrik Karlstrøm (Nordic Institute for Studies in Innovation, Research and Education, Норвегия) и Mike Thelwall (University of Sheffield, UK)


📋 Дайджест исследования

Ключевая суть

Парадокс: ChatGPT оценивает академические статьи почти так же точно по одному заголовку, как и после чтения всего текста. Метод позволяет получить быстрый первичный фидбек на любой текст (статья, питч, пост) по заданным критериям за 30 секунд. Фишка: модель не читает глубоко — она ловит поверхностные маркеры качества (структура, академический стиль, упоминание данных). Увидев правильные сигналы, LLM ставит высокую оценку. Корреляция с экспертами умеренная (ρ = 0.39-0.51), но достаточная для санитарной проверки перед отправкой реальному специалисту.

Принцип работы

Модель встречала миллионы примеров хороших текстов в обучающих данных. Теперь распознаёт паттерны: правильная структура (введение → методы → обсуждение), академический стиль, конкретные примеры, числовые данные, упоминание ограничений. Когда эти маркеры присутствуют — модель уверенно ставит высокую оценку, даже не зная сути. Это объясняет почему заголовок + аннотация работают почти так же как полный текст — ключевые сигналы видны уже там.

Почему работает

Поверхностные паттерны коррелируют с качеством — хорошие тексты чаще содержат чёткую структуру, обоснования, ссылки на данные. Но это корреляция, не причинность. LLM ловит форму, не суть — поэтому может поставить высокую оценку тексту с красивыми словами и слабой аргументацией. В исследовании модели показали умеренную корреляцию с экспертами (Spearman ρ = 0.39-0.51 для разных критериев), но работали почти одинаково с полным текстом и одним заголовком — это прямое доказательство поверхностности оценки.

Когда применять

Быстрая первичная оценка → конкретно для текстов где важна форма и структура (статьи, питчи, посты, документы), особенно когда нужен фидбек ДО отправки реальному эксперту. НЕ подходит для финальной экспертной оценки — модель даст шаблонные комментарии без глубокого анализа содержания.

Мини-рецепт

1. Задай критерии оценки: Строгость аргументации, оригинальность идеи, значимость эффекта (или свои критерии под задачу)
2. Опиши каждый критерий: Что конкретно оцениваешь — логические дыры? свежесть подхода? потенциальный эффект?
3. Дай шкалу: От 1 до 4 (или 1-10 для большего разброса)
4. Подставь текст: Можешь дать полный текст или только заголовок + аннотацию — разница минимальна
5. Для точности: Запусти 3-5 раз и усредни оценки — это сглаживает случайную вариативность

Примеры

[ПЛОХО] : Оцени качество моей статьи — модель не знает по каким критериям оценивать, выдаст общие слова
[ХОРОШО] : Оцени этот питч по трём критериям: 1) Строгость аргументации (есть ли логические дыры? подкреплены ли утверждения данными?), 2) Оригинальность идеи (отличается ли от существующих решений?), 3) Значимость эффекта (решает ли реальную боль?). Дай оценку от 1 до 4 по каждому критерию и короткий комментарий. [Текст питча] — модель даст структурированный фидбек с числовыми оценками и конкретными замечаниями по каждому критерию
Источник: Large Language Models for Departmental Expert Review Quality Scores
ArXiv ID: 2601.18945 | Сгенерировано: 2026-01-28 05:35

Тезисы

ТезисКомментарий
Для поверхностной оценки текста достаточно краткой версииКогда модель оценивает качество текста (структура, стиль, аргументация), полный текст даёт почти ту же точность что и короткая версия (заголовок + аннотация + ключевые части). Модель не читает глубоко — ловит маркеры "правильного" текста: есть ли структура, академический стиль, упоминание данных. Эти сигналы видны уже в кратком описании. Механика: Surface patterns (форма текста) коррелируют с качеством, но не равны ему. LLM распознаёт паттерны, не суть. Применяй: Если нужна быстрая оценка своего текста перед отправкой, дай модели краткую версию вместо полной — сэкономишь токены без потери точности фидбека. Но помни: оценка будет поверхностной, финальную проверку делай через эксперта
📖 Простыми словами

LargeLanguageModelsfor Departmental Expert Review Quality Scores

arXiv: 2601.18945

Суть в том, что современные нейронки научились работать имитаторами экспертного мнения, даже не вникая в суть вопроса. Исследователи скормили ChatGPT-4o и Gemini 2.0 академические статьи и попросили оценить их по критериям британской системы REF: строгость, оригинальность и значимость. Оказалось, что модели выдают оценки, которые подозрительно похожи на вердикты живых профессоров. Причем нейронке даже не нужно читать весь талмуд — ей достаточно заголовка и аннотации, чтобы понять, «взлетит» работа или это проходной мусор.

Это как если бы ты пришел на кастинг в рок-группу, а продюсер оценил твой талант еще до того, как ты расчехлил гитару — просто по тому, как ты зашел в комнату и как держишь инструмент. Вроде бы поверхностно, но опытный глаз (или обученная на миллионах текстов модель) сразу видит структуру и уверенность подачи. Нейронка не понимает глубинных смыслов, но она отлично считывает «запах» качественного контента, отличая серьезную работу от графомании.

В цифрах это выглядит так: корреляция с живыми экспертами составила 0.39–0.51 по Спирмену. Это не идеальное попадание, но вполне уверенная умеренная точность. Главный прикол в том, что модели вообще не обладают узкой экспертизой в лингвистике или квантовой физике. Они работают как детекторы формы: если текст написан логично, аргументированно и по канонам топовых изданий, AI ставит лайк. Модель лажает в деталях, но общую «температуру по больнице» определяет безошибочно.

Принцип универсален и выходит далеко за рамки науки. Эту же логику можно применить к бизнес-питчам, лендингам или сценариям. Если нейронка говорит, что твое описание стартапа выглядит неубедительно, значит, ты где-то накосячил в логике или подаче. Тестировали на статьях, но механика оценки качества везде одинаковая: AI ищет признаки «взрослого» и структурированного текста. Это идеальный инструмент для первичного фильтра, когда нужно отсеять откровенный шлак еще на этапе черновика.

Короче, не надейся, что AI заменит тебе профильного эксперта с 30-летним стажем, но используй его как тренажер для самопроверки. Если ChatGPT ставит твоему тексту низкий балл по оригинальности, значит, ты звучишь как типичный инфоцыган. Корреляция 0.5 — это достаточно, чтобы понять: твой текст либо похож на золото, либо на кучу мусора. Используй это как дешевый и быстрый аудит, прежде чем позориться перед живыми людьми.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с