arXiv:2601.18945 74 26 янв. 2026 г. FREE

LLM как оценщики текстов: почему модели угадывают качество, не читая

КЛЮЧЕВАЯ СУТЬ

Парадокс: ChatGPT оценивает академические статьи почти так же точно по одному заголовку, как и после чтения всего текста. Метод позволяет получить быстрый первичный фидбек на любой текст (статья, питч, пост) по заданным критериям за 30 секунд. Фишка: модель не читает глубоко — она ловит поверхностные маркеры качества (структура, академический стиль, упоминание данных). Увидев правильные сигналы, LLM ставит высокую оценку. Корреляция с экспертами умеренная (ρ = 0.39-0.51), но достаточная для санитарной проверки перед отправкой реальному специалисту.

Адаптировать под запрос

⚡

TL;DR

LLM умеют предсказывать экспертные оценки текстов с умеренной точностью — ChatGPT-4o и Gemini 2.0 Flash коррелируют с внутренними рецензиями департамента даже когда видят только заголовок и аннотацию. Исследователи дали моделям 58 академических статей и попросили оценить по критериям строгость (rigour), оригинальность (originality) и значимость (significance) — тем же, что используют эксперты в британской системе оценки исследований REF. Корреляция с экспертами оказалась положительной и умеренной (Spearman ρ = 0.39-0.51 для разных моделей).

Главная находка: LLM работают почти так же хорошо с одним только заголовком и аннотацией, как и с полным текстом статьи. Значит модели не оценивают, а угадывают — ловят поверхностные маркеры "хорошей науки" вместо глубокого анализа. Это как определить качество книги по обложке и аннотации — иногда сработает, но это не чтение. Модели распознают паттерны: правильная структура, академический стиль, упоминание методологии, дискуссия ограничений. Встретив эти сигналы, LLM выдаёт высокую оценку, даже не зная сути исследования.

Качество отзывов тоже различается: эксперты пишут конкретно ("обсуждение Old Norse должно упомянуть ambiguous agency в middle voice глаголах"), LLM — шаблонно и обобщённо ("литературный обзор недостаточен", "методология могла бы быть строже"). LLM-отзывы повторяются от запуска к запуску, содержат непрошенные советы по улучшению и демонстрируют отсутствие глубокого знания предметной области. Человеческие рецензии показывают знание контекста поля, LLM-рецензии — знание общих стандартов академического письма.

🔬

Схема метода

ПРОМПТ: Системная инструкция с критериями оценки + "Оцени этот текст" + {текст}

ВЫВОД: 
→ Числовая оценка (обычно 2.5-3.5 по шкале 1-4)
→ Текстовый отзыв с комментариями по каждому критерию

ОСОБЕННОСТЬ: Усреднение 30 запусков даёт более стабильный результат

Один промпт, один запрос — модель сразу выдаёт оценку и отзыв.

🚀

Пример применения

Задача: Ты готовишь питч для инвестора под стартап-идею. Хочешь понять, насколько убедительно выглядит описание — строгая ли аргументация, оригинальна ли идея, значим ли потенциальный эффект.

Промпт:

Оцени этот текст по трём критериям:

1. СТРОГОСТЬ (Rigour): Насколько убедительна аргументация? Есть ли логические дыры? Подкреплены ли утверждения данными или примерами?

2. ОРИГИНАЛЬНОСТЬ (Originality): Насколько свежа идея? Отличается ли подход от существующих решений на рынке?

3. ЗНАЧИМОСТЬ (Significance): Насколько велик потенциальный эффект? Решает ли идея реальную боль пользователей?

Дай оценку по каждому критерию от 1 до 4 (где 4 — максимум) и напиши короткий комментарий.

---

[Текст питча]

Результат:

Модель выдаст три числовые оценки и короткий отзыв по каждому критерию. В отзыве увидишь общие замечания: "аргументация недостаточно подкреплена данными", "идея имеет потенциал, но не хватает конкретики", "значимость высока для целевой аудитории". Не жди глубокого анализа рынка или специфических инсайтов — модель ловит поверхностные сигналы: есть ли структура, звучит ли убедительно, упомянуты ли данные.

🧠

Почему это работает

LLM не умеют оценивать глубину содержания — у них нет embedded knowledge о конкретных статьях, исследованиях, рыночных трендах. Они не знают "это исследование из Nature 2023 года" или "эта идея уже реализована в стартапе X". Модели также не владеют узкоспециализированной экспертизой — не разбираются в Old Norse linguistics или нюансах блокчейн-протоколов глубже, чем поверхностно.

Зато LLM отлично распознают паттерны академического и делового письма — встречали миллионы примеров в обучающих данных. Модель "видит": правильная структура (введение, методы, обсуждение), академический стиль, упоминание ограничений, ссылки на литературу, конкретные примеры, числа и данные. Когда эти маркеры присутствуют, модель уверенно ставит высокую оценку.

Метод работает потому что surface patterns коррелируют с качеством — хорошие тексты чаще содержат чёткую структуру, обоснования, ссылки на данные. Но это корреляция, не причинность. LLM ловит форму, не суть. Поэтому модель работает почти так же хорошо с одним заголовком и аннотацией — там уже видны ключевые слова, стиль, структура. Полный текст добавляет детали, но не меняет общую картину паттернов.

Рычаги управления:

Критерии оценки — замени rigour/originality/significance на свои: практичность, креативность, риски. Модель адаптирует отзыв под новые критерии.
Шкала оценки — вместо 1-4 используй 1-10 или процентили (топ-10%, топ-25%). Модель склонна кучковаться вокруг 3 из 4 — расширенная шкала может дать больше разброса.
Специфичность запроса — добавь "укажи конкретные примеры из текста" или "сравни с лучшими практиками в [область]". Это заставит модель копаться глубже, хотя всё равно не даст экспертного уровня.
Множественные прогоны — запусти 3-5 раз и усредни оценки. Исследование показало: усреднение 30 запусков даёт стабильный результат. Для бытового использования хватит 3-5 — поймаешь вариативность без лишних затрат токенов.

📋

Шаблон промпта

Оцени этот {тип_текста} по следующим критериям:

1. {КРИТЕРИЙ_1}: {описание что оцениваем}

2. {КРИТЕРИЙ_2}: {описание что оцениваем}

3. {КРИТЕРИЙ_3}: {описание что оцениваем}

Для каждого критерия:
- Дай оценку от 1 до 4 (где 1 = слабо, 4 = отлично)
- Напиши короткий комментарий с конкретными примерами из текста

---

{полный_текст_или_краткое_описание}

Подставь: - {тип_текста} — статья, питч, бизнес-план, пост, письмо клиенту - {КРИТЕРИЙ_1/2/3} — критерии под твою задачу. Примеры: строгость аргументации, оригинальность идеи, практичность решения, ясность изложения, убедительность для аудитории - {описание} — что конкретно хочешь оценить в этом критерии - {текст} — можешь дать полный текст или только ключевые части (title + intro + выводы). Исследование показало: модель работает почти так же хорошо с кратким вариантом

Для множественных оценок (если нужна точность):

После первого запуска напиши:

Повтори оценку ещё {N} раз для того же текста. 
В конце покажи усреднённые оценки по каждому критерию.

Модель сгенерирует несколько вариантов и усреднит — это сглаживает случайную вариативность.

⚠️

Ограничения

⚠️ Поверхностная оценка: LLM не читают глубоко — они ловят маркеры "правильного" текста (структура, стиль, ключевые слова), не суть. Модель может поставить высокую оценку тексту с красивыми словами и слабой аргументацией, если форма соблюдена.

⚠️ Отсутствие экспертизы: Модели не владеют глубоким знанием узких областей. Для оценки специализированного контента (научная статья по квантовой физике, техническая документация по криптографии) нужен человек-эксперт — LLM даст только общий фидбек.

⚠️ Шаблонность отзывов: Комментарии LLM повторяются и обобщены ("методология могла бы быть строже", "недостаточно данных"). Эксперты пишут конкретно ("не учтён фактор X", "противоречие с исследованием Y из 2022 года"). Не жди специфических инсайтов от модели.

⚠️ Завышенные оценки: LLM склонны кучковаться вокруг 3 из 4 (или 7-8 из 10). Абсолютные числа почти бесполезны — важен относительный ранг. Если оцениваешь несколько текстов, смотри кто выше/ниже, не на сами баллы.

⚠️ Title/abstract достаточно: Модель работает почти так же хорошо с одним заголовком и аннотацией, как и с полным текстом. Это подтверждает: LLM не "читает" глубоко, а сканирует паттерны. Хорошо для быстрой оценки, плохо для глубокого анализа.

🔗

Ресурсы

Large Language Models for Departmental Expert Review Quality Scores

Исследование сравнивало ChatGPT-4o, ChatGPT-4o mini, Gemini 2.0 Flash с внутренними экспертными рецензиями департамента Университета Шеффилда (58 статей из information science). Использовали критерии британской системы Research Excellence Framework (REF): rigour, originality, significance.

Liv Langfeldt, Dag W. Aksnes, Henrik Karlstrøm (Nordic Institute for Studies in Innovation, Research and Education, Норвегия) и Mike Thelwall (University of Sheffield, UK)

📋 Дайджест исследования

Ключевая суть

Принцип работы

Модель встречала миллионы примеров хороших текстов в обучающих данных. Теперь распознаёт паттерны: правильная структура (введение → методы → обсуждение), академический стиль, конкретные примеры, числовые данные, упоминание ограничений. Когда эти маркеры присутствуют — модель уверенно ставит высокую оценку, даже не зная сути. Это объясняет почему заголовок + аннотация работают почти так же как полный текст — ключевые сигналы видны уже там.

Почему работает

Поверхностные паттерны коррелируют с качеством — хорошие тексты чаще содержат чёткую структуру, обоснования, ссылки на данные. Но это корреляция, не причинность. LLM ловит форму, не суть — поэтому может поставить высокую оценку тексту с красивыми словами и слабой аргументацией. В исследовании модели показали умеренную корреляцию с экспертами (Spearman ρ = 0.39-0.51 для разных критериев), но работали почти одинаково с полным текстом и одним заголовком — это прямое доказательство поверхностности оценки.

Когда применять

Быстрая первичная оценка → конкретно для текстов где важна форма и структура (статьи, питчи, посты, документы), особенно когда нужен фидбек ДО отправки реальному эксперту. НЕ подходит для финальной экспертной оценки — модель даст шаблонные комментарии без глубокого анализа содержания.

Мини-рецепт

1. Задай критерии оценки: Строгость аргументации, оригинальность идеи, значимость эффекта (или свои критерии под задачу)
2. Опиши каждый критерий: Что конкретно оцениваешь — логические дыры? свежесть подхода? потенциальный эффект?
3. Дай шкалу: От 1 до 4 (или 1-10 для большего разброса)
4. Подставь текст: Можешь дать полный текст или только заголовок + аннотацию — разница минимальна
5. Для точности: Запусти 3-5 раз и усредни оценки — это сглаживает случайную вариативность

Примеры

[ПЛОХО] : Оцени качество моей статьи — модель не знает по каким критериям оценивать, выдаст общие слова

[ХОРОШО] :

Оцени этот питч по трём критериям: 1) Строгость аргументации (есть ли логические дыры? подкреплены ли утверждения данными?), 2) Оригинальность идеи (отличается ли от существующих решений?), 3) Значимость эффекта (решает ли реальную боль?). Дай оценку от 1 до 4 по каждому критерию и короткий комментарий. [Текст питча]

— модель даст структурированный фидбек с числовыми оценками и конкретными замечаниями по каждому критерию

Источник: Large Language Models for Departmental Expert Review Quality Scores

ArXiv ID: 2601.18945 | Сгенерировано: 2026-01-28 05:35

Тезисы

Тезис	Комментарий
Для поверхностной оценки текста достаточно краткой версии	Когда модель оценивает качество текста (структура, стиль, аргументация), полный текст даёт почти ту же точность что и короткая версия (заголовок + аннотация + ключевые части). Модель не читает глубоко — ловит маркеры "правильного" текста: есть ли структура, академический стиль, упоминание данных. Эти сигналы видны уже в кратком описании. Механика: Surface patterns (форма текста) коррелируют с качеством, но не равны ему. LLM распознаёт паттерны, не суть. Применяй: Если нужна быстрая оценка своего текста перед отправкой, дай модели краткую версию вместо полной — сэкономишь токены без потери точности фидбека. Но помни: оценка будет поверхностной, финальную проверку делай через эксперта

Тезис

Комментарий

Для поверхностной оценки текста достаточно краткой версии

Когда модель оценивает качество текста (структура, стиль, аргументация), полный текст даёт почти ту же точность что и короткая версия (заголовок + аннотация + ключевые части). Модель не читает глубоко — ловит маркеры "правильного" текста: есть ли структура, академический стиль, упоминание данных. Эти сигналы видны уже в кратком описании. Механика: Surface patterns (форма текста) коррелируют с качеством, но не равны ему. LLM распознаёт паттерны, не суть. Применяй: Если нужна быстрая оценка своего текста перед отправкой, дай модели краткую версию вместо полной — сэкономишь токены без потери точности фидбека. Но помни: оценка будет поверхностной, финальную проверку делай через эксперта

📖 Простыми словами

LargeLanguageModelsfor Departmental Expert Review Quality Scores

arXiv: 2601.18945

Суть в том, что современные нейронки научились работать имитаторами экспертного мнения, даже не вникая в суть вопроса. Исследователи скормили ChatGPT-4o и Gemini 2.0 академические статьи и попросили оценить их по критериям британской системы REF: строгость, оригинальность и значимость. Оказалось, что модели выдают оценки, которые подозрительно похожи на вердикты живых профессоров. Причем нейронке даже не нужно читать весь талмуд — ей достаточно заголовка и аннотации, чтобы понять, «взлетит» работа или это проходной мусор.

Это как если бы ты пришел на кастинг в рок-группу, а продюсер оценил твой талант еще до того, как ты расчехлил гитару — просто по тому, как ты зашел в комнату и как держишь инструмент. Вроде бы поверхностно, но опытный глаз (или обученная на миллионах текстов модель) сразу видит структуру и уверенность подачи. Нейронка не понимает глубинных смыслов, но она отлично считывает «запах» качественного контента, отличая серьезную работу от графомании.

В цифрах это выглядит так: корреляция с живыми экспертами составила 0.39–0.51 по Спирмену. Это не идеальное попадание, но вполне уверенная умеренная точность. Главный прикол в том, что модели вообще не обладают узкой экспертизой в лингвистике или квантовой физике. Они работают как детекторы формы: если текст написан логично, аргументированно и по канонам топовых изданий, AI ставит лайк. Модель лажает в деталях, но общую «температуру по больнице» определяет безошибочно.

Принцип универсален и выходит далеко за рамки науки. Эту же логику можно применить к бизнес-питчам, лендингам или сценариям. Если нейронка говорит, что твое описание стартапа выглядит неубедительно, значит, ты где-то накосячил в логике или подаче. Тестировали на статьях, но механика оценки качества везде одинаковая: AI ищет признаки «взрослого» и структурированного текста. Это идеальный инструмент для первичного фильтра, когда нужно отсеять откровенный шлак еще на этапе черновика.

Короче, не надейся, что AI заменит тебе профильного эксперта с 30-летним стажем, но используй его как тренажер для самопроверки. Если ChatGPT ставит твоему тексту низкий балл по оригинальности, значит, ты звучишь как типичный инфоцыган. Корреляция 0.5 — это достаточно, чтобы понять: твой текст либо похож на золото, либо на кучу мусора. Используй это как дешевый и быстрый аудит, прежде чем позориться перед живыми людьми.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

Выберите модель ИИ:

Ваш запрос:

0 / 2000

~0.5-2 N-токенов ~10-30с

~0.3-1 N-токенов ~5-15с

Меню