TL;DR
Когда просишь ChatGPT «оцени текст» — получаешь непостоянный результат. То же самое, что просить нового сотрудника расставить фильмы по качеству без критериев: каждый раз по-разному. Исследование OmniScore задокументировало эту проблему и — как побочный продукт — сформулировало чёткий рубрик из 4 измерений, который можно использовать прямо сейчас в любом чате.
Главная находка: LLM как судья хуже, чем кажется. Gemini-3-Flash и аналогичные фронтир-модели отстают от маленьких специализированных моделей при задаче структурированной оценки текста. Причина — LLM не имеет «счётчика» для оценки. Когда ты не задал критерии жёстко, модель каждый раз взвешивает критерии по-новому. Скажешь «оцени» — оценит по своим соображениям. Скажешь «оцени по этим 4 пунктам» — будет стабильнее.
Рубрик OmniScore — это 4 измерения с чёткими определениями: информативность (полнота и точность), ясность (структура и понятность), правдоподобность (логичность и последовательность), достоверность (соответствие источнику). Каждое — по шкале 1–5. Это и есть то, что можно взять из исследования и применить в промпте уже сегодня.
Схема метода
Один промпт, один запрос:
ВХОД: текст для оценки + (опционально) источник/задание
↓
ШАГ 1: Задай 4 измерения с определениями → структурированная оценка 1-5
↓
ШАГ 2: Попроси обоснование по каждому → объяснение + итоговый балл
↓
ВЫХОД: 4 числа + краткий разбор что именно слабое
Всё выполняется в одном сообщении.
Пример применения
Задача: Ты написал питч для инвесторов в свой проект — например, сервис по автоматизации онбординга сотрудников для малого бизнеса. Перед тем как отправить, хочешь оценить текст глазами критика.
Промпт:
Оцени следующий текст по 4 измерениям. По каждому поставь оценку от 1 до 5 и дай 1-2 предложения обоснования.
Измерения:
1. Информативность — насколько текст полный, точный и содержательный.
1 = расплывчато, упущены ключевые детали. 5 = всё по делу, ничего лишнего.
2. Ясность — насколько легко читается и понимается.
1 = путаница, длинные конструкции. 5 = структурировано, однозначно, без воды.
3. Правдоподобность — насколько текст логичен и последователен внутри себя.
1 = противоречия, нелогичные выводы. 5 = всё связано, аргументы держатся.
4. Достоверность — насколько текст честно отражает то, о чём заявляет.
1 = необоснованные утверждения, преувеличения. 5 = каждое слово подкреплено.
Текст для оценки:
[вставь свой питч]
После оценок дай общий вывод: что исправить в первую очередь.
Результат: Модель выдаст таблицу или список с оценками 1-5 по каждому из 4 измерений и коротким объяснением. Например, информативность = 4 (рынок описан, но нет данных о конкурентах), достоверность = 2 (утверждение «вырастим выручку клиентов на 30%» ничем не подкреплено). В финале — приоритет: что чинить сначала.
Почему это работает
Когда просишь «оцени текст» без уточнений, LLM выбирает критерии сама — и каждый раз делает это по-разному. Сегодня она упирается в стиль, завтра в логику. Нет «счётчика», который зафиксировал бы что важно. Результат — оценки, которым нельзя доверять для сравнения.
Структурированный рубрик убирает эту неопределённость через явные ограничения. Модель не выбирает что ценить — ты уже сказал. 4 измерения зафиксированы, определения чёткие, шкала задана. Модель следует заданной структуре, а не строит свою с нуля.
Рычаги управления: - Число измерений → оставь 2-3 самых важных для задачи, не все 4 - Определения → уточни под контекст: для маркетингового текста «достоверность» — это соответствие реальным характеристикам продукта - Источник → добавь оригинал (техзадание, бриф, источник) — тогда «достоверность» проверяется не в вакууме, а относительно него - Форматирование вывода → попроси таблицу или только числа — уберёт объяснения если нужна скорость
Шаблон промпта
Оцени текст по 4 измерениям. По каждому — оценка от 1 до 5 и 1-2 предложения объяснения.
Измерения:
1. Информативность — полнота и точность информации для {контекст задачи}.
1 = расплывчато, упущено главное. 5 = содержательно, конкретно.
2. Ясность — структура и понятность для {целевой читатель}.
1 = путаница, сложно читать. 5 = легко, однозначно, без лишнего.
3. Правдоподобность — логичность и внутренняя последовательность.
1 = противоречия, провисшие аргументы. 5 = всё связано, выводы держатся.
4. Достоверность — соответствие {источник: исходный материал / реальные факты / задание}.
1 = необоснованные утверждения. 5 = каждое слово подкреплено.
Текст для оценки:
{текст}
После оценок: укажи одно главное, что нужно исправить в первую очередь.
Плейсхолдеры:
- {контекст задачи} — например: «для питча инвесторам», «для поста в соцсети», «для технического описания»
- {целевой читатель} — «для неспециалиста», «для HR-менеджера», «для клиента без технических знаний»
- {источник} — вставь исходный документ, бриф или напиши «реальные факты о продукте»
- {текст} — то, что оцениваем
🚀 Быстрый старт — вставь в чат:
Вот шаблон для оценки текста по 4 измерениям. Адаптируй под мою задачу: [опиши задачу —
что за текст, кто читатель, есть ли источник]. Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит про контекст задачи, целевого читателя и источник — потому что без этого «достоверность» и «ясность» нельзя определить корректно. Она адаптирует определения под твою ситуацию.
Ограничения
⚠️ Непоследовательность LLM: Даже с рубриком одна и та же модель может дать разные баллы одному тексту в разных сессиях. Исследование прямо показывает: LLM хуже справляются с задачей структурированной оценки, чем специализированные маленькие модели. Рубрик снижает разброс, но не устраняет его полностью.
⚠️ Субъективные задачи — слабее: Оценка пересказов и парафраз даёт наименее надёжные результаты. Даже люди в этом соглашаются хуже всего. Для творческого текста без чёткого источника метод работает хуже.
⚠️ Для воспроизводимой оценки в масштабе — нужен OmniScore (pip-пакет, модели < 1B параметров). Чат-рубрик подходит для разовых задач, не для автоматического конвейера оценки сотен текстов.
⚠️ Сравнительная оценка ненадёжна: Если просишь сравнить два текста через этот рубрик, баллы могут не быть сопоставимыми между запросами. Лучше оценивать оба текста в одном промпте.
Ресурсы
BeyondLLM-as-a-Judge: Deterministic Metrics for Multilingual Generative Text Evaluation — Firoj Alam, Gagan Bhatia, Sahinur Rahman Laskar, Shammur Absar Chowdhury. Qatar Computing Research Institute, HBKU, Qatar; UPES, India.
Модели и датасет: https://huggingface.co/collections/QCRI/omniscore
