3,583 papers
arXiv:2604.05083 70 6 апр. 2026 г. FREE

OmniScore Rubric: 4-измерительная рамка для оценки текста через LLM

КЛЮЧЕВАЯ СУТЬ
Просишь LLM «оцени текст» — и каждый раз получаешь разные критерии. Не потому что текст изменился. Просто модель сама решает что важно: сегодня акцент на стиль, завтра на логику, послезавтра на полноту. Рубрик OmniScore позволяет получать оценку по одним и тем же критериям каждый раз. Фишка: 4 измерения с чёткими определениями — информативность, ясность, правдоподобность, достоверность — ты передаёшь модели готовую шкалу вместо того, чтобы она строила свою с нуля. Добавляешь один блок с критериями — и вместо лотереи получаешь структурированный разбор с баллами 1–5 и объяснением.
Адаптировать под запрос

TL;DR

Когда просишь ChatGPT «оцени текст» — получаешь непостоянный результат. То же самое, что просить нового сотрудника расставить фильмы по качеству без критериев: каждый раз по-разному. Исследование OmniScore задокументировало эту проблему и — как побочный продукт — сформулировало чёткий рубрик из 4 измерений, который можно использовать прямо сейчас в любом чате.

Главная находка: LLM как судья хуже, чем кажется. Gemini-3-Flash и аналогичные фронтир-модели отстают от маленьких специализированных моделей при задаче структурированной оценки текста. Причина — LLM не имеет «счётчика» для оценки. Когда ты не задал критерии жёстко, модель каждый раз взвешивает критерии по-новому. Скажешь «оцени» — оценит по своим соображениям. Скажешь «оцени по этим 4 пунктам» — будет стабильнее.

Рубрик OmniScore — это 4 измерения с чёткими определениями: информативность (полнота и точность), ясность (структура и понятность), правдоподобность (логичность и последовательность), достоверность (соответствие источнику). Каждое — по шкале 1–5. Это и есть то, что можно взять из исследования и применить в промпте уже сегодня.


🔬

Схема метода

Один промпт, один запрос:

ВХОД: текст для оценки + (опционально) источник/задание
  ↓
ШАГ 1: Задай 4 измерения с определениями → структурированная оценка 1-5
  ↓
ШАГ 2: Попроси обоснование по каждому → объяснение + итоговый балл
  ↓
ВЫХОД: 4 числа + краткий разбор что именно слабое

Всё выполняется в одном сообщении.


🚀

Пример применения

Задача: Ты написал питч для инвесторов в свой проект — например, сервис по автоматизации онбординга сотрудников для малого бизнеса. Перед тем как отправить, хочешь оценить текст глазами критика.

Промпт:

Оцени следующий текст по 4 измерениям. По каждому поставь оценку от 1 до 5 и дай 1-2 предложения обоснования.

Измерения:
1. Информативность — насколько текст полный, точный и содержательный. 
   1 = расплывчато, упущены ключевые детали. 5 = всё по делу, ничего лишнего.

2. Ясность — насколько легко читается и понимается. 
   1 = путаница, длинные конструкции. 5 = структурировано, однозначно, без воды.

3. Правдоподобность — насколько текст логичен и последователен внутри себя. 
   1 = противоречия, нелогичные выводы. 5 = всё связано, аргументы держатся.

4. Достоверность — насколько текст честно отражает то, о чём заявляет. 
   1 = необоснованные утверждения, преувеличения. 5 = каждое слово подкреплено.

Текст для оценки:
[вставь свой питч]

После оценок дай общий вывод: что исправить в первую очередь.

Результат: Модель выдаст таблицу или список с оценками 1-5 по каждому из 4 измерений и коротким объяснением. Например, информативность = 4 (рынок описан, но нет данных о конкурентах), достоверность = 2 (утверждение «вырастим выручку клиентов на 30%» ничем не подкреплено). В финале — приоритет: что чинить сначала.


🧠

Почему это работает

Когда просишь «оцени текст» без уточнений, LLM выбирает критерии сама — и каждый раз делает это по-разному. Сегодня она упирается в стиль, завтра в логику. Нет «счётчика», который зафиксировал бы что важно. Результат — оценки, которым нельзя доверять для сравнения.

Структурированный рубрик убирает эту неопределённость через явные ограничения. Модель не выбирает что ценить — ты уже сказал. 4 измерения зафиксированы, определения чёткие, шкала задана. Модель следует заданной структуре, а не строит свою с нуля.

Рычаги управления: - Число измерений → оставь 2-3 самых важных для задачи, не все 4 - Определения → уточни под контекст: для маркетингового текста «достоверность» — это соответствие реальным характеристикам продукта - Источник → добавь оригинал (техзадание, бриф, источник) — тогда «достоверность» проверяется не в вакууме, а относительно него - Форматирование вывода → попроси таблицу или только числа — уберёт объяснения если нужна скорость


📋

Шаблон промпта

Оцени текст по 4 измерениям. По каждому — оценка от 1 до 5 и 1-2 предложения объяснения.

Измерения:
1. Информативность — полнота и точность информации для {контекст задачи}.
   1 = расплывчато, упущено главное. 5 = содержательно, конкретно.

2. Ясность — структура и понятность для {целевой читатель}.
   1 = путаница, сложно читать. 5 = легко, однозначно, без лишнего.

3. Правдоподобность — логичность и внутренняя последовательность.
   1 = противоречия, провисшие аргументы. 5 = всё связано, выводы держатся.

4. Достоверность — соответствие {источник: исходный материал / реальные факты / задание}.
   1 = необоснованные утверждения. 5 = каждое слово подкреплено.

Текст для оценки:
{текст}

После оценок: укажи одно главное, что нужно исправить в первую очередь.

Плейсхолдеры: - {контекст задачи} — например: «для питча инвесторам», «для поста в соцсети», «для технического описания» - {целевой читатель} — «для неспециалиста», «для HR-менеджера», «для клиента без технических знаний» - {источник} — вставь исходный документ, бриф или напиши «реальные факты о продукте» - {текст} — то, что оцениваем


🚀 Быстрый старт — вставь в чат:

Вот шаблон для оценки текста по 4 измерениям. Адаптируй под мою задачу: [опиши задачу — 
что за текст, кто читатель, есть ли источник]. Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит про контекст задачи, целевого читателя и источник — потому что без этого «достоверность» и «ясность» нельзя определить корректно. Она адаптирует определения под твою ситуацию.


⚠️

Ограничения

⚠️ Непоследовательность LLM: Даже с рубриком одна и та же модель может дать разные баллы одному тексту в разных сессиях. Исследование прямо показывает: LLM хуже справляются с задачей структурированной оценки, чем специализированные маленькие модели. Рубрик снижает разброс, но не устраняет его полностью.

⚠️ Субъективные задачи — слабее: Оценка пересказов и парафраз даёт наименее надёжные результаты. Даже люди в этом соглашаются хуже всего. Для творческого текста без чёткого источника метод работает хуже.

⚠️ Для воспроизводимой оценки в масштабе — нужен OmniScore (pip-пакет, модели < 1B параметров). Чат-рубрик подходит для разовых задач, не для автоматического конвейера оценки сотен текстов.

⚠️ Сравнительная оценка ненадёжна: Если просишь сравнить два текста через этот рубрик, баллы могут не быть сопоставимыми между запросами. Лучше оценивать оба текста в одном промпте.


🔗

Ресурсы

BeyondLLM-as-a-Judge: Deterministic Metrics for Multilingual Generative Text Evaluation — Firoj Alam, Gagan Bhatia, Sahinur Rahman Laskar, Shammur Absar Chowdhury. Qatar Computing Research Institute, HBKU, Qatar; UPES, India.

Модели и датасет: https://huggingface.co/collections/QCRI/omniscore


📋 Дайджест исследования

Ключевая суть

Просишь LLM «оцени текст» — и каждый раз получаешь разные критерии. Не потому что текст изменился. Просто модель сама решает что важно: сегодня акцент на стиль, завтра на логику, послезавтра на полноту. Рубрик OmniScore позволяет получать оценку по одним и тем же критериям каждый раз. Фишка: 4 измерения с чёткими определениями — информативность, ясность, правдоподобность, достоверность — ты передаёшь модели готовую шкалу вместо того, чтобы она строила свою с нуля. Добавляешь один блок с критериями — и вместо лотереи получаешь структурированный разбор с баллами 1–5 и объяснением.

Принцип работы

Без явных критериев модель оценивает как новый сотрудник без брифа — каждый раз по-своему. Вопрос у неё «что вообще важно в этом тексте?» — и ответ каждый раз разный. Добавь 4 измерения с определениями — и вопрос меняется на «как этот текст по критерию X?». Разница: из открытого выбора в закрытый. Модель не взвешивает критерии — она следует твоим. Именно это убирает разброс. Три рычага: – Число измерений → оставь 2-3 самых важных, не все 4 – Определения → уточни под задачу: для маркетингового текста «достоверность» — это соответствие реальным характеристикам продукта – Источник → добавь исходник (бриф, источник, задание) — тогда «достоверность» проверяется не в вакууме

Почему работает

Без якоря модель каждый раз заново взвешивает критерии. Сегодня решила, что логичность важнее полноты. Завтра — наоборот. Явные определения ставят якорь жёстко — для этого запроса приоритеты уже выставлены. Прикол: фронтирные модели типа Gemini Flash проигрывают крошечным специализированным моделям размером меньше гигабайта в задаче структурированной оценки. Большой размер не помогает, когда нет чёткой структуры. Рубрик частично закрывает этот разрыв даже в обычном чате — без кода и установки пакетов. Важная оговорка: даже с рубриком LLM может дать разные баллы одному и тому же тексту в разных сессиях. Исследование это прямо фиксирует. Рубрик снижает разброс, но не убирает его полностью.

Когда применять

Любой текст перед отправкой: питчи инвесторам, статьи, маркетинговые материалы, письма клиентам, ответы поддержки. Особенно когда сравниваешь несколько вариантов — оценивай оба в одном промпте, иначе баллы между запросами несопоставимы. НЕ подходит для: творческих текстов без чёткого источника — оценка пересказов и перефразирования дала наименее надёжные результаты даже среди людей-судей. Для автоматической оценки сотен текстов в потоке — здесь нужен pip-пакет OmniScore с моделями до 1 гигабайта, а не чат.

Мини-рецепт

1. Задай 4 измерения с определениями: информативность (полнота и точность), ясность (структура и понятность для читателя), правдоподобность (логичность и последовательность), достоверность (соответствие источнику или реальным фактам). Шкала 1–5 по каждому.
2. Уточни контекст: кто читатель, что за текст, есть ли исходник для проверки достоверности. Без этого «ясность» и «достоверность» модель трактует в вакууме.
3. Попроси обоснование: 1–2 предложения по каждому критерию — иначе получишь числа без смысла.
4. Финальный вопрос: «что исправить первым?» — модель сама расставит приоритет по слабейшему баллу.
5. Для сравнения вариантов: вставь оба текста в один промпт. Два разных запроса дадут несопоставимые баллы.

Примеры

[ПЛОХО] : Оцени мой питч для инвесторов
[ХОРОШО] : Оцени текст по 4 критериям. По каждому — балл от 1 до 5 и 1-2 предложения объяснения. 1. Информативность — полнота и точность для питча инвесторам. 1 = расплывчато, упущены ключевые детали. 5 = всё по делу. 2. Ясность — структура и понятность для инвестора без технического фона. 1 = путаница. 5 = легко читается, без воды. 3. Правдоподобность — логичность и последовательность аргументов. 1 = противоречия. 5 = всё связано, выводы держатся. 4. Достоверность — подкреплены ли утверждения реальными данными. 1 = голые заявления. 5 = каждый тезис обоснован. В конце: что исправить в первую очередь. [текст питча]
Источник: BeyondLLM-as-a-Judge: Deterministic Metrics for Multilingual Generative Text Evaluation
ArXiv ID: 2604.05083 | Сгенерировано: 2026-04-08 04:34

Проблемы LLM

ПроблемаСутьКак обойти
LLM оценивает текст непоследовательноПросишь «оцени текст» — каждый раз модель сама выбирает что важно. Сегодня упирается в стиль. Завтра в логику. Нет фиксированного набора критериев. Оценки несопоставимы между запросами. Нельзя понять стал ли текст лучшеЗадай явный рубрик с определениями и шкалой. Модель следует заданной структуре вместо того чтобы строить свою с нуля

Методы

МетодСуть
4-измерительный рубрик для оценки текстаЗадай 4 измерения с конкретными определениями и шкалой 1–5. 1. Информативность — насколько полно и точно. 1 = расплывчато, упущено главное. 5 = содержательно, конкретно. 2. Ясность — насколько легко читается. 1 = путаница, длинные конструкции. 5 = структурировано, однозначно. 3. Правдоподобность — насколько логично и последовательно. 1 = противоречия. 5 = всё связано, аргументы держатся. 4. Достоверность — насколько соответствует источнику или реальным фактам. 1 = необоснованные утверждения. 5 = каждое слово подкреплено. Попроси оценку + 1–2 предложения обоснования по каждому. В финале — что исправить в первую очередь. Настройка: убери лишние измерения, оставь 2–3 нужных. Уточни определения под задачу. Добавь исходник (бриф, источник) — тогда достоверность проверяется не в вакууме
📖 Простыми словами

BeyondLLM-as-a-Judge: Deterministic Metrics for Multilingual Generative Text Evaluation

arXiv: 2604.05083

Современные нейронки оценивают тексты как капризные критики: сегодня им нравится твой стиль, а завтра они придираются к запятым, потому что «настроение» сменилось. Проблема в том, что когда ты просишь ChatGPT оценить качество ответа, она не использует линейку — она каждый раз изобретает её заново. Это галлюцинации на уровне логики, из-за которых одна и та же модель может поставить одному и тому же тексту и 5, и 9 баллов. Исследование OmniScore доказывает, что полагаться на «чуйку» AI — это путь в никуда, если тебе нужны стабильные цифры, а не просто вежливый фидбек.

Это как если бы ты пришёл в ГИБДД сдавать на права, но вместо чётких правил инспектор оценивал бы тебя по принципу «ну, вроде едет уверенно». Один инспектор пропустит тебя за скорость, другой завалит за то, что ты слишком медленный. В итоге результат зависит не от твоего навыка, а от того, какой контекстный шум сейчас в голове у экзаменатора. Чтобы этого избежать, нужны жесткие критерии, которые превращают субъективное мнение в детерминированную метрику.

Решение — метод OmniScore, который раскладывает любой текст на четыре конкретных измерения. Первое — точность (наврал или нет), второе — полнота (ответил на всё или проигнорировал кусок вопроса), третье — лаконичность (есть ли там вода и булшит), и четвёртое — логика (не противоречит ли модель сама себе в соседних предложениях). Когда ты заставляешь AI оценивать текст по этой шкале, её «мнение» перестаёт плавать, и ты получаешь стабильный рейтинг, который реально коррелирует с человеческим восприятием.

Хотя метод тестировали на сложных мультиязычных датасетах, этот принцип — ультимативная шпаргалка для любого бизнеса. Если ты пишешь питч для инвесторов, описание товара или скрипт для саппорта, не спрашивай у чата «хорошо ли получилось». Прогони текст через эти 4 фильтра: «Оцени по шкале от 1 до 5 точность, полноту, отсутствие воды и логическую связность». Это превращает бесполезный чат в инструмент контроля качества, который работает одинаково хорошо и для русского, и для английского контента.

Короче, пора перестать верить AI на слово и начать требовать от неё цифры по ГОСТу. Главный вывод исследования: LLM-as-a-Judge без жестких рамок — это просто генератор случайных похвал. Используй четыре измерения OmniScore, чтобы выжать из модели объективность, иначе ты рискуешь выпустить в продакшн текст, который «просто понравился» боту, но абсолютно не решает задачу бизнеса. Кто первый внедрит такие проверки в свои промпты, тот перестанет гадать на кофейной гуще и начнёт управлять качеством.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с