arXiv:2602.12779 78 13 фев. 2026 г. FREE

iRULER: оценка текстов через рубрики с объяснениями Why/Why Not/How To

КЛЮЧЕВАЯ СУТЬ

Просишь LLM оценить текст — получаешь 7/10 и размытый фидбек типа "улучши стиль". Непонятно почему не 9 и как туда дойти. iRULER позволяет получать структурированную оценку с конкретными правками вместо общих слов. Рубрика разбивает оценку на части: вместо вопроса "насколько хорош текст?" даёшь таблицу критериев с описаниями уровней (1="слабо", 4="отлично"). LLM сравнивает твой текст с эталонами, ставит балл по каждому критерию, объясняет почему именно этот уровень (Why), что мешает подняться выше (Why Not), как исправить (How To). Фишка: метод работает рекурсивно — через мета-рубрику оцениваешь качество самих критериев, улучшаешь формулировки.

Адаптировать под запрос

⚡

TL;DR

iRULER — метод оценки текстов через рубрики (таблицу критериев × уровни качества). LLM оценивает текст по каждому критерию, выбирает уровень (например, "Ясность: 3 из 5"), и объясняет выбор. Для проверки качества самих критериев метод применяется рекурсивно — через "рубрику рубрик", которая оценивает насколько хороши ваши критерии.

Обычная оценка от LLM — поток текста без структуры. Непонятно почему модель поставила 7 из 10, почему не 9, и как достичь 9. Фидбек выглядит умным, но часто это постфактум-обоснование. Модель генерирует правдоподобный текст, но не обязательно объясняет реальные причины оценки. В итоге — общие слова ("улучши стиль", "сделай убедительнее") вместо конкретных шагов.

Рубрика задаёт критерии (ясность, убедительность, стиль) и уровни (1 = слабо, 5 = отлично) с описаниями каждого. LLM оценивает по каждому критерию и отвечает на три вопроса: Why — почему выбран этот уровень (цитаты из текста, конкретные признаки), Why Not — почему не выше (что мешает), How To — конкретные правки для целевого уровня. Для проверки качества критериев метод применяется к самой рубрике: мета-рубрика оценивает чёткость формулировок, различимость уровней, отсутствие пересечений.

🔬

Схема метода

ШАГ 1: Создать рубрику → таблица критериев (строки) × уровни (столбцы) с описаниями
ШАГ 2: LLM оценивает текст → выбирает уровень для каждого критерия, считает общий балл
ШАГ 3: Объяснить оценку → Why (почему этот уровень), Why Not (почему не выше)
ШАГ 4: Предложить правки → How To (конкретные изменения для целевого уровня)

РЕКУРСИВНО: Оценить саму рубрику через "рубрику рубрик" → улучшить формулировки критериев

Шаги 1-2 — один запрос (создание + оценка). Шаги 3-4 — отдельные запросы для объяснений и правок. Можно использовать все или только нужные.

🚀

Пример применения

⚠️ Сначала об ограничениях: Метод требует заранее определённых критериев. Не подходит для быстрой разовой проверки — нужна подготовка рубрики. Лучше всего работает для повторяющихся задач с чёткими стандартами качества (серия постов в блог, регулярные email-рассылки, питчи для инвесторов). Для субъективных критериев (креативность, оригинальность) менее надёжно.

Задача: Пишешь еженедельную рассылку с разбором бизнес-кейсов. Хочешь держать планку качества по трём критериям: польза (читатель уносит конкретные инсайты), читабельность (легко воспринимается), структура (логичный поток). Нужна система проверки перед отправкой 15 тысячам подписчиков.

Промпт (Шаг 1-2):

Оцени рассылку по рубрике. Выбери уровень для каждого критерия и посчитай общий балл.

РУБРИКА:
| Критерий | 1 (слабо) | 2 (средне) | 3 (хорошо) | 4 (отлично) |
|----------|-----------|------------|------------|-------------|
| Польза | Общие слова, нет конкретики | Есть мысли, но размыто сформулированы | Чёткие инсайты, можно применить | Конкретные выводы с примерами применения — читатель сразу понимает что делать |
| Читабельность | Сложные предложения, нагромождения, приходится перечитывать | Читается, но есть тяжёлые куски | Лёгкий текст, короткие абзацы, ясные формулировки | Каждое предложение на одном дыхании, текст "течёт" |
| Структура | Перескакиваем между темами, нет логики | Общая нить есть, но переходы резкие | Логичный поток, понятно как части связаны | Железная логика: каждый блок вытекает из предыдущего, финал собирает всё вместе |

ТЕКСТ РАССЫЛКИ:
[твой текст]

Выдай оценку в формате:
- Польза: X/4
- Читабельность: X/4  
- Структура: X/4
- Общий балл: (сумма × 25) / 100

Промпт (Шаг 3 — объяснения):

Объясни оценки для критериев где уровень ниже 4:
- Why: почему ты выбрал уровень 2 для Структуры? Процитируй места где логика ломается.
- Why Not: что мешает поднять до уровня 3 или 4?

Промпт (Шаг 4 — конкретные правки):

How To: покажи правки, чтобы поднять Структуру с 2 до 4.

Отметь изменения прямо в тексте:
[+ зелёный = добавить новый элемент]
[- красный = удалить лишнее]
[~ жёлтый = заменить X на Y]

Для каждого изменения укажи зачем оно нужно (1 предложение).

Результат:

Модель выдаст таблицу с баллами (например: Польза 3, Читабельность 4, Структура 2 → общий балл 75). В объяснениях покажет почему Структура получила 2 — процитирует места где ты перескакиваешь между темами без связок, где финал не связан с началом. В Why Not укажет что именно мешает: "нет переходов между блоками", "вывод вводит новую мысль вместо того чтобы подытожить". В правках покажет как исправить: какие связки добавить между абзацами, как переформулировать финал, что удалить из середины чтобы не терять фокус.

🧠

Почему это работает

LLM плохо оценивает "в общем" — выдаёт размытый фидбек типа "улучши стиль" или "сделай убедительнее". Рубрика разбивает оценку на части: вместо одного вопроса "хорош ли текст?" задаёшь несколько конкретных — "насколько ясна идея? насколько убедительно? лаконично?". Модель лучше справляется с чёткими вопросами, чем с оценкой "вообще".

LLM сильна в сопоставлении паттернов. Когда даёшь таблицу с описаниями уровней, модель сравнивает твой текст с эталонами и выбирает подходящий. Это точнее, чем просить "оцени от 1 до 10" без объяснения что значит каждая цифра — модель не знает твоей шкалы, выдаёт случайные числа.

Три типа вопросов — рычаги управления: - Why → если нужна просто оценка без деталей, можно пропустить и сэкономить токены - Why Not → помогает понять разницу между уровнями, полезно при спорных случаях когда сомневаешься "это 3 или 4?" - How To → самый затратный по токенам, используй когда реально готов переписывать; для быстрой проверки достаточно Why + Why Not

Рекурсивность — метод оценивает качество самих критериев. Если рубрика сырая (критерии пересекаются, описания уровней размыты, непонятно чем 2 отличается от 3), попроси LLM оценить её через мета-критерии: "чёткость различий между уровнями", "конкретность описаний", "отсутствие дублирования". Модель предложит как улучшить формулировки — например, заменить "хорошая структура" на "каждый блок имеет тезис → аргументы → вывод".

📋

Шаблон промпта

Базовый шаблон (оценка + объяснения + правки):

Оцени текст по рубрике. Выполни 4 шага.

ШАГ 1: ТАБЛИЦА ОЦЕНОК
Выбери уровень для каждого критерия. Выдай таблицу с баллами и общим счётом.

ШАГ 2: WHY — почему выбран этот уровень
Для каждого критерия объясни почему выбран именно этот уровень. Процитируй конкретные места из текста. 2-3 предложения на критерий.

ШАГ 3: WHY NOT — почему не выше
Для критериев где уровень ниже максимального: объясни что именно мешает подняться на уровень выше. Будь конкретен.

ШАГ 4: HOW TO — как достичь целевого уровня
Для критерия "{критерий}" покажи конкретные правки, чтобы поднять с уровня {текущий} до {целевой}.
Отметь изменения прямо в тексте:
[+ добавить]
[- удалить]  
[~ заменить X на Y]

Для каждого изменения укажи зачем оно нужно (1 предложение).

РУБРИКА:
{твоя_таблица_критериев_и_уровней}

ТЕКСТ:
{твой_текст}

Пояснения к плейсхолдерам: - {твоя_таблица_критериев_и_уровней} — таблица в Markdown: столбцы = уровни (обычно 1-4 или 1-5), строки = критерии. В каждой ячейке — описание этого уровня для этого критерия. Пример выше в разделе "Пример применения". - {критерий} — название критерия из рубрики, для которого хочешь получить правки (например: "Структура" или "Убедительность") - {текущий}, {целевой} — номера уровней, например: поднять с 2 до 4 - {твой_текст} — текст который оцениваешь (статья, пост, рассылка, питч)

Шаблон для проверки рубрики (рекурсивно):

Оцени качество моей рубрики по мета-рубрике. Помоги улучшить формулировки.

МЕТА-РУБРИКА (критерии оценки рубрик):
| Критерий | 1 (слабо) | 2 (средне) | 3 (хорошо) | 4 (отлично) |
|----------|-----------|------------|------------|-------------|
| Чёткость критериев | Критерии размыты, непонятно что оценивать | Общий смысл ясен, но есть двусмысленность | Критерии конкретны, понятно что проверять | Каждый критерий — один чёткий аспект, без пересечений с другими |
| Различимость уровней | Уровни сливаются, непонятна разница между 2 и 3 | Есть градация, но границы размыты | Чёткие различия между уровнями | Каждый уровень = конкретные признаки, легко определить какой |
| Конкретность описаний | Абстрактные слова ("хорошо", "плохо", "качественно") | Есть примеры, но общие | Конкретные признаки для каждого уровня | Описания через измеримые/наблюдаемые характеристики |
| Отсутствие дублирования | Критерии пересекаются, оценивают одно и то же | Есть пересечения, но небольшие | Критерии в основном независимы | Каждый критерий оценивает уникальный аспект |

МОЯ РУБРИКА:
{твоя_рубрика}

Выдай:
1. Оценка по каждому мета-критерию (1-4)
2. Why Not — почему не максимальный уровень, что конкретно мешает
3. How To — предложи улучшенные формулировки для моей рубрики

🚀 Быстрый старт — вставь в чат:

Вот шаблон рубричной оценки текстов. Адаптируй под мою задачу: [опиши что оцениваешь и какие критерии важны].
Задавай вопросы, чтобы составить рубрику.

[вставить базовый шаблон выше]

LLM спросит про критерии оценки (что важно в твоём тексте), количество уровней (обычно 4-5 оптимально), описания для каждого уровня — потому что ей нужна структура таблицы для работы. Она возьмёт паттерн "критерии × уровни" и адаптирует под твою задачу: питч для инвестора, пост для соцсетей, статью в блог, email-рассылку, описание продукта.

⚠️

Ограничения

⚠️ Требует подготовки рубрики: Нужно заранее определить критерии и сформулировать уровни. Не подходит для быстрой разовой проверки — эффективно для повторяющихся задач (серия постов, регулярные отчёты, однотипные тексты).

⚠️ Субъективные критерии сложнее: Для чётких критериев (структура, читабельность, конкретность, длина) работает стабильно. Для субъективных (креативность, оригинальность, эмоциональность) — менее надёжно, оценки могут плавать между запросами.

⚠️ Затраты токенов на полный цикл: Оценка + Why + Why Not + How To = много токенов, особенно для длинных текстов. Для экономии используй только нужные шаги: например, только оценка + How To для быстрого редактирования, или оценка + Why Not для понимания проблем без правок.

⚠️ Качество зависит от формулировок уровней: Если описания уровней размыты ("хорошо" / "плохо") — модель будет выбирать случайно. Если конкретны ("есть тезис + 2-3 аргумента + вывод") — оценка точнее. Используй рекурсивную проверку через мета-рубрику чтобы прокачать формулировки.

🔍

Как исследовали

Команда из National University of Singapore создала веб-систему с двумя интерфейсами: один для оценки текстов по рубрикам, второй — для создания и улучшения самих рубрик. Провели три эксперимента с участием людей, чтобы понять работает ли подход в реальности.

Эксперимент 1 (48 участников) — улучшение текстов. Людей разделили на три группы: первые редактировали тексты просто читая рубрику (без AI), вторые получали AI-фидбек текстом (как в ChatGPT — поток комментариев), третьи работали с iRULER (интерактивная таблица + Why/Why Not/How To). Измеряли качество финальных текстов через LLM-оценку (которую валидировали с экспертами) и спрашивали участников насколько полезна была помощь.

Результат удивил: просто читать рубрику без AI оказалось лучше, чем получать общий AI-фидбек текстом! Почему? Рубрика даёт структуру для самопроверки — человек сам сопоставляет текст с уровнями, понимает где проблема. А поток AI-комментариев — размытый, непонятно как применять, приходится додумывать. iRULER показал лучшие результаты по качеству текстов (+12% к финальному баллу против AI-текста, +8% против рубрики без AI) и оценкам участников — потому что объединил структуру рубрики с конкретными AI-подсказками.

Эксперимент 2 (36 участников) — создание рубрик. Проверяли как люди составляют критерии оценки. Половина работала сама, половина — с помощью системы которая оценивала качество критериев через "рубрику рубрик" и предлагала улучшения. Рубрики с iRULER получили выше оценки по чёткости критериев, различимости уровней и конкретности описаний — потому что система ловила типичные ошибки (размытые формулировки, пересечение критериев, непонятные различия между уровнями 2 и 3).

Эксперимент 3 (6 участников) — end-to-end. Люди создавали свои рубрики для своих задач (посты, статьи, резюме), применяли к текстам, корректировали критерии по ходу работы. Показал что рекурсивный подход работает в реальности: участники итеративно улучшали и рубрики (добавляли критерии, уточняли формулировки), и тексты (редактировали по конкретным подсказкам).

Инсайт для практики: Структура важнее, чем просто "умный AI-фидбек". Таблица критериев × уровни помогает самому понять что не так, даже без AI — ты сопоставляешь текст с описаниями, видишь разрыв. А AI с рубрикой даёт конкретику вместо общих слов. Это объясняет почему iRULER эффективнее обычного чат-фидбека: не модель стала умнее, а промпт задал жёсткую структуру для ответа. Модель не может уйти в общие слова — таблица заставляет выбрать конкретный уровень и обосновать.

🔗

Ресурсы

iRULER: Intelligible Rubric-Based User-Defined LLM Evaluation for Revision — исследование CHI 2026 (Conference on Human Factors in Computing Systems). Авторы: Jingwen Bai, Wei Soon Cheong (National University of Singapore), Philippe Muller (IRIT, University of Toulouse), Brian Y Lim (NUS, ведущий автор).

Статья описывает веб-систему с кодом и API, но принципы метода (рубрики, Why/Why Not/How To, рекурсивная оценка) полностью применимы в обычном чате ChatGPT/Claude без программирования.

📋 Дайджест исследования

Ключевая суть

Принцип работы

Не проси "оцени от 1 до 10" без объяснения шкалы — модель не знает твоих стандартов, выдаёт случайные числа. Задай критерии заранее: таблица где строки = аспекты (ясность, структура, убедительность), столбцы = уровни с конкретными описаниями. Не "хорошо/плохо", а измеримо: "есть тезис + 2-3 аргумента + вывод" vs "размытые мысли без логики". LLM сопоставляет твой текст с описаниями — выбирает подходящий уровень, поясняет выбор цитатами из текста. Три типа вопросов = рычаги управления: Why (почему этот уровень) → Why Not (что мешает подняться) → How To (конкретные правки).

Почему работает

LLM плохо оценивает "в общем" — выдаёт произвольные баллы и постфактум-обоснования (генерирует правдоподобный текст, но не реальную причину оценки). Модель сильна в сопоставлении паттернов, слаба в абстрактных оценках. Когда даёшь таблицу с описаниями уровней, она сравнивает текст с эталонами — это точнее чем просить "поставь балл". Рубрика заставляет модель анализировать по конкретным признакам: есть ли тезис, сколько аргументов, логичны ли переходы между блоками. Рекурсивность — страховка от плохих критериев: если формулировки размыты ("хорошая структура" вместо "каждый блок имеет тезис → аргументы → вывод"), мета-рубрика покажет где подтянуть чёткость.

Когда применять

Для повторяющихся задач с чёткими стандартами → серия постов в блог, регулярные email-рассылки, питчи для инвесторов, описания продуктов. Особенно когда нужно держать планку качества и понимать как улучшать каждый текст, а не получать общие слова. НЕ подходит для быстрой разовой проверки (требует подготовки рубрики — формулировки критериев, описания уровней). Для субъективных критериев (креативность, оригинальность) менее надёжно — оценки могут плавать между запросами.

Мини-рецепт

1. Создай рубрику: таблица где строки = критерии (ясность, структура, польза), столбцы = уровни (1-4 или 1-5) с описаниями. Не "хорошо/плохо", а конкретно: "есть тезис + 2 аргумента + вывод" vs "общие слова без структуры"
2. Попроси LLM оценить текст: выбрать уровень для каждого критерия, посчитать общий балл (сумма × 25 если 4 критерия по шкале 1-4)
3. Запроси объяснения (опционально, экономит токены если не нужны детали): Why — почему этот уровень (цитаты из текста), Why Not — что мешает подняться выше
4. Получи конкретные правки (опционально, самый затратный по токенам): How To — изменения с пометками [+ добавить] [- удалить] [~ заменить X на Y], для каждого укажи зачем
5. Прокачай рубрику рекурсивно: оцени качество критериев через мета-рубрику (чёткость формулировок, различимость уровней, конкретность описаний, отсутствие пересечений) — улучши слабые места

Примеры

[ПЛОХО] : Оцени мою статью по шкале от 1 до 10 и дай рекомендации как улучшить

[ХОРОШО] :

Оцени статью по рубрике. Критерии: Польза (1=общие слова без конкретики, 4=чёткие выводы с примерами применения), Читабельность (1=сложные предложения, приходится перечитывать, 4=каждое предложение на одном дыхании), Структура (1=перескакиваем между темами, 4=железная логика, каждый блок вытекает из предыдущего). Для каждого критерия: выбери уровень, объясни Why (почему именно этот, процитируй места), Why Not (что мешает подняться на уровень выше). Текст: [твой текст]

Источник: iRULER: Intelligible Rubric-Based User-Defined LLM Evaluation for Revision

ArXiv ID: 2602.12779 | Сгенерировано: 2026-02-16 15:49

Концепты не выделены.

📖 Простыми словами

iRULER: Intelligible Rubric-Based User-DefinedLLMEvaluation for Revision

arXiv: 2602.12779

Проблема в том, что нейронки катастрофически плохо оценивают контент «в целом». Если ты попросишь ChatGPT просто «сделать текст лучше», он выдаст вежливую воду в духе «ну, добавь динамики». Метод iRULER меняет правила игры: он заставляет модель работать не как восторженного критика, а как дотошного завуча с таблицей в руках. Суть в рубрикации — ты скармливаешь AI жесткую сетку критериев, где каждый параметр (ясность, логика, стиль) разбит на уровни от 1 до 5 с четким описанием, что именно соответствует каждой оценке.

Это как если бы ты пришел в ресторан и вместо «мне невкусно» выдал шеф-повару чек-лист: «соль — перебор, температура подачи — ниже нормы на 5 градусов, текстура соуса — комочками». Когда у LLM есть такая матрица критериев, она перестает галлюцинировать и начинает бить точно в цель. Вместо абстрактных советов ты получаешь конкретный диагноз по каждому пункту, что превращает обычный чат в профессиональный инструмент аудита.

Главная фишка здесь — рекурсивная проверка или «рубрика рубрик». Чтобы не получилось так, что твои критерии — полная фигня, метод заставляет нейронку сначала оценить саму таблицу, по которой она будет судить текст. Это защита от дурака: если ты придумал кривой критерий, система подсветит, что он не работает. iRULER превращает процесс оценки из гадания на кофейной гуще в прозрачный конвейер, где каждое исправление обосновано конкретным баллом и правилом.

Тестировали это на текстах, но принцип универсален. Метод идеально ложится на любые повторяющиеся задачи: от проверки серии постов для соцсетей до аудита питчей для инвесторов. Если у тебя есть стандарт качества, который можно описать словами, iRULER упакует его в алгоритм. Это переход от хаотичного «подправь тут что-нибудь» к системному управлению качеством, где нейронка выступает беспристрастным контролером ОТК.

Короче: хватит мучить модель размытыми промптами и ждать чуда. Хочешь стабильный результат — внедряй рубрики и уровни качества. Да, придется один раз заморочиться и составить таблицу, зато потом ты получишь автоматизированный аудит, который не устает и не теряет фокус. Либо ты строишь систему оценки, либо продолжаешь играть в лотерею с каждым новым ответом нейронки.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

Выберите модель ИИ:

Ваш запрос:

0 / 2000

~0.5-2 N-токенов ~10-30с

~0.3-1 N-токенов ~5-15с

Меню