TL;DR
iRULER — метод оценки текстов через рубрики (таблицу критериев × уровни качества). LLM оценивает текст по каждому критерию, выбирает уровень (например, "Ясность: 3 из 5"), и объясняет выбор. Для проверки качества самих критериев метод применяется рекурсивно — через "рубрику рубрик", которая оценивает насколько хороши ваши критерии.
Обычная оценка от LLM — поток текста без структуры. Непонятно почему модель поставила 7 из 10, почему не 9, и как достичь 9. Фидбек выглядит умным, но часто это постфактум-обоснование. Модель генерирует правдоподобный текст, но не обязательно объясняет реальные причины оценки. В итоге — общие слова ("улучши стиль", "сделай убедительнее") вместо конкретных шагов.
Рубрика задаёт критерии (ясность, убедительность, стиль) и уровни (1 = слабо, 5 = отлично) с описаниями каждого. LLM оценивает по каждому критерию и отвечает на три вопроса: Why — почему выбран этот уровень (цитаты из текста, конкретные признаки), Why Not — почему не выше (что мешает), How To — конкретные правки для целевого уровня. Для проверки качества критериев метод применяется к самой рубрике: мета-рубрика оценивает чёткость формулировок, различимость уровней, отсутствие пересечений.
Схема метода
ШАГ 1: Создать рубрику → таблица критериев (строки) × уровни (столбцы) с описаниями
ШАГ 2: LLM оценивает текст → выбирает уровень для каждого критерия, считает общий балл
ШАГ 3: Объяснить оценку → Why (почему этот уровень), Why Not (почему не выше)
ШАГ 4: Предложить правки → How To (конкретные изменения для целевого уровня)
РЕКУРСИВНО: Оценить саму рубрику через "рубрику рубрик" → улучшить формулировки критериев
Шаги 1-2 — один запрос (создание + оценка). Шаги 3-4 — отдельные запросы для объяснений и правок. Можно использовать все или только нужные.
Пример применения
⚠️ Сначала об ограничениях: Метод требует заранее определённых критериев. Не подходит для быстрой разовой проверки — нужна подготовка рубрики. Лучше всего работает для повторяющихся задач с чёткими стандартами качества (серия постов в блог, регулярные email-рассылки, питчи для инвесторов). Для субъективных критериев (креативность, оригинальность) менее надёжно.
Задача: Пишешь еженедельную рассылку с разбором бизнес-кейсов. Хочешь держать планку качества по трём критериям: польза (читатель уносит конкретные инсайты), читабельность (легко воспринимается), структура (логичный поток). Нужна система проверки перед отправкой 15 тысячам подписчиков.
Промпт (Шаг 1-2):
Оцени рассылку по рубрике. Выбери уровень для каждого критерия и посчитай общий балл.
РУБРИКА:
| Критерий | 1 (слабо) | 2 (средне) | 3 (хорошо) | 4 (отлично) |
|----------|-----------|------------|------------|-------------|
| Польза | Общие слова, нет конкретики | Есть мысли, но размыто сформулированы | Чёткие инсайты, можно применить | Конкретные выводы с примерами применения — читатель сразу понимает что делать |
| Читабельность | Сложные предложения, нагромождения, приходится перечитывать | Читается, но есть тяжёлые куски | Лёгкий текст, короткие абзацы, ясные формулировки | Каждое предложение на одном дыхании, текст "течёт" |
| Структура | Перескакиваем между темами, нет логики | Общая нить есть, но переходы резкие | Логичный поток, понятно как части связаны | Железная логика: каждый блок вытекает из предыдущего, финал собирает всё вместе |
ТЕКСТ РАССЫЛКИ:
[твой текст]
Выдай оценку в формате:
- Польза: X/4
- Читабельность: X/4
- Структура: X/4
- Общий балл: (сумма × 25) / 100
Промпт (Шаг 3 — объяснения):
Объясни оценки для критериев где уровень ниже 4:
- Why: почему ты выбрал уровень 2 для Структуры? Процитируй места где логика ломается.
- Why Not: что мешает поднять до уровня 3 или 4?
Промпт (Шаг 4 — конкретные правки):
How To: покажи правки, чтобы поднять Структуру с 2 до 4.
Отметь изменения прямо в тексте:
[+ зелёный = добавить новый элемент]
[- красный = удалить лишнее]
[~ жёлтый = заменить X на Y]
Для каждого изменения укажи зачем оно нужно (1 предложение).
Результат:
Модель выдаст таблицу с баллами (например: Польза 3, Читабельность 4, Структура 2 → общий балл 75). В объяснениях покажет почему Структура получила 2 — процитирует места где ты перескакиваешь между темами без связок, где финал не связан с началом. В Why Not укажет что именно мешает: "нет переходов между блоками", "вывод вводит новую мысль вместо того чтобы подытожить". В правках покажет как исправить: какие связки добавить между абзацами, как переформулировать финал, что удалить из середины чтобы не терять фокус.
Почему это работает
LLM плохо оценивает "в общем" — выдаёт размытый фидбек типа "улучши стиль" или "сделай убедительнее". Рубрика разбивает оценку на части: вместо одного вопроса "хорош ли текст?" задаёшь несколько конкретных — "насколько ясна идея? насколько убедительно? лаконично?". Модель лучше справляется с чёткими вопросами, чем с оценкой "вообще".
LLM сильна в сопоставлении паттернов. Когда даёшь таблицу с описаниями уровней, модель сравнивает твой текст с эталонами и выбирает подходящий. Это точнее, чем просить "оцени от 1 до 10" без объяснения что значит каждая цифра — модель не знает твоей шкалы, выдаёт случайные числа.
Три типа вопросов — рычаги управления: - Why → если нужна просто оценка без деталей, можно пропустить и сэкономить токены - Why Not → помогает понять разницу между уровнями, полезно при спорных случаях когда сомневаешься "это 3 или 4?" - How To → самый затратный по токенам, используй когда реально готов переписывать; для быстрой проверки достаточно Why + Why Not
Рекурсивность — метод оценивает качество самих критериев. Если рубрика сырая (критерии пересекаются, описания уровней размыты, непонятно чем 2 отличается от 3), попроси LLM оценить её через мета-критерии: "чёткость различий между уровнями", "конкретность описаний", "отсутствие дублирования". Модель предложит как улучшить формулировки — например, заменить "хорошая структура" на "каждый блок имеет тезис → аргументы → вывод".
Шаблон промпта
Базовый шаблон (оценка + объяснения + правки):
Оцени текст по рубрике. Выполни 4 шага.
ШАГ 1: ТАБЛИЦА ОЦЕНОК
Выбери уровень для каждого критерия. Выдай таблицу с баллами и общим счётом.
ШАГ 2: WHY — почему выбран этот уровень
Для каждого критерия объясни почему выбран именно этот уровень. Процитируй конкретные места из текста. 2-3 предложения на критерий.
ШАГ 3: WHY NOT — почему не выше
Для критериев где уровень ниже максимального: объясни что именно мешает подняться на уровень выше. Будь конкретен.
ШАГ 4: HOW TO — как достичь целевого уровня
Для критерия "{критерий}" покажи конкретные правки, чтобы поднять с уровня {текущий} до {целевой}.
Отметь изменения прямо в тексте:
[+ добавить]
[- удалить]
[~ заменить X на Y]
Для каждого изменения укажи зачем оно нужно (1 предложение).
РУБРИКА:
{твоя_таблица_критериев_и_уровней}
ТЕКСТ:
{твой_текст}
Пояснения к плейсхолдерам:
- {твоя_таблица_критериев_и_уровней} — таблица в Markdown: столбцы = уровни (обычно 1-4 или 1-5), строки = критерии. В каждой ячейке — описание этого уровня для этого критерия. Пример выше в разделе "Пример применения".
- {критерий} — название критерия из рубрики, для которого хочешь получить правки (например: "Структура" или "Убедительность")
- {текущий}, {целевой} — номера уровней, например: поднять с 2 до 4
- {твой_текст} — текст который оцениваешь (статья, пост, рассылка, питч)
Шаблон для проверки рубрики (рекурсивно):
Оцени качество моей рубрики по мета-рубрике. Помоги улучшить формулировки.
МЕТА-РУБРИКА (критерии оценки рубрик):
| Критерий | 1 (слабо) | 2 (средне) | 3 (хорошо) | 4 (отлично) |
|----------|-----------|------------|------------|-------------|
| Чёткость критериев | Критерии размыты, непонятно что оценивать | Общий смысл ясен, но есть двусмысленность | Критерии конкретны, понятно что проверять | Каждый критерий — один чёткий аспект, без пересечений с другими |
| Различимость уровней | Уровни сливаются, непонятна разница между 2 и 3 | Есть градация, но границы размыты | Чёткие различия между уровнями | Каждый уровень = конкретные признаки, легко определить какой |
| Конкретность описаний | Абстрактные слова ("хорошо", "плохо", "качественно") | Есть примеры, но общие | Конкретные признаки для каждого уровня | Описания через измеримые/наблюдаемые характеристики |
| Отсутствие дублирования | Критерии пересекаются, оценивают одно и то же | Есть пересечения, но небольшие | Критерии в основном независимы | Каждый критерий оценивает уникальный аспект |
МОЯ РУБРИКА:
{твоя_рубрика}
Выдай:
1. Оценка по каждому мета-критерию (1-4)
2. Why Not — почему не максимальный уровень, что конкретно мешает
3. How To — предложи улучшенные формулировки для моей рубрики
🚀 Быстрый старт — вставь в чат:
Вот шаблон рубричной оценки текстов. Адаптируй под мою задачу: [опиши что оцениваешь и какие критерии важны].
Задавай вопросы, чтобы составить рубрику.
[вставить базовый шаблон выше]
LLM спросит про критерии оценки (что важно в твоём тексте), количество уровней (обычно 4-5 оптимально), описания для каждого уровня — потому что ей нужна структура таблицы для работы. Она возьмёт паттерн "критерии × уровни" и адаптирует под твою задачу: питч для инвестора, пост для соцсетей, статью в блог, email-рассылку, описание продукта.
Ограничения
⚠️ Требует подготовки рубрики: Нужно заранее определить критерии и сформулировать уровни. Не подходит для быстрой разовой проверки — эффективно для повторяющихся задач (серия постов, регулярные отчёты, однотипные тексты).
⚠️ Субъективные критерии сложнее: Для чётких критериев (структура, читабельность, конкретность, длина) работает стабильно. Для субъективных (креативность, оригинальность, эмоциональность) — менее надёжно, оценки могут плавать между запросами.
⚠️ Затраты токенов на полный цикл: Оценка + Why + Why Not + How To = много токенов, особенно для длинных текстов. Для экономии используй только нужные шаги: например, только оценка + How To для быстрого редактирования, или оценка + Why Not для понимания проблем без правок.
⚠️ Качество зависит от формулировок уровней: Если описания уровней размыты ("хорошо" / "плохо") — модель будет выбирать случайно. Если конкретны ("есть тезис + 2-3 аргумента + вывод") — оценка точнее. Используй рекурсивную проверку через мета-рубрику чтобы прокачать формулировки.
Как исследовали
Команда из National University of Singapore создала веб-систему с двумя интерфейсами: один для оценки текстов по рубрикам, второй — для создания и улучшения самих рубрик. Провели три эксперимента с участием людей, чтобы понять работает ли подход в реальности.
Эксперимент 1 (48 участников) — улучшение текстов. Людей разделили на три группы: первые редактировали тексты просто читая рубрику (без AI), вторые получали AI-фидбек текстом (как в ChatGPT — поток комментариев), третьи работали с iRULER (интерактивная таблица + Why/Why Not/How To). Измеряли качество финальных текстов через LLM-оценку (которую валидировали с экспертами) и спрашивали участников насколько полезна была помощь.
Результат удивил: просто читать рубрику без AI оказалось лучше, чем получать общий AI-фидбек текстом! Почему? Рубрика даёт структуру для самопроверки — человек сам сопоставляет текст с уровнями, понимает где проблема. А поток AI-комментариев — размытый, непонятно как применять, приходится додумывать. iRULER показал лучшие результаты по качеству текстов (+12% к финальному баллу против AI-текста, +8% против рубрики без AI) и оценкам участников — потому что объединил структуру рубрики с конкретными AI-подсказками.
Эксперимент 2 (36 участников) — создание рубрик. Проверяли как люди составляют критерии оценки. Половина работала сама, половина — с помощью системы которая оценивала качество критериев через "рубрику рубрик" и предлагала улучшения. Рубрики с iRULER получили выше оценки по чёткости критериев, различимости уровней и конкретности описаний — потому что система ловила типичные ошибки (размытые формулировки, пересечение критериев, непонятные различия между уровнями 2 и 3).
Эксперимент 3 (6 участников) — end-to-end. Люди создавали свои рубрики для своих задач (посты, статьи, резюме), применяли к текстам, корректировали критерии по ходу работы. Показал что рекурсивный подход работает в реальности: участники итеративно улучшали и рубрики (добавляли критерии, уточняли формулировки), и тексты (редактировали по конкретным подсказкам).
Инсайт для практики: Структура важнее, чем просто "умный AI-фидбек". Таблица критериев × уровни помогает самому понять что не так, даже без AI — ты сопоставляешь текст с описаниями, видишь разрыв. А AI с рубрикой даёт конкретику вместо общих слов. Это объясняет почему iRULER эффективнее обычного чат-фидбека: не модель стала умнее, а промпт задал жёсткую структуру для ответа. Модель не может уйти в общие слова — таблица заставляет выбрать конкретный уровень и обосновать.
Ресурсы
iRULER: Intelligible Rubric-Based User-Defined LLM Evaluation for Revision — исследование CHI 2026 (Conference on Human Factors in Computing Systems). Авторы: Jingwen Bai, Wei Soon Cheong (National University of Singapore), Philippe Muller (IRIT, University of Toulouse), Brian Y Lim (NUS, ведущий автор).
Статья описывает веб-систему с кодом и API, но принципы метода (рубрики, Why/Why Not/How To, рекурсивная оценка) полностью применимы в обычном чате ChatGPT/Claude без программирования.
