3,583 papers
arXiv:2607.01830 82 2 июля 2026 г. FREE

MRRG (Multi-Role Rubric Generation): оценка текста сразу с пяти точек зрения

КЛЮЧЕВАЯ СУТЬ
Обнаружено: когда просишь LLM оценить текст — она смотрит с позиции «образованного читателя» и усредняет все возможные углы в один взгляд. Педагог, эксперт-предметник, пользователь — молчат. Именно поэтому обратная связь получается расплывчатой. MRRG позволяет получить структурированную рубрику из 15–25 конкретных критериев — от пяти ролей, каждая из которых смотрит только на своё. Два шага: сначала строишь рубрику (5 ролей × 3–7 критериев с весами), потом оцениваешь текст по ней. Узкая роль не пытается охватить всё — и генерирует острые, специфические требования. Вместо «можно доработать» — конкретный список: «нет доказательств утверждения об экономии времени [критично]», «жаргон без расшифровки [важно]».
Адаптировать под запрос

TL;DR

MRRG — техника оценки текстов, где вместо одной общей критики LLM последовательно оценивает материал с пяти разных ролевых позиций: пользователь, эксперт предметной области, педагог, исследователь AI, лингвист. Каждая роль генерирует 3–7 конкретных проверочных критериев с весами. В итоге получается «рубрика» — структурированный чеклист, по которому текст оценивается объективно и полно.

Когда просишь LLM оценить что-то в лоб — «оцени мой текст» или «скажи, что не так» — модель видит только часть картины. Она может похвалить за грамотность и логику, но пропустить, что совет невыполним, данные устарели или читателю непонятны термины. В исследовании это называют «слепыми зонами»: один оценщик всегда смотрит под одним углом и не замечает того, что видно с другого.

MRRG решает проблему через смену ролей. Каждая роль фокусируется только на своём угле зрения — это проще и острее, чем пытаться охватить всё сразу. Критерии от всех ролей объединяются в итоговый чеклист, а дублирующиеся — отбрасываются.


🔬

Схема метода

ШАГ 1: Генерация рубрики (один промпт)
  → LLM последовательно принимает 5 ролей
  → Каждая роль генерирует 3–7 бинарных критериев с весами (1/2/3)
  → Дубликаты убираются

ШАГ 2: Оценка текста (один промпт)
  → LLM проверяет текст по каждому критерию (да/нет × вес)
  → Итог: взвешенный балл + какие критерии не прошли

Два отдельных запроса. Первый — строим рубрику. Второй — оцениваем.


🚀

Пример применения

Задача: Ты написал продуктовый лендинг для нового SaaS-сервиса автоматизации HR-документов. Хочешь получить честную оценку — не «всё хорошо», а реальные слабые места.

Промпт (Шаг 1 — генерация рубрики):

У меня есть лендинг для HR-SaaS, вот его текст:

---
[ВСТАВЬ ТЕКСТ ЛЕНДИНГА]
---

Теперь оцени этот текст поочерёдно с пяти ролей. 
Для каждой роли сгенерируй 3–7 конкретных, бинарных критериев 
(то есть ответ на каждый — «да» или «нет»).
Присвой каждому критерию вес: 3 (критично), 2 (важно), 1 (полировка).

Роль 1 — ПОЛЬЗОВАТЕЛЬ: фокус на пользе, ясности задачи, что посетитель получит
Роль 2 — ЭКСПЕРТ В HR: фокус на точности, корректности утверждений, доверии к данным
Роль 3 — ПЕДАГОГ: фокус на ясности объяснений, доступности языка, безопасности обещаний
Роль 4 — ИССЛЕДОВАТЕЛЬ AI: фокус на корректности AI-утверждений, честности возможностей
Роль 5 — ЛИНГВИСТ: фокус на качестве текста, структуре, читаемости, тоне

Формат для каждой роли:
**[НАЗВАНИЕ РОЛИ]**
- [критерий] [W{вес}]
- [критерий] [W{вес}]
...

После всех ролей — убери точные дубликаты и выведи итоговый объединённый список.

Промпт (Шаг 2 — оценка):

Теперь возьми итоговый список критериев из предыдущего шага 
и проверь по нему текст лендинга.

Для каждого критерия:
- ✅ если текст соответствует
- ❌ если не соответствует — кратко объясни что именно не так

В конце: итоговый балл (сумма весов прошедших критериев / сумма всех весов × 100%) 
и топ-3 пункта, которые стоит исправить в первую очередь.

Результат: Шаг 1 вернёт структурированную рубрику — 15–25 конкретных критериев, разбитых по ролям. Шаг 2 даст чеклист с галочками/крестиками, числовой балл и приоритетный список доработок. Вместо расплывчатого «текст неплохой, но можно улучшить» — конкретный список: «нет доказательств утверждения об экономии времени [W3]», «жаргон HR без расшифровки [W2]».


🧠

Почему это работает

LLM очень хорошо следует ролевому заданию — когда роль задана явно и узко, модель концентрируется именно на ней. Проблема обычного запроса «оцени текст» в том, что модель сама выбирает угол — и почти всегда это угол «общего образованного читателя». Педагог, эксперт-предметник и пользователь замечают разное.

Когда просишь одну роль охватить всё — происходит компрессия перспектив: модель как бы усредняет их в один взгляд. Узкая роль генерирует более острые и специфические критерии, потому что не пытается «быть объективной» в широком смысле.

Рычаги управления: - Роли — можешь менять набор под задачу. Для питча инвесторам добавь «ИНВЕСТОР», убери «ЛИНГВИСТ» - Диапазон критериев — «3–7» можно сузить до «3–5» для быстрой оценки - Веса — можешь заменить трёхбалльную шкалу двоичной (важно / не важно) для упрощения - Шаги — можно объединить в один промпт, если текст короткий и не нужна детализация


📋

Шаблон промпта

У меня есть {тип материала}, вот он:

---
{твой текст / ответ / материал}
---

Оцени его поочерёдно с пяти ролей.
Для каждой роли сгенерируй 3–7 бинарных критериев (ответ да/нет).
Присвой каждому вес: 3 (критично), 2 (важно), 1 (полировка).

Роль 1 — ПОЛЬЗОВАТЕЛЬ: {фокус роли 1}
Роль 2 — ЭКСПЕРТ: {фокус роли 2}
Роль 3 — ПЕДАГОГ: {фокус роли 3}
Роль 4 — КРИТИК: {фокус роли 4}
Роль 5 — {своя роль}: {фокус роли 5}

Формат для каждой роли:
**[РОЛЬ]**
- [критерий] [W{вес}]

После — убери точные дубликаты и выведи итоговый список.

Затем проверь {тип материала} по каждому критерию:
✅ соответствует / ❌ не соответствует + краткое объяснение

В конце: балл в % и топ-3 приоритета для доработки.

Плейсхолдеры: - {тип материала} — «лендинг», «деловое письмо», «план проекта», «резюме», «скрипт продаж» - {фокус роли} — конкретизируй под задачу: «соответствие реалиям рынка», «читаемость для новичка», «юридические риски» - Роли 1–5 — меняй под контекст оценки


🚀 Быстрый старт — вставь в чат:

Вот шаблон MRRG для многоролевой оценки текста. 
Адаптируй под мою задачу: {твоя задача}. 
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит: какой текст оценивать, какие роли подходят под задачу, какие аспекты важны — потому что без этого она не сможет настроить фокус каждой роли правильно.


⚠️

Ограничения

⚠️ Лишние токены на простых задачах: Если задача однозначная — «правильная ли формула» или «грамотно ли написано» — пять ролей избыточны. Метод оправдывает себя, когда материал многомерный: тексты, идеи, планы, стратегии.

⚠️ Роли могут дублировать друг друга: При похожих задачах ЭКСПЕРТ и ПОЛЬЗОВАТЕЛЬ генерируют перекрывающиеся критерии. Ничего страшного — дубликаты убираются. Но если видишь это — сделай роли контрастнее.

⚠️ Качество зависит от чёткости фокуса роли: Если написать просто «Роль 2 — ЭКСПЕРТ» без уточнения предметной области — критерии будут расплывчатыми. Чем точнее фокус роли, тем острее критерии.

⚠️ Не заменяет экспертного взгляда: LLM в роли «эксперта по финансовым рискам» не заменит реального финансиста. Это структурированная рамка, которая помогает не пропустить угол зрения — но не глубина экспертизы.


🔍

Как исследовали

Исследователи поставили простой вопрос: что теряет LLM, когда оценивает текст с одной точки зрения вместо нескольких? Они сравнили свой многоролевой генератор рубрик против трёх «одноголосых» методов — классического без примеров, с примером ответа и метода «Chasing the Tail» (где рубрика улучшается через сравнение разных хороших ответов).

Тестировалось на пяти моделях — от небольшой 3B до GPT-120B — и на трёх бенчмарках предпочтений (RewardBench-2, JudgeBench, PPE). Интересно, что любая одиночная роль в изоляции проигрывала даже простым базовым методам — но в комбинации всех пяти ролей результат был лучше всего. Это опровергло бы простое объяснение «просто больше критериев = лучше»: исследователи специально проверили это, повторив одноголосую генерацию пять раз — результат был заметно хуже настоящей многоролевой версии.

Второй эксперимент — обучение модели с наградами MRRG вместо одноголосых наград. Даже маленькая 3B-модель, обученная на мульти-ролевых сигналах, лучше генерализировалась на задачи из других областей. Ключевой инсайт: более широкое покрытие критериев оценки → более устойчивый сигнал → лучшее обобщение.


💡

Адаптации и экстраполяции

🔧 Адаптация 1: Роли под конкретную профессию

Стандартный набор (пользователь, эксперт, педагог, AI-исследователь, лингвист) — дефолт из исследования. Для оценки бизнес-идеи полезнее:

КЛИЕНТ → ИНВЕСТОР → КОНКУРЕНТ → ОПЕРАЦИОННЫЙ ДИРЕКТОР → МАРКЕТОЛОГ

Принцип тот же — пять непересекающихся точек зрения. Персонажей меняй под задачу.


🔧 Адаптация 2: Самооценка перед финальной версией

Применяй MRRG не для оценки готового результата, а до его финализации. Схема:

Вот черновик моего {материала}. 
Сыграй последовательно роли: [5 ролей под задачу]. 
Для каждой роли — найди 2–3 слабых места, которые я должен устранить. 
После — сведи в приоритетный список правок.

Это не оценка, а диагностика перед отправкой. Особенно полезно для писем партнёрам, питчей, презентаций.


🔧 Адаптация 3: Оценка чужого контента

Разбор конкурентов, анализ чужих лендингов, оценка статей перед репостом. MRRG работает не только на своём материале — давай ему любой текст для структурированного разбора.


🔗

Ресурсы

Название работы: Many Voices, One Reward: Multi-Role Rubric Generation for LLM Judging and Reward Modeling

Авторы: Dazhi Fu, Jiuding Yang, Yiwen Guo, Jicong Fan

Организации: School of Data Science, Chinese University of Hong Kong (Shenzhen); LIGHTSPEED (Tencent)

Код: github.com/fudazhiaka/Many-Voices-One-Reward-Multi-Role-Rubric-Generation-for-LLM-Judging-and-Reward-Modeling

Связанные работы: Chasing the Tail (Zhang et al., 2025), Rubrics as Rewards (Gunjal et al., 2025), MT-Bench / Chatbot Arena (Zheng et al., 2023)


📋 Дайджест исследования

Ключевая суть

Обнаружено: когда просишь LLM оценить текст — она смотрит с позиции «образованного читателя» и усредняет все возможные углы в один взгляд. Педагог, эксперт-предметник, пользователь — молчат. Именно поэтому обратная связь получается расплывчатой. MRRG позволяет получить структурированную рубрику из 15–25 конкретных критериев — от пяти ролей, каждая из которых смотрит только на своё. Два шага: сначала строишь рубрику (5 ролей × 3–7 критериев с весами), потом оцениваешь текст по ней. Узкая роль не пытается охватить всё — и генерирует острые, специфические требования. Вместо «можно доработать» — конкретный список: «нет доказательств утверждения об экономии времени [критично]», «жаргон без расшифровки [важно]».

Принцип работы

Стандартная просьба «оцени мой текст» — это как нанять одного консультанта и попросить его одновременно быть юристом, маркетологом и техническим писателем. Он старается, но размазывается. MRRG нанимает пятерых専专специалистов по очереди и говорит каждому: смотри только на своё. Прикол в том, что узкий фокус даёт более острые критерии, чем широкий. Модель в роли «педагога» не отвлекается на корректность данных — она режет по ясности объяснений. Модель в роли «эксперта-предметника» не смотрит на структуру — она проверяет, не соврал ли ты в утверждениях. Каждая роль находит то, что другая не заметит. Веса (1 — полировка, 2 — важно, 3 — критично) позволяют потом отсортировать: что чинить сегодня, а что можно оставить на потом.

Почему работает

LLM хорошо следует узким ролям — особенно когда роль задана явно и фокус прописан конкретно. Проблема обычного запроса в том, что модель сама выбирает угол. И почти всегда это угол «образованного читателя» — потому что так безопасно и универсально. Многоролевой подход убирает это усреднение: каждая роль коммитится в один угол и не отвлекается на остальные. Отсюда более острые критерии. Отсюда конкретные «нет», а не размытые «можно улучшить». Дублирующиеся критерии между ролями убираются — остаётся только уникальный взгляд каждого «специалиста».

Когда применять

Многомерные материалы — тексты, идеи, планы, стратегии, презентации, скрипты продаж. Особенно когда важно не пропустить угол зрения: лендинги, деловые письма, обучающие материалы, питчи. НЕ подходит для однозначных задач — проверка формулы, грамматика, «правильно ли я посчитал». Там пять ролей — лишний шум. Метод окупается, когда один правильный ответ не существует.

Мини-рецепт

1. Выбери роли под задачу: стандартный набор — Пользователь, Эксперт-предметник, Педагог, Критик, Лингвист. Для питча инвесторам — убери Лингвиста, добавь Инвестора и Скептика.

2. Пропиши фокус каждой роли: не просто «Роль 2 — Эксперт», а «Роль 2 — Эксперт по HR: проверяй точность утверждений, актуальность данных, доверие к цифрам». Чем точнее фокус — тем острее критерии.

3. Шаг 1 — генерируй рубрику: отправь промпт с текстом и пятью ролями. Попроси 3–7 бинарных критериев (ответ да/нет) с весами от каждой роли. В конце — убрать точные дубликаты.

4. Шаг 2 — оценивай по рубрике: отправь второй промпт: проверь текст по итоговому списку, поставь галочку или крест, объясни провалы. В конце — балл в процентах и топ-3 приоритета.

5. Для коротких задач — можно объединить оба шага в один промпт. Для длинных и важных материалов — держи раздельно: рубрика от оценки не зависит от текста напрямую.

Примеры

[ПЛОХО] : Оцени мой лендинг для HR-сервиса. Что можно улучшить?
[ХОРОШО] : У меня есть лендинг для HR-сервиса. Оцени его поочерёдно с пяти ролей. Роль 1 — ПОЛЬЗОВАТЕЛЬ: ясность пользы, что посетитель получит, нет ли путаницы Роль 2 — HR-ЭКСПЕРТ: точность утверждений, актуальность данных, нет ли ошибок в терминах Роль 3 — ПЕДАГОГ: понятность языка, нет ли жаргона без расшифровки, доступны ли объяснения Роль 4 — СКЕПТИК: есть ли доказательства обещаний, нет ли завышенных ожиданий Роль 5 — ЛИНГВИСТ: структура, читаемость, тон, длина предложений Для каждой роли: 3–7 бинарных критериев с весом 1/2/3. После всех ролей убери дубликаты и выведи итоговый список. Затем проверь лендинг по каждому критерию: плюс если соответствует, минус — с объяснением. В конце: балл в процентах и топ-3 доработки.
Источник: Many Voices, One Reward: Multi-Role Rubric Generation for LLM Judging and Reward Modeling
ArXiv ID: 2607.01830 | Сгенерировано: 2026-07-03 04:40

Проблемы LLM

ПроблемаСутьКак обойти
Оценка текста в лоб даёт один угол зренияПишешь "оцени мой текст". Модель смотрит как "грамотный читатель". Хвалит за логику и стиль. Пропускает: совет невыполним, данные устарели, термины непонятны новичку. Разные роли видят разное — но одна роль по умолчанию этого не знаетЗадай несколько конкретных ролей явно. Каждая роль — отдельный фокус. Педагог проверяет ясность. Эксперт — точность фактов. Пользователь — практическую пользу

Методы

МетодСуть
Многоролевая рубрика — оценка сразу с нескольких позицийШаг 1 — строишь рубрику. Просишь модель последовательно занять 3–5 ролей. Каждая роль генерирует 3–7 конкретных критериев с весом: 3 = критично, 2 = важно, 1 = полировка. Критерий — бинарный: да/нет. Дубликаты убираешь. Роль 1 — ПОЛЬЗОВАТЕЛЬ: [фокус]. Роль 2 — ЭКСПЕРТ: [фокус]... Шаг 2 — оцениваешь текст. Модель проходит по каждому критерию: ✅ соответствует / ❌ не соответствует + объяснение. В конце: балл в % и топ-3 приоритета на доработку. Почему работает: узкая роль не пытается охватить всё. Она острее и конкретнее. Широкий запрос "оцени" усредняет перспективы в один взгляд. Когда применять: многомерные материалы — тексты, планы, идеи, стратегии. Когда не нужно: простые однозначные задачи ("правильная ли формула") — пять ролей избыточны
📖 Простыми словами

Many Voices, One Reward: Multi-Role Rubric Generation forLLMJudging and RewardModeling

arXiv: 2607.01830

Суть метода MRRG в том, что обычная оценка от нейросети — это всегда «средняя температура по больнице». Когда ты просишь AI просто оценить текст, он включает режим вежливого соседа, который хвалит всё подряд, не вникая в детали. Новая техника заставляет модель расщепить личность и посмотреть на задачу через пять разных фильтров: от придирчивого эксперта до обычного юзера. Вместо одного размытого мнения ты получаешь структурированный чеклист с весами, где каждый критерий выбит в камне, а не взят с потолка.

Это как если бы ты принес чертеж нового двигателя не одному главному инженеру, а собрал консилиум из моториста, бухгалтера, эколога, водителя и продавца запчастей. Каждый из них — узкий фанатик своего дела. Бухгалтер плевать хотел на мощность, его волнует цена металла, а водителю важно, чтобы руки не обжечь при проверке масла. В итоге их коллективный вердикт — это не просто «норм», а математически выверенная карта косяков, которую невозможно игнорировать.

Внутри метода работают пять конкретных ролей: пользователь, эксперт, педагог, исследователь AI и лингвист. Каждая роль выкатывает список из 3–7 жестких требований. Например, эксперт проверит факты, а лингвист докопается до канцелярита. Самое важное здесь — веса критериев. Система понимает, что в инструкции по безопасности точность фактов важнее, чем «красивый слог», и выставляет итоговый балл, исходя из приоритетов, а не просто складывая цифры.

Тестировали это на оценке текстов, но принцип универсален. Эту схему можно натянуть на проверку кода, аудит маркетинговых стратегий или анализ юридических договоров. Везде, где нужно уйти от субъективного «мне нравится» к объективному «соответствует 15 параметрам из 20», этот метод сработает. SEO для смыслов превращается в жесткий аудит, где у каждой ошибки есть фамилия и вес.

Главный вывод: хватит кормить нейросеть общими запросами и ждать глубокой аналитики. Чтобы получить адекватный фидбек, нужно заставить AI играть в несколько ролей одновременно и самому составлять себе ТЗ на проверку. MRRG доказывает, что коллективный разум внутри одной модели работает в разы точнее, чем один «умный» промпт. Либо ты дробишь задачу на роли, либо получаешь бесполезную похвалу вместо реальной работы над ошибками.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с