TL;DR
MRRG — техника оценки текстов, где вместо одной общей критики LLM последовательно оценивает материал с пяти разных ролевых позиций: пользователь, эксперт предметной области, педагог, исследователь AI, лингвист. Каждая роль генерирует 3–7 конкретных проверочных критериев с весами. В итоге получается «рубрика» — структурированный чеклист, по которому текст оценивается объективно и полно.
Когда просишь LLM оценить что-то в лоб — «оцени мой текст» или «скажи, что не так» — модель видит только часть картины. Она может похвалить за грамотность и логику, но пропустить, что совет невыполним, данные устарели или читателю непонятны термины. В исследовании это называют «слепыми зонами»: один оценщик всегда смотрит под одним углом и не замечает того, что видно с другого.
MRRG решает проблему через смену ролей. Каждая роль фокусируется только на своём угле зрения — это проще и острее, чем пытаться охватить всё сразу. Критерии от всех ролей объединяются в итоговый чеклист, а дублирующиеся — отбрасываются.
Схема метода
ШАГ 1: Генерация рубрики (один промпт)
→ LLM последовательно принимает 5 ролей
→ Каждая роль генерирует 3–7 бинарных критериев с весами (1/2/3)
→ Дубликаты убираются
ШАГ 2: Оценка текста (один промпт)
→ LLM проверяет текст по каждому критерию (да/нет × вес)
→ Итог: взвешенный балл + какие критерии не прошли
Два отдельных запроса. Первый — строим рубрику. Второй — оцениваем.
Пример применения
Задача: Ты написал продуктовый лендинг для нового SaaS-сервиса автоматизации HR-документов. Хочешь получить честную оценку — не «всё хорошо», а реальные слабые места.
Промпт (Шаг 1 — генерация рубрики):
У меня есть лендинг для HR-SaaS, вот его текст:
---
[ВСТАВЬ ТЕКСТ ЛЕНДИНГА]
---
Теперь оцени этот текст поочерёдно с пяти ролей.
Для каждой роли сгенерируй 3–7 конкретных, бинарных критериев
(то есть ответ на каждый — «да» или «нет»).
Присвой каждому критерию вес: 3 (критично), 2 (важно), 1 (полировка).
Роль 1 — ПОЛЬЗОВАТЕЛЬ: фокус на пользе, ясности задачи, что посетитель получит
Роль 2 — ЭКСПЕРТ В HR: фокус на точности, корректности утверждений, доверии к данным
Роль 3 — ПЕДАГОГ: фокус на ясности объяснений, доступности языка, безопасности обещаний
Роль 4 — ИССЛЕДОВАТЕЛЬ AI: фокус на корректности AI-утверждений, честности возможностей
Роль 5 — ЛИНГВИСТ: фокус на качестве текста, структуре, читаемости, тоне
Формат для каждой роли:
**[НАЗВАНИЕ РОЛИ]**
- [критерий] [W{вес}]
- [критерий] [W{вес}]
...
После всех ролей — убери точные дубликаты и выведи итоговый объединённый список.
Промпт (Шаг 2 — оценка):
Теперь возьми итоговый список критериев из предыдущего шага
и проверь по нему текст лендинга.
Для каждого критерия:
- ✅ если текст соответствует
- ❌ если не соответствует — кратко объясни что именно не так
В конце: итоговый балл (сумма весов прошедших критериев / сумма всех весов × 100%)
и топ-3 пункта, которые стоит исправить в первую очередь.
Результат: Шаг 1 вернёт структурированную рубрику — 15–25 конкретных критериев, разбитых по ролям. Шаг 2 даст чеклист с галочками/крестиками, числовой балл и приоритетный список доработок. Вместо расплывчатого «текст неплохой, но можно улучшить» — конкретный список: «нет доказательств утверждения об экономии времени [W3]», «жаргон HR без расшифровки [W2]».
Почему это работает
LLM очень хорошо следует ролевому заданию — когда роль задана явно и узко, модель концентрируется именно на ней. Проблема обычного запроса «оцени текст» в том, что модель сама выбирает угол — и почти всегда это угол «общего образованного читателя». Педагог, эксперт-предметник и пользователь замечают разное.
Когда просишь одну роль охватить всё — происходит компрессия перспектив: модель как бы усредняет их в один взгляд. Узкая роль генерирует более острые и специфические критерии, потому что не пытается «быть объективной» в широком смысле.
Рычаги управления: - Роли — можешь менять набор под задачу. Для питча инвесторам добавь «ИНВЕСТОР», убери «ЛИНГВИСТ» - Диапазон критериев — «3–7» можно сузить до «3–5» для быстрой оценки - Веса — можешь заменить трёхбалльную шкалу двоичной (важно / не важно) для упрощения - Шаги — можно объединить в один промпт, если текст короткий и не нужна детализация
Шаблон промпта
У меня есть {тип материала}, вот он:
---
{твой текст / ответ / материал}
---
Оцени его поочерёдно с пяти ролей.
Для каждой роли сгенерируй 3–7 бинарных критериев (ответ да/нет).
Присвой каждому вес: 3 (критично), 2 (важно), 1 (полировка).
Роль 1 — ПОЛЬЗОВАТЕЛЬ: {фокус роли 1}
Роль 2 — ЭКСПЕРТ: {фокус роли 2}
Роль 3 — ПЕДАГОГ: {фокус роли 3}
Роль 4 — КРИТИК: {фокус роли 4}
Роль 5 — {своя роль}: {фокус роли 5}
Формат для каждой роли:
**[РОЛЬ]**
- [критерий] [W{вес}]
После — убери точные дубликаты и выведи итоговый список.
Затем проверь {тип материала} по каждому критерию:
✅ соответствует / ❌ не соответствует + краткое объяснение
В конце: балл в % и топ-3 приоритета для доработки.
Плейсхолдеры:
- {тип материала} — «лендинг», «деловое письмо», «план проекта», «резюме», «скрипт продаж»
- {фокус роли} — конкретизируй под задачу: «соответствие реалиям рынка», «читаемость для новичка», «юридические риски»
- Роли 1–5 — меняй под контекст оценки
🚀 Быстрый старт — вставь в чат:
Вот шаблон MRRG для многоролевой оценки текста.
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит: какой текст оценивать, какие роли подходят под задачу, какие аспекты важны — потому что без этого она не сможет настроить фокус каждой роли правильно.
Ограничения
⚠️ Лишние токены на простых задачах: Если задача однозначная — «правильная ли формула» или «грамотно ли написано» — пять ролей избыточны. Метод оправдывает себя, когда материал многомерный: тексты, идеи, планы, стратегии.
⚠️ Роли могут дублировать друг друга: При похожих задачах ЭКСПЕРТ и ПОЛЬЗОВАТЕЛЬ генерируют перекрывающиеся критерии. Ничего страшного — дубликаты убираются. Но если видишь это — сделай роли контрастнее.
⚠️ Качество зависит от чёткости фокуса роли: Если написать просто «Роль 2 — ЭКСПЕРТ» без уточнения предметной области — критерии будут расплывчатыми. Чем точнее фокус роли, тем острее критерии.
⚠️ Не заменяет экспертного взгляда: LLM в роли «эксперта по финансовым рискам» не заменит реального финансиста. Это структурированная рамка, которая помогает не пропустить угол зрения — но не глубина экспертизы.
Как исследовали
Исследователи поставили простой вопрос: что теряет LLM, когда оценивает текст с одной точки зрения вместо нескольких? Они сравнили свой многоролевой генератор рубрик против трёх «одноголосых» методов — классического без примеров, с примером ответа и метода «Chasing the Tail» (где рубрика улучшается через сравнение разных хороших ответов).
Тестировалось на пяти моделях — от небольшой 3B до GPT-120B — и на трёх бенчмарках предпочтений (RewardBench-2, JudgeBench, PPE). Интересно, что любая одиночная роль в изоляции проигрывала даже простым базовым методам — но в комбинации всех пяти ролей результат был лучше всего. Это опровергло бы простое объяснение «просто больше критериев = лучше»: исследователи специально проверили это, повторив одноголосую генерацию пять раз — результат был заметно хуже настоящей многоролевой версии.
Второй эксперимент — обучение модели с наградами MRRG вместо одноголосых наград. Даже маленькая 3B-модель, обученная на мульти-ролевых сигналах, лучше генерализировалась на задачи из других областей. Ключевой инсайт: более широкое покрытие критериев оценки → более устойчивый сигнал → лучшее обобщение.
Адаптации и экстраполяции
🔧 Адаптация 1: Роли под конкретную профессию
Стандартный набор (пользователь, эксперт, педагог, AI-исследователь, лингвист) — дефолт из исследования. Для оценки бизнес-идеи полезнее:
КЛИЕНТ → ИНВЕСТОР → КОНКУРЕНТ → ОПЕРАЦИОННЫЙ ДИРЕКТОР → МАРКЕТОЛОГ
Принцип тот же — пять непересекающихся точек зрения. Персонажей меняй под задачу.
🔧 Адаптация 2: Самооценка перед финальной версией
Применяй MRRG не для оценки готового результата, а до его финализации. Схема:
Вот черновик моего {материала}.
Сыграй последовательно роли: [5 ролей под задачу].
Для каждой роли — найди 2–3 слабых места, которые я должен устранить.
После — сведи в приоритетный список правок.
Это не оценка, а диагностика перед отправкой. Особенно полезно для писем партнёрам, питчей, презентаций.
🔧 Адаптация 3: Оценка чужого контента
Разбор конкурентов, анализ чужих лендингов, оценка статей перед репостом. MRRG работает не только на своём материале — давай ему любой текст для структурированного разбора.
Ресурсы
Название работы: Many Voices, One Reward: Multi-Role Rubric Generation for LLM Judging and Reward Modeling
Авторы: Dazhi Fu, Jiuding Yang, Yiwen Guo, Jicong Fan
Организации: School of Data Science, Chinese University of Hong Kong (Shenzhen); LIGHTSPEED (Tencent)
Связанные работы: Chasing the Tail (Zhang et al., 2025), Rubrics as Rewards (Gunjal et al., 2025), MT-Bench / Chatbot Arena (Zheng et al., 2023)
