TL;DR
LLM может надёжно оценивать качество и безопасность текста по структурированной рубрике — и делает это почти так же согласованно, как профессиональные эксперты. Исследование показало это на задаче оценки безопасности AI-чатботов при работе с суицидальным риском: модель-судья получила ту же рубрику что и клиницисты, оценила те же диалоги, и совпала с клиническим консенсусом в 81% случаев (IRR = 0.81) — это выше порога "отличной согласованности" и почти так же, как клиницисты согласуются друг с другом (0.77).
Сложность субъективных оценок в том, что даже эксперты часто не согласны друг с другом — особенно в новых областях без универсальных стандартов. В этом исследовании 6 лицензированных психотерапевтов независимо оценивали 90 диалогов по рубрике с 5 измерениями (обнаруживает ли чатбот риск, уточняет ли, направляет ли к человеку, поддерживает ли, соблюдает ли границы AI). Каждое измерение оценивалось как "Лучшая практика", "Неоптимально но низкий риск вреда", "Высокий риск вреда" или "Не релевантно". Даже с детальной рубрикой это субъективная задача — но клиницисты показали высокую согласованность (0.77), что дало надёжную точку отсчёта.
LLM-судья (GPT-4o) использовала ту же рубрику в промпте и оценивала те же диалоги. Согласованность с клиническим консенсусом оказалась даже чуть выше (0.81), чем между самими клиницистами. Это значит: если дать LLM чёткую структурированную рубрику, она может заменить экспертную оценку — быстрее, дешевле, масштабируемо. Принцип работает не только для безопасности чатботов, но для любой оценочной задачи: качество текста, соответствие критериям, проверка на требования.
Схема метода
В ИССЛЕДОВАНИИ (для контекста):
ШАГ 1: Симуляция 90 диалогов → AI-пользователи с разным уровнем риска + AI-чатботы
ШАГ 2: 6 клиницистов независимо оценивают по рубрике → клинический консенсус
ШАГ 3: LLM-судья оценивает те же диалоги по той же рубрике → автоматизированная оценка
ШАГ 4: Сравнение согласованности → IRR клиницисты-клиницисты vs LLM-клиницисты
ЧТО МОЖНО ПРИМЕНИТЬ (принцип LLM-as-a-Judge):
ШАГ 1: Создай структурированную рубрику оценки → критерии + градации качества
ШАГ 2: Дай LLM рубрику + текст для оценки → оценка по каждому критерию
ШАГ 3: (Опционально) Попроси несколько моделей оценить → сравни консенсус
Всё выполняется в одном или нескольких отдельных запросах к чату.
Пример применения
Задача: Ты запускаешь email-рассылку для своего продукта и написал три варианта письма. Нужно оценить какое письмо лучше работает по критериям: ясность ценности, убедительность, дружелюбный тон, призыв к действию.
Промпт:
Оцени три варианта email-письма по рубрике ниже. Для каждого письма дай оценку по каждому критерию, потом выбери лучший вариант.
РУБРИКА ОЦЕНКИ:
1. ЯСНОСТЬ ЦЕННОСТИ
- Отлично: за 5 секунд понятно что предлагается и зачем это нужно
- Средне: понятно, но требуется перечитать
- Плохо: ценность размыта или не названа
2. УБЕДИТЕЛЬНОСТЬ
- Отлично: есть конкретные факты/цифры/результаты, вызывает доверие
- Средне: есть аргументы, но общие или слабые
- Плохо: голословные утверждения или нет аргументов
3. ДРУЖЕЛЮБНЫЙ ТОН
- Отлично: тепло, живо, как от человека человеку
- Средне: нейтрально-профессионально
- Плохо: холодно, канцелярщина, роботично
4. ПРИЗЫВ К ДЕЙСТВИЮ
- Отлично: чёткий, конкретный, понятно что делать дальше
- Средне: есть CTA, но размыт или теряется
- Плохо: нет призыва или непонятно что делать
ПИСЬМО 1:
[текст первого варианта]
ПИСЬМО 2:
[текст второго варианта]
ПИСЬМО 3:
[текст третьего варианта]
Формат ответа:
- Таблица с оценками по каждому критерию для каждого письма
- Комментарий к каждой оценке (1 предложение)
- Итоговая рекомендация какое письмо использовать и почему
Результат:
Модель выдаст структурированную таблицу с оценками каждого письма по четырём критериям, краткие обоснования оценок, и финальную рекомендацию. Ты увидишь не только "какое лучше", но и конкретные слабости каждого варианта — например, "Письмо 1: отлично по ясности, но слабо по убедительности (нет фактов)". Это заменяет фокус-группу или коллег-экспертов для быстрой итерации.
Почему это работает
LLM плохо справляется с оценкой "на глаз" — если просто попросить "какой текст лучше", модель даст размытый ответ основанный на общих паттернах тренировочных данных. Без чёткой структуры оценки непредсказуемы и трудно воспроизводимы.
LLM отлично следует структурированным инструкциям и паттернам. Когда даёшь рубрику с конкретными критериями и градациями — модель работает как чек-лист: сканирует текст на соответствие каждому пункту, сопоставляет с описаниями уровней качества. Это убирает двусмысленность и делает оценку воспроизводимой.
Ключ к надёжности — детализация рубрики. Чем конкретнее описаны критерии и уровни (не "хорошо/плохо", а "есть конкретные цифры" vs "голословные утверждения") — тем стабильнее результат. В исследовании рубрика занимала 30 пунктов с определениями — и LLM согласовалась с экспертами в 81% случаев. Для бытовых задач достаточно 3-5 критериев с чёткими описаниями уровней.
Рычаги управления: - Число критериев — больше критериев = детальнее оценка, но дольше обработка. Для быстрой проверки хватит 3-4. - Градации уровней — можно делать 2 (годится/не годится), 3 (плохо/средне/отлично) или 5 (шкала Ликерта). Чем больше градаций — тем тоньше различия, но выше шанс субъективности. - Формат вывода — добавь "с примерами из текста" чтобы модель цитировала фрагменты в обоснование оценок. Это повышает прозрачность и помогает понять почему оценка такая. - Несколько судей — попроси 2-3 разных модели (GPT/Claude/Gemini) оценить по одной рубрике → сравни консенсус. Когда модели согласны — надёжность выше.
Шаблон промпта
Оцени следующий текст по рубрике ниже. Дай оценку по каждому критерию и обоснуй одним предложением.
РУБРИКА ОЦЕНКИ:
1. {КРИТЕРИЙ_1}
- Отлично: {описание отличного уровня}
- Средне: {описание среднего уровня}
- Плохо: {описание плохого уровня}
2. {КРИТЕРИЙ_2}
- Отлично: {описание отличного уровня}
- Средне: {описание среднего уровня}
- Плохо: {описание плохого уровня}
3. {КРИТЕРИЙ_3}
- Отлично: {описание отличного уровня}
- Средне: {описание среднего уровня}
- Плохо: {описание плохого уровня}
ТЕКСТ ДЛЯ ОЦЕНКИ:
{текст}
Формат ответа:
- Оценка по критерию 1: [Отлично/Средне/Плохо] — [обоснование]
- Оценка по критерию 2: [Отлично/Средне/Плохо] — [обоснование]
- Оценка по критерию 3: [Отлично/Средне/Плохо] — [обоснование]
- Общая рекомендация: {что улучшить или как использовать}
Что подставлять:
- {КРИТЕРИЙ_N} — аспект для оценки: ясность, убедительность, тон, структура, соответствие требованиям
- {описание уровня} — конкретные признаки каждого уровня качества (чем конкретнее — тем лучше)
- {текст} — текст для оценки (письмо, статья, описание продукта, резюме, etc)
🚀 Быстрый старт — вставь в чат:
Вот шаблон для оценки текста через LLM-as-a-Judge. Адаптируй под мою задачу: [опиши что оцениваешь и какие критерии важны].
Задавай вопросы чтобы создать рубрику.
[вставить шаблон выше]
LLM спросит какой тип текста оцениваешь, какие критерии важны, какие уровни качества различать — потому что рубрика должна соответствовать специфике задачи. Она возьмёт структуру из шаблона и создаст рабочую рубрику под твой контекст.
Ограничения
⚠️ Узкая специализация рубрики: Рубрика эффективна настолько, насколько точно описывает критерии. Если критерии размытые ("качественный текст") — оценки будут непредсказуемыми. Если критерии слишком жёсткие для креативных задач — модель будет занижать оценки интересным но нестандартным вариантам.
⚠️ Субъективность без контекста: LLM оценивает по рубрике буквально, но не знает контекст задачи глубже чем ты описал. Для текста где важны нюансы аудитории, культурный контекст, специфика индустрии — может пропустить важные детали. Эксперт с опытом в нише всё ещё видит больше.
⚠️ Не заменяет A/B тесты: LLM оценивает по критериям качества, но не предсказывает реальное поведение людей. Email может получить "отлично" по рубрике, но провалиться по открываемости — потому что реальные люди реагируют на факторы которые модель не учла.
⚠️ Разница между моделями: В исследовании GPT-4o показала согласованность 0.81, другие модели — от 0.71 (Gemini) до схожего с GPT. Если критична стабильность — используй консенсус 2-3 моделей или проверь какая модель лучше работает на твоих примерах.
Как исследовали
Команда из Spring Health хотела понять: можно ли автоматизировать проверку безопасности AI-чатботов в ментальном здоровье? Они создали VERA-MH — бенчмарк с детальной рубрикой оценки поведения чатбота при работе с суицидальным риском. Но главный вопрос был методологический: насколько LLM-судья надёжен по сравнению с живыми экспертами?
Исследователи сгенерировали 90 диалогов между AI-пользователями (с разным уровнем суицидального риска — от нулевого до немедленного, и разной степенью открытости) и тремя популярными чатботами (GPT-4o, GPT-5.0, Gemini 3). Каждый диалог ограничили 20 сообщениями или 4000 словами для стандартизации.
Затем параллельно оценили одни и те же диалоги двумя способами: - 6 лицензированных клиницистов (2 психолога, 4 консультанта/терапевта с опытом 8-21 год) независимо оценили каждый диалог по рубрике на 30 пунктов, сгруппированных в 5 измерений безопасности - GPT-4o как LLM-судья оценила те же диалоги по той же рубрике в промпте
Сравнили согласованность через Krippendorff's alpha (метрика которая учитывает случайное совпадение — если IRR = 0, согласие не выше чем случайность, если 1.0 — идеальное совпадение). Клиницисты согласовались друг с другом на уровне 0.77 — это выше порога 0.70 для "хорошей согласованности". LLM-судья согласовалась с клиническим консенсусом на уровне 0.81 — даже чуть выше чем между самими клиницистами.
Что удивило: Обычно в исследованиях автоматизированных бенчмарков для ментального здоровья клиницисты сильно расходятся в оценках (низкая согласованность) — потому что нет универсальных стандартов что "безопасно". Здесь высокая согласованность получилась благодаря детальной структурированной рубрике на 30 пунктов с чёткими определениями уровней. Это подтверждает: структура рубрики критична для надёжности оценок.
Практический инсайт: Чем точнее описаны критерии и градации в рубрике — тем стабильнее согласие экспертов между собой, и тем точнее LLM может их заменить. Это не магия AI — это эффект убирания двусмысленности через структурированные инструкции.
Исследователи также проверили как согласованность зависит от контекста: IRR была выше при оценке GPT-4o (0.92) и ниже для Gemini 3 (0.71) — вероятно потому что ответы Gemini более многословные и многослойные, что усложняет оценку. Но даже в сложных случаях согласованность оставалась приемлемой.
Адаптации и экстраполяции
🔧 Техника: Консенсус нескольких судей → повышение надёжности
Если нужна максимальная уверенность в оценке — попроси 2-3 разные модели оценить по одной рубрике, потом сравни:
Я хочу оценить этот текст максимально объективно. Оцени его по рубрике ниже.
[рубрика]
ТЕКСТ:
[текст]
После оценки я попрошу другие модели сделать то же самое, чтобы сравнить консенсус.
Запусти в GPT-4o, Claude Opus, Gemini Pro. Если все 3 модели согласны — надёжность высокая. Если расходятся — значит критерии недостаточно чёткие или текст пограничный.
🔧 Техника: Обоснование с цитатами → прозрачность оценок
Добавь требование цитировать фрагменты текста в обоснование каждой оценки:
Формат ответа:
- Оценка по критерию 1: [Отлично/Средне/Плохо]
Обоснование: [объяснение]
Цитата из текста: "[конкретный фрагмент который подтверждает оценку]"
Это заставляет модель показывать на каких конкретно местах текста основана оценка — повышает прозрачность и помогает понять не только "что не так", но и "где именно".
🔧 Техника: Сравнительная оценка вместо абсолютной → выбор лучшего варианта
Если задача не "оценить качество", а "выбрать лучший вариант из N" — адаптируй рубрику для сравнения:
Сравни три варианта по критериям ниже. Для каждого критерия укажи какой вариант лучше и почему.
КРИТЕРИИ:
1. {критерий_1}
2. {критерий_2}
3. {критерий_3}
ВАРИАНТ A:
[текст]
ВАРИАНТ B:
[текст]
ВАРИАНТ C:
[текст]
Формат ответа:
- Критерий 1: победитель [A/B/C], потому что [краткое объяснение]
- Критерий 2: победитель [A/B/C], потому что [краткое объяснение]
- Критерий 3: победитель [A/B/C], потому что [краткое объяснение]
- Общий победитель: [вариант] — побеждает по [сколько] из [всего] критериев
Это полезно для быстрого выбора между вариантами без глубокой оценки каждого.
Ресурсы
VERA-MH: Reliability and Validity of an Open-Source AI Safety Evaluation in Mental Health
Kate H. Bentley, Luca Belli, Adam M. Chekroud, Emily J. Ward, Emily R. Dworkin, Emily Van Ark, Kelly M. Johnston, Will Alexander, Millard Brown, Matt Hawrilenko
Spring Health, UC Berkeley, Yale University
