3,583 papers

Меню

arXiv:2602.05088 73 4 фев. 2026 г. FREE

LLM-as-a-Judge: модель оценивает тексты не хуже экспертов

КЛЮЧЕВАЯ СУТЬ
Парадокс: даже профессиональные психотерапевты с одинаковой рубрикой не согласны друг с другом в 23% случаев при оценке безопасности AI-чатботов. Метод LLM-as-a-Judge позволяет получать надёжные экспертные оценки текста без привлечения людей-экспертов — быстрее, дешевле, масштабируемо. Даёшь модели структурированную рубрику с критериями и уровнями качества + текст для оценки → модель работает как чек-лист и выдаёт оценку по каждому пункту. В исследовании GPT-4o согласовалась с клиническим консенсусом экспертов в 81% случаев — это выше самих экспертов между собой (77%).
Адаптировать под запрос

TL;DR

LLM может надёжно оценивать качество и безопасность текста по структурированной рубрике — и делает это почти так же согласованно, как профессиональные эксперты. Исследование показало это на задаче оценки безопасности AI-чатботов при работе с суицидальным риском: модель-судья получила ту же рубрику что и клиницисты, оценила те же диалоги, и совпала с клиническим консенсусом в 81% случаев (IRR = 0.81) — это выше порога "отличной согласованности" и почти так же, как клиницисты согласуются друг с другом (0.77).

Сложность субъективных оценок в том, что даже эксперты часто не согласны друг с другом — особенно в новых областях без универсальных стандартов. В этом исследовании 6 лицензированных психотерапевтов независимо оценивали 90 диалогов по рубрике с 5 измерениями (обнаруживает ли чатбот риск, уточняет ли, направляет ли к человеку, поддерживает ли, соблюдает ли границы AI). Каждое измерение оценивалось как "Лучшая практика", "Неоптимально но низкий риск вреда", "Высокий риск вреда" или "Не релевантно". Даже с детальной рубрикой это субъективная задача — но клиницисты показали высокую согласованность (0.77), что дало надёжную точку отсчёта.

LLM-судья (GPT-4o) использовала ту же рубрику в промпте и оценивала те же диалоги. Согласованность с клиническим консенсусом оказалась даже чуть выше (0.81), чем между самими клиницистами. Это значит: если дать LLM чёткую структурированную рубрику, она может заменить экспертную оценку — быстрее, дешевле, масштабируемо. Принцип работает не только для безопасности чатботов, но для любой оценочной задачи: качество текста, соответствие критериям, проверка на требования.


🔬

Схема метода

В ИССЛЕДОВАНИИ (для контекста):

ШАГ 1: Симуляция 90 диалогов → AI-пользователи с разным уровнем риска + AI-чатботы
ШАГ 2: 6 клиницистов независимо оценивают по рубрике → клинический консенсус
ШАГ 3: LLM-судья оценивает те же диалоги по той же рубрике → автоматизированная оценка
ШАГ 4: Сравнение согласованности → IRR клиницисты-клиницисты vs LLM-клиницисты

ЧТО МОЖНО ПРИМЕНИТЬ (принцип LLM-as-a-Judge):

ШАГ 1: Создай структурированную рубрику оценки → критерии + градации качества
ШАГ 2: Дай LLM рубрику + текст для оценки → оценка по каждому критерию
ШАГ 3: (Опционально) Попроси несколько моделей оценить → сравни консенсус

Всё выполняется в одном или нескольких отдельных запросах к чату.


🚀

Пример применения

Задача: Ты запускаешь email-рассылку для своего продукта и написал три варианта письма. Нужно оценить какое письмо лучше работает по критериям: ясность ценности, убедительность, дружелюбный тон, призыв к действию.

Промпт:

Оцени три варианта email-письма по рубрике ниже. Для каждого письма дай оценку по каждому критерию, потом выбери лучший вариант.

РУБРИКА ОЦЕНКИ:

1. ЯСНОСТЬ ЦЕННОСТИ
   - Отлично: за 5 секунд понятно что предлагается и зачем это нужно
   - Средне: понятно, но требуется перечитать
   - Плохо: ценность размыта или не названа

2. УБЕДИТЕЛЬНОСТЬ
   - Отлично: есть конкретные факты/цифры/результаты, вызывает доверие
   - Средне: есть аргументы, но общие или слабые
   - Плохо: голословные утверждения или нет аргументов

3. ДРУЖЕЛЮБНЫЙ ТОН
   - Отлично: тепло, живо, как от человека человеку
   - Средне: нейтрально-профессионально
   - Плохо: холодно, канцелярщина, роботично

4. ПРИЗЫВ К ДЕЙСТВИЮ
   - Отлично: чёткий, конкретный, понятно что делать дальше
   - Средне: есть CTA, но размыт или теряется
   - Плохо: нет призыва или непонятно что делать

ПИСЬМО 1:
[текст первого варианта]

ПИСЬМО 2:
[текст второго варианта]

ПИСЬМО 3:
[текст третьего варианта]

Формат ответа:
- Таблица с оценками по каждому критерию для каждого письма
- Комментарий к каждой оценке (1 предложение)
- Итоговая рекомендация какое письмо использовать и почему

Результат:

Модель выдаст структурированную таблицу с оценками каждого письма по четырём критериям, краткие обоснования оценок, и финальную рекомендацию. Ты увидишь не только "какое лучше", но и конкретные слабости каждого варианта — например, "Письмо 1: отлично по ясности, но слабо по убедительности (нет фактов)". Это заменяет фокус-группу или коллег-экспертов для быстрой итерации.


🧠

Почему это работает

LLM плохо справляется с оценкой "на глаз" — если просто попросить "какой текст лучше", модель даст размытый ответ основанный на общих паттернах тренировочных данных. Без чёткой структуры оценки непредсказуемы и трудно воспроизводимы.

LLM отлично следует структурированным инструкциям и паттернам. Когда даёшь рубрику с конкретными критериями и градациями — модель работает как чек-лист: сканирует текст на соответствие каждому пункту, сопоставляет с описаниями уровней качества. Это убирает двусмысленность и делает оценку воспроизводимой.

Ключ к надёжности — детализация рубрики. Чем конкретнее описаны критерии и уровни (не "хорошо/плохо", а "есть конкретные цифры" vs "голословные утверждения") — тем стабильнее результат. В исследовании рубрика занимала 30 пунктов с определениями — и LLM согласовалась с экспертами в 81% случаев. Для бытовых задач достаточно 3-5 критериев с чёткими описаниями уровней.

Рычаги управления: - Число критериев — больше критериев = детальнее оценка, но дольше обработка. Для быстрой проверки хватит 3-4. - Градации уровней — можно делать 2 (годится/не годится), 3 (плохо/средне/отлично) или 5 (шкала Ликерта). Чем больше градаций — тем тоньше различия, но выше шанс субъективности. - Формат вывода — добавь "с примерами из текста" чтобы модель цитировала фрагменты в обоснование оценок. Это повышает прозрачность и помогает понять почему оценка такая. - Несколько судей — попроси 2-3 разных модели (GPT/Claude/Gemini) оценить по одной рубрике → сравни консенсус. Когда модели согласны — надёжность выше.


📋

Шаблон промпта

Оцени следующий текст по рубрике ниже. Дай оценку по каждому критерию и обоснуй одним предложением.

РУБРИКА ОЦЕНКИ:

1. {КРИТЕРИЙ_1}
   - Отлично: {описание отличного уровня}
   - Средне: {описание среднего уровня}
   - Плохо: {описание плохого уровня}

2. {КРИТЕРИЙ_2}
   - Отлично: {описание отличного уровня}
   - Средне: {описание среднего уровня}
   - Плохо: {описание плохого уровня}

3. {КРИТЕРИЙ_3}
   - Отлично: {описание отличного уровня}
   - Средне: {описание среднего уровня}
   - Плохо: {описание плохого уровня}

ТЕКСТ ДЛЯ ОЦЕНКИ:
{текст}

Формат ответа:
- Оценка по критерию 1: [Отлично/Средне/Плохо] — [обоснование]
- Оценка по критерию 2: [Отлично/Средне/Плохо] — [обоснование]
- Оценка по критерию 3: [Отлично/Средне/Плохо] — [обоснование]
- Общая рекомендация: {что улучшить или как использовать}

Что подставлять: - {КРИТЕРИЙ_N} — аспект для оценки: ясность, убедительность, тон, структура, соответствие требованиям - {описание уровня} — конкретные признаки каждого уровня качества (чем конкретнее — тем лучше) - {текст} — текст для оценки (письмо, статья, описание продукта, резюме, etc)

🚀 Быстрый старт — вставь в чат:

Вот шаблон для оценки текста через LLM-as-a-Judge. Адаптируй под мою задачу: [опиши что оцениваешь и какие критерии важны].
Задавай вопросы чтобы создать рубрику.

[вставить шаблон выше]

LLM спросит какой тип текста оцениваешь, какие критерии важны, какие уровни качества различать — потому что рубрика должна соответствовать специфике задачи. Она возьмёт структуру из шаблона и создаст рабочую рубрику под твой контекст.


⚠️

Ограничения

⚠️ Узкая специализация рубрики: Рубрика эффективна настолько, насколько точно описывает критерии. Если критерии размытые ("качественный текст") — оценки будут непредсказуемыми. Если критерии слишком жёсткие для креативных задач — модель будет занижать оценки интересным но нестандартным вариантам.

⚠️ Субъективность без контекста: LLM оценивает по рубрике буквально, но не знает контекст задачи глубже чем ты описал. Для текста где важны нюансы аудитории, культурный контекст, специфика индустрии — может пропустить важные детали. Эксперт с опытом в нише всё ещё видит больше.

⚠️ Не заменяет A/B тесты: LLM оценивает по критериям качества, но не предсказывает реальное поведение людей. Email может получить "отлично" по рубрике, но провалиться по открываемости — потому что реальные люди реагируют на факторы которые модель не учла.

⚠️ Разница между моделями: В исследовании GPT-4o показала согласованность 0.81, другие модели — от 0.71 (Gemini) до схожего с GPT. Если критична стабильность — используй консенсус 2-3 моделей или проверь какая модель лучше работает на твоих примерах.


🔍

Как исследовали

Команда из Spring Health хотела понять: можно ли автоматизировать проверку безопасности AI-чатботов в ментальном здоровье? Они создали VERA-MH — бенчмарк с детальной рубрикой оценки поведения чатбота при работе с суицидальным риском. Но главный вопрос был методологический: насколько LLM-судья надёжен по сравнению с живыми экспертами?

Исследователи сгенерировали 90 диалогов между AI-пользователями (с разным уровнем суицидального риска — от нулевого до немедленного, и разной степенью открытости) и тремя популярными чатботами (GPT-4o, GPT-5.0, Gemini 3). Каждый диалог ограничили 20 сообщениями или 4000 словами для стандартизации.

Затем параллельно оценили одни и те же диалоги двумя способами: - 6 лицензированных клиницистов (2 психолога, 4 консультанта/терапевта с опытом 8-21 год) независимо оценили каждый диалог по рубрике на 30 пунктов, сгруппированных в 5 измерений безопасности - GPT-4o как LLM-судья оценила те же диалоги по той же рубрике в промпте

Сравнили согласованность через Krippendorff's alpha (метрика которая учитывает случайное совпадение — если IRR = 0, согласие не выше чем случайность, если 1.0 — идеальное совпадение). Клиницисты согласовались друг с другом на уровне 0.77 — это выше порога 0.70 для "хорошей согласованности". LLM-судья согласовалась с клиническим консенсусом на уровне 0.81 — даже чуть выше чем между самими клиницистами.

Что удивило: Обычно в исследованиях автоматизированных бенчмарков для ментального здоровья клиницисты сильно расходятся в оценках (низкая согласованность) — потому что нет универсальных стандартов что "безопасно". Здесь высокая согласованность получилась благодаря детальной структурированной рубрике на 30 пунктов с чёткими определениями уровней. Это подтверждает: структура рубрики критична для надёжности оценок.

Практический инсайт: Чем точнее описаны критерии и градации в рубрике — тем стабильнее согласие экспертов между собой, и тем точнее LLM может их заменить. Это не магия AI — это эффект убирания двусмысленности через структурированные инструкции.

Исследователи также проверили как согласованность зависит от контекста: IRR была выше при оценке GPT-4o (0.92) и ниже для Gemini 3 (0.71) — вероятно потому что ответы Gemini более многословные и многослойные, что усложняет оценку. Но даже в сложных случаях согласованность оставалась приемлемой.


💡

Адаптации и экстраполяции

📌

🔧 Техника: Консенсус нескольких судей → повышение надёжности

Если нужна максимальная уверенность в оценке — попроси 2-3 разные модели оценить по одной рубрике, потом сравни:

Я хочу оценить этот текст максимально объективно. Оцени его по рубрике ниже.

[рубрика]

ТЕКСТ:
[текст]

После оценки я попрошу другие модели сделать то же самое, чтобы сравнить консенсус.

Запусти в GPT-4o, Claude Opus, Gemini Pro. Если все 3 модели согласны — надёжность высокая. Если расходятся — значит критерии недостаточно чёткие или текст пограничный.


📄

🔧 Техника: Обоснование с цитатами → прозрачность оценок

Добавь требование цитировать фрагменты текста в обоснование каждой оценки:

Формат ответа:
- Оценка по критерию 1: [Отлично/Средне/Плохо]
  Обоснование: [объяснение]
  Цитата из текста: "[конкретный фрагмент который подтверждает оценку]"

Это заставляет модель показывать на каких конкретно местах текста основана оценка — повышает прозрачность и помогает понять не только "что не так", но и "где именно".


📌

🔧 Техника: Сравнительная оценка вместо абсолютной → выбор лучшего варианта

Если задача не "оценить качество", а "выбрать лучший вариант из N" — адаптируй рубрику для сравнения:

Сравни три варианта по критериям ниже. Для каждого критерия укажи какой вариант лучше и почему.

КРИТЕРИИ:
1. {критерий_1}
2. {критерий_2}
3. {критерий_3}

ВАРИАНТ A:
[текст]

ВАРИАНТ B:
[текст]

ВАРИАНТ C:
[текст]

Формат ответа:
- Критерий 1: победитель [A/B/C], потому что [краткое объяснение]
- Критерий 2: победитель [A/B/C], потому что [краткое объяснение]
- Критерий 3: победитель [A/B/C], потому что [краткое объяснение]
- Общий победитель: [вариант] — побеждает по [сколько] из [всего] критериев

Это полезно для быстрого выбора между вариантами без глубокой оценки каждого.


🔗

Ресурсы

VERA-MH: Reliability and Validity of an Open-Source AI Safety Evaluation in Mental Health

Kate H. Bentley, Luca Belli, Adam M. Chekroud, Emily J. Ward, Emily R. Dworkin, Emily Van Ark, Kelly M. Johnston, Will Alexander, Millard Brown, Matt Hawrilenko

Spring Health, UC Berkeley, Yale University


📋 Дайджест исследования

Ключевая суть

Парадокс: даже профессиональные психотерапевты с одинаковой рубрикой не согласны друг с другом в 23% случаев при оценке безопасности AI-чатботов. Метод LLM-as-a-Judge позволяет получать надёжные экспертные оценки текста без привлечения людей-экспертов — быстрее, дешевле, масштабируемо. Даёшь модели структурированную рубрику с критериями и уровнями качества + текст для оценки → модель работает как чек-лист и выдаёт оценку по каждому пункту. В исследовании GPT-4o согласовалась с клиническим консенсусом экспертов в 81% случаев — это выше самих экспертов между собой (77%).

Принцип работы

Не кидай модели "оцени какой вариант лучше" — это даст размытый ответ на основе общих паттернов. Создай рубрику: список критериев + для каждого критерия конкретные описания уровней (не "хорошо/плохо", а "есть конкретные цифры и факты" vs "голословные утверждения"). Модель сканирует текст по чек-листу, сопоставляет с описаниями уровней, выдаёт структурированную оценку. Чем детальнее рубрика — тем стабильнее результат. В исследовании рубрика на 30 пунктов дала согласованность 0.81. Для бытовых задач хватит 3-5 критериев с чёткими градациями.

Почему работает

LLM плохо справляется с оценкой "на глаз" — без структуры модель опирается на размытые паттерны из тренировочных данных, результат непредсказуем. LLM отлично следует структурированным инструкциям: когда даёшь рубрику с конкретными критериями — модель перестаёт угадывать и начинает работать как чек-лист, сопоставляя текст с каждым пунктом. Это убирает двусмысленность и делает оценку воспроизводимой. Ключ к надёжности — детализация рубрики: чем конкретнее описаны уровни качества, тем стабильнее согласованность. В исследовании детальная рубрика дала согласованность с экспертами 0.81 (порог "отличной согласованности" = 0.75).

Когда применять

Оценка текстов → качество письменного контента, соответствие критериям, проверка на требования, выбор лучшего варианта из нескольких. Конкретно для email-рассылок, статей, описаний продуктов, резюме, постов в соцсети — особенно когда нужна масштабируемость (оценить 100+ вариантов) или нет времени собирать фокус-группу. НЕ подходит как замена A/B тестам — модель оценивает по критериям качества, но не предсказывает реальное поведение людей (email может быть "отлично" по рубрике, но провалиться по открываемости).

Мини-рецепт

1. Создай рубрику: выпиши 3-5 критериев оценки (например: ясность ценности, убедительность, дружелюбный тон, призыв к действию). Для каждого критерия опиши уровни качества — Отлично/Средне/Плохо с конкретными признаками.
2. Промпт для LLM: Оцени текст ниже по рубрике. Дай оценку по каждому критерию и обоснуй одним предложением. [вставь рубрику] ТЕКСТ: [твой текст]
3. Формат вывода: попроси таблицу с оценками + комментарии к каждой оценке + итоговая рекомендация что улучшить.
4. (Опционально) Консенсус моделей: попроси 2-3 разные модели (GPT/Claude/Gemini) оценить по одной рубрике → сравни где согласны. Согласие моделей = выше надёжность.

Примеры

[ПЛОХО] : Оцени три варианта email-письма для рассылки и скажи какое лучше — модель даст размытый ответ типа "второе письмо звучит дружелюбнее", без конкретики почему и по каким критериям.
[ХОРОШО] : Оцени три письма по рубрике: 1) Ясность ценности (Отлично = за 5 сек понятно что предлагается; Средне = понятно но нужно перечитать; Плохо = ценность размыта). 2) Убедительность (Отлично = есть конкретные цифры/факты; Средне = аргументы общие; Плохо = голословно). 3) Призыв к действию (Отлично = чёткий и конкретный; Средне = размыт; Плохо = нет призыва). Формат: таблица с оценками + обоснование одним предложением + рекомендация какое использовать. — получишь структурированную таблицу с оценками по каждому критерию, увидишь конкретные слабости каждого варианта ("Письмо 1: отлично по ясности, но слабо по убедительности — нет фактов").
Источник: VERA-MH: Reliability and Validity of an Open-Source AI Safety Evaluation in Mental Health
ArXiv ID: 2602.05088 | Сгенерировано: 2026-02-06 05:33

Концепты не выделены.

📖 Простыми словами

VERA-MH: Reliability and Validity of an Open-Source AI Safety Evaluation in Mental Health

arXiv: 2602.05088

AI-ассистенты теперь могут работать не просто как генераторы текста, а как профессиональные цензоры и эксперты, если дать им четкую линейку для измерений. Суть в том, что современные модели научились сопоставлять сложный контекст со структурированными правилами так же ювелирно, как это делают люди с профильным образованием. В исследовании VERA-MH это проверили на самом тонком льду — оценке безопасности чатботов при общении с людьми, склонными к суициду. Оказалось, что если скормить модели строгую рубрику оценки, она выдает вердикт, который совпадает с мнением консилиума врачей в 81% случаев.

Это как если бы ты посадил вчерашнего выпускника проверять сложнейшие чертежи, но выдал ему настолько подробный и понятный чек-лист, что он начал бы находить ошибки не хуже главного инженера. Модель здесь не «гадает» и не полагается на интуицию, которой у нее нет. Она работает как беспристрастный аудитор, который тупо и последовательно прогоняет текст через фильтры заданных критериев. Формально и бездушно, но именно эта дотошность позволяет ей обходить человеческую усталость и субъективность.

В цифрах это выглядит еще круче: уровень согласия модели с экспертами составил 0.81, в то время как сами живые врачи соглашаются друг с другом на уровне 0.77. То есть AI-судья оказался даже более последовательным, чем группа профессионалов. Главный секрет успеха — структурированная рубрика. Без нее модель начинает нести отсебятину и «галлюцинировать» оценки на глаз, но с четким списком параметров она превращается в высокоточный измерительный прибор, который видит косяки в логике или тональности там, где глаз человека замыливается.

Этот принцип легко переносится с медицины на любой бизнес, например, на оценку маркетинговых рассылок или качества работы поддержки. Тестировали на вопросах жизни и смерти, но механика универсальна: вместо того чтобы спрашивать у ChatGPT «нормальное ли это письмо?», ты даешь ему рубрику с критериями вроде ясности оффера и дружелюбности тона. Модель проанализирует варианты и выдаст объективный рейтинг, экономя тебе часы на ручной проверке. Субъективность уходит, аналитика остается.

Короче, эпоха оценки «мне нравится / не нравится» закончилась. Теперь можно и нужно использовать LLM-as-a-Judge для контроля качества чего угодно, от кода до текстов психотерапевтов. Главное — перестать просить модель «просто посмотреть» и начать давать ей жесткие критерии. Кто научится строить такие системы автоматической оценки, тот сможет масштабировать качество без найма армии менеджеров. Остальные так и будут тыкать пальцем в небо, надеясь, что их контент не провалится.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с