TL;DR
LLM-жюри — техника оценки, при которой три разные модели от разных компаний независимо оценивают один и тот же текст по заданным критериям, а итог считается как среднее. Суть в диверсификации: Claude, GPT и Gemini принадлежат разным командам с разными подходами — их систематические ошибки друг друга не совпадают и при усреднении гасятся.
Главная находка: LLM-жюри из трёх моделей оказалось более согласованным с экспертами, чем второй независимый эксперт-человек. Мы привыкли думать, что эксперт-человек — золотой стандарт. Оказывается нет: когда попросили вторую группу врачей переоценить те же диагнозы, их ответы разошлись с первой группой сильнее, чем ответы жюри из трёх ИИ-моделей. Один ИИ даёт один взгляд. Три — компенсируют друг друга.
Отдельная находка с практическим значением: LLM систематически оценивают строже, чем люди. Это не баг — это воспроизводимый паттерн. Если ИИ-жюри поставило 4 из 5, человек-эксперт, скорее всего, поставил бы 5. Зная это, вы можете правильно интерпретировать оценки: строгая 4 от жюри — хороший результат.
Схема метода
Метод выполняется в трёх отдельных чатах (в разных моделях), затем результаты собираются вручную:
ШАГ 1: Формулируй критерии оценки → список конкретных измерений (1-5 по каждому)
ШАГ 2: Запускай один и тот же промпт в Claude + GPT-4o + Gemini →
каждая модель выдаёт оценки по шкале 1-5 и обоснование
ШАГ 3: Считай среднее по каждому критерию →
финальный "вердикт жюри"
(Опционально) ШАГ 4: Смотри где модели РАСХОДЯТСЯ →
именно там находятся спорные места вашего текста
Все три запроса — идентичный промпт, скопированный в три разных окна.
Пример применения
Задача: Вы написали питч-письмо для рассылки потенциальным инвесторам под свой стартап в edtech. Хотите понять насколько оно убедительно — до того как отправить.
Промпт (одинаковый для всех трёх моделей):
Ты — опытный венчурный инвестор, который получает 200+ питч-писем в месяц.
Оцени следующее питч-письмо по четырём критериям.
По каждому критерию поставь оценку от 1 до 5, где:
1 — провал, 5 — лучше большинства того, что я вижу.
КРИТЕРИИ:
• Ясность проблемы: насколько чётко описана боль и кто её испытывает
• Убедительность решения: верю ли я, что это решение работает
• Команда и доверие: понятно ли кто стоит за проектом и почему им можно доверять
• Призыв к действию: ясно ли что от меня хотят и зачем мне реагировать
ЭТАЛОН ХОРОШЕГО ПИСЬМА:
Хорошее питч-письмо: конкретная проблема с цифрами, чёткое решение без жаргона,
понятная команда с релевантным опытом, один конкретный CTA.
ТЕКСТ ДЛЯ ОЦЕНКИ:
[вставьте ваше письмо]
Формат ответа:
- Ясность проблемы: [оценка]/5 — [1-2 предложения почему]
- Убедительность решения: [оценка]/5 — [1-2 предложения почему]
- Команда и доверие: [оценка]/5 — [1-2 предложения почему]
- Призыв к действию: [оценка]/5 — [1-2 предложения почему]
- Главная рекомендация: [одно конкретное изменение, которое даст максимальный эффект]
Результат:
Каждая из трёх моделей выдаст оценки по четырём критериям с обоснованием. Затем вы считаете среднее по каждому критерию вручную. Там где все три модели единодушно занизили оценку — там реальная проблема. Там где оценки сильно расходятся — спорное место, требующее вашего суждения. Совпадение = сигнал. Расхождение = дискуссия, которую стоит прочитать.
Почему это работает
Одна модель — один угол зрения. Каждая LLM обучена по-разному: разные данные, разные способы выравнивания по человеческим предпочтениям. Это значит у каждой есть систематические "слепые пятна" — темы, стили, форматы которые она стабильно переоценивает или недооценивает. Если оценивает одна модель — вы получаете одно слепое пятно.
Три модели от разных компаний — три разных набора слепых пятен. Claude от Anthropic, GPT от OpenAI, Gemini от Google разрабатываются независимыми командами с разными философиями. Их ошибки не синхронизированы. При усреднении случайные расхождения гасят друг друга, а то, в чём модели согласны — с высокой вероятностью отражает реальное качество текста.
Исследование подтвердило ключевой факт: модели не проявляют "предвзятости к своим". Claude не завышает оценки текстам, сгенерированным Claude. GPT не занижает конкурентов. Это значит жюри работает беспристрастно — вы можете попросить Claude оценить текст написанный GPT и получить честный ответ.
Рычаги управления:
- Количество критериев → 3-5 конкретных измерений работают лучше, чем "оцени в целом". Конкретные критерии убирают двусмысленность
- Эталон в промпте → опишите как выглядит "5/5" — модели получают точку отсчёта и меньше расходятся между собой
- Расхождение как сигнал → не усредняйте вслепую. Там где модели спорят — там и живёт самая интересная обратная связь
- Поправка на строгость → если жюри ставит 3.5/5 — это субъективно ближе к 4+ у человека-рецензента
Шаблон промпта
Ты — {роль эксперта}.
Оцени следующий {тип текста} по {N} критериям.
По каждому критерию поставь оценку от 1 до 5:
1 — серьёзные проблемы, 5 — отлично.
КРИТЕРИИ:
• {критерий_1}: {что именно измеряет}
• {критерий_2}: {что именно измеряет}
• {критерий_3}: {что именно измеряет}
ЭТАЛОН:
{описание как выглядит текст на 5/5 — конкретно, без воды}
ТЕКСТ ДЛЯ ОЦЕНКИ:
{ваш текст}
Формат ответа:
- {критерий_1}: [X]/5 — [1-2 предложения обоснования]
- {критерий_2}: [X]/5 — [1-2 предложения обоснования]
- {критерий_3}: [X]/5 — [1-2 предложения обоснования]
- Главная рекомендация: [одно конкретное улучшение]
Что подставлять:
- {роль эксперта} — кто смотрит на текст: инвестор, CTO, редактор Т—Ж, HR директор
- {тип текста} — питч, резюме, статья, описание продукта, технический план
- {критерий_N} — конкретные измерения: ясность, убедительность, структура, тон. Не "качество" — слишком размыто
- {эталон} — опишите как выглядит идеальный текст. Это снижает расхождения между моделями
Запускаете одинаковый заполненный промпт в Claude, GPT-4o и Gemini. Собираете оценки. Считаете среднее.
🚀 Быстрый старт — вставь в чат:
Вот шаблон LLM-жюри для оценки текстов.
Адаптируй под мою задачу: [опиши что хочешь оценить].
Задавай вопросы чтобы заполнить все поля.
[вставить шаблон выше]
LLM спросит какую роль эксперта взять и по каким критериям оценивать — потому что без этого промпт будет слишком общим, а разные модели будут интерпретировать "качество" совсем по-разному. После диалога получите готовый промпт для запуска в трёх окнах.
Ограничения
⚠️ Систематическая строгость: LLM-жюри стабильно ставит оценки ниже, чем поставил бы человек-эксперт. Оценки на 0.5-1 балл строже. Учитывайте это при интерпретации — не воспринимайте 3.5/5 как провал.
⚠️ Клише и шаблонность: Если текст написан в формате, на котором обучались модели (типичный бизнес-план, стандартная структура статьи), жюри может завысить оценку просто за соответствие паттерну, а не за реальное качество.
⚠️ Не работает без конкретных критериев: Если попросить "просто оцени" без чётких измерений — модели интерпретируют "качество" по-разному и жюри теряет смысл. Критерии обязательны.
⚠️ Высококонтекстные оценки: Когда качество зависит от специфики аудитории (региональный юмор, профессиональный жаргон узкого рынка, локальные культурные коды) — жюри может ошибаться. Это подтвердилось в исследовании: модели не учли возраст пациента в одном из кейсов, потому что эту информацию не дали в промпте.
⚠️ Сильная корреляция между моделями: В сложных случаях три модели могут ошибиться одинаково. Жюри снижает случайные ошибки, но не системные — если все три модели не понимают специфику вашей задачи, усреднение не поможет.
Как исследовали
Команда из ЮАР взяла 300 реальных медицинских случаев из южноафриканских больниц — истории болезней, результаты анализов, снимки КТ и МРТ. Сначала специализированные панели из двух врачей (терапевты и педиатры) независимо оценили диагнозы — это стало золотым стандартом. Затем то же самое сделало жюри из трёх топовых моделей: Claude Opus 4.1, Gemini 2.5 Pro и o3. Каждая модель оценила 3334 диагноза по четырём шкалам 1-5.
Хитрость дизайна: чтобы было честное сравнение, исследователи взяли вторую группу врачей и попросили их переоценить те же случаи в тех же условиях что и ИИ — без полных данных, только диагноз и эталон от первой панели. Это "ре-скор панель" стала человеческим бейслайном (базовой точкой отсчёта). Результат удивил: ИИ-жюри оказалось более согласованным с первичными экспертами, чем вторая группа врачей. Особенно показателен показатель "грубых ошибок безопасности" — жюри пропустило 5% опасных диагнозов, человеческая переоценка — почти 17%. Вероятность того, что это случайность, меньше 4%.
Адаптации и экстраполяции
🔧 Расхождение как детектор проблем
Не усредняйте сразу — сначала смотрите на разброс. Если Claude поставил 4, GPT 2, Gemini 3 — это маркер: что-то в тексте неоднозначно или спорно. Именно это место требует вашего решения. Добавьте в конец промпта:
Если ты не уверен в оценке (внутренний конфликт между аргументами "за" и "против"),
поставь оценку и отметь: [СПОРНО] — и объясни в чём противоречие.
🔧 Жюри для сравнения двух вариантов
Вместо оценки одного текста — сравнение двух версий:
Перед тобой два варианта {тип текста}: Вариант А и Вариант Б.
По каждому критерию ответь:
1. Какой вариант сильнее и почему
2. Оценку каждого по шкале 1-5
Не объясняй какой "лучше в целом" — только по конкретным критериям.
Запускаете в трёх моделях — получаете независимый A/B тест без своей предвзятости.
Ресурсы
Статья: Can LLMs Score Medical Diagnoses and Clinical Reasoning as well as Expert Panels?
Авторы: Amy Rouillard, Sitwala Mundia, Linda Camara, Michael Cameron Gramanie, Ziyaad Dangor, Ismail Kalla, Shabir A. Madhi, Kajal Morar, Marlvin T. Ncube, Haroon Saloojee, Bruce A. Bassett
Организации: Wits MIND Institute, University of the Witwatersrand (Йоханнесбург, ЮАР); Grai Labs (Кейптаун, ЮАР); South African Medical Research Council
