3,583 papers
arXiv:2604.14892 76 16 апр. 2026 г. FREE

LLM-жюри: три модели вместо одной для надёжной оценки любого текста

КЛЮЧЕВАЯ СУТЬ
Парадокс: вторая группа врачей оценила те же диагнозы менее согласованно, чем жюри из трёх ИИ-моделей. Мы привыкли считать человека-эксперта золотым стандартом — оказывается, одного эксперта недостаточно, и ИИ-жюри его обходит. Техника LLM-жюри позволяет получить надёжную оценку любого текста — питча, резюме, статьи — без платного рецензента. Фишка: запускаешь один промпт в Claude, GPT-4o и Gemini. Их слепые пятна не совпадают — компании разные, подходы к обучению разные. При усреднении случайные расхождения гасят друг друга, а там где все три согласны — это и есть реальное качество текста. Бонус: ИИ-жюри стабильно строже людей на 0.5-1 балл. Зная это, правильно читаешь оценки: строгая 3.5/5 от жюри — это человеческие 4+.
Адаптировать под запрос

TL;DR

LLM-жюри — техника оценки, при которой три разные модели от разных компаний независимо оценивают один и тот же текст по заданным критериям, а итог считается как среднее. Суть в диверсификации: Claude, GPT и Gemini принадлежат разным командам с разными подходами — их систематические ошибки друг друга не совпадают и при усреднении гасятся.

Главная находка: LLM-жюри из трёх моделей оказалось более согласованным с экспертами, чем второй независимый эксперт-человек. Мы привыкли думать, что эксперт-человек — золотой стандарт. Оказывается нет: когда попросили вторую группу врачей переоценить те же диагнозы, их ответы разошлись с первой группой сильнее, чем ответы жюри из трёх ИИ-моделей. Один ИИ даёт один взгляд. Три — компенсируют друг друга.

Отдельная находка с практическим значением: LLM систематически оценивают строже, чем люди. Это не баг — это воспроизводимый паттерн. Если ИИ-жюри поставило 4 из 5, человек-эксперт, скорее всего, поставил бы 5. Зная это, вы можете правильно интерпретировать оценки: строгая 4 от жюри — хороший результат.


🔬

Схема метода

Метод выполняется в трёх отдельных чатах (в разных моделях), затем результаты собираются вручную:

ШАГ 1: Формулируй критерии оценки → список конкретных измерений (1-5 по каждому)

ШАГ 2: Запускай один и тот же промпт в Claude + GPT-4o + Gemini → 
        каждая модель выдаёт оценки по шкале 1-5 и обоснование

ШАГ 3: Считай среднее по каждому критерию → 
        финальный "вердикт жюри"

(Опционально) ШАГ 4: Смотри где модели РАСХОДЯТСЯ → 
        именно там находятся спорные места вашего текста

Все три запроса — идентичный промпт, скопированный в три разных окна.


🚀

Пример применения

Задача: Вы написали питч-письмо для рассылки потенциальным инвесторам под свой стартап в edtech. Хотите понять насколько оно убедительно — до того как отправить.

Промпт (одинаковый для всех трёх моделей):

Ты — опытный венчурный инвестор, который получает 200+ питч-писем в месяц.

Оцени следующее питч-письмо по четырём критериям. 
По каждому критерию поставь оценку от 1 до 5, где:
1 — провал, 5 — лучше большинства того, что я вижу.

КРИТЕРИИ:
• Ясность проблемы: насколько чётко описана боль и кто её испытывает
• Убедительность решения: верю ли я, что это решение работает
• Команда и доверие: понятно ли кто стоит за проектом и почему им можно доверять
• Призыв к действию: ясно ли что от меня хотят и зачем мне реагировать

ЭТАЛОН ХОРОШЕГО ПИСЬМА:
Хорошее питч-письмо: конкретная проблема с цифрами, чёткое решение без жаргона, 
понятная команда с релевантным опытом, один конкретный CTA.

ТЕКСТ ДЛЯ ОЦЕНКИ:
[вставьте ваше письмо]

Формат ответа:
- Ясность проблемы: [оценка]/5 — [1-2 предложения почему]
- Убедительность решения: [оценка]/5 — [1-2 предложения почему]
- Команда и доверие: [оценка]/5 — [1-2 предложения почему]
- Призыв к действию: [оценка]/5 — [1-2 предложения почему]
- Главная рекомендация: [одно конкретное изменение, которое даст максимальный эффект]

Результат:

Каждая из трёх моделей выдаст оценки по четырём критериям с обоснованием. Затем вы считаете среднее по каждому критерию вручную. Там где все три модели единодушно занизили оценку — там реальная проблема. Там где оценки сильно расходятся — спорное место, требующее вашего суждения. Совпадение = сигнал. Расхождение = дискуссия, которую стоит прочитать.


🧠

Почему это работает

Одна модель — один угол зрения. Каждая LLM обучена по-разному: разные данные, разные способы выравнивания по человеческим предпочтениям. Это значит у каждой есть систематические "слепые пятна" — темы, стили, форматы которые она стабильно переоценивает или недооценивает. Если оценивает одна модель — вы получаете одно слепое пятно.

Три модели от разных компаний — три разных набора слепых пятен. Claude от Anthropic, GPT от OpenAI, Gemini от Google разрабатываются независимыми командами с разными философиями. Их ошибки не синхронизированы. При усреднении случайные расхождения гасят друг друга, а то, в чём модели согласны — с высокой вероятностью отражает реальное качество текста.

Исследование подтвердило ключевой факт: модели не проявляют "предвзятости к своим". Claude не завышает оценки текстам, сгенерированным Claude. GPT не занижает конкурентов. Это значит жюри работает беспристрастно — вы можете попросить Claude оценить текст написанный GPT и получить честный ответ.

Рычаги управления: - Количество критериев → 3-5 конкретных измерений работают лучше, чем "оцени в целом". Конкретные критерии убирают двусмысленность - Эталон в промпте → опишите как выглядит "5/5" — модели получают точку отсчёта и меньше расходятся между собой

- Расхождение как сигнал → не усредняйте вслепую. Там где модели спорят — там и живёт самая интересная обратная связь - Поправка на строгость → если жюри ставит 3.5/5 — это субъективно ближе к 4+ у человека-рецензента


📋

Шаблон промпта

Ты — {роль эксперта}.

Оцени следующий {тип текста} по {N} критериям.
По каждому критерию поставь оценку от 1 до 5:
1 — серьёзные проблемы, 5 — отлично.

КРИТЕРИИ:
• {критерий_1}: {что именно измеряет}
• {критерий_2}: {что именно измеряет}
• {критерий_3}: {что именно измеряет}

ЭТАЛОН:
{описание как выглядит текст на 5/5 — конкретно, без воды}

ТЕКСТ ДЛЯ ОЦЕНКИ:
{ваш текст}

Формат ответа:
- {критерий_1}: [X]/5 — [1-2 предложения обоснования]
- {критерий_2}: [X]/5 — [1-2 предложения обоснования]
- {критерий_3}: [X]/5 — [1-2 предложения обоснования]
- Главная рекомендация: [одно конкретное улучшение]

Что подставлять: - {роль эксперта} — кто смотрит на текст: инвестор, CTO, редактор Т—Ж, HR директор - {тип текста} — питч, резюме, статья, описание продукта, технический план - {критерий_N} — конкретные измерения: ясность, убедительность, структура, тон. Не "качество" — слишком размыто - {эталон} — опишите как выглядит идеальный текст. Это снижает расхождения между моделями

Запускаете одинаковый заполненный промпт в Claude, GPT-4o и Gemini. Собираете оценки. Считаете среднее.


🚀 Быстрый старт — вставь в чат:

Вот шаблон LLM-жюри для оценки текстов. 
Адаптируй под мою задачу: [опиши что хочешь оценить].
Задавай вопросы чтобы заполнить все поля.

[вставить шаблон выше]

LLM спросит какую роль эксперта взять и по каким критериям оценивать — потому что без этого промпт будет слишком общим, а разные модели будут интерпретировать "качество" совсем по-разному. После диалога получите готовый промпт для запуска в трёх окнах.


⚠️

Ограничения

⚠️ Систематическая строгость: LLM-жюри стабильно ставит оценки ниже, чем поставил бы человек-эксперт. Оценки на 0.5-1 балл строже. Учитывайте это при интерпретации — не воспринимайте 3.5/5 как провал.

⚠️ Клише и шаблонность: Если текст написан в формате, на котором обучались модели (типичный бизнес-план, стандартная структура статьи), жюри может завысить оценку просто за соответствие паттерну, а не за реальное качество.

⚠️ Не работает без конкретных критериев: Если попросить "просто оцени" без чётких измерений — модели интерпретируют "качество" по-разному и жюри теряет смысл. Критерии обязательны.

⚠️ Высококонтекстные оценки: Когда качество зависит от специфики аудитории (региональный юмор, профессиональный жаргон узкого рынка, локальные культурные коды) — жюри может ошибаться. Это подтвердилось в исследовании: модели не учли возраст пациента в одном из кейсов, потому что эту информацию не дали в промпте.

⚠️ Сильная корреляция между моделями: В сложных случаях три модели могут ошибиться одинаково. Жюри снижает случайные ошибки, но не системные — если все три модели не понимают специфику вашей задачи, усреднение не поможет.


🔍

Как исследовали

Команда из ЮАР взяла 300 реальных медицинских случаев из южноафриканских больниц — истории болезней, результаты анализов, снимки КТ и МРТ. Сначала специализированные панели из двух врачей (терапевты и педиатры) независимо оценили диагнозы — это стало золотым стандартом. Затем то же самое сделало жюри из трёх топовых моделей: Claude Opus 4.1, Gemini 2.5 Pro и o3. Каждая модель оценила 3334 диагноза по четырём шкалам 1-5.

Хитрость дизайна: чтобы было честное сравнение, исследователи взяли вторую группу врачей и попросили их переоценить те же случаи в тех же условиях что и ИИ — без полных данных, только диагноз и эталон от первой панели. Это "ре-скор панель" стала человеческим бейслайном (базовой точкой отсчёта). Результат удивил: ИИ-жюри оказалось более согласованным с первичными экспертами, чем вторая группа врачей. Особенно показателен показатель "грубых ошибок безопасности" — жюри пропустило 5% опасных диагнозов, человеческая переоценка — почти 17%. Вероятность того, что это случайность, меньше 4%.


💡

Адаптации и экстраполяции

🔧 Расхождение как детектор проблем

Не усредняйте сразу — сначала смотрите на разброс. Если Claude поставил 4, GPT 2, Gemini 3 — это маркер: что-то в тексте неоднозначно или спорно. Именно это место требует вашего решения. Добавьте в конец промпта:

Если ты не уверен в оценке (внутренний конфликт между аргументами "за" и "против"),
поставь оценку и отметь: [СПОРНО] — и объясни в чём противоречие.

🔧 Жюри для сравнения двух вариантов

Вместо оценки одного текста — сравнение двух версий:

Перед тобой два варианта {тип текста}: Вариант А и Вариант Б.
По каждому критерию ответь:
1. Какой вариант сильнее и почему
2. Оценку каждого по шкале 1-5

Не объясняй какой "лучше в целом" — только по конкретным критериям.

Запускаете в трёх моделях — получаете независимый A/B тест без своей предвзятости.


🔗

Ресурсы

Статья: Can LLMs Score Medical Diagnoses and Clinical Reasoning as well as Expert Panels?

Авторы: Amy Rouillard, Sitwala Mundia, Linda Camara, Michael Cameron Gramanie, Ziyaad Dangor, Ismail Kalla, Shabir A. Madhi, Kajal Morar, Marlvin T. Ncube, Haroon Saloojee, Bruce A. Bassett

Организации: Wits MIND Institute, University of the Witwatersrand (Йоханнесбург, ЮАР); Grai Labs (Кейптаун, ЮАР); South African Medical Research Council


📋 Дайджест исследования

Ключевая суть

Парадокс: вторая группа врачей оценила те же диагнозы менее согласованно, чем жюри из трёх ИИ-моделей. Мы привыкли считать человека-эксперта золотым стандартом — оказывается, одного эксперта недостаточно, и ИИ-жюри его обходит. Техника LLM-жюри позволяет получить надёжную оценку любого текста — питча, резюме, статьи — без платного рецензента. Фишка: запускаешь один промпт в Claude, GPT-4o и Gemini. Их слепые пятна не совпадают — компании разные, подходы к обучению разные. При усреднении случайные расхождения гасят друг друга, а там где все три согласны — это и есть реальное качество текста. Бонус: ИИ-жюри стабильно строже людей на 0.5-1 балл. Зная это, правильно читаешь оценки: строгая 3.5/5 от жюри — это человеческие 4+.

Принцип работы

Одна модель — один угол зрения со своими систематическими перекосами. Три модели от разных компаний — три независимых набора перекосов, которые не синхронизированы. Claude от Anthropic, GPT-4o от OpenAI, Gemini от Google разрабатываются командами с разными философиями — их ошибки не совпадают и при усреднении гасят друг друга. Дополнительно: исследование показало что модели не проявляют предвзятости к своим. Claude не завышает тексты написанные Claude, GPT не занижает Gemini. Жюри работает беспристрастно — можно попросить Claude оценить текст от GPT и получить честный ответ.

Почему работает

У каждой языковой модели есть темы, стили и форматы которые она стабильно переоценивает или недооценивает — это называется систематическая ошибка. Если оценивает одна модель — вы получаете одно слепое пятно. Три модели от разных компаний — три разных слепых пятна. При усреднении случайные расхождения гасятся, а систематические совпадения — сигнал: здесь реальная проблема или реальное достоинство. Про строгость: это не баг — это воспроизводимый паттерн. Зная что жюри стабильно ниже на 0.5-1 балл, вы можете делать поправку. Единственное что жюри не гасит — системную ошибку всех трёх моделей одновременно. Если все три не понимают специфику задачи, усреднение не спасёт.

Когда применять

Оценка любых текстов где важна обоснованная обратная связь — питчи для инвесторов, резюме кандидатов, маркетинговые тексты, технические планы, статьи до публикации. Особенно полезно когда нет доступа к живому эксперту или хочется проверить текст до встречи с ним. Расхождение между моделями само по себе ценно — именно там живут спорные места. НЕ подходит для оценки с высоким контекстом: региональный юмор, узкий профессиональный жаргон, локальные культурные коды — жюри может ошибиться системно.

Мини-рецепт

1. Определи роль и критерии: Кто смотрит на твой текст — инвестор, редактор, нанимающий менеджер? Сформулируй 3-5 конкретных измерений: не 'качество' (размыто), а 'ясность проблемы', 'убедительность решения', 'призыв к действию'.

2. Добавь эталон в промпт: Опиши как выглядит текст на 5/5 — конкретно, без воды. Это сужает разброс между моделями. Без эталона каждая модель понимает 'отлично' по-своему.

3. Запусти один промпт в три окна: Скопируй один и тот же промпт в Claude, GPT-4o и Gemini. Все три — отдельные чаты, никаких ссылок друг на друга.

4. Собери оценки и посчитай среднее: Смотри не только на итог — смотри где модели расходятся. Единодушное занижение = реальная проблема. Расхождение = спорное место, требует твоего суждения.

5. Поправка на строгость: Жюри стабильно ставит на 0.5-1 балл ниже человека. Если получил 3.5/5 — это примерно 4+ у живого рецензента. Не паникуй от строгих цифр.

Примеры

[ПЛОХО] : Оцени моё питч-письмо для инвесторов
[ХОРОШО] : Один и тот же промпт запускается в Claude, GPT-4o и Gemini: Ты — венчурный инвестор, получающий 200+ питч-писем в месяц. Оцени письмо по четырём критериям от 1 до 5: - Ясность проблемы: чётко ли описана боль и кто её испытывает - Убедительность решения: верю ли что это работает - Доверие к команде: понятно ли кто стоит за проектом - Призыв к действию: ясно ли что от меня хотят Эталон отличного письма: конкретная проблема с цифрами, решение без жаргона, команда с релевантным опытом, один конкретный следующий шаг. Текст: [ваше письмо] Формат: по каждому критерию — оценка/5 и 1-2 предложения почему. В конце — одно конкретное изменение для максимального эффекта. Собираешь три набора оценок. Среднее по каждому критерию — вердикт жюри. Где все три занизили — там реальная проблема.
Источник: Can LLMs Score Medical Diagnoses and Clinical Reasoning as well as Expert Panels?
ArXiv ID: 2604.14892 | Сгенерировано: 2026-04-17 05:31

Проблемы LLM

ПроблемаСутьКак обойти
Одна модель оценивает с одной точки зренияПросишь модель оценить текст. Получаешь одну оценку. Но у каждой модели есть устойчивые слепые зоны: стили, темы, форматы, которые она стабильно переоценивает или недооценивает. Снаружи не видно где именно. Один ответ — одно слепое пятноЗапускай один и тот же запрос в три разные модели от разных компаний (Claude, GPT, Gemini). Считай среднее. Слепые зоны разных компаний не совпадают — при усреднении гасят друг друга
ИИ-оценщик систематически строже человека-экспертаПросишь модель поставить оценку по шкале 1–5. Модель ставит ниже, чем поставил бы эксперт-человек. Разница устойчивая: примерно 0.5–1 балл. Если не знать об этом — воспринимаешь хороший результат как плохойПрименяй поправку при интерпретации. Строгая 4/5 от модели — это примерно 5/5 у человека-рецензента. Не проваливай хорошую работу из-за этого сдвига

Методы

МетодСуть
Жюри из трёх моделей — надёжная оценка текстаЗапускай одинаковый запрос в Claude, GPT-4o и Gemini. Каждая модель оценивает текст независимо по 3–5 конкретным критериям, ставит баллы и даёт обоснование. Затем считаешь среднее по каждому критерию вручную. Синтаксис промпта: Ты — {роль эксперта}. Оцени {тип текста} по критериям: {критерий_1}, {критерий_2}. Шкала 1–5. Эталон 5/5: {описание}. Формат: критерий — балл — 1-2 предложения почему. Почему работает: Claude, GPT и Gemini обучены разными командами с разными подходами. Их ошибки не совпадают. Где все три согласны — это реальный сигнал о качестве. Когда да: любая оценка текста, много критериев, нужна приоритизация что улучшить. Когда нет: оценка требует узкого контекста который не дан в запросе (культурные коды, региональная специфика, профессиональный жаргон узкого рынка)

Тезисы

ТезисКомментарий
Расхождение между тремя моделями жюри — это сигнал, а не шумКогда все три модели ставят одинаково — это реальная характеристика текста. Когда одна ставит 2, другая 4, третья 5 — это спорное место. Не усредняй вслепую: иди читать обоснования там, где разброс максимальный. Именно там — самая ценная обратная связь. Применяй: после подсчёта среднего найди критерии с максимальным разбросом. Читай все три обоснования по этому критерию. Это дискуссия экспертов которую стоит изучить
Модели не завышают оценки "своим" текстамClaude честно оценивает текст написанный GPT. GPT не занижает конкурентов. Предвзятости к источнику нет. Это значит жюри работает беспристрастно независимо от того кем написан текст — человеком или какой-то конкретной моделью. Применяй: можно просить Claude оценить текст сгенерированный Claude — результат будет честным
📖 Простыми словами

CanLLMsScore Medical Diagnoses and Clinical Reasoning as well as Expert Panels?

arXiv: 2604.14892

Суть LLM-жюри в том, что одна нейронка всегда предвзята, а три — это уже объективный консилиум. Когда ты просишь одну модель оценить твой текст, ты получаешь не истину, а её личные «галлюцинации» и специфические настройки, заложенные разработчиками. Метод диверсификации моделей решает эту проблему: мы берем GPT, Claude и Gemini, заставляем их независимо выставить баллы, а потом считаем среднее арифметическое. Это гасит системные ошибки, потому что маловероятно, что три разных «мозга» от конкурентов ошибутся в одном и том же месте одинаковым образом.

Это как если бы ты выбирал квартиру и позвал на просмотр дизайнера, инженера и риелтора. Дизайнер в восторге от вида, инженер в ужасе от проводки, а риелтор считает, что цена завышена. Если слушать кого-то одного — рискуешь вляпаться, но когда они спорят и выдают общее решение, картинка становится объемной. По отдельности каждая модель — это субъективный эксперт со своими тараканами, но вместе они превращаются в трезвого судью, который видит ситуацию целиком.

На практике это работает через три независимых чата с жесткими критериями оценки. Допустим, ты написал питч для инвесторов и хочешь знать, не выглядит ли он как инфоцыганский бред. Ты скармливаешь текст трем моделям и просишь оценить убедительность, структуру и реалистичность цифр по шкале от 1 до 10. Если GPT ставит 9, а Gemini — 4, значит, где-то в тексте есть скрытый косяк, который одна модель проглотила, а вторая — нет. Средний балл в таком случае будет гораздо ближе к реальности, чем восторженный отзыв одной нейронки.

Метод тестировали на сложных медицинских диагнозах, где цена ошибки — жизнь, но принцип универсален. Он идеально ложится на любую задачу, где нет однозначного «правильно» или «неправильно»: оценка маркетинговых стратегий, проверка кода на чистоту или даже анализ юридических договоров. SEO-тексты или сложные лонгриды — неважно, три разных взгляда всегда лучше одного, потому что они вычищают из оценки «корпоративный шум» конкретного разработчика AI.

Короче: никогда не верь одной модели на слово, если на кону стоят деньги или репутация. LLM-жюри — это самый дешевый и быстрый способ получить экспертную оценку без привлечения живых людей, которые стоят дорого и вечно заняты. Просто внедри правило трех моделей в свой рабочий процесс, и ты перестанешь гадать, почему твой контент не залетает. Кто использует этот фильтр, тот получает чистый результат, остальные продолжают жрать галлюцинации нейросетей.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с