3,583 papers
arXiv:2603.28304 72 30 мар. 2026 г. FREE

Ensemble Judging: почему одна оценка от LLM ненадёжна — и как получить стабильный результат

КЛЮЧЕВАЯ СУТЬ
Парадокс: люди часами выбирают между GPT и Claude для оценки своих текстов — но это менее важно, чем температура генерации. Именно она влияет на стабильность вердикта сильнее, чем модель и формулировка промпта вместе взятые. Метод ансамблевой оценки позволяет получать надёжный результат там, где один запрос даёт случайный ответ. Фишка: запусти один промпт 3–5 раз и возьми большинство голосов — расхождения между ответами сами по себе скажут, насколько задача неоднозначная.
Адаптировать под запрос

TL;DR

Когда просишь LLM сравнить два варианта текста, оценить решение или выбрать лучший питч — она работает как нестабильный судья. Задай тот же вопрос снова, и ответ может измениться. Это не глюк: модель генерирует текст вероятностно, каждый раз чуть по-другому. И именно температура — параметр "случайности" генерации — контролирует, насколько сильно прыгают оценки. При низкой температуре модель почти всегда выдаёт одно и то же. При высокой — результат непредсказуем.

Главная находка: на стабильность оценки температура влияет сильнее, чем выбор модели или формулировка промпта. Это значит, что если ты просишь LLM оценить что-то важное — одного ответа недостаточно. Это одна точка из случайного распределения, а не истина. Причём низкая температура порождает "нетерпеливого судью" — модель хватается за первый очевидный аргумент и выносит вердикт не думая. Высокая — "нерешительного аналитика": модель так глубоко анализирует, что перестаёт делать выводы.

Решение — ансамблевый подход: попроси LLM оценить одно и то же несколько раз (3–5 раз через регенерацию или отдельные чаты) и возьми большинство голосов. Это устойчивее, чем одна "уверенная" оценка.


🔬

Схема метода

ШАГ 1: Составь структурированный промпт оценки → строгий формат вывода
        (например: "Ответ строго в формате: WINNER: [A/B], REASON: [1 предложение]")

ШАГ 2: Запусти один и тот же промпт 3–5 раз → получи 3–5 независимых ответов
        (регенерация ответа / отдельные сессии / несколько вкладок)

ШАГ 3: Подсчитай результаты → большинство = финальный ответ
        Если 3 из 5 выбрали A — побеждает A
        Если 2–3 (равно) — пометь как "неоднозначно", задай уточняющий критерий

Все шаги выполняются в обычном чате, код не нужен.


🚀

Пример применения

Задача: Ты написал два варианта оффера для курса по инвестициям на Boosty. Хочешь понять, какой цепляет сильнее. Просишь Claude оценить — и хочешь, чтобы оценка была надёжной, а не случайной.

Промпт:

Ты — строгий маркетолог, который оценивает конверсионность офферов.

Вот два варианта оффера для курса по инвестициям:

[ВАРИАНТ A]
«Научись инвестировать без потерь — даже если ты никогда не открывал брокерский счёт»

[ВАРИАНТ B]
«Первые 50 000 рублей на бирже: пошаговый план для тех, кто боится риска»

Твоя задача: выбери, какой оффер сильнее по конверсионности.

Критерии: конкретность обещания, чёткость аудитории, снятие страха, призыв к действию.

Ответ СТРОГО в формате:
WINNER: [A или B]
СИЛА: [что именно делает его сильнее — 1 предложение]
СЛАБОСТЬ ДРУГОГО: [главная проблема проигравшего — 1 предложение]

Запусти этот промпт 5 раз (кнопка "Regenerate" или 5 отдельных диалогов).

Результат:

Получишь 5 структурированных ответов в одном формате. Посчитай: сколько раз выиграл A, сколько — B. Если 4 из 5 выбрали один вариант — это сигнал. Если 3 на 2 — оффер спорный, и модель укажет на разные слабые места. Это уже инсайт для доработки.


🧠

Почему это работает

LLM не думает — она генерирует. Каждый токен в ответе выбирается с некоторой вероятностью. Это значит, что при одном и том же промпте модель каждый раз стартует чуть иначе. Один запрос = один случайный образец из возможных ответов. Это не ошибка дизайна — это природа языковых моделей.

Проблема единственной оценки. Ты доверяешь этому одному образцу как истине. Но он нестабилен. Исследование показало, что на стабильность ("задай тот же вопрос дважды — получи тот же ответ") температура влияет сильнее, чем выбор конкретной модели. Да, именно сильнее, чем GPT vs Claude. Это значит, что "какую модель взять" — менее важный вопрос, чем "насколько стабилен её механизм генерации".

Почему ансамбль лучше. Несколько независимых запусков — это несколько образцов. Большинство голосов "усредняет" случайность. Это тот же принцип, что голосование жюри: один судья может ошибиться, пятеро — реже. Бонус: когда ответы расходятся — это само по себе сигнал, что задача неоднозначная и стоит уточнить критерии.

Рычаги управления: - Количество запусков → 3 для простых задач, 5–7 для важных решений. Больше запусков = устойчивее результат, больше токенов - Строгость формата → чем жёстче ты задаёшь формат вывода ("WINNER: только A или B"), тем легче считать голоса и тем меньше "уклончивых" ответов - Критерии оценки в промпте → чем конкретнее критерии, тем стабильнее результат. Размытые критерии усиливают разброс - CoT vs прямой ответ → просьба "объясни подробно" увеличивает вариативность. Если нужна стабильность — проси краткий структурированный ответ, без пространных рассуждений


📋

Шаблон промпта

Ты — {роль эксперта, например: "строгий редактор", "опытный продакт-менеджер"}.

Оцени следующее по критериям {твои критерии}.

[ВАРИАНТ A]
{первый вариант}

[ВАРИАНТ B]
{второй вариант}

Ответ СТРОГО в формате:
WINNER: [A или B]
ПРИЧИНА: [{1 конкретная фраза — что именно решило выбор}]
СЛАБОСТЬ: [{1 конкретная фраза — главная проблема проигравшего}]

Подставляй: - {роль эксперта} — кем должен быть судья: маркетолог, инвестор, HR, редактор - {твои критерии} — конкретные параметры оценки: ясность, убедительность, конверсионность, соответствие аудитории - {первый вариант} и {второй вариант} — то что сравниваешь

После получения ответа — запусти промпт ещё 2–4 раза, посчитай голоса.


🚀 Быстрый старт — вставь в чат:

Вот шаблон для надёжной оценки вариантов через ансамбль (несколько запусков). 
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит про роль эксперта, критерии оценки и что именно ты сравниваешь — потому что без этого шаблон останется пустым, а точные критерии напрямую влияют на стабильность ответов.


⚠️

Ограничения

⚠️ Контроль температуры: В обычном интерфейсе ChatGPT или Claude ты не управляешь температурой напрямую. Ансамбль частично компенсирует это, но не полностью — ты работаешь с тем, что дано.

⚠️ Не для субъективных задач без критериев: Если критерии размытые ("что красивее?"), ансамбль собирает непоследовательные мнения, а не устойчивую оценку. Чем конкретнее критерии — тем полезнее метод.

⚠️ CoT усиливает нестабильность: Просьба "думай пошагово" или "объясни подробно" перед финальным суждением увеличивает вариабельность ответов, особенно в сложных задачах. Если нужна стабильность — проси краткий структурированный ответ.

⚠️ Маленькие модели — отдельная история: Небольшие модели (типа бесплатных версий или слабых API-моделей) ведут себя иначе — у них нестабильность растёт даже при изменении случайного начального значения, не только температуры. Для них ансамбль нужен особенно.

⚠️ Форматные сбои случаются всегда: Даже при низкой температуре модель иногда нарушает заданный формат вывода. Это нельзя устранить полностью. Поэтому в шаблоне слово "СТРОГО" — не для красоты.


🔍

Как исследовали

Команда из Университета Люксембурга и ETH Zürich провела масштабный эксперимент: 480 000 запросов к нескольким LLM-судьям при шести значениях температуры — от 0.01 до 3.0. Каждую комбинацию условий (вопрос × тип оценки × стиль промпта × температура) повторяли 10 раз с разными случайными семенами. Использовали два датасета: MT-Bench с реальными аннотациями людей и MMLU-Pro для сложных задач рассуждения.

Идея была простой: большинство исследователей выставляют температуру наугад (0.1 или 1.0), потому что "так принято". Команда решила проверить, важна ли температура на самом деле. И важна ли она по-настоящему — причинно, а не просто коррелирует с другими факторами. Для этого применили инструменты причинного анализа (AIPW estimator), чтобы изолировать эффект температуры от влияния промпта, модели и типа задачи.

Результаты оказались неожиданно чёткими: стабильность оценок почти полностью управляется температурой — корреляция близка к −1.00 у трёх из четырёх моделей. А вот точность (насколько судья совпадает с людьми) зависит больше от типа судьи и выбора модели. Приятный сюрприз: одна модель (Qwen3-30B) при высокой температуре становилась точнее — но одновременно допускала больше форматных ошибок, что в итоге всё равно роняло общий результат. Ещё одна неожиданность: даже при температуре 0.01 модели иногда ломают формат вывода — "рандом в LLM не выключается полностью".


💡

Адаптации и экстраполяции

📌

🔧 Техника: считать несогласие как сигнал → дразнить неоднозначность

Когда 5 запусков дают счёт 3:2 — это не "неудобный результат", это диагноз: задача неоднозначная, критерии нечёткие или оба варианта примерно равны. Используй расхождение как повод спросить у модели именно про спорный момент:

В 3 из 5 оценок победил вариант A, в 2 — вариант B.
Вот аргументы за B: [скопируй из ответов где победил B].
Что именно делает эти аргументы весомыми? 
Какой критерий решает спор в пользу B?

Так ты получаешь не просто "победителя", а понимание, на каком именно параметре держится различие.


📌

🔧 Техника: роль → конкретный персонаж вместо безликого эксперта

Вместо размытого "строгий маркетолог" дай конкретный архетип:

Ты — Игорь Стоянов, директор по маркетингу с 15 годами в FMCG. 
Ты видел тысячи офферов, тебя сложно удивить, ты режешь слабые тексты без жалости.

Чем конкретнее роль — тем более последовательны оценки между запусками. Абстрактный "эксперт" интерпретируется каждый раз заново, конкретный персонаж — стабильнее.


🔗

Ресурсы

The Necessity of Setting Temperature in LLM-as-a-Judge Lujun Li, Lama Sleem, Yangjie Xu, Yewei Song, Aolin Jia, Jerome Francois, Radu State University of Luxembourg, ETH Zürich

Датасет экспериментов: huggingface.co/datasets/Volavion/eval_temperatures_bench

Связанные работы: Zheng et al. (MT-Bench, LLM-as-a-Judge baseline), Shi et al. (position bias in judges)


📋 Дайджест исследования

Ключевая суть

Парадокс: люди часами выбирают между GPT и Claude для оценки своих текстов — но это менее важно, чем температура генерации. Именно она влияет на стабильность вердикта сильнее, чем модель и формулировка промпта вместе взятые. Метод ансамблевой оценки позволяет получать надёжный результат там, где один запрос даёт случайный ответ. Фишка: запусти один промпт 3–5 раз и возьми большинство голосов — расхождения между ответами сами по себе скажут, насколько задача неоднозначная.

Принцип работы

Стандартный подход: спросил — доверяешь ответу. Проблема в том, что это один случайный образец из распределения возможных ответов. Задай тот же вопрос снова — можешь получить другой вывод. При низкой температуре модель ведёт себя как нетерпеливый судья: хватается за первый очевидный аргумент и выносит вердикт не думая. При высокой — как нерешительный аналитик: так глубоко копает, что перестаёт делать выводы. Ансамбль работает как голосование жюри: один судья ошибается — пятеро ошибаются реже. Запускаешь промпт несколько раз с жёстким форматом вывода ('WINNER: только A или B'), считаешь голоса, берёшь большинство.

Почему работает

Каждый токен в ответе LLM выбирается с некоторой вероятностью. Один запрос — один случайный образец, не истина. Несколько независимых запусков усредняют эту случайность — как среднее по нескольким замерам точнее одного. Когда 2 из 5 запусков дают другой ответ — это не сбой метода, а сигнал: задача субъективная, критерии нужно уточнить. Бонус: расхождение аргументов между запусками часто показывает реальные слабые места того варианта, который проиграл.

Когда применять

Сравнение вариантов текстов, офферов, идей, решений — особенно когда выбор важный и хочется надёжного сигнала, а не случайного вердикта. Подходит для любой задачи с конкретными критериями оценки. НЕ подходит для размытых задач без параметров ('что звучит лучше?' без объяснения, для кого и зачем) — ансамбль соберёт пять разных субъективных мнений, а не устойчивую оценку. Также стоит помнить: просьба 'думай пошагово, объясни подробно' увеличивает разброс ответов. Если нужна стабильность — проси краткий структурированный ответ.

Мини-рецепт

1. Составь промпт с ролью и критериями: укажи, кем должен выступать судья (редактор, маркетолог, инвестор) и конкретные параметры оценки — чем точнее критерии, тем стабильнее результат между запусками
2. Задай жёсткий формат вывода: добавь в конец промпта строку Ответ СТРОГО в формате: WINNER: [A или B] / ПРИЧИНА: [одна фраза] / СЛАБОСТЬ: [одна фраза] — это убирает уклончивые ответы и упрощает подсчёт
3. Запусти промпт 3–5 раз: через кнопку повторной генерации или в отдельных сессиях — 3 раза для простого выбора, 5–7 для важного решения
4. Посчитай голоса: 4 из 5 выбрали один вариант — сигнал есть; счёт 3 на 2 — задача спорная, читай аргументы за проигравшего, там обычно прячется инсайт для доработки

Примеры

[ПЛОХО] : Какой оффер лучше? Вариант A: [...] Вариант B: [...]
[ХОРОШО] : Ты — строгий маркетолог, оцениваешь конверсионность офферов. [ВАРИАНТ A] «Научись инвестировать без потерь — даже если ты никогда не открывал брокерский счёт» [ВАРИАНТ B] «Первые 50 000 рублей на бирже: пошаговый план для тех, кто боится риска» Критерии: конкретность обещания, чёткость аудитории, снятие страха. Ответ СТРОГО в формате: WINNER: [A или B] СИЛА: [что именно делает его сильнее — одна фраза] СЛАБОСТЬ: [главная проблема проигравшего — одна фраза] Затем жми regenerate ещё 4 раза. Считаешь: сколько раз победил A, сколько B. Если 4 из 5 — сигнал чёткий. Если 3 на 2 — смотри на аргументы, они покажут, что именно спорно.
Источник: The Necessity of Setting Temperature in LLM-as-a-Judge
ArXiv ID: 2603.28304 | Сгенерировано: 2026-03-31 05:23

Проблемы LLM

ПроблемаСутьКак обойти
Одна оценка от LLM — случайная точка, не выводПросишь модель выбрать лучший вариант. Получаешь ответ. Кажется, это результат. На самом деле — один случайный образец из множества возможных ответов. Спроси снова — ответ может измениться. Проблема была скрыта: ты не видишь разброс, а видишь только одну точкуЗапусти тот же запрос 3–5 раз. Посчитай голоса. Большинство — финальный ответ. Ничего другого в обычном чате не доступно

Методы

МетодСуть
Ансамблевая оценка — большинство голосов вместо одного ответаЗапусти один и тот же запрос-оценщик 3–5 раз в отдельных диалогах или через кнопку "Regenerate". Подсчитай: сколько раз победил вариант A, сколько — B. 4 из 5 в пользу одного — сигнал. Счёт 3:2 — задача неоднозначна, значит нужно уточнить критерии. Почему работает: несколько запусков — это несколько случайных образцов. Большинство усредняет случайность. Обязательно: жёсткий формат вывода (WINNER: [A или B]), конкретные критерии оценки, короткий ответ без пространных рассуждений. Не работает: размытые критерии ("что красивее?") — ансамбль собирает непоследовательные мнения, а не устойчивый вывод

Тезисы

ТезисКомментарий
Просьба "думай пошагово" делает оценки менее стабильнымиКажется логичным: попросил объяснить — получишь более обдуманный ответ. Но при задачах оценки и сравнения — наоборот. Чем длиннее рассуждения перед выводом, тем выше разброс между запусками. Модель уходит в анализ и теряет однозначность. Применяй: для задач оценки и сравнения проси краткий структурированный ответ, не цепочку рассуждений. "Ответь в формате WINNER: A или B" — стабильнее, чем "объясни пошагово, потом выбери"
📖 Простыми словами

The Necessity of Setting Temperature inLLM-as-a-Judge

arXiv: 2603.28304

Когда ты просишь нейронку оценить два текста или выбрать лучший вариант, она не включает режим объективного арбитра. Она работает как вероятностная машина, которая просто подбирает наиболее подходящие слова одно за другим. Проблема в том, что процесс выбора каждого слова — это всегда лотерея. Если ты не зафиксировал правила этой игры, модель превращается в нестабильного судью, который выносит вердикт в зависимости от того, какой «кубик» выпал в начале генерации.

Это как если бы ты пришел в суд, а судья перед каждым словом подбрасывал монетку. Вроде говорит по делу, но если завтра задать тот же вопрос, результат может быть диаметрально противоположным. В мире LLM за этот хаос отвечает параметр температуры. Если она выше нуля, модель каждый раз генерирует новый вариант реальности. Один запрос — это всего лишь случайный образец из бесконечного облака возможных ответов, а не истина в последней инстанции.

Чтобы получить адекватный результат, нужно использовать низкую температуру (ближе к 0) для стабильности или прогонять один и тот же запрос десятки раз, чтобы увидеть среднее арифметическое. В исследовании четко показывают: 10 из 10 запусков при высокой температуре могут дать разные оценки одному и тому же тексту. Это не баг и не «глюк» системы, это фундаментальная природа генерации токенов, где каждое следующее слово зависит от случайного выбора предыдущего.

Тестировали это на оценке текстов, но принцип универсален для любой задачи, где нейронка выступает в роли эксперта. Будь то проверка кода, выбор рекламного слогана или аудит стратегии — если ты не контролируешь температуру, ты получаешь не экспертизу, а цифровое гадание на кофейной гуще. Без фиксации параметров твои тесты и сравнения промптов не стоят и ломаного гроша, потому что результат нельзя повторить.

Короче: хватит верить первому же ответу модели, когда просишь её что-то оценить. Либо выкручивай температуру в ноль, чтобы судья перестал «принимать на грудь» перед заседанием, либо делай множественные запуски и считай среднее. Иначе ты рискуешь построить бизнес-процессы на базе случайного шума, принимая его за глубокую аналитику. Модель не думает, она просто кидает кости — следи за тем, чтобы они не были шулерскими.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с