TL;DR
Когда просишь LLM сравнить два варианта текста, оценить решение или выбрать лучший питч — она работает как нестабильный судья. Задай тот же вопрос снова, и ответ может измениться. Это не глюк: модель генерирует текст вероятностно, каждый раз чуть по-другому. И именно температура — параметр "случайности" генерации — контролирует, насколько сильно прыгают оценки. При низкой температуре модель почти всегда выдаёт одно и то же. При высокой — результат непредсказуем.
Главная находка: на стабильность оценки температура влияет сильнее, чем выбор модели или формулировка промпта. Это значит, что если ты просишь LLM оценить что-то важное — одного ответа недостаточно. Это одна точка из случайного распределения, а не истина. Причём низкая температура порождает "нетерпеливого судью" — модель хватается за первый очевидный аргумент и выносит вердикт не думая. Высокая — "нерешительного аналитика": модель так глубоко анализирует, что перестаёт делать выводы.
Решение — ансамблевый подход: попроси LLM оценить одно и то же несколько раз (3–5 раз через регенерацию или отдельные чаты) и возьми большинство голосов. Это устойчивее, чем одна "уверенная" оценка.
Схема метода
ШАГ 1: Составь структурированный промпт оценки → строгий формат вывода
(например: "Ответ строго в формате: WINNER: [A/B], REASON: [1 предложение]")
ШАГ 2: Запусти один и тот же промпт 3–5 раз → получи 3–5 независимых ответов
(регенерация ответа / отдельные сессии / несколько вкладок)
ШАГ 3: Подсчитай результаты → большинство = финальный ответ
Если 3 из 5 выбрали A — побеждает A
Если 2–3 (равно) — пометь как "неоднозначно", задай уточняющий критерий
Все шаги выполняются в обычном чате, код не нужен.
Пример применения
Задача: Ты написал два варианта оффера для курса по инвестициям на Boosty. Хочешь понять, какой цепляет сильнее. Просишь Claude оценить — и хочешь, чтобы оценка была надёжной, а не случайной.
Промпт:
Ты — строгий маркетолог, который оценивает конверсионность офферов.
Вот два варианта оффера для курса по инвестициям:
[ВАРИАНТ A]
«Научись инвестировать без потерь — даже если ты никогда не открывал брокерский счёт»
[ВАРИАНТ B]
«Первые 50 000 рублей на бирже: пошаговый план для тех, кто боится риска»
Твоя задача: выбери, какой оффер сильнее по конверсионности.
Критерии: конкретность обещания, чёткость аудитории, снятие страха, призыв к действию.
Ответ СТРОГО в формате:
WINNER: [A или B]
СИЛА: [что именно делает его сильнее — 1 предложение]
СЛАБОСТЬ ДРУГОГО: [главная проблема проигравшего — 1 предложение]
Запусти этот промпт 5 раз (кнопка "Regenerate" или 5 отдельных диалогов).
Результат:
Получишь 5 структурированных ответов в одном формате. Посчитай: сколько раз выиграл A, сколько — B. Если 4 из 5 выбрали один вариант — это сигнал. Если 3 на 2 — оффер спорный, и модель укажет на разные слабые места. Это уже инсайт для доработки.
Почему это работает
LLM не думает — она генерирует. Каждый токен в ответе выбирается с некоторой вероятностью. Это значит, что при одном и том же промпте модель каждый раз стартует чуть иначе. Один запрос = один случайный образец из возможных ответов. Это не ошибка дизайна — это природа языковых моделей.
Проблема единственной оценки. Ты доверяешь этому одному образцу как истине. Но он нестабилен. Исследование показало, что на стабильность ("задай тот же вопрос дважды — получи тот же ответ") температура влияет сильнее, чем выбор конкретной модели. Да, именно сильнее, чем GPT vs Claude. Это значит, что "какую модель взять" — менее важный вопрос, чем "насколько стабилен её механизм генерации".
Почему ансамбль лучше. Несколько независимых запусков — это несколько образцов. Большинство голосов "усредняет" случайность. Это тот же принцип, что голосование жюри: один судья может ошибиться, пятеро — реже. Бонус: когда ответы расходятся — это само по себе сигнал, что задача неоднозначная и стоит уточнить критерии.
Рычаги управления: - Количество запусков → 3 для простых задач, 5–7 для важных решений. Больше запусков = устойчивее результат, больше токенов - Строгость формата → чем жёстче ты задаёшь формат вывода ("WINNER: только A или B"), тем легче считать голоса и тем меньше "уклончивых" ответов - Критерии оценки в промпте → чем конкретнее критерии, тем стабильнее результат. Размытые критерии усиливают разброс - CoT vs прямой ответ → просьба "объясни подробно" увеличивает вариативность. Если нужна стабильность — проси краткий структурированный ответ, без пространных рассуждений
Шаблон промпта
Ты — {роль эксперта, например: "строгий редактор", "опытный продакт-менеджер"}.
Оцени следующее по критериям {твои критерии}.
[ВАРИАНТ A]
{первый вариант}
[ВАРИАНТ B]
{второй вариант}
Ответ СТРОГО в формате:
WINNER: [A или B]
ПРИЧИНА: [{1 конкретная фраза — что именно решило выбор}]
СЛАБОСТЬ: [{1 конкретная фраза — главная проблема проигравшего}]
Подставляй:
- {роль эксперта} — кем должен быть судья: маркетолог, инвестор, HR, редактор
- {твои критерии} — конкретные параметры оценки: ясность, убедительность, конверсионность, соответствие аудитории
- {первый вариант} и {второй вариант} — то что сравниваешь
После получения ответа — запусти промпт ещё 2–4 раза, посчитай голоса.
🚀 Быстрый старт — вставь в чат:
Вот шаблон для надёжной оценки вариантов через ансамбль (несколько запусков).
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит про роль эксперта, критерии оценки и что именно ты сравниваешь — потому что без этого шаблон останется пустым, а точные критерии напрямую влияют на стабильность ответов.
Ограничения
⚠️ Контроль температуры: В обычном интерфейсе ChatGPT или Claude ты не управляешь температурой напрямую. Ансамбль частично компенсирует это, но не полностью — ты работаешь с тем, что дано.
⚠️ Не для субъективных задач без критериев: Если критерии размытые ("что красивее?"), ансамбль собирает непоследовательные мнения, а не устойчивую оценку. Чем конкретнее критерии — тем полезнее метод.
⚠️ CoT усиливает нестабильность: Просьба "думай пошагово" или "объясни подробно" перед финальным суждением увеличивает вариабельность ответов, особенно в сложных задачах. Если нужна стабильность — проси краткий структурированный ответ.
⚠️ Маленькие модели — отдельная история: Небольшие модели (типа бесплатных версий или слабых API-моделей) ведут себя иначе — у них нестабильность растёт даже при изменении случайного начального значения, не только температуры. Для них ансамбль нужен особенно.
⚠️ Форматные сбои случаются всегда: Даже при низкой температуре модель иногда нарушает заданный формат вывода. Это нельзя устранить полностью. Поэтому в шаблоне слово "СТРОГО" — не для красоты.
Как исследовали
Команда из Университета Люксембурга и ETH Zürich провела масштабный эксперимент: 480 000 запросов к нескольким LLM-судьям при шести значениях температуры — от 0.01 до 3.0. Каждую комбинацию условий (вопрос × тип оценки × стиль промпта × температура) повторяли 10 раз с разными случайными семенами. Использовали два датасета: MT-Bench с реальными аннотациями людей и MMLU-Pro для сложных задач рассуждения.
Идея была простой: большинство исследователей выставляют температуру наугад (0.1 или 1.0), потому что "так принято". Команда решила проверить, важна ли температура на самом деле. И важна ли она по-настоящему — причинно, а не просто коррелирует с другими факторами. Для этого применили инструменты причинного анализа (AIPW estimator), чтобы изолировать эффект температуры от влияния промпта, модели и типа задачи.
Результаты оказались неожиданно чёткими: стабильность оценок почти полностью управляется температурой — корреляция близка к −1.00 у трёх из четырёх моделей. А вот точность (насколько судья совпадает с людьми) зависит больше от типа судьи и выбора модели. Приятный сюрприз: одна модель (Qwen3-30B) при высокой температуре становилась точнее — но одновременно допускала больше форматных ошибок, что в итоге всё равно роняло общий результат. Ещё одна неожиданность: даже при температуре 0.01 модели иногда ломают формат вывода — "рандом в LLM не выключается полностью".
Адаптации и экстраполяции
🔧 Техника: считать несогласие как сигнал → дразнить неоднозначность
Когда 5 запусков дают счёт 3:2 — это не "неудобный результат", это диагноз: задача неоднозначная, критерии нечёткие или оба варианта примерно равны. Используй расхождение как повод спросить у модели именно про спорный момент:
В 3 из 5 оценок победил вариант A, в 2 — вариант B.
Вот аргументы за B: [скопируй из ответов где победил B].
Что именно делает эти аргументы весомыми?
Какой критерий решает спор в пользу B?
Так ты получаешь не просто "победителя", а понимание, на каком именно параметре держится различие.
🔧 Техника: роль → конкретный персонаж вместо безликого эксперта
Вместо размытого "строгий маркетолог" дай конкретный архетип:
Ты — Игорь Стоянов, директор по маркетингу с 15 годами в FMCG.
Ты видел тысячи офферов, тебя сложно удивить, ты режешь слабые тексты без жалости.
Чем конкретнее роль — тем более последовательны оценки между запусками. Абстрактный "эксперт" интерпретируется каждый раз заново, конкретный персонаж — стабильнее.
Ресурсы
The Necessity of Setting Temperature in LLM-as-a-Judge Lujun Li, Lama Sleem, Yangjie Xu, Yewei Song, Aolin Jia, Jerome Francois, Radu State University of Luxembourg, ETH Zürich
Датасет экспериментов: huggingface.co/datasets/Volavion/eval_temperatures_bench
Связанные работы: Zheng et al. (MT-Bench, LLM-as-a-Judge baseline), Shi et al. (position bias in judges)
