TL;DR
Когда просишь ИИ сравнить два варианта — ответить «что лучше?» — результат зависит не только от качества вариантов, но и от языка, на котором ты задаёшь вопрос. Одна и та же пара текстов, поданная на английском или на китайском, получает разный вердикт в 10–15% случаев. Всё это при одинаковом содержании — просто язык подачи другой.
Проблема в том, что ИИ-судья нестабилен. Он не видит «объективное качество» — он реагирует на то как выглядит текст, насколько привычен ему язык, какие детали бросаются в глаза. На английском эти детали — одни, на другом языке — другие. В итоге меняется не просто предпочтение, а правильность оценки: модель переключается с правильного ответа на ошибочный или обратно примерно с той же частотой, что и сам «флип» мнения.
Judge-LS — протокол проверки надёжности ИИ-оценки через три шага: подай сравнение на основном языке → подай то же самое с переставленными вариантами → подай на другом языке или в смешанном формате. Если вердикты расходятся — оценка ненадёжна.
Схема метода
Все шаги выполняются как отдельные запросы в чате.
ШАГ 1: Подай сравнение в оригинальном порядке (A vs B)
→ запиши вердикт
ШАГ 2: Подай то же сравнение с переставленными вариантами (B vs A)
→ запиши вердикт
ШАГ 3: Подай сравнение на английском (если работал на русском)
→ запиши вердикт
ПРОВЕРКА: Совпадают все три? → Оценке можно доверять
Расходятся? → ИИ не уверен, нужна осторожность или человек
Пример применения
Задача: Ты фаундер, выбираешь между двумя офферами от продуктовых дизайнеров. Хочешь попросить Claude оценить их тестовые задания — кто лучше справился с задачей «редизайн онбординга для B2B SaaS».
Промпт (шаг 1 — русский, порядок A–B):
Compare these two onboarding redesign proposals and choose
which better solves the task for a B2B SaaS product.
Reply strictly: "Option A", "Option B", or "Tie".
Task: Redesign the onboarding flow so users reach their
first "aha moment" within 5 minutes.
[Option A]
{текст_тестового_задания_кандидата_1}
[Option B]
{текст_тестового_задания_кандидата_2}
Evaluation criteria: clarity of user journey, speed to
first value, removal of friction points.
⚠️ Заметь: промпт на английском — намеренно. Это повышает стабильность (подробнее в секции «Почему работает»).
Промпт (шаг 2 — меняй местами):
Повтори тот же промпт, но поставь кандидата 2 первым (Option A), а кандидата 1 вторым (Option B).
Результат:
Если в шаге 1 победил «Option A», а в шаге 2 тот же кандидат (теперь «Option B») снова победил — оценка стабильна. Если в шаге 2 неожиданно победил другой — ИИ реагирует на порядок подачи, а не на качество. Вердикту доверять не стоит без дополнительной проверки.
Почему это работает
Слабость ИИ: модель не хранит «объективную оценку» — она генерирует вердикт, опираясь на паттерны в тексте прямо сейчас. Язык, порядок, формулировки — всё это меняет, на что модель «обращает внимание» при генерации. На английском одни детали кажутся важными, на русском — другие. Результат разный, хотя содержание одинаковое.
Сильная сторона ИИ: модели лучше всего откалиброваны на английском — на нём больше обучающих данных, на нём чаще встречаются задачи сравнения и оценки. Это означает, что на английском модель реже «сбивается» с правильного курса при смене порядка или формулировок.
Как использовать это: для любой оценки, где важна надёжность — подавай в двух порядках и на английском. Это не изменит качество вариантов, но покажет тебе, насколько уверен ИИ-судья. Три совпадающих ответа = стабильная оценка. Расхождение = красный флаг.
Рычаги управления: - Язык промпта → английский даёт наиболее стабильные результаты. Переключение на другой язык может изменить как минимум каждый десятый вердикт - Порядок вариантов → меняй A/B местами. Если ответ меняется — модель реагирует на позицию, не на качество. При смешанном языке этот эффект усиливается вдвое - Смешанный язык в промпте (русский текст + английские термины) → самая нестабильная комбинация. Позиционная чувствительность растёт с 12% до 18%+ по сравнению с чистым английским
Шаблон промпта
Compare the following two options and choose which one
better achieves the goal. Reply strictly with one of:
"Option A", "Option B", or "Tie".
Goal: {цель_или_критерий_оценки}
[Option A]
{первый_вариант}
[Option B]
{второй_вариант}
Evaluation focus: {на_что_обращать_внимание}
Плейсхолдеры:
- {цель_или_критерий_оценки} — что именно оцениваем: «убедительность для холодного клиента», «ясность инструкции», «соответствие ТЗ»
- {первый_вариант} и {второй_вариант} — тексты для сравнения
- {на_что_обращать_внимание} — конкретные параметры оценки
Как использовать: запусти шаблон дважды — с оригинальным порядком и с переставленными вариантами. Если оба запроса дают одинаковый победителя — доверяй. Если расходятся — ИИ нестабилен на этой паре.
🚀 Быстрый старт — вставь в чат:
Вот шаблон для надёжного ИИ-сравнения вариантов.
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит про варианты и критерии оценки — потому что без них не сможет правильно сформулировать задачу сравнения. Она возьмёт структуру шаблона и адаптирует под твою задачу.
Ограничения
⚠️ Не серебряная пуля: Двойная проверка (два порядка + английский) снижает вероятность ошибки, но не устраняет её полностью. Если оба запроса дали одинаковый ответ — это сигнал стабильности, не гарантия правоты.
⚠️ Сложные пары сложнее всего: Исследование показало, что самые «каверзные» сравнения — где один вариант убедителен, но технически неверен — нестабильны даже на английском. При переключении языка вероятность неправильного вердикта на таких парах резко растёт.
⚠️ Смешанный язык — отдельная история: Русский текст с английскими терминами (что типично для IT, маркетинга, финансов) не равен ни чистому русскому, ни чистому английскому. Он создаёт свой паттерн нестабильности, и на нём позиционная чувствительность самая высокая.
⚠️ Переводы не нейтральны: Если переводишь вариант А на другой язык и просишь сравнить с оригиналом варианта Б — это уже нечестное сравнение. Даже при «правильном» переводе ИИ-судья не всегда назовёт их равными, а часто выберет одну из сторон.
Как исследовали
Исследователи взяли 419 задач из бенчмарка LLMBar — каждая задача это пара ответов с известным «правильным» победителем. Логика простая: если мы знаем правильный ответ, то можем поймать модель на ошибке. Все 419 задач перевели на китайский и в «смешанный» формат (китайский текст + английские термины), сохраняя оригинальный смысл и намеренно не исправляя ошибки в «слабом» варианте. Это важно: исправленный перевод изменил бы правильный ответ, и эксперимент потерял бы смысл.
Четыре модели (GPT-4.1 Mini, Claude Haiku, Gemini Flash, DeepSeek) оценили каждую пару в трёх языковых вариантах и двух порядках — итого 13 408 вердиктов. Самый неожиданный результат: когда давали золотой ответ и его китайский перевод (контент одинаковый) и просили выбрать лучший — модели в 82–97% случаев правильно говорили «равны». Когда же всё-таки выбирали, то чаще в пользу китайского, а не английского. Это перевернуло гипотезу: проблема не в том, что ИИ «любит английский» — проблема в том, что ИИ нестабилен при смене языка подачи.
Адаптации и экстраполяции
🔧 Техника: «Три судьи вместо одного»
Вместо того чтобы проверять стабильность одного запроса через смену порядка, попроси три независимых оценки с чуть разными формулировками задачи. Если все три согласны — уверенность выше.
Запрос 1: "Какой вариант лучше решает задачу {задача}?"
Запрос 2: "Какой вариант слабее справляется с задачей {задача}?"
Запрос 3: "Если бы ты выбирал для себя, какой вариант взял бы?"
Если запрос 1 и запрос 2 указывают на одну пару — это стабильный сигнал. Если расходятся — задача для ИИ неоднозначна.
🔧 Техника: Явный запрос уверенности
Добавь к шаблону запрос на степень уверенности — это форсирует ИИ артикулировать, насколько он убеждён:
Compare the following two options.
Reply with:
- Your choice: "Option A", "Option B", or "Tie"
- Confidence: "High", "Medium", or "Low"
- One sentence: what tipped the decision
[Option A] {вариант_а}
[Option B] {вариант_б}
Если уверенность «Medium» или «Low» — сигнал, что пара спорная и стоит проверить оба порядка или привлечь человека.
Ресурсы
Название работы: Does the Judge Prefer English? Evaluating Language-Switching Invariance in LLM-as-a-Judge
Автор: Shaojie Yin (Shanghai Artificial Intelligence Laboratory, SJTU)
Бенчмарк: LLMBar — 419-item benchmark для оценки инструкция-следования
Контакт автора: Misaka10086@sjtu.edu.cn
