3,583 papers
arXiv:2606.14278 76 12 июня 2026 г. FREE

Judge-LS: язык подачи меняет вердикт ИИ-судьи на 10–15%

КЛЮЧЕВАЯ СУТЬ
Один и тот же вопрос на русском и на английском — в 10–15% случаев разные победители. Содержание не менялось ни на слово. Judge-LS позволяет поймать эту нестабильность до того, как принял решение на её основе. Фишка: подай одно сравнение трижды — оригинальный порядок, переставленные варианты, другой язык. Три одинаковых вердикта — оценке можно доверять. Расхождение — ИИ реагирует на форму подачи, а не на качество.
Адаптировать под запрос

TL;DR

Когда просишь ИИ сравнить два варианта — ответить «что лучше?» — результат зависит не только от качества вариантов, но и от языка, на котором ты задаёшь вопрос. Одна и та же пара текстов, поданная на английском или на китайском, получает разный вердикт в 10–15% случаев. Всё это при одинаковом содержании — просто язык подачи другой.

Проблема в том, что ИИ-судья нестабилен. Он не видит «объективное качество» — он реагирует на то как выглядит текст, насколько привычен ему язык, какие детали бросаются в глаза. На английском эти детали — одни, на другом языке — другие. В итоге меняется не просто предпочтение, а правильность оценки: модель переключается с правильного ответа на ошибочный или обратно примерно с той же частотой, что и сам «флип» мнения.

Judge-LS — протокол проверки надёжности ИИ-оценки через три шага: подай сравнение на основном языке → подай то же самое с переставленными вариантами → подай на другом языке или в смешанном формате. Если вердикты расходятся — оценка ненадёжна.


🔬

Схема метода

Все шаги выполняются как отдельные запросы в чате.

ШАГ 1: Подай сравнение в оригинальном порядке (A vs B)
        → запиши вердикт

ШАГ 2: Подай то же сравнение с переставленными вариантами (B vs A)
        → запиши вердикт

ШАГ 3: Подай сравнение на английском (если работал на русском)
        → запиши вердикт

ПРОВЕРКА: Совпадают все три? → Оценке можно доверять
          Расходятся? → ИИ не уверен, нужна осторожность или человек

🚀

Пример применения

Задача: Ты фаундер, выбираешь между двумя офферами от продуктовых дизайнеров. Хочешь попросить Claude оценить их тестовые задания — кто лучше справился с задачей «редизайн онбординга для B2B SaaS».

Промпт (шаг 1 — русский, порядок A–B):

Compare these two onboarding redesign proposals and choose 
which better solves the task for a B2B SaaS product. 
Reply strictly: "Option A", "Option B", or "Tie".

Task: Redesign the onboarding flow so users reach their 
first "aha moment" within 5 minutes.

[Option A]
{текст_тестового_задания_кандидата_1}

[Option B]
{текст_тестового_задания_кандидата_2}

Evaluation criteria: clarity of user journey, speed to 
first value, removal of friction points.

⚠️ Заметь: промпт на английском — намеренно. Это повышает стабильность (подробнее в секции «Почему работает»).

Промпт (шаг 2 — меняй местами):

Повтори тот же промпт, но поставь кандидата 2 первым (Option A), а кандидата 1 вторым (Option B).

Результат:

Если в шаге 1 победил «Option A», а в шаге 2 тот же кандидат (теперь «Option B») снова победил — оценка стабильна. Если в шаге 2 неожиданно победил другой — ИИ реагирует на порядок подачи, а не на качество. Вердикту доверять не стоит без дополнительной проверки.


🧠

Почему это работает

Слабость ИИ: модель не хранит «объективную оценку» — она генерирует вердикт, опираясь на паттерны в тексте прямо сейчас. Язык, порядок, формулировки — всё это меняет, на что модель «обращает внимание» при генерации. На английском одни детали кажутся важными, на русском — другие. Результат разный, хотя содержание одинаковое.

Сильная сторона ИИ: модели лучше всего откалиброваны на английском — на нём больше обучающих данных, на нём чаще встречаются задачи сравнения и оценки. Это означает, что на английском модель реже «сбивается» с правильного курса при смене порядка или формулировок.

Как использовать это: для любой оценки, где важна надёжность — подавай в двух порядках и на английском. Это не изменит качество вариантов, но покажет тебе, насколько уверен ИИ-судья. Три совпадающих ответа = стабильная оценка. Расхождение = красный флаг.

Рычаги управления: - Язык промпта → английский даёт наиболее стабильные результаты. Переключение на другой язык может изменить как минимум каждый десятый вердикт - Порядок вариантов → меняй A/B местами. Если ответ меняется — модель реагирует на позицию, не на качество. При смешанном языке этот эффект усиливается вдвое - Смешанный язык в промпте (русский текст + английские термины) → самая нестабильная комбинация. Позиционная чувствительность растёт с 12% до 18%+ по сравнению с чистым английским


📋

Шаблон промпта

Compare the following two options and choose which one 
better achieves the goal. Reply strictly with one of: 
"Option A", "Option B", or "Tie".

Goal: {цель_или_критерий_оценки}

[Option A]
{первый_вариант}

[Option B]
{второй_вариант}

Evaluation focus: {на_что_обращать_внимание}

Плейсхолдеры: - {цель_или_критерий_оценки} — что именно оцениваем: «убедительность для холодного клиента», «ясность инструкции», «соответствие ТЗ» - {первый_вариант} и {второй_вариант} — тексты для сравнения - {на_что_обращать_внимание} — конкретные параметры оценки

Как использовать: запусти шаблон дважды — с оригинальным порядком и с переставленными вариантами. Если оба запроса дают одинаковый победителя — доверяй. Если расходятся — ИИ нестабилен на этой паре.

🚀 Быстрый старт — вставь в чат:

Вот шаблон для надёжного ИИ-сравнения вариантов. 
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит про варианты и критерии оценки — потому что без них не сможет правильно сформулировать задачу сравнения. Она возьмёт структуру шаблона и адаптирует под твою задачу.


⚠️

Ограничения

⚠️ Не серебряная пуля: Двойная проверка (два порядка + английский) снижает вероятность ошибки, но не устраняет её полностью. Если оба запроса дали одинаковый ответ — это сигнал стабильности, не гарантия правоты.

⚠️ Сложные пары сложнее всего: Исследование показало, что самые «каверзные» сравнения — где один вариант убедителен, но технически неверен — нестабильны даже на английском. При переключении языка вероятность неправильного вердикта на таких парах резко растёт.

⚠️ Смешанный язык — отдельная история: Русский текст с английскими терминами (что типично для IT, маркетинга, финансов) не равен ни чистому русскому, ни чистому английскому. Он создаёт свой паттерн нестабильности, и на нём позиционная чувствительность самая высокая.

⚠️ Переводы не нейтральны: Если переводишь вариант А на другой язык и просишь сравнить с оригиналом варианта Б — это уже нечестное сравнение. Даже при «правильном» переводе ИИ-судья не всегда назовёт их равными, а часто выберет одну из сторон.


🔍

Как исследовали

Исследователи взяли 419 задач из бенчмарка LLMBar — каждая задача это пара ответов с известным «правильным» победителем. Логика простая: если мы знаем правильный ответ, то можем поймать модель на ошибке. Все 419 задач перевели на китайский и в «смешанный» формат (китайский текст + английские термины), сохраняя оригинальный смысл и намеренно не исправляя ошибки в «слабом» варианте. Это важно: исправленный перевод изменил бы правильный ответ, и эксперимент потерял бы смысл.

Четыре модели (GPT-4.1 Mini, Claude Haiku, Gemini Flash, DeepSeek) оценили каждую пару в трёх языковых вариантах и двух порядках — итого 13 408 вердиктов. Самый неожиданный результат: когда давали золотой ответ и его китайский перевод (контент одинаковый) и просили выбрать лучший — модели в 82–97% случаев правильно говорили «равны». Когда же всё-таки выбирали, то чаще в пользу китайского, а не английского. Это перевернуло гипотезу: проблема не в том, что ИИ «любит английский» — проблема в том, что ИИ нестабилен при смене языка подачи.


💡

Адаптации и экстраполяции

📌

🔧 Техника: «Три судьи вместо одного»

Вместо того чтобы проверять стабильность одного запроса через смену порядка, попроси три независимых оценки с чуть разными формулировками задачи. Если все три согласны — уверенность выше.

Запрос 1: "Какой вариант лучше решает задачу {задача}?"
Запрос 2: "Какой вариант слабее справляется с задачей {задача}?"
Запрос 3: "Если бы ты выбирал для себя, какой вариант взял бы?"

Если запрос 1 и запрос 2 указывают на одну пару — это стабильный сигнал. Если расходятся — задача для ИИ неоднозначна.


📌

🔧 Техника: Явный запрос уверенности

Добавь к шаблону запрос на степень уверенности — это форсирует ИИ артикулировать, насколько он убеждён:

Compare the following two options. 
Reply with:
- Your choice: "Option A", "Option B", or "Tie"
- Confidence: "High", "Medium", or "Low"
- One sentence: what tipped the decision

[Option A] {вариант_а}
[Option B] {вариант_б}

Если уверенность «Medium» или «Low» — сигнал, что пара спорная и стоит проверить оба порядка или привлечь человека.


🔗

Ресурсы

Название работы: Does the Judge Prefer English? Evaluating Language-Switching Invariance in LLM-as-a-Judge

Автор: Shaojie Yin (Shanghai Artificial Intelligence Laboratory, SJTU)

Бенчмарк: LLMBar — 419-item benchmark для оценки инструкция-следования

Контакт автора: Misaka10086@sjtu.edu.cn


📋 Дайджест исследования

Ключевая суть

Один и тот же вопрос на русском и на английском — в 10–15% случаев разные победители. Содержание не менялось ни на слово. Judge-LS позволяет поймать эту нестабильность до того, как принял решение на её основе. Фишка: подай одно сравнение трижды — оригинальный порядок, переставленные варианты, другой язык. Три одинаковых вердикта — оценке можно доверять. Расхождение — ИИ реагирует на форму подачи, а не на качество.

Принцип работы

ИИ-судья не хранит «объективную оценку». Он генерирует вердикт прямо сейчас. Опирается на то, что бросается в глаза в данный момент. На английском одни детали кажутся важными, на русском — другие. Причём смешанный язык — русский текст с английскими терминами — самая нестабильная комбинация. Чувствительность к порядку вариантов вырастает с 12% до 18%+. Это типично для маркетинга, IT, финансов — там почти всегда такой микс. Вот почему одна и та же пара текстов получает разные вердикты. Не потому что ИИ ошибся. Потому что задача сформулирована иначе.

Почему работает

Модели обучали на огромном массиве английских текстов. Задачи сравнения и оценки там встречаются чаще. Поэтому на английском модель реже сбивается при смене порядка или формулировок. Три прогона — это не паранойя, это проверка уверенности: если модель меняет мнение от перестановки вариантов, она не «знает» ответ — она угадывает. Самые ненадёжные случаи — где один вариант убедительнее написан, но слабее по сути. На таких парах ИИ особенно часто переключается при смене языка.

Когда применять

Везде, где ИИ-оценка влияет на реальное решение. Найм — сравнение тестовых заданий кандидатов. Контент — выбор лучшей версии текста, заголовка, лендинга. Продукт — оценка двух дизайн-решений или сценариев. Особенно важно, когда текст на русском с英术терминами — самая ненадёжная комбинация. Не подходит, когда сам не знаешь критерий: «что лучше» без чёткого мерила — три прогона не помогут, они проверяют стабильность, а не правоту.

Мини-рецепт

1. Сформулируй критерий: Не «что лучше», а конкретно — «что убедительнее для холодного клиента» или «что яснее объясняет шаги».
2. Первый прогон: Подай варианты в порядке A→B на английском. Попроси строгий ответ: строго «Option A», «Option B» или «Tie» — без объяснений.
3. Второй прогон: Поменяй варианты местами (теперь B→A). Тот же промпт, тот же язык.
4. Проверь: Первоначальный победитель снова победил? Хорошо. Сменился — ИИ реагирует на порядок, а не на качество.
5. Третий прогон (если нужно): Подай на русском или в смешанном виде. Три совпадения подряд — вердикту можно доверять.

Примеры

[ПЛОХО] : Что лучше — этот текст или вот этот? [два варианта на русском]
[ХОРОШО] : Compare the following two options. Reply strictly with one of: "Option A", "Option B", or "Tie". Goal: which subject line is more likely to get opened by a cold business lead. [Option A] {первый вариант} [Option B] {второй вариант} Evaluation focus: urgency, clarity, relevance to business pain. — затем повторяется с переставленными вариантами. Если оба прогона дают одного победителя — доверяй. Если победитель меняется — сигнал тревоги.
Источник: Does the Judge Prefer English? Evaluating Language-Switching Invariance in LLM-as-a-Judge
ArXiv ID: 2606.14278 | Сгенерировано: 2026-06-15 04:25

Проблемы LLM

ПроблемаСутьКак обойти
Вердикт ИИ-судьи зависит от языка запросаПросишь модель сравнить два варианта. Задаёшь вопрос на русском — получаешь один победителя. Задаёшь тот же вопрос на английском — другого. Содержание одно и то же. Меняется только язык. Это происходит примерно в каждом десятом случае. Модель не видит «объективное качество» — она реагирует на паттерны текста прямо сейчас. На разных языках разные детали кажутся важнымиПодавай сравнение на английском. Дополнительно меняй варианты местами (был A vs B — сделай B vs A). Если оба раза победил один — оценке можно доверять. Расхождение = красный флаг
Смешанный язык в промпте создаёт самую нестабильную среду для оценкиРусский текст с английскими терминами — типичный формат для IT и маркетинга. Для ИИ-судьи это худший вариант. Чувствительность к порядку вариантов растёт сильнее чем при чистом русском или чистом английском. Модель не обрабатывает такой текст как один из знакомых режимов — переключается между нимиПереводи промпт для оценки полностью на английский. Или оставляй полностью на языке оцениваемых текстов. Не мешай языки внутри одного запроса на сравнение

Методы

МетодСуть
Тройная проверка стабильности оценкиПрогони одно сравнение через три запроса. Запрос 1: [Option A] {вариант_1} / [Option B] {вариант_2} — запиши победителя. Запрос 2: те же тексты, но A и B поменяй местами — запиши победителя. Запрос 3: задай на английском если работал на другом языке — запиши победителя. Все три совпали — оценке можно доверять. Хотя бы одно расхождение — модель нестабильна на этой паре, нужен человек. Почему работает: модель генерирует вердикт каждый раз заново. При совпадении трёх независимых генераций вероятность случайного результата резко падает. Когда применять: найм, выбор подрядчика, оценка текстов с реальными последствиями

Тезисы

ТезисКомментарий
Английский язык даёт более стабильные оценки при сравнении вариантовНа английском у модели больше обучающих данных с задачами сравнения и оценки. Поэтому на нём она реже меняет вердикт при смене порядка или формулировок. Переключение на другой язык меняет каждый десятый вердикт — не потому что ответ неверный, а потому что модель переключается на другие признаки. Применяй: промпт для любого ИИ-сравнения пиши на английском — даже если оцениваемые тексты на русском
📖 Простыми словами

Does the Judge Prefer English? EvaluatingLanguage-Switching Invariance inLLM-as-a-Judge

arXiv: 2606.14278

Когда ты просишь нейронку поработать судьей и выбрать лучший из двух текстов, ты ждешь объективности, но получаешь языковую предвзятость. Суть в том, что современные LLM — это не беспристрастные калькуляторы логики, а статистические машины, чей «мозг» меняет форму в зависимости от языка запроса. Если ты скормишь модели два одинаковых ответа, но попросишь оценить их сначала на английском, а потом на русском, в 10–15% случаев вердикт будет разным. Модель буквально переобувается на лету, хотя факты перед ней не менялись.

Это как если бы ты пришел к судье, который утром выпил идеальный раф и судит на английском, а в обед перешел на китайский и внезапно стал придираться к запятым. Вроде человек тот же, и законы те же, но контекст языка подмешивает в логику свои культурные и статистические шумы. В итоге LLM-as-a-Judge лажает на ровном месте: язык промпта для нее — это не просто обертка, а фильтр, который заставляет модель «замечать» одни детали и полностью игнорировать другие.

Исследователи проверили это на пачках данных, используя метод Language-Switching Invariance — проверку на устойчивость к смене языка. Выяснилось, что английский для моделей почти всегда является «приоритетным» фильтром, где они ведут себя адекватнее. Стоит переключиться на другой язык, и логика плывет: модель может забраковать отличный ответ просто потому, что на этом языке она привыкла видеть другие паттерны. Это системный баг, который делает автоматическую оценку контента на разных языках дико нестабильной затеей.

Принцип универсален и касается не только китайского или английского. Если ты фаундер и просишь Claude оценить тестовые задания дизайнеров, помни: результат на русском и английском может не совпасть. Это работает везде, где ИИ выступает арбитром — от проверки кода до анализа юридических договоров. SEO-тексты, офферы, стратегии — если модель оценивает их не на своем «родном» английском, есть риск получить рандомный бред вместо глубокой аналитики.

Короче: никогда не доверяй вердикту нейронки на 100%, если он вынесен на не-английском языке. Языковая инвариантность — это миф, и модели по-прежнему подыгрывают англоязычным паттернам. Если хочешь честного сравнения, переводи всё на английский, проси оценить и только потом делай выводы. Иначе ты рискуешь уволить нормального спеца или выбрать тухлый оффер просто потому, что у модели сегодня русское настроение.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с