3,583 papers
arXiv:2605.06656 74 7 мая 2026 г. FREE

Глобальные рейтинги LLM — скрытый обман: почему «лучшая модель» зависит от вашего языка

КЛЮЧЕВАЯ СУТЬ
Вероятность победы первой модели на Chatbot Arena над пятидесятой — 0,53. Это хуже броска монеты. Один глобальный рейтинг пытается усреднить предпочтения носителей 116 языков — и в итоге не представляет никого из них. Исследование позволяет выбрать личный портфель из 2-4 моделей под конкретный язык и задачи — вместо погони за одним «чемпионом» из общего списка. Фишка: 5 правильно подобранных ранжирований покрывают 96% пользователей — против 21% при выборе топ-5 из глобального рейтинга. Победитель Arena — это модель, которая одинаково средне подходит всем, а не отлично работает именно для вас.
Адаптировать под запрос

TL;DR

Топ-50 моделей на Chatbot Arena статистически неотличимы — вероятность победы первой модели над пятидесятой составляет 0,53. Это хуже, чем подброс монеты на доверие к результату. 72% «решающих» голосов просто гасят друг друга: за модель A проголосовали столько же, сколько против. Один глобальный рейтинг пытается усреднить предпочтения 116 языков — и в итоге не представляет никого.

Проблема не в данных — в структуре предпочтений. Пользователи из разных языковых групп оценивают модели принципиально по-разному. Носитель русского и носитель английского выберут разные «лучшие» модели — системно, не случайно. Когда их голоса складываются в один рейтинг, они взаимно уничтожают сигнал. Глобальный «победитель» — это модель, которая одинаково плохо подходит всем, а не отлично подходит кому-то конкретному.

Решение — портфель из 4-8 моделей вместо одного «лучшего» рейтинга. 5 правильно подобранных ранжирований покрывают 96% пользователей — против 21% при выборе топ-5 из глобального рейтинга. Это не значит «используй восемь ИИ одновременно». Это значит: для вашего языка и ваших задач нужна своя модель, а не та, которую назвали лучшей английские reviewers на Arena.


🔬

Схема метода

Это не пошаговый промпт — это стратегический сдвиг в том, как выбирать и использовать LLM.

ПРОБЛЕМА → глобальный рейтинг (Arena, LMSYS) говорит:
           "GPT-4o лучше Claude" или "Gemini обогнал всех"

РЕАЛЬНОСТЬ → этот рейтинг отражает предпочтения
              преимущественно англоязычных пользователей

ИНСАЙТ 1: Языковая группа >> задача >> время
          Разбивка по языку даёт в сотни раз более
          чёткие предпочтения, чем глобальный рейтинг

ИНСАЙТ 2: "Лучшая модель" для вас =
          модель, которая хорошо работает на:
          [ваш язык] × [ваши типы задач]
          — не на английском бенчмарке

РЕШЕНИЕ → Личный портфель: 2-4 модели
          под разные задачи + язык работы
          вместо поиска одного "чемпиона"

🚀

Пример применения

Задача: Фаундер SaaS-стартапа в России работает с тремя типами задач: пишет питч-деки на русском, разбирает код, читает технические статьи на английском. Он читает, что «Gemini 2.5 Pro обошёл всех на Arena» — и думает перейти на него полностью.

Промпт — тест личного портфеля:

Я хочу понять, какая AI-модель лучше для моих конкретных задач,
а не по общему рейтингу.

Вот мои реальные задачи. Для каждой оцени мой текущий результат
и предложи, с какой другой моделью сравнить:

ЗАДАЧА 1 — Русскоязычные тексты (питч-деки, email клиентам, посты):
[вставь пример текста или опиши что делаешь]

ЗАДАЧА 2 — Технический разбор (код, архитектура, баги):
[вставь пример кода или опиши запросы]

ЗАДАЧА 3 — Аналитика на английском (статьи, отчёты):
[вставь пример или опиши]

Для каждой задачи:
1. Как ты справился с этим типом запроса — честно, по ощущениям?
2. Какую модель стоит протестировать рядом для сравнения?
3. Какой конкретный запрос мне использовать как тест?

Результат:

Модель честно оценит свои склонности к каждому типу задач и предложит конкурента для теста. Это даст персональный тест-план — не «что говорит Arena», а что работает для вашего конкретного языкового микса и задач. После тестирования 2-3 моделей у вас будет свой личный «портфель».


🧠

Почему это работает

LLM обучаются на данных, которые неравномерны по языкам. Английского контента на порядки больше, чем русского, арабского или суахили. Модели, обученные преимущественно на английском, лучше «думают» на английском — это не мнение, это структурное следствие данных. Рейтинг, где 80% голосов приходит от английских пользователей, отражает именно их предпочтения.

Агрегация убивает сигнал. Когда система суммирует «модель A лучше» (от русскоязычного) и «модель B лучше» (от английскоязычного) — ни тот, ни другой голос не «победил». Глобальная модель хеджирует (усредняет) между группами и становится одинаково средней для всех вместо отличной для кого-то конкретного. Исследователи назвали это «hedging behavior».

Портфель — единственный честный ответ на разнородность. Нельзя быть лучшим для всех одновременно, если предпочтения структурно конфликтуют. Но можно иметь 4-8 моделей, каждая из которых отлично работает для своего кластера пользователей. Для обычного пользователя это означает: клод для одного, GPT для другого, Gemini — для третьего — не потому что один «новее», а потому что они по-разному сильны в вашем конкретном языке и типе задач.

Рычаги управления портфелем: - Язык работы → главный фактор. Если вы пишете на русском — это важнее любого бенчмарка - Тип задачи → код/логика vs. живой текст vs. аналитика — разные сильные стороны - Длина и структура → короткие ответы и длинные разборы требуют разных моделей


📋

Шаблон промпта

Шаблон для самостоятельного A/B-теста пары моделей на ваших реальных задачах:

Я провожу личный тест двух AI-моделей для задачи типа {тип_задачи}.

Вот одна и та же задача. Выполни её:

ЗАДАЧА:
{конкретная_задача_на_вашем_языке}

После ответа добавь:
— Что в этой задаче было для тебя сложным?
— На каких типах похожих задач ты работаешь хуже?
— Какой формат задачи ты выполняешь лучше всего?

Плейсхолдеры: - {тип_задачи} — "написание текстов на русском", "разбор кода", "аналитика" - {конкретная_задача_на_вашем_языке} — реальный запрос, с которым вы работаете

Запусти одну задачу в двух-трёх моделях. Модель честно укажет на свои слабые места — используй это для решения, кому что отдавать.


🚀 Быстрый старт — вставь в чат:

Помоги мне создать личный тест для сравнения AI-моделей под мои задачи.
Задавай вопросы, чтобы понять мой контекст.

Вот шаблон теста: [вставить шаблон выше]

LLM спросит про ваши задачи и язык работы — потому что без этого контекста тест будет слишком абстрактным, а не персональным. Она адаптирует шаблон под конкретный набор задач и предложит, что именно тестировать.


⚠️

Ограничения

⚠️ Заточено под разнородных пользователей: Если вы работаете только на одном языке с одним типом задач — ваш «портфель» будет из одной-двух моделей, не восьми. Исследование описывает платформу с 116 языками; ваш личный масштаб скромнее.

⚠️ Нет готового «русского рейтинга»: Исследование доказывает, что язык важен — но не публикует отдельный рейтинг для русскоязычных. Это вывод-принцип, а не готовая таблица "вот топ-5 для рунета".

⚠️ Модели постоянно обновляются: Grok-4, Gemini-2.5, o3 — модели в исследовании могут устареть через несколько месяцев. Принцип работает вечно, конкретные рейтинги — нет.

⚠️ Данные только из Arena: Исследование анализирует одну платформу (~89К сравнений). Другие платформы — свои смещения.


🔍

Как исследовали

Команда взяла 89 193 сравнения из Chatbot Arena — это публичная платформа, где пользователи видят ответы двух анонимных моделей и выбирают лучший. Данные охватывают 52 модели и 116 языков за несколько месяцев.

Дальше — умный эксперимент. Исследователи взяли все голоса и разбили их по срезам: глобально, по языку, по семейству языков (германские, славянские, семитские...), по типам задач и их комбинациям. Для каждого среза построили отдельный рейтинг по модели Брэдли-Терри (так же, как Arena строит глобальный). Потом измерили, насколько хорошо каждый рейтинг предсказывает победителя голоса.

Результат оказался неожиданным даже для авторов: глобальный рейтинг с уверенностью >70% предсказывает победителя лишь в 10,3% голосов. Языковые рейтинги — в разы лучше, и разброс оценок становится в сотни раз чётче. Для контроля проверили случайные срезы по времени и часам — там предсказуемость не выросла. Значит, дело именно в структуре языковых предпочтений, а не в случайном шуме данных.

Дополнительный сюрприз: Grok-4, который занимает высокое место в глобальном рейтинге, падает на 52-е место в рейтинге афро-азиатских języков. Это не выброс — это симптом системной проблемы агрегации.


💡

Адаптации и экстраполяции

💡 Адаптация для выбора модели под рабочий язык:

Если вы активно пишете на русском — имеет смысл не просто доверять Arena, а активно тестировать модели именно на русском тексте. Один практичный способ:

Мне нужно выбрать основную AI-модель для работы на русском языке.

Вот типичные задачи которые я решаю (дай 3 примера реальных задач):

1. {задача_1}
2. {задача_2}  
3. {задача_3}

Выполни каждую задачу, а после всех трёх скажи:
— Где ты был уверен в результате?
— Где чувствовал ограничение?
— Какую модель порекомендуешь попробовать рядом и почему?

Запусти этот промпт в двух-трёх моделях — получишь честную самооценку каждой. Это и есть ваш персональный «языковой бенчмарк».


🔧 Техника: портфель по типам задач → осознанное распределение

Практическое следствие исследования: разные модели — для разных задач. Не потому что кто-то «лучше», а потому что у каждой свой профиль.

Попробуйте распределение: - Живой текст на русском (маркетинг, письма, посты) → тестируй Claude vs. ChatGPT - Код и технические задачи → тестируй ChatGPT/o3 vs. Gemini - Длинные аналитические тексты на английском → тестируй Gemini vs. Claude

Это не финальный ответ — это стартовая гипотеза для вашего личного теста.


🔗

Ресурсы

Статья: Why Global LLM Leaderboards Are Misleading: Small Portfolios for Heterogeneous Supervised ML

Авторы: Jai Moondra, Bhargavi Lanka, Ayela Chughtai, Swati Gupta

Организации: Carnegie Mellon University, MIT Sloan School of Management

Данные: HuggingFace Arena dataset

Платформа: Chatbot Arena / LMArena

Смежные работы: Bradley-Terry ranking (1952), Partial Set Cover problem (Kearns, 1990)


📋 Дайджест исследования

Ключевая суть

Вероятность победы первой модели на Chatbot Arena над пятидесятой — 0,53. Это хуже броска монеты. Один глобальный рейтинг пытается усреднить предпочтения носителей 116 языков — и в итоге не представляет никого из них. Исследование позволяет выбрать личный портфель из 2-4 моделей под конкретный язык и задачи — вместо погони за одним «чемпионом» из общего списка. Фишка: 5 правильно подобранных ранжирований покрывают 96% пользователей — против 21% при выборе топ-5 из глобального рейтинга. Победитель Arena — это модель, которая одинаково средне подходит всем, а не отлично работает именно для вас.

Принцип работы

Носитель русского и носитель английского выбирают разные «лучшие» модели — системно, не случайно. Когда их голоса складываются в один рейтинг, сигналы взаимно уничтожаются. 72% «решающих» голосов просто гасят друг друга: за модель A проголосовало ровно столько же, сколько против. Это как если бы один ресторанный рейтинг складывал оценки любителей суши и поклонников пиццы. Победит то заведение, где есть и то и другое — пусть оба блюда посредственные. Языковая группа оказалась главным фактором разделения предпочтений — важнее типа задачи и важнее времени суток. Разбивка по языку даёт в сотни раз более чёткий сигнал, чем глобальный рейтинг.

Почему работает

LLM обучаются на данных. Английского контента в интернете на порядки больше, чем русского, арабского или суахили. Модели структурно лучше «думают» на языке большинства обучающих данных — это не мнение, это следствие математики. Когда 80% голосов на платформе приходит от англоязычных пользователей, рейтинг отражает именно их предпочтения. Глобальный «победитель» — не «лучший для всех», а «наименее раздражающий для максимального числа». Исследователи назвали это поведением усреднения: система хеджирует между конфликтующими группами и в итоге не побеждает ни для кого конкретно.

Когда применять

Работаете на русском, украинском, арабском или любом другом не-английском языке — глобальный рейтинг попросту не про вас. Особенно важно при выборе модели для живых текстов, переговоров, клиентских писем, маркетинга. Менее критично для чистой математики и кода — там языковой фактор заметно слабее. НЕ подходит тем, кто работает только на английском с однотипными задачами: у вас портфель и так окажется из одной-двух моделей, не восьми.

Мини-рецепт

1. Выпиши контекст: на каком языке работаешь и три основных типа задач — например, «русский, питч-деки / разбор кода / чтение технических статей на английском».
2. Возьми одну реальную задачу — не синтетическую, а то что делаешь прямо сейчас. Запусти дословно одно и то же в трёх моделях.
3. Спроси каждую честно: после ответа добавь На каких типах задач ты работаешь хуже всего? Где тебе сложнее — короткие тексты или длинные разборы?
4. Раздай задачи по результату: написание текстов — той, что лучше звучит на вашем языке. Код и логика — той, что точнее разобрала структуру.
5. Через неделю пересмотри — не по рейтингу, а по своему реальному ощущению от использования.

Примеры

[ПЛОХО] : Gemini 2.5 Pro вышел на первое место в Arena — перехожу на него полностью для всех задач
[ХОРОШО] : Берёшь одно реальное письмо клиенту на русском и запускаешь в трёх моделях. После каждого ответа добавляешь: Честно скажи — где в задачах на русском языке ты работаешь хуже всего? Какую модель стоит протестировать рядом для сравнения? Смотришь на результат — не на рейтинг. Ту, что лучше звучит по-русски, берёшь для текстов. Ту, что точнее разобрала структуру кода — для технических задач.
Источник: Why Global LLM Leaderboards Are Misleading: Small Portfolios for Heterogeneous Supervised ML
ArXiv ID: 2605.06656 | Сгенерировано: 2026-05-08 05:34

Проблемы LLM

ПроблемаСутьКак обойти
Глобальный рейтинг не отражает качество модели на вашем языкеВсе топ-рейтинги строятся на голосах разных языковых групп. Эти группы выбирают разных победителей. Когда голоса складывают в один рейтинг — они гасят друг друга. Итоговый "победитель" — это модель, которую никто не считает лучшей, просто меньше всего разногласий. Для русскоязычных задач рейтинг, где 80% голосов от английских пользователей, просто бесполезенВыбирай модель под конкретный язык работы и тип задачи. Проверяй сам на реальных запросах — не на общем рейтинге. Язык — главный фактор, сильнее любого теста

Тезисы

ТезисКомментарий
Топ-50 моделей практически одинаковы по качествуВероятность того, что первая модель рейтинга лучше пятидесятой — 53%. Это почти подброс монеты. Погоня за "самой свежей моделью из топа" не даёт реального выигрыша. Время лучше потратить на улучшение запроса под конкретную задачу. Применяй: не переключайся на новую модель пока не убедился что она лучше именно на твоих запросах, а не в общем рейтинге
📖 Простыми словами

Why GlobalLLMLeaderboards Are Misleading: Small Portfolios for Heterogeneous Supervised ML

arXiv: 2605.06656

Глобальные рейтинги нейросетей вроде Chatbot Arena работают на фундаментально сломанной логике: они пытаются свести тысячи разных навыков к одной цифре. Проблема в том, что LLM — это не бегуны на стометровке, где есть один четкий победитель. Это огромные наборы данных, которые ведут себя по-разному в зависимости от языка, темы или сложности задачи. Когда мы смотрим на общую таблицу, мы видим среднюю температуру по больнице, которая скрывает реальное положение дел: модель может быть гением в коде, но полным профаном в русском сленге.

Это как если бы мы выбирали «лучшего человека в мире», просто усредняя оценки за умение жарить стейки, знание квантовой физики и навык вождения трактора. В итоге на первом месте окажется кто-то средненький во всем, но абсолютно бесполезный для вас, если вам нужно именно вспахать поле. В мире нейросетей это превращается в статистический шум: 72% голосов в рейтингах просто аннулируют друг друга, потому что пользователи хотят от моделей принципиально разных вещей.

Исследование вскрывает жесткий факт: топ-50 моделей в глобальном списке практически неотличимы друг от друга. Вероятность того, что первая модель реально лучше пятидесятой, составляет всего 0.53 — это чуть больше, чем шанс угадать орла или решку. На практике это означает, что лидер списка может запросто слить задачу аутсайдеру, если вы смените язык с английского на русский или попросите написать стихи вместо кода. Глобальное лидерство — это миф, созданный для маркетинга, а не для работы.

Принцип универсален: нельзя слепо верить «лучшим» решениям, если ваша задача специфична. Если фаундер стартапа выбирает модель, которая «обошла всех» на английских тестах, чтобы писать тексты на русском, он совершает стратегическую ошибку. Модель, обученная на английском массиве данных, будет думать и шутить как американец, даже если переводит слова правильно. Формально всё верно, но по сути — чушь. Нужно смотреть не на общий зачет, а на то, как нейронка справляется именно с вашим узким стеком задач.

Короче: хватит молиться на общие чарты и верить, что номер один в списке — это панацея. Рейтинги врут, потому что пытаются угодить всем 116 языкам сразу и в итоге не представляют никого. Вместо того чтобы гнаться за хайповыми лидерами, нужно собирать свой портфель моделей под конкретные нужды. Кто продолжает выбирать инструменты по «звездочкам» в общем зачете, тот просто тратит ресурсы на статистическую погрешность.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с