TL;DR
Топ-50 моделей на Chatbot Arena статистически неотличимы — вероятность победы первой модели над пятидесятой составляет 0,53. Это хуже, чем подброс монеты на доверие к результату. 72% «решающих» голосов просто гасят друг друга: за модель A проголосовали столько же, сколько против. Один глобальный рейтинг пытается усреднить предпочтения 116 языков — и в итоге не представляет никого.
Проблема не в данных — в структуре предпочтений. Пользователи из разных языковых групп оценивают модели принципиально по-разному. Носитель русского и носитель английского выберут разные «лучшие» модели — системно, не случайно. Когда их голоса складываются в один рейтинг, они взаимно уничтожают сигнал. Глобальный «победитель» — это модель, которая одинаково плохо подходит всем, а не отлично подходит кому-то конкретному.
Решение — портфель из 4-8 моделей вместо одного «лучшего» рейтинга. 5 правильно подобранных ранжирований покрывают 96% пользователей — против 21% при выборе топ-5 из глобального рейтинга. Это не значит «используй восемь ИИ одновременно». Это значит: для вашего языка и ваших задач нужна своя модель, а не та, которую назвали лучшей английские reviewers на Arena.
Схема метода
Это не пошаговый промпт — это стратегический сдвиг в том, как выбирать и использовать LLM.
ПРОБЛЕМА → глобальный рейтинг (Arena, LMSYS) говорит:
"GPT-4o лучше Claude" или "Gemini обогнал всех"
РЕАЛЬНОСТЬ → этот рейтинг отражает предпочтения
преимущественно англоязычных пользователей
ИНСАЙТ 1: Языковая группа >> задача >> время
Разбивка по языку даёт в сотни раз более
чёткие предпочтения, чем глобальный рейтинг
ИНСАЙТ 2: "Лучшая модель" для вас =
модель, которая хорошо работает на:
[ваш язык] × [ваши типы задач]
— не на английском бенчмарке
РЕШЕНИЕ → Личный портфель: 2-4 модели
под разные задачи + язык работы
вместо поиска одного "чемпиона"
Пример применения
Задача: Фаундер SaaS-стартапа в России работает с тремя типами задач: пишет питч-деки на русском, разбирает код, читает технические статьи на английском. Он читает, что «Gemini 2.5 Pro обошёл всех на Arena» — и думает перейти на него полностью.
Промпт — тест личного портфеля:
Я хочу понять, какая AI-модель лучше для моих конкретных задач,
а не по общему рейтингу.
Вот мои реальные задачи. Для каждой оцени мой текущий результат
и предложи, с какой другой моделью сравнить:
ЗАДАЧА 1 — Русскоязычные тексты (питч-деки, email клиентам, посты):
[вставь пример текста или опиши что делаешь]
ЗАДАЧА 2 — Технический разбор (код, архитектура, баги):
[вставь пример кода или опиши запросы]
ЗАДАЧА 3 — Аналитика на английском (статьи, отчёты):
[вставь пример или опиши]
Для каждой задачи:
1. Как ты справился с этим типом запроса — честно, по ощущениям?
2. Какую модель стоит протестировать рядом для сравнения?
3. Какой конкретный запрос мне использовать как тест?
Результат:
Модель честно оценит свои склонности к каждому типу задач и предложит конкурента для теста. Это даст персональный тест-план — не «что говорит Arena», а что работает для вашего конкретного языкового микса и задач. После тестирования 2-3 моделей у вас будет свой личный «портфель».
Почему это работает
LLM обучаются на данных, которые неравномерны по языкам. Английского контента на порядки больше, чем русского, арабского или суахили. Модели, обученные преимущественно на английском, лучше «думают» на английском — это не мнение, это структурное следствие данных. Рейтинг, где 80% голосов приходит от английских пользователей, отражает именно их предпочтения.
Агрегация убивает сигнал. Когда система суммирует «модель A лучше» (от русскоязычного) и «модель B лучше» (от английскоязычного) — ни тот, ни другой голос не «победил». Глобальная модель хеджирует (усредняет) между группами и становится одинаково средней для всех вместо отличной для кого-то конкретного. Исследователи назвали это «hedging behavior».
Портфель — единственный честный ответ на разнородность. Нельзя быть лучшим для всех одновременно, если предпочтения структурно конфликтуют. Но можно иметь 4-8 моделей, каждая из которых отлично работает для своего кластера пользователей. Для обычного пользователя это означает: клод для одного, GPT для другого, Gemini — для третьего — не потому что один «новее», а потому что они по-разному сильны в вашем конкретном языке и типе задач.
Рычаги управления портфелем: - Язык работы → главный фактор. Если вы пишете на русском — это важнее любого бенчмарка - Тип задачи → код/логика vs. живой текст vs. аналитика — разные сильные стороны - Длина и структура → короткие ответы и длинные разборы требуют разных моделей
Шаблон промпта
Шаблон для самостоятельного A/B-теста пары моделей на ваших реальных задачах:
Я провожу личный тест двух AI-моделей для задачи типа {тип_задачи}.
Вот одна и та же задача. Выполни её:
ЗАДАЧА:
{конкретная_задача_на_вашем_языке}
После ответа добавь:
— Что в этой задаче было для тебя сложным?
— На каких типах похожих задач ты работаешь хуже?
— Какой формат задачи ты выполняешь лучше всего?
Плейсхолдеры:
- {тип_задачи} — "написание текстов на русском", "разбор кода", "аналитика"
- {конкретная_задача_на_вашем_языке} — реальный запрос, с которым вы работаете
Запусти одну задачу в двух-трёх моделях. Модель честно укажет на свои слабые места — используй это для решения, кому что отдавать.
🚀 Быстрый старт — вставь в чат:
Помоги мне создать личный тест для сравнения AI-моделей под мои задачи.
Задавай вопросы, чтобы понять мой контекст.
Вот шаблон теста: [вставить шаблон выше]
LLM спросит про ваши задачи и язык работы — потому что без этого контекста тест будет слишком абстрактным, а не персональным. Она адаптирует шаблон под конкретный набор задач и предложит, что именно тестировать.
Ограничения
⚠️ Заточено под разнородных пользователей: Если вы работаете только на одном языке с одним типом задач — ваш «портфель» будет из одной-двух моделей, не восьми. Исследование описывает платформу с 116 языками; ваш личный масштаб скромнее.
⚠️ Нет готового «русского рейтинга»: Исследование доказывает, что язык важен — но не публикует отдельный рейтинг для русскоязычных. Это вывод-принцип, а не готовая таблица "вот топ-5 для рунета".
⚠️ Модели постоянно обновляются: Grok-4, Gemini-2.5, o3 — модели в исследовании могут устареть через несколько месяцев. Принцип работает вечно, конкретные рейтинги — нет.
⚠️ Данные только из Arena: Исследование анализирует одну платформу (~89К сравнений). Другие платформы — свои смещения.
Как исследовали
Команда взяла 89 193 сравнения из Chatbot Arena — это публичная платформа, где пользователи видят ответы двух анонимных моделей и выбирают лучший. Данные охватывают 52 модели и 116 языков за несколько месяцев.
Дальше — умный эксперимент. Исследователи взяли все голоса и разбили их по срезам: глобально, по языку, по семейству языков (германские, славянские, семитские...), по типам задач и их комбинациям. Для каждого среза построили отдельный рейтинг по модели Брэдли-Терри (так же, как Arena строит глобальный). Потом измерили, насколько хорошо каждый рейтинг предсказывает победителя голоса.
Результат оказался неожиданным даже для авторов: глобальный рейтинг с уверенностью >70% предсказывает победителя лишь в 10,3% голосов. Языковые рейтинги — в разы лучше, и разброс оценок становится в сотни раз чётче. Для контроля проверили случайные срезы по времени и часам — там предсказуемость не выросла. Значит, дело именно в структуре языковых предпочтений, а не в случайном шуме данных.
Дополнительный сюрприз: Grok-4, который занимает высокое место в глобальном рейтинге, падает на 52-е место в рейтинге афро-азиатских języков. Это не выброс — это симптом системной проблемы агрегации.
Адаптации и экстраполяции
💡 Адаптация для выбора модели под рабочий язык:
Если вы активно пишете на русском — имеет смысл не просто доверять Arena, а активно тестировать модели именно на русском тексте. Один практичный способ:
Мне нужно выбрать основную AI-модель для работы на русском языке.
Вот типичные задачи которые я решаю (дай 3 примера реальных задач):
1. {задача_1}
2. {задача_2}
3. {задача_3}
Выполни каждую задачу, а после всех трёх скажи:
— Где ты был уверен в результате?
— Где чувствовал ограничение?
— Какую модель порекомендуешь попробовать рядом и почему?
Запусти этот промпт в двух-трёх моделях — получишь честную самооценку каждой. Это и есть ваш персональный «языковой бенчмарк».
🔧 Техника: портфель по типам задач → осознанное распределение
Практическое следствие исследования: разные модели — для разных задач. Не потому что кто-то «лучше», а потому что у каждой свой профиль.
Попробуйте распределение: - Живой текст на русском (маркетинг, письма, посты) → тестируй Claude vs. ChatGPT - Код и технические задачи → тестируй ChatGPT/o3 vs. Gemini - Длинные аналитические тексты на английском → тестируй Gemini vs. Claude
Это не финальный ответ — это стартовая гипотеза для вашего личного теста.
Ресурсы
Статья: Why Global LLM Leaderboards Are Misleading: Small Portfolios for Heterogeneous Supervised ML
Авторы: Jai Moondra, Bhargavi Lanka, Ayela Chughtai, Swati Gupta
Организации: Carnegie Mellon University, MIT Sloan School of Management
Данные: HuggingFace Arena dataset
Платформа: Chatbot Arena / LMArena
Смежные работы: Bradley-Terry ranking (1952), Partial Set Cover problem (Kearns, 1990)
