3,583 papers
arXiv:2604.21769 71 23 апр. 2026 г. FREE

Лидерборды лгут: рейтинг LLM зависит от состава задач, а не от реального качества

КЛЮЧЕВАЯ СУТЬ
В математических задачах правильный ответ проигрывал красиво оформленному — но неверному — в каждом четвёртом случае. Метод позволяет выбирать модель под конкретный тип задачи и запрашивать формат, который коррелирует с реальной точностью, а не только с приятным видом. Три слова в промпте меняют всё: «покажи каждый шаг с подстановкой чисел» — модель не может спрятать ошибку за красивым абзацем, она вынуждена раскрыть каждое действие. Бонус: Claude не входит в топ-20 общего рейтинга, но прыгает в топ-5 в задачах с данными — это значит, общий рейтинг врёт тебе про твою конкретную задачу.
Адаптировать под запрос

TL;DR

Рейтинг «лучшей» модели — не объективная истина, а артефакт того, кто голосовал и за какие задачи. LMArena (бывший Chatbot Arena) — самый популярный рейтинг LLM — на 30% состоит из задач разработчиков и AI-специалистов. Это значит: топ-список отражает вкусы программистов, а не обычных пользователей. Модель, которая «хуже» по рейтингу, может быть лучшей для вашей конкретной работы.

Главный инсайт: люди оценивают стиль ответа, а не точность. В математических задачах пользователи выбирали правильный ответ только в 74% случаев — в остальных 26% побеждал красиво оформленный, но неверный ответ. Когда оба ответа были правильными, люди всё равно выбирали победителя в 56% случаев — просто потому что один выглядел «лучше». Причина: мы не можем быстро проверить правильность сложного вычисления, поэтому мозг переключается на доступный сигнал — оформление.

Практически это означает две вещи. Первое: не выбирай модель по общему рейтингу — выбирай по типу задачи. Claude в целом не входит в топ-20, но в задачах анализа данных прыгает в топ-5. Второе: запрашивай конкретный стиль для сложных задач — структура + лаконичность + показ шагов = ответы, которые воспринимаются как более качественные и действительно чаще оказываются точными.


🔬

Схема метода

Это не техника в одном промпте, а фреймворк выбора модели и стиля запроса:

ШАГ 1: Определи тип задачи
        → Математика/данные (объективный ответ)
        → Анализ/структурирование (точность важнее)
        → Творчество/текст (стиль важнее)
        → Ценностные суждения (нет правильного ответа)

ШАГ 2: Сопоставь тип задачи с профилем модели
        → Не смотри на общий рейтинг
        → Ищи: какая модель сильна именно в этой категории?

ШАГ 3: Для формальных задач — запроси нужный стиль явно
        → Лаконичный ответ + структура + показ шагов
        → Не жди, что модель сама угадает оптимальный формат

Шаги 1-3 выполняются ДО и ВО ВРЕМЯ диалога с моделью.


🚀

Пример применения

Задача: Тебе нужно посчитать юнит-экономику нового продукта — LTV, CAC, payback period. Ты открываешь ChatGPT (он на первом месте в рейтинге) и вводишь цифры. Получаешь развёрнутый, красиво написанный ответ. Но уверен ли ты, что всё верно?

Промпт (для задач с точным ответом):

Задача: рассчитай юнит-экономику продукта.

Вводные данные:
- Средний чек: 4 900 рублей
- Средняя частота покупок в год: 2,3
- Средний срок жизни клиента: 2,5 года
- Стоимость привлечения клиента (CAC): 1 800 рублей
- Доля переменных затрат от выручки: 35%

Формат ответа:
1. Сначала покажи каждую формулу с подстановкой чисел — пошагово
2. Затем итоговые значения в таблице: LTV, Gross Profit LTV, LTV/CAC, Payback Period
3. Если есть допущения — укажи явно
4. Без вводных фраз, без выводов о "хорошем бизнесе" — только цифры

Результат: Модель покажет каждый шаг расчёта с явной подстановкой цифр в формулу. Ты сможешь проверить каждый переход, а не просто принять финальную цифру на веру. Итог — таблица с ключевыми метриками и явными допущениями. Такой формат снижает риск принять красиво написанный, но неверный расчёт.


🧠

Почему это работает

Слабость LLM: Модели оптимизированы под воспринимаемое качество, а не под точность. Рейтинги вроде LMArena строятся на голосовании реальных пользователей — а люди, как оказалось, плохо проверяют сложные вычисления в реальном времени. Они голосуют за то, что выглядит убедительно: структурированно, подробно, уверенно. Модели «научились» этому через обратную связь.

Сильная сторона LLM: Модели отлично следуют явным инструкциям формата. Если ты скажешь «покажи шаги», «выведи таблицу», «укажи допущения» — модель сделает это. Структурированный вывод не просто красивее — он заставляет модель раскрыть промежуточные шаги, что снижает вероятность скрытой ошибки.

Как метод использует это: Запрашивая явный показ шагов + лаконичность + структуру, ты получаешь ответ, который легко проверить. Ты не полагаешься на «ощущение правильности» — ты видишь каждое вычисление. Это именно тот стиль, который в исследовании коррелировал и с победой в предпочтениях, и с реальной точностью.

Рычаги управления: - «Покажи каждый шаг с подстановкой чисел» → снижает вероятность скрытой ошибки - «Без вводных фраз» → убирает стилистический балласт, оставляет суть - «Укажи допущения явно» → вскрывает где модель додумывает, а не считает - Выбор модели по задаче → попробуй Claude для задач с данными, даже если он «ниже» в рейтинге


📋

Шаблон промпта

Задача: {описание задачи с точным ответом — расчёт, анализ данных, логическая задача}

Вводные данные:
{ключевые числа, параметры, условия}

Формат ответа:
1. Покажи каждый шаг расчёта с подстановкой конкретных чисел
2. Итог — в виде {таблица / список / одно число}
3. Если делаешь допущения — укажи их явно отдельным блоком
4. Без вводных фраз и общих выводов — только расчёт

Плейсхолдеры: - {описание задачи} — что именно считаем или анализируем - {ключевые числа} — все вводные данные, которые есть - {таблица / список / одно число} — какой формат вывода нужен

🚀 Быстрый старт — вставь в чат:

Вот шаблон запроса для задач с точным ответом. 
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит про вводные данные и нужный формат вывода — потому что без них невозможно выбрать правильную структуру шагов и определить что считать «итогом».


⚠️

Ограничения

⚠️ Стиль ≠ гарантия точности: Явный запрос структуры и шагов снижает риск ошибки, но не исключает её. Всегда проверяй ключевые расчёты самостоятельно.

⚠️ Данные по моделям устаревают: Исследование анализировало модели на апрель–июль 2025 года. Позиции Claude, minimax-m1 и других моделей в специфических категориях могут меняться с выходом новых версий.

⚠️ Для ценностных суждений это не работает: Если задача предполагает субъективные или политически чувствительные ответы — нет «правильного» стиля и нет объективного победителя. Исследование явно выделяет это как отдельную категорию с другой логикой оценки.

⚠️ Интерактивный инструмент недоступен: Сам визуализатор, который позволяет перевзвешивать рейтинги под свои задачи — это исследовательский прототип, не публичный сервис.


🔍

Как исследовали

Команда взяла публичный датасет LMArena — 135 634 оценки 53 моделей, собранных за три месяца в 2025 году. Сначала они построили иерархию тем: с помощью кластеризации разбили все промпты на 400 мелких групп, потом вручную объединили в 8 крупных категорий. Выяснилось, что 30% всех запросов — это задачи разработчиков и AI-специалистов. Это не баг датасета — это портрет аудитории, которая сидит на таких платформах.

Дальше исследователи проверили, насколько рейтинг модели в отдельной категории совпадает с общим рейтингом. Оказалось, что для большинства задач корреляция высокая — но есть категории, где она разваливается. Самый яркий пример: Claude не входит ни в один топ-20 глобально, но в категории «анализ данных» три модели Claude прыгают в топ-5. Исследователи попросили LLM объяснить почему — и получили ответ: Claude выигрывает за счёт точности и структурированности при работе с данными. Но таких задач мало в датасете, поэтому глобальный рейтинг это не отражает.

Самый неожиданный эксперимент — про математику. Из 8 000+ математических промптов отобрали 2 143 пары ответов, где обе независимые модели-судьи согласились на счёт правильности. Выяснилось: люди выбирали правильный ответ только в 74% случаев. В остальных случаях побеждал неверный, но красиво оформленный. Причина — пользователи ориентировались на стиль: победившие ответы чаще были лаконичными (50%), содержательными (48%) и структурированными (39%). Это объясняет феномен minimax-m1: модель с 19-го места в общем рейтинге взлетает на 1-е в математике — именно потому, что сочетает точность с нужным стилем подачи.


💡

Адаптации и экстраполяции

🔧 Техника: Двойная проверка через смену модели

Если задача критически важна (финансовый расчёт, юридический анализ, медицинская информация) — запусти один и тот же запрос в двух разных моделях. Не сравнивай «кто лучше написал» — сравнивай итоговые цифры или выводы. Расхождение = сигнал перепроверить вручную.

[Запрос с явными шагами и вводными данными]

После ответа скажи: "Какие допущения ты сделал, 
которые могут изменить результат?"

Это прямо из логики исследования: пользователи плохо видят ошибки в стиле «правдоподобного неверного ответа». Вопрос про допущения вскрывает места, где модель додумывала.


🔧 Техника: Запрос на разделение уверенности

Исследование показало: люди путают «уверенный стиль» с «точным ответом». Обмануть этот рефлекс можно прямым вопросом:

После ответа оцени каждый шаг по шкале:
— «точно знаю» (вывод из данных)
— «разумное допущение» (логика, но не факт)  
— «не уверен» (нужна проверка)

Модель не «знает» в буквальном смысле — но такой запрос заставляет её структурировать, где она оперирует данными, а где интерполирует. Ты получаешь карту рисков ответа, а не просто ответ.


🔗

Ресурсы

Who Defines "Best"? Towards Interactive, User-Defined Evaluation of LLM Leaderboards FAccT '26, June 25–28, 2026, Montreal, QC, Canada

Авторы: Minji Jung, Minjae Lee, Yejin Kim, Sarang Choi, Minsuk Kahng — Yonsei University, South Korea

Датасет: LMArena Human Preference 140K Платформа: LMArena (бывший Chatbot Arena)


📋 Дайджест исследования

Ключевая суть

В математических задачах правильный ответ проигрывал красиво оформленному — но неверному — в каждом четвёртом случае. Метод позволяет выбирать модель под конкретный тип задачи и запрашивать формат, который коррелирует с реальной точностью, а не только с приятным видом. Три слова в промпте меняют всё: «покажи каждый шаг с подстановкой чисел» — модель не может спрятать ошибку за красивым абзацем, она вынуждена раскрыть каждое действие. Бонус: Claude не входит в топ-20 общего рейтинга, но прыгает в топ-5 в задачах с данными — это значит, общий рейтинг врёт тебе про твою конкретную задачу.

Принцип работы

Топ-рейтинг LMArena строится на голосовании реальных пользователей. Но 30% этих пользователей — разработчики и AI-специалисты. Они голосуют за задачи про код и технические штуки. Маркетолог, аналитик, редактор — в этой выборке почти не представлены. Рейтинг отражает вкусы тех, кто голосует, а не качество модели для твоей задачи. Когда оба ответа правильные — пользователи всё равно выбирали «победителя» в 56% случаев. Просто потому что один выглядел убедительнее. Модели это выучили: оптимизировались под воспринимаемое качество, а не под реальное. Твой запрос явного формата — единственный способ вытащить модель из этой игры.

Почему работает

Мозг не проверяет сложное вычисление в реальном времени — это дорого. Он переключается на доступный сигнал: структуру, уверенный тон, оформление. Это не глупость пользователя, это нормальная экономия усилий. Явный запрос шагов ломает этот механизм с обоих концов: ты видишь каждый переход — и модель не может скрыть ошибку за гладким финальным ответом. Фраза «укажи допущения явно» вскрывает самое опасное место — где модель додумывает вместо того, чтобы считать. Ты перестаёшь голосовать за стиль — ты проверяешь логику.

Когда применять

Задачи с проверяемым ответом → расчёты юнит-экономики (пожизненная ценность клиента, стоимость привлечения клиента, срок окупаемости), анализ данных, математика, логические задачи — особенно когда цена ошибки высокая и ты не можешь быстро проверить результат в голове. Выбор модели по категории важен здесь же: не смотри на общий рейтинг, ищи кто силён именно в твоём типе задач. Не подходит для: творческих задач, ценностных суждений, субъективных оценок — там нет правильного ответа, и стиль действительно имеет значение, а не мешает.

Мини-рецепт

1. Определи: есть ли правильный ответ? Если задача — расчёт, анализ, логика — продолжай. Если творчество или ценностное суждение — общий рейтинг здесь не хуже и не лучше обычного.
2. Выбери модель по типу задачи, а не по строчке в рейтинге: для расчётов и анализа данных попробуй Claude или minimax-m1, даже если они не в топе общего списка. Специфический рейтинг важнее.
3. Добавь три требования к формату: «покажи каждый шаг с подстановкой конкретных чисел», «итог — таблицей», «допущения — отдельным блоком».
4. Обрежь балласт: фраза «без вводных предложений и общих выводов» убирает стилистический мусор — остаётся то, что можно проверить.

Примеры

[ПЛОХО] : Посчитай юнит-экономику: средний чек 4900, стоимость привлечения клиента 1800, срок жизни клиента 2.5 года
[ХОРОШО] : Задача: рассчитай пожизненную ценность клиента (LTV), валовую прибыль с клиента, соотношение LTV к стоимости привлечения и срок окупаемости. Данные: средний чек — 4900р, частота покупок в год — 2.3, срок жизни клиента — 2.5 года, стоимость привлечения клиента — 1800р, доля переменных затрат от выручки — 35%. Формат: 1) каждая формула с подстановкой чисел — пошагово, 2) итог таблицей с четырьмя метриками, 3) если делаешь допущения — укажи их отдельным блоком. Без вводных фраз и выводов о бизнесе — только расчёт.
Источник: Who Defines "Best"? Towards Interactive, User-Defined Evaluation of LLM Leaderboards
ArXiv ID: 2604.21769 | Сгенерировано: 2026-04-24 05:26

Проблемы LLM

ПроблемаСутьКак обойти
Красивый ответ маскирует ошибкуМодели обучались на голосовании реальных пользователей. Пользователи не могут быстро проверить сложный расчёт. Поэтому голосовали за то, что выглядит убедительно. Модели «выучили» этот сигнал. Итог: структурированный, уверенный, но неверный ответ легко проходит незамеченным. Это системная проблема для любых задач с точным ответом — расчёты, логика, анализ данныхПопроси явно показать каждый шаг с подстановкой чисел. Промежуточные шаги видны — ошибку можно поймать. Без этой инструкции модель даст финальную цифру. Проверить её труднее

Методы

МетодСуть
Явный запрос шагов — делает ответ проверяемымДля задач с точным ответом добавь в запрос: Покажи каждый шаг с подстановкой конкретных чисел. Итог — таблицей. Допущения — отдельным блоком. Без вводных фраз. Почему работает: Когда модель показывает промежуточные шаги, ошибка становится видна. Финальная цифра без шагов — чёрный ящик. Финальная цифра со шагами — каждый переход открыт. Когда применять: расчёты, анализ данных, логические задачи — всё где есть объективно верный ответ. Когда не работает: субъективные задачи, творчество, ценностные суждения — там нет «правильного шага»
📖 Простыми словами

Who Defines "Best"? Towards Interactive, User-Defined Evaluation ofLLMLeaderboards

arXiv: 2604.21769

Любые рейтинги нейросетей — это не истина в последней инстанции, а статистическая галлюцинация. Мы привыкли думать, что первая строчка в условном Chatbot Arena означает «самый умный мозг», но на деле это лишь показатель того, чьи вкусы совпали с толпой. Фундаментальная проблема в том, что 30% голосующих в таких рейтингах — это сами разработчики и AI-гики. В итоге топ моделей формируется под нужды людей, которые пишут код или спорят о параметрах, а не под твои задачи по маркетингу или написанию текстов.

Это как если бы лучший ресторан города выбирали исключительно профессиональные повара. Они бы оценивали сложность соуса и технику нарезки, поставив на первое место заведение с молекулярной кухней. А тебе в этот момент просто хочется нормальный сочный стейк, который в этом рейтинге может плестись в самом хвосте. В итоге ты идешь в «лучшее» место по версии профи, платишь кучу денег, но уходишь голодным, потому что их критерии крутости не имеют ничего общего с твоим аппетитом.

Главная ловушка здесь — воспринимаемое качество. Модели давно просекли фишку: чтобы понравиться человеку в быстром тесте, не обязательно быть правым, достаточно выглядеть уверенно. В исследовании четко видно, что люди охотнее голосуют за длинные, красиво структурированные ответы с кучей списков, даже если внутри — полная ахинея и фактические ошибки. Модели просто научились «казаться умными», потому что проверять сложные расчеты в реальном времени пользователям лень, а вот красивая верстка подкупает сразу.

Этот принцип применим к любому выбору инструмента: от чат-бота до CRM-системы. Если ты выбираешь модель для юнит-экономики, тебе плевать на её навыки в написании стихов или кодинге на Python, которые вывели её в топ. Тестировали это на LMArena, но логика работает везде: универсального «лучшего» не существует. Нужно смотреть не на общую температуру по больнице, а на то, как модель справляется с твоим специфическим запросом, будь то анализ данных или написание сценариев для TikTok.

Короче: хватит слепо верить цифрам в таблицах и бежать за моделью №1 только потому, что так решили айтишники из Сан-Франциско. Рейтинг — это среднее арифметическое чужих предпочтений, которое может быть бесполезно лично для тебя. Выбирай модель под конкретную задачу, а не по «лычкам» на погонах, иначе рискуешь получить красиво оформленную лажу вместо результата. Кто умеет настраивать фильтры под себя — получает профит, остальные продолжают жрать кактус, глядя на красивые графики.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с