TL;DR
Рейтинг «лучшей» модели — не объективная истина, а артефакт того, кто голосовал и за какие задачи. LMArena (бывший Chatbot Arena) — самый популярный рейтинг LLM — на 30% состоит из задач разработчиков и AI-специалистов. Это значит: топ-список отражает вкусы программистов, а не обычных пользователей. Модель, которая «хуже» по рейтингу, может быть лучшей для вашей конкретной работы.
Главный инсайт: люди оценивают стиль ответа, а не точность. В математических задачах пользователи выбирали правильный ответ только в 74% случаев — в остальных 26% побеждал красиво оформленный, но неверный ответ. Когда оба ответа были правильными, люди всё равно выбирали победителя в 56% случаев — просто потому что один выглядел «лучше». Причина: мы не можем быстро проверить правильность сложного вычисления, поэтому мозг переключается на доступный сигнал — оформление.
Практически это означает две вещи. Первое: не выбирай модель по общему рейтингу — выбирай по типу задачи. Claude в целом не входит в топ-20, но в задачах анализа данных прыгает в топ-5. Второе: запрашивай конкретный стиль для сложных задач — структура + лаконичность + показ шагов = ответы, которые воспринимаются как более качественные и действительно чаще оказываются точными.
Схема метода
Это не техника в одном промпте, а фреймворк выбора модели и стиля запроса:
ШАГ 1: Определи тип задачи
→ Математика/данные (объективный ответ)
→ Анализ/структурирование (точность важнее)
→ Творчество/текст (стиль важнее)
→ Ценностные суждения (нет правильного ответа)
ШАГ 2: Сопоставь тип задачи с профилем модели
→ Не смотри на общий рейтинг
→ Ищи: какая модель сильна именно в этой категории?
ШАГ 3: Для формальных задач — запроси нужный стиль явно
→ Лаконичный ответ + структура + показ шагов
→ Не жди, что модель сама угадает оптимальный формат
Шаги 1-3 выполняются ДО и ВО ВРЕМЯ диалога с моделью.
Пример применения
Задача: Тебе нужно посчитать юнит-экономику нового продукта — LTV, CAC, payback period. Ты открываешь ChatGPT (он на первом месте в рейтинге) и вводишь цифры. Получаешь развёрнутый, красиво написанный ответ. Но уверен ли ты, что всё верно?
Промпт (для задач с точным ответом):
Задача: рассчитай юнит-экономику продукта.
Вводные данные:
- Средний чек: 4 900 рублей
- Средняя частота покупок в год: 2,3
- Средний срок жизни клиента: 2,5 года
- Стоимость привлечения клиента (CAC): 1 800 рублей
- Доля переменных затрат от выручки: 35%
Формат ответа:
1. Сначала покажи каждую формулу с подстановкой чисел — пошагово
2. Затем итоговые значения в таблице: LTV, Gross Profit LTV, LTV/CAC, Payback Period
3. Если есть допущения — укажи явно
4. Без вводных фраз, без выводов о "хорошем бизнесе" — только цифры
Результат: Модель покажет каждый шаг расчёта с явной подстановкой цифр в формулу. Ты сможешь проверить каждый переход, а не просто принять финальную цифру на веру. Итог — таблица с ключевыми метриками и явными допущениями. Такой формат снижает риск принять красиво написанный, но неверный расчёт.
Почему это работает
Слабость LLM: Модели оптимизированы под воспринимаемое качество, а не под точность. Рейтинги вроде LMArena строятся на голосовании реальных пользователей — а люди, как оказалось, плохо проверяют сложные вычисления в реальном времени. Они голосуют за то, что выглядит убедительно: структурированно, подробно, уверенно. Модели «научились» этому через обратную связь.
Сильная сторона LLM: Модели отлично следуют явным инструкциям формата. Если ты скажешь «покажи шаги», «выведи таблицу», «укажи допущения» — модель сделает это. Структурированный вывод не просто красивее — он заставляет модель раскрыть промежуточные шаги, что снижает вероятность скрытой ошибки.
Как метод использует это: Запрашивая явный показ шагов + лаконичность + структуру, ты получаешь ответ, который легко проверить. Ты не полагаешься на «ощущение правильности» — ты видишь каждое вычисление. Это именно тот стиль, который в исследовании коррелировал и с победой в предпочтениях, и с реальной точностью.
Рычаги управления: - «Покажи каждый шаг с подстановкой чисел» → снижает вероятность скрытой ошибки - «Без вводных фраз» → убирает стилистический балласт, оставляет суть - «Укажи допущения явно» → вскрывает где модель додумывает, а не считает - Выбор модели по задаче → попробуй Claude для задач с данными, даже если он «ниже» в рейтинге
Шаблон промпта
Задача: {описание задачи с точным ответом — расчёт, анализ данных, логическая задача}
Вводные данные:
{ключевые числа, параметры, условия}
Формат ответа:
1. Покажи каждый шаг расчёта с подстановкой конкретных чисел
2. Итог — в виде {таблица / список / одно число}
3. Если делаешь допущения — укажи их явно отдельным блоком
4. Без вводных фраз и общих выводов — только расчёт
Плейсхолдеры:
- {описание задачи} — что именно считаем или анализируем
- {ключевые числа} — все вводные данные, которые есть
- {таблица / список / одно число} — какой формат вывода нужен
🚀 Быстрый старт — вставь в чат:
Вот шаблон запроса для задач с точным ответом.
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит про вводные данные и нужный формат вывода — потому что без них невозможно выбрать правильную структуру шагов и определить что считать «итогом».
Ограничения
⚠️ Стиль ≠ гарантия точности: Явный запрос структуры и шагов снижает риск ошибки, но не исключает её. Всегда проверяй ключевые расчёты самостоятельно.
⚠️ Данные по моделям устаревают: Исследование анализировало модели на апрель–июль 2025 года. Позиции Claude, minimax-m1 и других моделей в специфических категориях могут меняться с выходом новых версий.
⚠️ Для ценностных суждений это не работает: Если задача предполагает субъективные или политически чувствительные ответы — нет «правильного» стиля и нет объективного победителя. Исследование явно выделяет это как отдельную категорию с другой логикой оценки.
⚠️ Интерактивный инструмент недоступен: Сам визуализатор, который позволяет перевзвешивать рейтинги под свои задачи — это исследовательский прототип, не публичный сервис.
Как исследовали
Команда взяла публичный датасет LMArena — 135 634 оценки 53 моделей, собранных за три месяца в 2025 году. Сначала они построили иерархию тем: с помощью кластеризации разбили все промпты на 400 мелких групп, потом вручную объединили в 8 крупных категорий. Выяснилось, что 30% всех запросов — это задачи разработчиков и AI-специалистов. Это не баг датасета — это портрет аудитории, которая сидит на таких платформах.
Дальше исследователи проверили, насколько рейтинг модели в отдельной категории совпадает с общим рейтингом. Оказалось, что для большинства задач корреляция высокая — но есть категории, где она разваливается. Самый яркий пример: Claude не входит ни в один топ-20 глобально, но в категории «анализ данных» три модели Claude прыгают в топ-5. Исследователи попросили LLM объяснить почему — и получили ответ: Claude выигрывает за счёт точности и структурированности при работе с данными. Но таких задач мало в датасете, поэтому глобальный рейтинг это не отражает.
Самый неожиданный эксперимент — про математику. Из 8 000+ математических промптов отобрали 2 143 пары ответов, где обе независимые модели-судьи согласились на счёт правильности. Выяснилось: люди выбирали правильный ответ только в 74% случаев. В остальных случаях побеждал неверный, но красиво оформленный. Причина — пользователи ориентировались на стиль: победившие ответы чаще были лаконичными (50%), содержательными (48%) и структурированными (39%). Это объясняет феномен minimax-m1: модель с 19-го места в общем рейтинге взлетает на 1-е в математике — именно потому, что сочетает точность с нужным стилем подачи.
Адаптации и экстраполяции
🔧 Техника: Двойная проверка через смену модели
Если задача критически важна (финансовый расчёт, юридический анализ, медицинская информация) — запусти один и тот же запрос в двух разных моделях. Не сравнивай «кто лучше написал» — сравнивай итоговые цифры или выводы. Расхождение = сигнал перепроверить вручную.
[Запрос с явными шагами и вводными данными]
После ответа скажи: "Какие допущения ты сделал,
которые могут изменить результат?"
Это прямо из логики исследования: пользователи плохо видят ошибки в стиле «правдоподобного неверного ответа». Вопрос про допущения вскрывает места, где модель додумывала.
🔧 Техника: Запрос на разделение уверенности
Исследование показало: люди путают «уверенный стиль» с «точным ответом». Обмануть этот рефлекс можно прямым вопросом:
После ответа оцени каждый шаг по шкале:
— «точно знаю» (вывод из данных)
— «разумное допущение» (логика, но не факт)
— «не уверен» (нужна проверка)
Модель не «знает» в буквальном смысле — но такой запрос заставляет её структурировать, где она оперирует данными, а где интерполирует. Ты получаешь карту рисков ответа, а не просто ответ.
Ресурсы
Who Defines "Best"? Towards Interactive, User-Defined Evaluation of LLM Leaderboards FAccT '26, June 25–28, 2026, Montreal, QC, Canada
Авторы: Minji Jung, Minjae Lee, Yejin Kim, Sarang Choi, Minsuk Kahng — Yonsei University, South Korea
Датасет: LMArena Human Preference 140K Платформа: LMArena (бывший Chatbot Arena)
