3,583 papers
arXiv:2605.12684 73 12 мая 2026 г. FREE

Сравнение вместо оценки: просить AI выбрать лучший вариант надёжнее, чем просить выставить баллы

КЛЮЧЕВАЯ СУТЬ
Просишь AI 'оцени от 1 до 10' — получаешь цифру. Снова просишь — другая цифра. Это не баг, это архитектура: каждый отдельный запрос строит шкалу заново, с нуля. Метод сравнительного суждения позволяет получать конкретный, повторяемый вердикт на субъективные вещи — тексты, офферы, заголовки, питчи. Кладёшь варианты рядом и спрашиваешь 'какой лучше и почему' — вместо отдельных 'дай оценку'. Результат: +42 процентных пункта к согласованности без смены модели, просто другой вопрос.
Адаптировать под запрос

TL;DR

Когда просишь AI оценить что-то субъективное — текст, дизайн, идею — и задаёшь вопрос "дай оценку от 1 до 10", результат ненадёжен. Исследование VAB показало: прямое сравнение вариантов даёт на 42 процентных пункта более согласованный результат, чем независимое оценивание. Тот же человек, выставляя баллы отдельно и сравнивая вместе, почти в половине случаев получает разный порядок — и AI ведёт себя аналогично.

Проблема в том, что абсолютная оценка требует внутренней шкалы — "что значит 7? а 8?". Человек и нейросеть каждый раз строят эту шкалу заново, она плывёт. Сравнение двух вариантов — принципиально другая операция: не нужно удерживать абстрактную шкалу в голове, нужно просто выбрать.

Отсюда простое правило для чата: вместо "оцени этот текст" давай AI два варианта и спрашивай "какой лучше и почему". Итог — конкретнее, последовательнее, и AI труднее уйти в обтекаемые ответы.


🔬

Схема метода

Было (ненадёжно):
  → Промпт: "Оцени текст A по шкале 1-10"
  → Промпт: "Оцени текст B по шкале 1-10"
  → Сравниваешь цифры сам

Стало (надёжно):
  ШАГ 1: Собери все варианты вместе
  ШАГ 2: Спроси "какой лучший и какой худший, и почему"
          → AI даёт сравнительный вердикт с объяснением
  ШАГ 3 (опционально): Поменяй порядок вариантов и повтори
          → Проверь, не изменился ли ответ

Всё делается в одном промпте. Шаги 1-2 обязательны. Шаг 3 — когда решение важное.


🚀

Пример применения

Задача: Ты запускаешь телеграм-канал про инвестиции и написал два варианта приветственного поста. Хочешь понять какой сильнее — и не хочешь слышать "оба хороши, выбирайте то, что вам ближе".

Промпт:

Сравни два варианта приветственного поста для телеграм-канала про инвестиции. 
Аудитория — люди 28–40 лет, работают в найме, хотят начать инвестировать, 
но боятся ошибиться.

Вариант А:
"Привет! Меня зовут Артём. Я 7 лет инвестирую на российском и зарубежном рынке.
Здесь пишу о том, как сохранить и приумножить деньги без лишнего риска.
Подписывайся — будет полезно."

Вариант Б:
"Я потерял 340 000 рублей на своей первой инвестиции. Это был отличный урок.
Сейчас мой портфель растёт на 23% в год — и я знаю, что именно тогда сделал не так.
Здесь разбираю ошибки, которые стоят денег."

Выбери более сильный вариант. Объясни конкретно — что именно работает лучше 
и почему слабый проигрывает. Если видишь явный худший — скажи прямо.

Результат: AI выберет один вариант и объяснит решение по конкретным критериям — крючок внимания, доверие, релевантность аудитории. Не будет уклончивых "оба по-своему хороши" — сравнительный формат вынуждает к вердикту. Ответ придёт в виде: выбор + 3-4 конкретные причины почему + что именно слабо в проигравшем варианте.


🧠

Почему это работает

LLM плохо держит абстрактную шкалу. Когда просишь "оцени текст по шкале 1-10" — модель каждый раз строит эту шкалу заново из контекста. Нет двух запросов, в которых "7" означает одно и то же. Два отдельных запроса — два разных мирка с разными шкалами. Сравниваешь несравнимое.

Зато выбор из набора — родная операция. Модель обучена на текстах, где люди постоянно сопоставляют, рекомендуют лучшее, объясняют почему одно сильнее другого. Когда варианты рядом — AI работает в режиме, для которого у него есть богатый паттерн. Результат стабильнее и конкретнее.

Рычаги управления:

  • Число вариантов — 2-3 варианта дают чёткий выбор. 4+ — AI начинает "размазывать" оценку, вердикты менее резкие
  • "Назови и лучший, и худший" — двойное требование сильнее фокусирует AI, чем только "выбери лучший"
  • Порядок вариантов — AI чуть склонен к первому или последнему варианту. Для важных решений поменяй порядок и повтори. Если вывод изменился — результат был случайным
  • Критерии явно — если пишешь "для аудитории X с болью Y", AI сравнивает по нужной тебе оси, а не придумывает свои критерии

📋

Шаблон промпта

Сравни {число} варианта {что сравниваем} для {контекст и аудитория}.

Вариант 1:
{текст варианта 1}

Вариант 2:
{текст варианта 2}

[Вариант 3: {текст варианта 3}]

Выбери лучший и худший вариант. Объясни конкретно:
— что именно делает лучший сильнее
— что именно делает худший слабее
— [опционально: как улучшить проигравший вариант]

Что подставлять: - {что сравниваем} — заголовок, пост, оффер, питч, описание продукта, письмо - {контекст и аудитория} — чем конкретнее, тем лучше: "для B2B клиентов, которые уже пробовали конкурентов", "для лендинга онлайн-школы по бухгалтерии" - Блок с Вариантом 3 — добавляй по необходимости, но не больше 3-4 вариантов


🚀 Быстрый старт — вставь в чат:

Вот шаблон для сравнительной оценки вариантов. 
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит сами варианты и контекст аудитории — потому что без них не сможет выбрать по нужному критерию. Она возьмёт паттерн из шаблона и адаптирует под твой конкретный случай.


⚠️

Ограничения

⚠️ Визуальная эстетика — отдельная история: Главная находка исследования — про картинки, а не тексты. Даже лучшие мультимодальные модели (Claude, GPT с vision) остаются на уровне 26% там, где эксперты дают 69%. Если просишь AI выбрать лучшую фотографию или дизайн — результат ненадёжен. Для серьёзных визуальных решений AI пока не замена эксперту.

⚠️ Позиционная предвзятость: Модели немного тяготеют к первому или последнему варианту в списке. Эффект небольшой, но при важных решениях — проверь с разным порядком вариантов.

⚠️ Субъективные критерии без контекста: Если не уточнить аудиторию и цель, AI выберет по своим критериям, которые могут не совпадать с твоими. Всегда давай контекст: для кого, с какой целью, с какой болью.

⚠️ Больше 4 вариантов — точность падает резко: Исследование показало, что у AI точность на задачах с 4+ вариантами падает в 7 раз, у людей — только в 2 раза. Дели на попарные сравнения.


🔍

Как исследовали

Команда задалась простым вопросом: насколько надёжен стандартный способ оценки — попросить выставить балл? Восемь экспертов-аннотаторов оценивали одни и те же изображения двумя способами: сначала каждое по отдельности (балл от 0 до 10), потом сравнивая напрямую.

Результат удивил: почти в половине случаев один и тот же человек получал разный порядок при двух протоколах. То есть ты видишь изображения, ставишь баллы — и твои же баллы противоречат тому выбору, который ты делаешь при прямом сравнении. Это не ошибка измерения — это природа субъективной оценки: когда варианты рядом, критерии иные.

Дальше исследователи построили бенчмарк VAB — 400 задач, 1195 изображений из трёх областей (живопись, фотография, иллюстрация), все с одинаковым сюжетом, но разным качеством исполнения. Подобрать сюжет было принципиально: чтобы AI не мог "схитрить" и выбрать просто потому что один кот красивее другого котика — только исполнение и мастерство. Проверили 20 современных мультимодальных моделей.

Самый тревожный итог — не то, что модели плохо справляются, а то что они нестабильны: если перемешать порядок вариантов, точность падает в 7 раз (против 2 раз у людей). Это значит модель не "видит" качество стабильно — она реагирует на позицию в списке.


💡

Адаптации и экстраполяции

🔧 Техника: добавить раунд "смены порядка" → проверка стабильности вывода

Для важных решений (выбор из нескольких офферов, заголовков, стратегий):

Вопрос 1: "Вариант А, Вариант Б — какой лучше?"
Вопрос 2 (новый чат или после перерыва): "Вариант Б, Вариант А — какой лучше?"

Если ответ изменился — вывод был нестабильным. Либо варианты действительно близки по качеству, либо нужно добавить более чёткие критерии оценки.


🔧 Принцип "лучший + худший" → для брейнштормов

Когда генерируешь 5-7 идей и просишь выбрать лучшую — добавь требование назвать и худшую:

Из этих вариантов: какой самый сильный и какой самый слабый? 
Объясни почему именно они.

Это заставляет AI занять более чёткую позицию и даёт тебе полярные точки для навигации по остальным идеям.


🔗

Ресурсы

Visual Aesthetic Benchmark: Can Frontier Models Judge Beauty? — технический отчёт Bake AI

Авторы: Yichen Feng, Yuetai Li, Chunjiang Liu, Yuanyuan Chen, Fengqing Jiang, Yue Huang, Hang Hua, Zhengqing Yuan, Kaiyuan Zheng, Luyao Niu, Bhaskar Ramasubramanian, Basel Alomair, Xiangliang Zhang, Misha Sra, Zichen Chen, Radha Poovendran, Zhangchen Xu

Организации: Bake AI, University of Washington, UC Santa Barbara, Stanford University, University of Notre Dame, Carnegie Mellon University, MIT-IBM Watson AI Lab, Western Washington University, King Abdulaziz City for Science and Technology


📋 Дайджест исследования

Ключевая суть

Просишь AI 'оцени от 1 до 10' — получаешь цифру. Снова просишь — другая цифра. Это не баг, это архитектура: каждый отдельный запрос строит шкалу заново, с нуля. Метод сравнительного суждения позволяет получать конкретный, повторяемый вердикт на субъективные вещи — тексты, офферы, заголовки, питчи. Кладёшь варианты рядом и спрашиваешь 'какой лучше и почему' — вместо отдельных 'дай оценку'. Результат: +42 процентных пункта к согласованности без смены модели, просто другой вопрос.

Принцип работы

Два отдельных запроса — два разных мирка. Первый запрос: модель смотрит на вариант А, строит шкалу, ставит 7. Второй запрос: смотрит на вариант Б, строит другую шкалу, ставит 7. Сравниваешь два числа из разных шкал — это как сравнивать температуру в Цельсиях и Фаренгейтах без конвертации. Зато когда оба варианта рядом — одна операция 'что лучше' работает стабильно. Модель обучена на текстах, где люди постоянно выбирают и объясняют почему: топы, обзоры, споры 'X лучше Y потому что'. Это родной паттерн, не натяжка.

Почему работает

У модели нет встроенного эталона для 'семёрки'. Каждый раз ориентируется на контекст конкретного запроса — сменился контекст, сдвинулась шкала. Отдельные оценки несопоставимы по определению. Сравнение работает иначе: не нужно удерживать абстрактную шкалу — нужно просто выбрать. Это та же операция, что модель делала миллионы раз при обучении: 'этот аргумент убедительнее', 'этот заголовок цепляет сильнее', 'этот пример нагляднее'. Паттерн отработан. Вот откуда +42 пп.

Когда применять

Выбор лучшего варианта текста — заголовки, офферы, посты, письма, питчи — особенно когда нужен не просто 'хороший', а 'лучший из имеющихся' с объяснением почему. НЕ подходит для визуальной эстетики: именно с картинками исследование VAB выявило жёсткий потолок — даже лучшие мультимодальные модели дают 26% точности там, где эксперт даёт 69%. Серьёзные решения по дизайну или фото AI пока не вытянет. Также осторожно с 4+ вариантами сразу: у AI точность на больших наборах падает в 7 раз, у людей — только вдвое. Больше трёх-четырёх вариантов — дели на попарные раунды.

Мини-рецепт

1. Собери всё вместе: два-три варианта в одном промпте. Не отдельными запросами, а рядом — это принципиально.
2. Дай контекст: для кого текст, какая аудитория, какая цель. Без этого модель выбирает по своим критериям, которые могут не совпадать с твоими.
3. Спроси двойным требованием: 'назови лучший И худший, объясни конкретно почему'. Двойное требование не даёт уйти в 'оба по-своему хороши'.
4. Для важных решений — проверь порядок: поменяй местами варианты и повтори запрос. Если вердикт изменился — первый ответ был случайным.

Примеры

[ПЛОХО] : Оцени этот заголовок статьи по шкале от 1 до 10: «Как инвестировать без ошибок»
[ХОРОШО] : Сравни два заголовка статьи про инвестиции. Аудитория — люди 28–40 лет, работают в найме, хотят начать вкладывать деньги, но боятся потерять. Вариант А: «Как инвестировать без ошибок». Вариант Б: «Я потерял 340 000 рублей на первой инвестиции — вот что сделал не так». Выбери более сильный заголовок. Объясни конкретно: что именно работает у победителя и что тянет вниз проигравший.
Источник: Visual Aesthetic Benchmark: Can Frontier Models Judge Beauty?
ArXiv ID: 2605.12684 | Сгенерировано: 2026-05-14 05:39

Проблемы LLM

ПроблемаСутьКак обойти
Числовая оценка субъективного — ненадёжнаПросишь "оцени от 1 до 10". Модель строит шкалу заново в каждом запросе. Нет двух запросов, где "7" означает одно и то же. Оцениваешь варианты отдельно — получаешь разные шкалы. Сравниваешь цифры — сравниваешь несравнимоеДавай все варианты сразу. Спрашивай "какой лучший и какой худший — и почему". Модель выбирает внутри одного контекста. Шкала не плывёт
AI плохо оценивает визуальную эстетикуПросишь выбрать лучший дизайн или фотографию. Модель отвечает. Но точность — уровень случайного угадывания. Эксперт-человек разбирается в несколько раз лучше. Для текста разрыв меньше. Для визуала — принципиальныйНе доверяй AI финальный выбор по визуальной эстетике. Используй AI как фильтр для явно слабых вариантов. Финальное решение — человек

Методы

МетодСуть
Сравнительный запрос вместо оценочногоСобери все варианты в один запрос. Попроси назвать лучший и худший с объяснением. Вот вариант А: [текст]. Вариант Б: [текст]. Выбери лучший и худший. Объясни конкретно — что делает лучший сильнее и что делает худший слабее. Почему работает: выбор из набора — для модели родная операция. Она обучена на текстах где люди сравнивают и объясняют. Плывущей шкалы нет — всё в одном контексте. Когда да: любые субъективные тексты, офферы, заголовки, описания. Когда нет: визуальный выбор (дизайн, фото), больше 4 вариантов сразу
Двойное требование — лучший И худшийВ запросе на сравнение всегда проси назвать и лучший, и худший. Выбери лучший и худший вариант. Одно требование ("выбери лучший") — модель может уйти в "оба хороши". Двойное требование вынуждает занять чёткую позицию. Модель вынуждена выстроить иерархию целиком

Тезисы

ТезисКомментарий
Точность AI при 4+ вариантах падает в разы сильнее чем у людейЧеловек при увеличении числа вариантов теряет точность примерно вдвое. Модель — в семь раз. Механика: с каждым вариантом контекст растёт, модель теряет фокус. Применяй: больше трёх вариантов — дели на попарные сравнения. Финал: победители пар между собой
📖 Простыми словами

Visual Aesthetic Benchmark: Can FrontierModelsJudge Beauty?

arXiv: 2605.12684

Когда ты просишь нейронку оценить красоту картинки или качество текста по шкале от 1 до 10, ты занимаешься самообманом. У моделей, как и у людей, нет встроенного «метра» для субъективных вещей. Каждый раз, когда AI выставляет оценку, он заново изобретает систему координат в своей голове. В итоге абстрактная шкала превращается в лотерею: сегодня это «семерка», а через пять минут — «девятка», просто потому что контекст чуть качнулся.

Это как просить друга оценить вкус кофе в вакууме. В одном кафе он скажет «нормально, на шестерку», а в другом — «божественно, на десять», хотя налито одно и то же зерно. Без точки отсчета мозг (и электронный, и мясной) начинает галлюцинировать критериями, пытаясь привязаться хоть к чему-то. В итоге независимые оценки — это просто шум, который выдает случайные числа вместо реальной аналитики.

Исследование VAB доказало, что единственный способ заставить AI не врать — это прямое сравнение. Когда ты даешь модели два варианта и спрашиваешь «какой лучше?», точность и согласованность взлетают на 42 процентных пункта. Это гигантский разрыв, который отделяет бесполезный мусор от рабочего инструмента. Модели гораздо проще найти отличия в паре объектов, чем пытаться измерить «сферическую красоту в вакууме».

Этот принцип — pairwise comparison — универсален. Неважно, выбираешь ли ты дизайн логотипа, лучший заголовок для рекламы или код для бэкенда. Если прогонять варианты по отдельности, ты получишь кашу, где плохой вариант может случайно получить балл выше хорошего. Но как только ты сталкиваешь их лбами, модель внезапно «прозревает» и начинает видеть реальные нюансы. Сравнение — это фильтр, который отсекает контекстный бред.

Короче: забудь про промпты в духе «оцени мой пост от 1 до 5». Это путь в никуда, где нейронка будет поддакивать тебе из вежливости или лени. Хочешь честный фидбек — давай ей два-три варианта и заставляй выбирать победителя. Только в режиме битвы AI выдает результат, на который можно опираться, а не просто набор цифр, взятых с потолка. Кто продолжает мерить «в попугаях», тот просто тратит токены на красивую имитацию экспертизы.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с