TL;DR
Когда просишь AI оценить что-то субъективное — текст, дизайн, идею — и задаёшь вопрос "дай оценку от 1 до 10", результат ненадёжен. Исследование VAB показало: прямое сравнение вариантов даёт на 42 процентных пункта более согласованный результат, чем независимое оценивание. Тот же человек, выставляя баллы отдельно и сравнивая вместе, почти в половине случаев получает разный порядок — и AI ведёт себя аналогично.
Проблема в том, что абсолютная оценка требует внутренней шкалы — "что значит 7? а 8?". Человек и нейросеть каждый раз строят эту шкалу заново, она плывёт. Сравнение двух вариантов — принципиально другая операция: не нужно удерживать абстрактную шкалу в голове, нужно просто выбрать.
Отсюда простое правило для чата: вместо "оцени этот текст" давай AI два варианта и спрашивай "какой лучше и почему". Итог — конкретнее, последовательнее, и AI труднее уйти в обтекаемые ответы.
Схема метода
Было (ненадёжно):
→ Промпт: "Оцени текст A по шкале 1-10"
→ Промпт: "Оцени текст B по шкале 1-10"
→ Сравниваешь цифры сам
Стало (надёжно):
ШАГ 1: Собери все варианты вместе
ШАГ 2: Спроси "какой лучший и какой худший, и почему"
→ AI даёт сравнительный вердикт с объяснением
ШАГ 3 (опционально): Поменяй порядок вариантов и повтори
→ Проверь, не изменился ли ответ
Всё делается в одном промпте. Шаги 1-2 обязательны. Шаг 3 — когда решение важное.
Пример применения
Задача: Ты запускаешь телеграм-канал про инвестиции и написал два варианта приветственного поста. Хочешь понять какой сильнее — и не хочешь слышать "оба хороши, выбирайте то, что вам ближе".
Промпт:
Сравни два варианта приветственного поста для телеграм-канала про инвестиции.
Аудитория — люди 28–40 лет, работают в найме, хотят начать инвестировать,
но боятся ошибиться.
Вариант А:
"Привет! Меня зовут Артём. Я 7 лет инвестирую на российском и зарубежном рынке.
Здесь пишу о том, как сохранить и приумножить деньги без лишнего риска.
Подписывайся — будет полезно."
Вариант Б:
"Я потерял 340 000 рублей на своей первой инвестиции. Это был отличный урок.
Сейчас мой портфель растёт на 23% в год — и я знаю, что именно тогда сделал не так.
Здесь разбираю ошибки, которые стоят денег."
Выбери более сильный вариант. Объясни конкретно — что именно работает лучше
и почему слабый проигрывает. Если видишь явный худший — скажи прямо.
Результат: AI выберет один вариант и объяснит решение по конкретным критериям — крючок внимания, доверие, релевантность аудитории. Не будет уклончивых "оба по-своему хороши" — сравнительный формат вынуждает к вердикту. Ответ придёт в виде: выбор + 3-4 конкретные причины почему + что именно слабо в проигравшем варианте.
Почему это работает
LLM плохо держит абстрактную шкалу. Когда просишь "оцени текст по шкале 1-10" — модель каждый раз строит эту шкалу заново из контекста. Нет двух запросов, в которых "7" означает одно и то же. Два отдельных запроса — два разных мирка с разными шкалами. Сравниваешь несравнимое.
Зато выбор из набора — родная операция. Модель обучена на текстах, где люди постоянно сопоставляют, рекомендуют лучшее, объясняют почему одно сильнее другого. Когда варианты рядом — AI работает в режиме, для которого у него есть богатый паттерн. Результат стабильнее и конкретнее.
Рычаги управления:
- Число вариантов — 2-3 варианта дают чёткий выбор. 4+ — AI начинает "размазывать" оценку, вердикты менее резкие
- "Назови и лучший, и худший" — двойное требование сильнее фокусирует AI, чем только "выбери лучший"
- Порядок вариантов — AI чуть склонен к первому или последнему варианту. Для важных решений поменяй порядок и повтори. Если вывод изменился — результат был случайным
- Критерии явно — если пишешь "для аудитории X с болью Y", AI сравнивает по нужной тебе оси, а не придумывает свои критерии
Шаблон промпта
Сравни {число} варианта {что сравниваем} для {контекст и аудитория}.
Вариант 1:
{текст варианта 1}
Вариант 2:
{текст варианта 2}
[Вариант 3: {текст варианта 3}]
Выбери лучший и худший вариант. Объясни конкретно:
— что именно делает лучший сильнее
— что именно делает худший слабее
— [опционально: как улучшить проигравший вариант]
Что подставлять:
- {что сравниваем} — заголовок, пост, оффер, питч, описание продукта, письмо
- {контекст и аудитория} — чем конкретнее, тем лучше: "для B2B клиентов, которые уже пробовали конкурентов", "для лендинга онлайн-школы по бухгалтерии"
- Блок с Вариантом 3 — добавляй по необходимости, но не больше 3-4 вариантов
🚀 Быстрый старт — вставь в чат:
Вот шаблон для сравнительной оценки вариантов.
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит сами варианты и контекст аудитории — потому что без них не сможет выбрать по нужному критерию. Она возьмёт паттерн из шаблона и адаптирует под твой конкретный случай.
Ограничения
⚠️ Визуальная эстетика — отдельная история: Главная находка исследования — про картинки, а не тексты. Даже лучшие мультимодальные модели (Claude, GPT с vision) остаются на уровне 26% там, где эксперты дают 69%. Если просишь AI выбрать лучшую фотографию или дизайн — результат ненадёжен. Для серьёзных визуальных решений AI пока не замена эксперту.
⚠️ Позиционная предвзятость: Модели немного тяготеют к первому или последнему варианту в списке. Эффект небольшой, но при важных решениях — проверь с разным порядком вариантов.
⚠️ Субъективные критерии без контекста: Если не уточнить аудиторию и цель, AI выберет по своим критериям, которые могут не совпадать с твоими. Всегда давай контекст: для кого, с какой целью, с какой болью.
⚠️ Больше 4 вариантов — точность падает резко: Исследование показало, что у AI точность на задачах с 4+ вариантами падает в 7 раз, у людей — только в 2 раза. Дели на попарные сравнения.
Как исследовали
Команда задалась простым вопросом: насколько надёжен стандартный способ оценки — попросить выставить балл? Восемь экспертов-аннотаторов оценивали одни и те же изображения двумя способами: сначала каждое по отдельности (балл от 0 до 10), потом сравнивая напрямую.
Результат удивил: почти в половине случаев один и тот же человек получал разный порядок при двух протоколах. То есть ты видишь изображения, ставишь баллы — и твои же баллы противоречат тому выбору, который ты делаешь при прямом сравнении. Это не ошибка измерения — это природа субъективной оценки: когда варианты рядом, критерии иные.
Дальше исследователи построили бенчмарк VAB — 400 задач, 1195 изображений из трёх областей (живопись, фотография, иллюстрация), все с одинаковым сюжетом, но разным качеством исполнения. Подобрать сюжет было принципиально: чтобы AI не мог "схитрить" и выбрать просто потому что один кот красивее другого котика — только исполнение и мастерство. Проверили 20 современных мультимодальных моделей.
Самый тревожный итог — не то, что модели плохо справляются, а то что они нестабильны: если перемешать порядок вариантов, точность падает в 7 раз (против 2 раз у людей). Это значит модель не "видит" качество стабильно — она реагирует на позицию в списке.
Адаптации и экстраполяции
🔧 Техника: добавить раунд "смены порядка" → проверка стабильности вывода
Для важных решений (выбор из нескольких офферов, заголовков, стратегий):
Вопрос 1: "Вариант А, Вариант Б — какой лучше?"
Вопрос 2 (новый чат или после перерыва): "Вариант Б, Вариант А — какой лучше?"
Если ответ изменился — вывод был нестабильным. Либо варианты действительно близки по качеству, либо нужно добавить более чёткие критерии оценки.
🔧 Принцип "лучший + худший" → для брейнштормов
Когда генерируешь 5-7 идей и просишь выбрать лучшую — добавь требование назвать и худшую:
Из этих вариантов: какой самый сильный и какой самый слабый?
Объясни почему именно они.
Это заставляет AI занять более чёткую позицию и даёт тебе полярные точки для навигации по остальным идеям.
Ресурсы
Visual Aesthetic Benchmark: Can Frontier Models Judge Beauty? — технический отчёт Bake AI
Авторы: Yichen Feng, Yuetai Li, Chunjiang Liu, Yuanyuan Chen, Fengqing Jiang, Yue Huang, Hang Hua, Zhengqing Yuan, Kaiyuan Zheng, Luyao Niu, Bhaskar Ramasubramanian, Basel Alomair, Xiangliang Zhang, Misha Sra, Zichen Chen, Radha Poovendran, Zhangchen Xu
Организации: Bake AI, University of Washington, UC Santa Barbara, Stanford University, University of Notre Dame, Carnegie Mellon University, MIT-IBM Watson AI Lab, Western Washington University, King Abdulaziz City for Science and Technology
