TL;DR
Когда просишь AI с поддержкой изображений выбрать лучший продукт, более красивую фотографию или подходящего кандидата — модель сильно зависит от визуальной подачи, а не только от содержания. Одна и та же кружка на нейтральном фоне и в студийном освещении получит разную вероятность выбора. Это не баг, это системная особенность всех современных VLM (моделей с поддержкой зрения).
Главная боль: ты просишь AI объективно сравнить два варианта, но модель ведёт себя как покупатель, которого цепляет упаковка. Фотография с лучшим фоном и профессиональным светом вдвое чаще выбирается как «лучшая» — даже когда сам объект идентичен. Это происходит потому что у модели нет отдельного «контента» и «контекста» — она воспринимает изображение целиком, как единый сигнал.
Исследование нашло частичное решение — нормализацию изображений: перед оценкой попросить модель «убрать» визуальные преимущества подачи и оценивать только суть. Один шаг, работает в обычном чате.
Схема метода
ШАГ 1 [осознание]: Понять, что VLM судит по подаче, не только по сути
→ применяй при любой задаче с оценкой/выбором изображений
ШАГ 2 [нормализация — один промпт]:
→ Попроси модель описать оба изображения без визуальных
преимуществ подачи, затем сравни описания
→ Или явно запрети учитывать фон, свет, стиль фото
ШАГ 3 [финальная оценка]:
→ Теперь попроси выбрать — с ограничением на критерии
Всё выполняется в одном диалоге. Не требует отдельных инструментов.
Пример применения
Задача: Ты запускаешь карточки товаров на Wildberries. Нашёл двух разных поставщиков одного и того же товара — силиконовой лопатки. Хочешь попросить Claude выбрать, какая фотография лучше конвертирует. Одна фотография — на белом фоне, другая — в "атмосфере кухни" с деревянной разделочной доской и зеленью.
Без нормализации — ловушка:
Вот две фотографии лопатки. Какая лучше для карточки товара на маркетплейсе?
[прикрепляешь фото]
Claude почти гарантированно выберет "атмосферную" — потому что она визуально богаче. Но это не значит, что она лучше конвертирует на Wildberries.
Промпт с нормализацией:
Я прикрепляю две фотографии одной и той же силиконовой лопатки
от разных поставщиков. Мне нужно выбрать, какую использовать
в карточке товара на Wildberries.
Прежде чем сравнивать — важное условие: НЕ учитывай визуальную
подачу (фон, освещение, атмосферные детали, стилизацию, качество
съёмки). Оценивай только сам товар: форму, цвет силикона,
видимое качество, удобство ручки, насколько хорошо видны
функциональные характеристики.
Шаг 1. Опиши каждую лопатку как объект, игнорируя подачу.
Шаг 2. Сравни описания по критериям покупателя маркетплейса.
Шаг 3. Дай рекомендацию с объяснением.
Результат: Модель сначала выдаст два текстовых «досье» на лопатки — только функциональные характеристики. Потом сравнит их как текст, не как картинки. Рекомендация будет основана на реальных свойствах продукта, а не на том, чья фотография красивее.
Почему это работает
VLM видит изображение целиком и генерирует ответ на основе всего, что в нём есть. Отдельного «слоя оценки содержания» у неё нет. Поэтому атмосферный фон, профессиональный свет и дорогой реквизит — это не «декорации», а часть входных данных, которые влияют на вывод. Модель обучена на огромном количестве изображений, где "красивое фото = качественный продукт" — это реальная корреляция. Она её выучила.
Нормализация обходит это через переключение режима работы: вместо того чтобы оценивать картинку, модель сначала конвертирует её в текст с ограничениями. Текстовое описание уже не несёт сигналов освещения и фона. Дальнейшее сравнение идёт по описаниям — и предвзятость частично исчезает.
Рычаги управления: - Список того, что запрещено учитывать → чем конкретнее список (фон, свет, реквизит, стиль фото), тем точнее фильтрация - Явные критерии оценки → задай что считать важным: размер, форма, состояние, читаемость текста на упаковке - Количество проходов нормализации → для важных решений попроси описать повторно другими словами, потом сравни
Шаблон промпта
Я прикрепляю {число} изображений {что изображено}.
Мне нужно выбрать {цель выбора}.
Условие: перед сравнением выполни нормализацию.
НЕ учитывай при оценке: {что исключить — фон, освещение,
реквизит, стиль съёмки, атмосферу, качество фото}.
Оценивай только: {что оценивать — конкретные характеристики объекта}.
Шаг 1. Опиши каждое изображение только через заданные критерии.
Шаг 2. Сравни описания.
Шаг 3. Выбери и объясни решение.
Что подставлять:
- {число} — количество вариантов: два, три
- {что изображено} — продукт, логотип, фото кандидата, макет лендинга
- {цель выбора} — для карточки товара, для резюме, для рекламы
- {что исключить} — конкретно: "фон, освещение, стиль съёмки, дополнительный реквизит"
- {что оценивать} — конкретно: "читаемость текста на упаковке, пропорции, цвет продукта"
🚀 Быстрый старт — вставь в чат:
Вот шаблон нормализации изображений для честного сравнения.
Адаптируй под мою задачу: [твоя задача].
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит что именно сравниваешь, какова цель оценки и что важно в объекте — потому что без этого невозможно составить правильный список критериев и ограничений.
Ограничения
⚠️ Частичная защита: Нормализация снижает предвзятость, но не устраняет полностью. Даже после фильтрации модель иногда "чувствует" визуальное качество через описание — хорошая подача порождает богатое описание.
⚠️ Только для задач с изображениями: Весь метод работает только если у тебя есть Claude/GPT-4o или другая модель с поддержкой картинок. В текстовых чатах неприменимо.
⚠️ Не для субъективной эстетики: Если твой вопрос "какое фото красивее" — нормализация противоречит задаче. Метод нужен когда ты хочешь оценить объект, а не подачу.
⚠️ Нулевые правки уже смещают выбор: Простая просьба "сделай изображение презентабельнее" через любой генеративный инструмент создаёт предвзятость в VLM-оценке. Знай это, если твои изображения будут оцениваться AI-агентами.
Ресурсы
Visual Persuasion: What Influences Decisions of Vision-Language Models? Manuel Cherep, Pranav M R, Pattie Maes, Nikhil Singh MIT Media Lab, BITS Pilani, Dartmouth College Preprint, февраль 2026
Сайт: visual-persuasion-website.vercel.app
Связанные методы из статьи: TextGrad (Yuksekgonul et al., 2025), Feedback Descent (Lee et al., 2025)
