3,583 papers
arXiv:2602.15278 73 17 фев. 2026 г. FREE

Визуальная предвзятость VLM: фон и освещение меняют решение AI сильнее, чем содержание

КЛЮЧЕВАЯ СУТЬ
Claude выбирает фото с красивым студийным светом — даже если продукт на нём хуже. Исследование MIT на четырёх задачах (товары, резюме, отели, недвижимость) показало: визуальная презентация удваивает шанс выбора — независимо от содержания. Техника нормализации изображений позволяет получать честную оценку от мультимодального AI, отделив влияние съёмки от реального качества объекта. Просишь модель сначала описать визуальные свойства каждого фото отдельно — свет, фон, ракурс, палитру — потом мысленно уравнять условия, и только тогда сравнивать. Смещение снижается. Не исчезает, но становится видимым — а это уже контроль.
Адаптировать под запрос

TL;DR

Когда просишь AI с поддержкой изображений выбрать лучший продукт, более красивую фотографию или подходящего кандидата — модель сильно зависит от визуальной подачи, а не только от содержания. Одна и та же кружка на нейтральном фоне и в студийном освещении получит разную вероятность выбора. Это не баг, это системная особенность всех современных VLM (моделей с поддержкой зрения).

Главная боль: ты просишь AI объективно сравнить два варианта, но модель ведёт себя как покупатель, которого цепляет упаковка. Фотография с лучшим фоном и профессиональным светом вдвое чаще выбирается как «лучшая» — даже когда сам объект идентичен. Это происходит потому что у модели нет отдельного «контента» и «контекста» — она воспринимает изображение целиком, как единый сигнал.

Исследование нашло частичное решение — нормализацию изображений: перед оценкой попросить модель «убрать» визуальные преимущества подачи и оценивать только суть. Один шаг, работает в обычном чате.


🔬

Схема метода

ШАГ 1 [осознание]: Понять, что VLM судит по подаче, не только по сути
           → применяй при любой задаче с оценкой/выбором изображений

ШАГ 2 [нормализация — один промпт]:
           → Попроси модель описать оба изображения без визуальных
             преимуществ подачи, затем сравни описания
           → Или явно запрети учитывать фон, свет, стиль фото

ШАГ 3 [финальная оценка]:
           → Теперь попроси выбрать — с ограничением на критерии

Всё выполняется в одном диалоге. Не требует отдельных инструментов.


🚀

Пример применения

Задача: Ты запускаешь карточки товаров на Wildberries. Нашёл двух разных поставщиков одного и того же товара — силиконовой лопатки. Хочешь попросить Claude выбрать, какая фотография лучше конвертирует. Одна фотография — на белом фоне, другая — в "атмосфере кухни" с деревянной разделочной доской и зеленью.

Без нормализации — ловушка:

Вот две фотографии лопатки. Какая лучше для карточки товара на маркетплейсе?
[прикрепляешь фото]

Claude почти гарантированно выберет "атмосферную" — потому что она визуально богаче. Но это не значит, что она лучше конвертирует на Wildberries.

Промпт с нормализацией:

Я прикрепляю две фотографии одной и той же силиконовой лопатки 
от разных поставщиков. Мне нужно выбрать, какую использовать 
в карточке товара на Wildberries.

Прежде чем сравнивать — важное условие: НЕ учитывай визуальную 
подачу (фон, освещение, атмосферные детали, стилизацию, качество 
съёмки). Оценивай только сам товар: форму, цвет силикона, 
видимое качество, удобство ручки, насколько хорошо видны 
функциональные характеристики.

Шаг 1. Опиши каждую лопатку как объект, игнорируя подачу.
Шаг 2. Сравни описания по критериям покупателя маркетплейса.
Шаг 3. Дай рекомендацию с объяснением.

Результат: Модель сначала выдаст два текстовых «досье» на лопатки — только функциональные характеристики. Потом сравнит их как текст, не как картинки. Рекомендация будет основана на реальных свойствах продукта, а не на том, чья фотография красивее.


🧠

Почему это работает

VLM видит изображение целиком и генерирует ответ на основе всего, что в нём есть. Отдельного «слоя оценки содержания» у неё нет. Поэтому атмосферный фон, профессиональный свет и дорогой реквизит — это не «декорации», а часть входных данных, которые влияют на вывод. Модель обучена на огромном количестве изображений, где "красивое фото = качественный продукт" — это реальная корреляция. Она её выучила.

Нормализация обходит это через переключение режима работы: вместо того чтобы оценивать картинку, модель сначала конвертирует её в текст с ограничениями. Текстовое описание уже не несёт сигналов освещения и фона. Дальнейшее сравнение идёт по описаниям — и предвзятость частично исчезает.

Рычаги управления: - Список того, что запрещено учитывать → чем конкретнее список (фон, свет, реквизит, стиль фото), тем точнее фильтрация - Явные критерии оценки → задай что считать важным: размер, форма, состояние, читаемость текста на упаковке - Количество проходов нормализации → для важных решений попроси описать повторно другими словами, потом сравни


📋

Шаблон промпта

Я прикрепляю {число} изображений {что изображено}. 
Мне нужно выбрать {цель выбора}.

Условие: перед сравнением выполни нормализацию.
НЕ учитывай при оценке: {что исключить — фон, освещение, 
реквизит, стиль съёмки, атмосферу, качество фото}.
Оценивай только: {что оценивать — конкретные характеристики объекта}.

Шаг 1. Опиши каждое изображение только через заданные критерии.
Шаг 2. Сравни описания.
Шаг 3. Выбери и объясни решение.

Что подставлять: - {число} — количество вариантов: два, три - {что изображено} — продукт, логотип, фото кандидата, макет лендинга - {цель выбора} — для карточки товара, для резюме, для рекламы - {что исключить} — конкретно: "фон, освещение, стиль съёмки, дополнительный реквизит" - {что оценивать} — конкретно: "читаемость текста на упаковке, пропорции, цвет продукта"


🚀 Быстрый старт — вставь в чат:

Вот шаблон нормализации изображений для честного сравнения. 
Адаптируй под мою задачу: [твоя задача].
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит что именно сравниваешь, какова цель оценки и что важно в объекте — потому что без этого невозможно составить правильный список критериев и ограничений.


⚠️

Ограничения

⚠️ Частичная защита: Нормализация снижает предвзятость, но не устраняет полностью. Даже после фильтрации модель иногда "чувствует" визуальное качество через описание — хорошая подача порождает богатое описание.

⚠️ Только для задач с изображениями: Весь метод работает только если у тебя есть Claude/GPT-4o или другая модель с поддержкой картинок. В текстовых чатах неприменимо.

⚠️ Не для субъективной эстетики: Если твой вопрос "какое фото красивее" — нормализация противоречит задаче. Метод нужен когда ты хочешь оценить объект, а не подачу.

⚠️ Нулевые правки уже смещают выбор: Простая просьба "сделай изображение презентабельнее" через любой генеративный инструмент создаёт предвзятость в VLM-оценке. Знай это, если твои изображения будут оцениваться AI-агентами.


🔗

Ресурсы

Visual Persuasion: What Influences Decisions of Vision-Language Models? Manuel Cherep, Pranav M R, Pattie Maes, Nikhil Singh MIT Media Lab, BITS Pilani, Dartmouth College Preprint, февраль 2026

Сайт: visual-persuasion-website.vercel.app

Связанные методы из статьи: TextGrad (Yuksekgonul et al., 2025), Feedback Descent (Lee et al., 2025)


📋 Дайджест исследования

Ключевая суть

Claude выбирает фото с красивым студийным светом — даже если продукт на нём хуже. Исследование MIT на четырёх задачах (товары, резюме, отели, недвижимость) показало: визуальная презентация удваивает шанс выбора — независимо от содержания. Техника нормализации изображений позволяет получать честную оценку от мультимодального AI, отделив влияние съёмки от реального качества объекта. Просишь модель сначала описать визуальные свойства каждого фото отдельно — свет, фон, ракурс, палитру — потом мысленно уравнять условия, и только тогда сравнивать. Смещение снижается. Не исчезает, но становится видимым — а это уже контроль.

Принцип работы

Стандартный запрос 'выбери лучшее фото' отдаёт решение целиком на усмотрение модели. Она смотрит на изображение как на единое целое — и не разделяет 'что снято' и 'как снято'. Нормализация разбивает задачу на слои. Сначала — реестр визуальных свойств каждого фото: свет, фон, ракурс, цветовая палитра, реквизит. Потом — оценка смещения: что из этого создаёт преимущество независимо от самого объекта? И только потом — сравнение по реальному критерию. Модель вынуждена работать с визуальными свойствами как с отдельными переменными, а не пропускать их фоном. Итеративная нормализация — когда попросить пройти несколько кругов — работает лучше однократной.

Почему работает

Модель обучалась на данных, где профессионально сфотографированное — это, как правило, действительно лучший выбор: товар от нормального продавца, интерьер хорошего отеля, резюме аккуратного кандидата. Связь реальная, но смещённая от твоей задачи: ты спрашиваешь о продукте, модель отвечает про съёмку — просто не знает об этом. Когда принудительно выводишь визуальные свойства в активное внимание, модель начинает работать с ними явно, а не неосознанно. Полностью убрать это нельзя — но сделать видимым, где именно модель 'плывёт' под влиянием оформления, можно.

Когда применять

Любая задача сравнения изображений в чате — особенно когда нужна честная оценка, а не победа по красоте съёмки. Выбор фото для карточки товара на маркетплейсе: когда важно понять, какое фото лучше передаёт сам продукт, а не просто красивее. Подбор фото для объявления о сдаче квартиры или номера. Сравнение рекламных баннеров, где нужно убрать влияние дизайна и оценить только сообщение. Оценка фото для профиля — резюме, портфолио, профессиональный образ. НЕ подходит, если цель — именно оптимизировать презентацию под AI-оценку: тогда нормализация тебе мешает, а не помогает.

Мини-рецепт

1. Загрузи изображения в Claude, GPT-4o или Gemini — их должно быть два и больше.
2. Запроси реестр свойств: попроси модель описать для каждого фото отдельно — освещение (студийное / естественное / тёмное), фон (нейтральный / контекстный / перегруженный), ракурс, цветовую палитру, детали обстановки.
3. Попроси оценить смещение: что из этих свойств создаёт преимущество или недостаток отдельно от самого объекта на фото?
4. Нормализованная оценка: попроси представить, что все фото сняты в одинаковых условиях, и сравнить только по нужному критерию.
5. Финал с разделением: попроси явно указать — выбор обусловлен оформлением или содержанием? Это самый полезный вывод.

Примеры

[ПЛОХО] : Вот два фото кофемашины. Какое лучше поставить в карточку товара? Модель сравнит и выберет — скорее всего, студийное на белом фоне. Без объяснений, почему. Без понимания, насколько выбор обусловлен светом, а не самим продуктом.
[ХОРОШО] : Сравни два фото кофемашины для карточки товара. Сначала — шаг нормализации: опиши визуальные свойства каждого фото (освещение, фон, ракурс, палитра, реквизит). Потом оцени: какое из этих свойств создаёт преимущество независимо от самой машины? Затем представь, что оба фото сняты в одинаковых условиях — и оцени только продукт. В финале укажи: выбор за счёт съёмки или за счёт самой кофемашины? Модель вскроет, где студийный свет создаёт искусственное преимущество, а где контекстное фото с кружкой добавляет жизненность. Финальная рекомендация будет с явным разделением — и ты увидишь, где оценка честная, а где модель сама попалась на красивую картинку.
Источник: Visual Persuasion: What Influences Decisions of Vision-Language Models? — Cherep, Pranav M R, Maes, Singh (MIT Media Lab, 2026)
ArXiv ID: 2602.15278 | Сгенерировано: 2026-02-20 10:52

Проблемы LLM

ПроблемаСутьКак обойти
Мультимодальная модель оценивает оформление, а не содержаниеПросишь сравнить два изображения. Модель выбирает то, что красивее сфотографировано. Свет, фон, ракурс, цветовая палитра — всё это незаметно сдвигает выбор. Содержание при этом одинаковое. Проблема в том, что модель обучалась на данных где "лучше снято" и "лучший вариант" совпадали. Связь выучена и применяется автоматически. Работает для любых задач: выбор товарного фото, оценка резюме с фото, сравнение интерьеров, анализ рекламных материаловПопроси модель сначала описать визуальные свойства каждого изображения отдельно: освещение, фон, ракурс, цвета, детали обстановки. Потом — оценить насколько эти свойства создают преимущество независимо от содержания. И только потом — сравнить сами объекты. Это не убирает смещение полностью, но снижает его

Методы

МетодСуть
Нормализация перед оценкой изображений — честное сравнениеПеред сравнением даёшь модели три явных шага. Шаг 1: описание — "опиши визуальные свойства каждого изображения: освещение, фон, ракурс, цвета, реквизит". Шаг 2: смещение — "какие из этих свойств дают преимущество независимо от самого объекта?". Шаг 3: оценка — "представь что все изображения сняты в одинаковых условиях — теперь сравни по критерию {что важно}". Почему работает: Когда модель явно описывает визуальные свойства, она начинает работать с ними как с отдельными переменными. Не пропускает их как фоновый шум. Смещение становится видимым — и частично нейтрализуется. Когда применять: сравниваешь 2+ изображений, хочешь честную оценку, а не победу "красивой съёмки". Не работает: если нужна именно оценка презентации, а не содержания
📖 Простыми словами

Visual Persuasion: What Influences Decisions of Vision-LanguageModels?

arXiv: 2602.15278

Современные Vision-Language Models (VLM) выбирают товары или идеи не по их реальным характеристикам, а по тому, как «вкусно» они упакованы. Если ты покажешь нейронке две одинаковые кружки, но одну сфоткаешь на фоне обшарпанной стены, а вторую — в лучах закатного солнца, модель выберет вторую с вероятностью близкой к стопроцентной. Суть в том, что у AI нет отдельного модуля для логики и отдельного для зрения: он воспринимает картинку как единый массив данных, где освещение и фон значат столько же, сколько и сам объект.

Это как если бы ты пришел в ресторан и оценивал вкус стейка по чистоте фартука официанта. Вроде бы глупо, но подсознание шепчет, что у парня в грязном фартуке мясо будет тухлым. Модели обучались на миллиардах картинок из интернета, где работает жесткая корреляция: дорогой свет и композиция обычно сопровождают качественные бренды. В итоге нейронка просто копирует наши человеческие когнитивные искажения, превращая визуальный шум в решающий фактор выбора.

Что реально работает на выбор модели: студийное освещение (создает ощущение премиальности), контекстный фон (лопатка на кухне выглядит «правильнее», чем в пустоте) и высокая четкость. Исследование четко показывает, что визуальная подача — это не просто украшательство, а инструмент убеждения. Если ты хочешь, чтобы GPT-4o или Claude выбрали твой оффер среди прочих, тебе нужно не текст полировать, а выставлять свет в кадре, потому что для VLM красивая картинка равна качественному решению.

Применять этот принцип можно везде, где AI выступает в роли судьи или фильтра: от оформления карточек на маркетплейсах до создания презентаций, которые будут анализировать автоматические системы. Тестировали на товарах, но принцип универсален для любого визуального контента. Если ты закидываешь в модель скриншот своего софта, и он выглядит как привет из 90-х, никакое описание функций не спасет — модель решит, что это хлам, просто на основе визуала.

Короче: эпоха «просто хорошего продукта» закончилась, наступает эра визуального хакинга нейросетей. Хватит надеяться на сухие факты — если картинка не продает, то VLM тебя просто проигнорирует. Визуальная подача — это новый промпт-инжиниринг, и те, кто продолжит постить фото на «тапочек», скоро обнаружат, что их охваты и продажи улетели в трубу. Кто первым научится манипулировать взглядом модели через свет и фон, тот и заберет рынок.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с