TL;DR
Когда ты отправляешь фото в ChatGPT или Claude, модель воспринимает изображение не так, как человек. Исследователи из UC Santa Barbara разработали метод CSS (Counterfactual Semantic Saliency — метрика важности объектов через их удаление), который позволил измерить этот разрыв точно: убирали объекты с фото по одному и смотрели насколько менялось описание.
Главная находка: Модели систематически переоценивают большие, центральные и контрастные объекты — даже если они не важны по смыслу. И при этом недооценивают людей на фото — именно то, на чём человек фокусируется в первую очередь. Если на фото маленький человек в углу и огромный стол по центру — модель будет про стол, человек сам расскажи.
Понимание этих биасов (когнитивных перекосов) даёт конкретный приём для работы с изображениями: явно указывай, на что смотреть, особенно если важное — маленькое, у края или это люди. Иначе модель отработает по своим дефолтным перекосам, не по твоим приоритетам.
Схема метода
Это исследовательская находка, а не пошаговая техника. Применение — на уровне принципов промптинга при работе с изображениями:
ПЕРЕКОС 1: Крупные объекты → модель переоценивает
ПЕРЕКОС 2: Центральные объекты → модель переоценивает
ПЕРЕКОС 3: Контрастные/яркие объекты → модель переоценивает
ПЕРЕКОС 4: Люди на фото → модель НЕДОоценивает
↓
РЕШЕНИЕ: Явно назови то, что важно.
Особенно — людей, мелкие детали, периферийные объекты.
Всё работает в одном запросе с изображением.
Пример применения
Задача: Оля — владелица небольшого шоурума в Москве. Хочет, чтобы Claude описал фото интерьера для карточки на Авито: большой диван по центру, маленькие дизайнерские светильники по углам, и менеджер Женя стоит у стены — важно передать атмосферу живого пространства с людьми.
Без понимания перекосов:
Опиши это фото интерьера для объявления на Авито.
Модель напишет про диван. Про диван. Ещё раз про диван. Светильники упомянет вскользь. Женю проигнорирует.
Промпт с учётом перекосов:
Опиши это фото интерьера для объявления на Авито.
Обрати особое внимание:
— Человек в кадре: как он взаимодействует с пространством, какую атмосферу создаёт
— Светильники в углах: их форма, свет, дизайн
— Общее ощущение от пространства, не только центральные объекты
Не зацикливайся на самом крупном предмете по центру — опиши всю сцену как целое.
Результат: Модель сгенерирует описание, которое включит человека, периферийные детали и общую атмосферу — а не монолог про диван. Текст будет полнее и точнее передаст то, что важно продавцу.
Почему это работает
LLM с зрением обучались на миллионах фото, где объекты чаще всего крупные и по центру — так их снимают фотографы. Модели впитали это как «что важно = что большое и в центре». Это не баг — это статистический паттерн из обучающих данных.
Человек смотрит иначе. Мы эволюционно заточены замечать лица и людей даже на периферии, даже маленьких. Мы читаем сцену как нарратив, а не как набор объектов по размеру. Модель этого не наследует автоматически.
Явное указание на объект переопределяет дефолтный перекос. Когда ты называешь «светильники в углах» или «человек у стены» — ты буквально говоришь модели: вот что тут важно. Она следует инструкции, а не своему внутреннему ранжированию по размеру.
Рычаги управления: - Перечисли важные объекты явно → модель не проигнорирует мелкое и периферийное - Добавь "не ограничивайся центральными объектами" → снижаешь центральный перекос - Явно упомяни людей в кадре → обходишь самый неожиданный перекос (модели системно недооценивают людей) - Задай рамку интерпретации ("опиши как живое пространство", "передай атмосферу") → помогает модели работать на уровне смысла, а не пикселей
Шаблон промпта
{Задача с изображением}.
Особое внимание удели:
— {Объект 1, который важен, но может быть мелким или у края}
— {Люди в кадре, если есть: что делают, какую атмосферу создают}
— {Другие детали, которые могут быть проигнорированы}
Не ограничивайся самыми крупными объектами в центре — {цель анализа}.
Что подставлять:
- {Задача} — опиши, проанализируй, оцени, найди проблемы на фото
- {Объект 1} — то, что важно тебе, но рискует быть проигнорированным (мелкое, угловое, неяркое)
- {Люди в кадре} — всегда добавляй отдельным пунктом, если люди важны
- {Цель анализа} — что именно нужно получить: атмосферу, проблемы, детали
🚀 Быстрый старт — вставь в чат:
Вот шаблон для анализа изображений с учётом перекосов AI-восприятия.
Адаптируй под мою задачу: {твоя задача с фото}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит что важно на конкретном фото и какова цель анализа — потому что без этого она не знает, чьи перекосы преодолевать конкретно в твоей ситуации.
Ограничения
⚠️ Только для работы с изображениями: Все выводы применимы исключительно когда ты отправляешь фото в мультимодальную модель (ChatGPT с GPT-4o, Claude с картинками, Gemini). Для текстовых задач нерелевантно.
⚠️ Явное указание не гарантирует точность: Ты можешь направить внимание модели, но если объект действительно крошечный или плохо различимый, даже явная инструкция не поможет — модель просто не «видит» его достаточно чётко.
⚠️ Перекосы различаются по моделям: Исследование протестировало 19 разных моделей — все имеют перекосы, но в разной степени. Крупные закрытые модели (GPT, Claude, Gemini) чуть лучше, но разрыв с человеческим восприятием остался у всех.
⚠️ Метод CSS сам — не для чата: Сама техника измерения важности объектов через удаление требует кода, API и инструментов для редактирования фото. Применимы только выводы — не инструмент.
Как исследовали
Команда придумала элегантную установку: взяли 307 реальных сложных фотографий с несколькими объектами, с помощью современного AI-инструмента для редактирования изображений (Nano Banana 2) аккуратно убрали с каждого фото отдельные объекты — по одному за раз. Получилось 1306 «безобъектных» версий. Потом попросили и людей, и 19 разных VLM описать оригинал и все версии с убранными объектами. Логика простая: если убрал объект и описание сильно изменилось — значит, этот объект был важен. Так измерили, что каждая из сторон считает важным.
Удивительно: ни одна из 19 моделей не достигла уровня согласованности между людьми. Люди угадывали «самый важный объект» в 73% случаев, модели — от 57% до 65%. И самое неожиданное: люди на фото — это первое, на чём фиксируются другие люди, и последнее, на чём фиксируются модели. Эволюционный приоритет «замечай лицо» моделям не передался. Зато передался фотографический артефакт «главное — крупное и в центре».
Исследователи дополнительно провели регрессию, чтобы понять что именно объясняет разрыв между моделями и людьми. Победил Size Bias — перекос на крупные объекты оказался главным предиктором того, насколько модель расходится с человеческим восприятием.
Адаптации и экстраполяции
🔧 Техника: Инверсия фокуса для аудита фото
Если хочешь проверить, что модель «видит» по умолчанию — сначала попроси описать без инструкций. Потом попроси описать снова, явно назвав важное. Сравни два ответа. Разница покажет, что было проигнорировано из-за перекосов.
🔧 Техника: "Анти-центровый" промпт для детального анализа
Для задач где важна периферия (осмотр помещения на предмет проблем, контроль качества продукции, анализ фото события):
Проанализируй изображение {цель}.
Начни с периферии и краёв — опиши что там.
Потом перейди к мелким деталям.
В последнюю очередь — крупные центральные объекты.
Если на фото есть люди — опиши их отдельным блоком:
что делают, как расположены, какую роль играют в сцене.
Меняя порядок описания — сначала края, потом центр — ты буквально переопределяешь приоритеты обработки и получаешь менее «диван-центричный» анализ.
Ресурсы
Название работы: Revealing the Gap in Human and VLM Scene Perception through Counterfactual Semantic Saliency
GitHub: https://github.com/starsky77/Counterfactual-Semantic-Saliency
Авторы: Ziqi Wen, Parsa Madinei, Miguel P. Eckstein — Department of Computer Science и Department of Psychological and Brain Sciences, University of California, Santa Barbara
