3,583 papers
arXiv:2605.13047 70 13 мая 2026 г. FREE

Перцептивный разрыв VLM: почему модели «смотрят» на фото иначе, чем люди — и как это учесть в промпте

КЛЮЧЕВАЯ СУТЬ
Парадокс: у всех 19 протестированных мультимодальных моделей нашли один и тот же слепой угол — они систематически не замечают людей на фото. Именно то, на чём человек фиксируется в первую очередь. Исследование точно замерило четыре систематических перекоса восприятия — и это даёт конкретный инструмент: явно назови в промпте то, что важно тебе — модель переключится с дефолтного ранжирования на твой приоритет. Один дополнительный абзац — и модель перестаёт описывать диван вместо менеджера в углу.
Адаптировать под запрос

TL;DR

Когда ты отправляешь фото в ChatGPT или Claude, модель воспринимает изображение не так, как человек. Исследователи из UC Santa Barbara разработали метод CSS (Counterfactual Semantic Saliency — метрика важности объектов через их удаление), который позволил измерить этот разрыв точно: убирали объекты с фото по одному и смотрели насколько менялось описание.

Главная находка: Модели систематически переоценивают большие, центральные и контрастные объекты — даже если они не важны по смыслу. И при этом недооценивают людей на фото — именно то, на чём человек фокусируется в первую очередь. Если на фото маленький человек в углу и огромный стол по центру — модель будет про стол, человек сам расскажи.

Понимание этих биасов (когнитивных перекосов) даёт конкретный приём для работы с изображениями: явно указывай, на что смотреть, особенно если важное — маленькое, у края или это люди. Иначе модель отработает по своим дефолтным перекосам, не по твоим приоритетам.


🔬

Схема метода

Это исследовательская находка, а не пошаговая техника. Применение — на уровне принципов промптинга при работе с изображениями:

ПЕРЕКОС 1: Крупные объекты → модель переоценивает
ПЕРЕКОС 2: Центральные объекты → модель переоценивает  
ПЕРЕКОС 3: Контрастные/яркие объекты → модель переоценивает
ПЕРЕКОС 4: Люди на фото → модель НЕДОоценивает

↓

РЕШЕНИЕ: Явно назови то, что важно.
Особенно — людей, мелкие детали, периферийные объекты.

Всё работает в одном запросе с изображением.


🚀

Пример применения

Задача: Оля — владелица небольшого шоурума в Москве. Хочет, чтобы Claude описал фото интерьера для карточки на Авито: большой диван по центру, маленькие дизайнерские светильники по углам, и менеджер Женя стоит у стены — важно передать атмосферу живого пространства с людьми.

Без понимания перекосов:

Опиши это фото интерьера для объявления на Авито.

Модель напишет про диван. Про диван. Ещё раз про диван. Светильники упомянет вскользь. Женю проигнорирует.

Промпт с учётом перекосов:

Опиши это фото интерьера для объявления на Авито.

Обрати особое внимание:
— Человек в кадре: как он взаимодействует с пространством, какую атмосферу создаёт
— Светильники в углах: их форма, свет, дизайн
— Общее ощущение от пространства, не только центральные объекты

Не зацикливайся на самом крупном предмете по центру — опиши всю сцену как целое.

Результат: Модель сгенерирует описание, которое включит человека, периферийные детали и общую атмосферу — а не монолог про диван. Текст будет полнее и точнее передаст то, что важно продавцу.


🧠

Почему это работает

LLM с зрением обучались на миллионах фото, где объекты чаще всего крупные и по центру — так их снимают фотографы. Модели впитали это как «что важно = что большое и в центре». Это не баг — это статистический паттерн из обучающих данных.

Человек смотрит иначе. Мы эволюционно заточены замечать лица и людей даже на периферии, даже маленьких. Мы читаем сцену как нарратив, а не как набор объектов по размеру. Модель этого не наследует автоматически.

Явное указание на объект переопределяет дефолтный перекос. Когда ты называешь «светильники в углах» или «человек у стены» — ты буквально говоришь модели: вот что тут важно. Она следует инструкции, а не своему внутреннему ранжированию по размеру.

Рычаги управления: - Перечисли важные объекты явно → модель не проигнорирует мелкое и периферийное - Добавь "не ограничивайся центральными объектами" → снижаешь центральный перекос - Явно упомяни людей в кадре → обходишь самый неожиданный перекос (модели системно недооценивают людей) - Задай рамку интерпретации ("опиши как живое пространство", "передай атмосферу") → помогает модели работать на уровне смысла, а не пикселей


📋

Шаблон промпта

{Задача с изображением}.

Особое внимание удели:
— {Объект 1, который важен, но может быть мелким или у края}
— {Люди в кадре, если есть: что делают, какую атмосферу создают}
— {Другие детали, которые могут быть проигнорированы}

Не ограничивайся самыми крупными объектами в центре — {цель анализа}.

Что подставлять: - {Задача} — опиши, проанализируй, оцени, найди проблемы на фото - {Объект 1} — то, что важно тебе, но рискует быть проигнорированным (мелкое, угловое, неяркое) - {Люди в кадре} — всегда добавляй отдельным пунктом, если люди важны - {Цель анализа} — что именно нужно получить: атмосферу, проблемы, детали


🚀 Быстрый старт — вставь в чат:

Вот шаблон для анализа изображений с учётом перекосов AI-восприятия. 
Адаптируй под мою задачу: {твоя задача с фото}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит что важно на конкретном фото и какова цель анализа — потому что без этого она не знает, чьи перекосы преодолевать конкретно в твоей ситуации.


⚠️

Ограничения

⚠️ Только для работы с изображениями: Все выводы применимы исключительно когда ты отправляешь фото в мультимодальную модель (ChatGPT с GPT-4o, Claude с картинками, Gemini). Для текстовых задач нерелевантно.

⚠️ Явное указание не гарантирует точность: Ты можешь направить внимание модели, но если объект действительно крошечный или плохо различимый, даже явная инструкция не поможет — модель просто не «видит» его достаточно чётко.

⚠️ Перекосы различаются по моделям: Исследование протестировало 19 разных моделей — все имеют перекосы, но в разной степени. Крупные закрытые модели (GPT, Claude, Gemini) чуть лучше, но разрыв с человеческим восприятием остался у всех.

⚠️ Метод CSS сам — не для чата: Сама техника измерения важности объектов через удаление требует кода, API и инструментов для редактирования фото. Применимы только выводы — не инструмент.


🔍

Как исследовали

Команда придумала элегантную установку: взяли 307 реальных сложных фотографий с несколькими объектами, с помощью современного AI-инструмента для редактирования изображений (Nano Banana 2) аккуратно убрали с каждого фото отдельные объекты — по одному за раз. Получилось 1306 «безобъектных» версий. Потом попросили и людей, и 19 разных VLM описать оригинал и все версии с убранными объектами. Логика простая: если убрал объект и описание сильно изменилось — значит, этот объект был важен. Так измерили, что каждая из сторон считает важным.

Удивительно: ни одна из 19 моделей не достигла уровня согласованности между людьми. Люди угадывали «самый важный объект» в 73% случаев, модели — от 57% до 65%. И самое неожиданное: люди на фото — это первое, на чём фиксируются другие люди, и последнее, на чём фиксируются модели. Эволюционный приоритет «замечай лицо» моделям не передался. Зато передался фотографический артефакт «главное — крупное и в центре».

Исследователи дополнительно провели регрессию, чтобы понять что именно объясняет разрыв между моделями и людьми. Победил Size Bias — перекос на крупные объекты оказался главным предиктором того, насколько модель расходится с человеческим восприятием.


💡

Адаптации и экстраполяции

🔧 Техника: Инверсия фокуса для аудита фото

Если хочешь проверить, что модель «видит» по умолчанию — сначала попроси описать без инструкций. Потом попроси описать снова, явно назвав важное. Сравни два ответа. Разница покажет, что было проигнорировано из-за перекосов.

🔧 Техника: "Анти-центровый" промпт для детального анализа

Для задач где важна периферия (осмотр помещения на предмет проблем, контроль качества продукции, анализ фото события):

Проанализируй изображение {цель}.

Начни с периферии и краёв — опиши что там.
Потом перейди к мелким деталям.
В последнюю очередь — крупные центральные объекты.

Если на фото есть люди — опиши их отдельным блоком: 
что делают, как расположены, какую роль играют в сцене.

Меняя порядок описания — сначала края, потом центр — ты буквально переопределяешь приоритеты обработки и получаешь менее «диван-центричный» анализ.


🔗

Ресурсы

Название работы: Revealing the Gap in Human and VLM Scene Perception through Counterfactual Semantic Saliency

GitHub: https://github.com/starsky77/Counterfactual-Semantic-Saliency

Авторы: Ziqi Wen, Parsa Madinei, Miguel P. Eckstein — Department of Computer Science и Department of Psychological and Brain Sciences, University of California, Santa Barbara


📋 Дайджест исследования

Ключевая суть

Парадокс: у всех 19 протестированных мультимодальных моделей нашли один и тот же слепой угол — они систематически не замечают людей на фото. Именно то, на чём человек фиксируется в первую очередь. Исследование точно замерило четыре систематических перекоса восприятия — и это даёт конкретный инструмент: явно назови в промпте то, что важно тебе — модель переключится с дефолтного ранжирования на твой приоритет. Один дополнительный абзац — и модель перестаёт описывать диван вместо менеджера в углу.

Принцип работы

Модель переоценивает большое, центральное и яркое. Недооценивает мелкое, периферийное и — что особенно странно — людей. Четыре перекоса выглядят так: Крупные объекты → переоценка. Центральные объекты → переоценка. Яркие и контрастные объекты → переоценка. Люди в кадре → недооценка. Это не баг — это статистика: обучающие данные полны фотографий, где важное снято крупным планом и по центру. Назови объект явно — и модель игнорирует своё внутреннее ранжирование.

Почему работает

Фотографы снимают важное крупно и по центру. Модель впитала этот паттерн из миллионов снимков. Человек видит иначе: мы эволюционно заточены замечать лица даже мельком, даже в дальнем углу. Модель этого не наследует автоматически. Явное указание переопределяет внутреннее ранжирование: ты буквально переписываешь приоритет для этого конкретного запроса. Прикол: модель не спорит и не «знает лучше» — она следует инструкции. Ей просто нужно её дать.

Когда применять

Любая задача с изображением в мультимодальной модели — GPT-4o, Claude с картинками, Gemini. Особенно когда: люди в кадре важны для смысла сцены, нужные детали маленькие или у края, яркий центральный объект — не главное. НЕ подходит для текстовых задач — это работает только когда ты отправляешь изображение. Также не поможет если объект настолько мелкий, что модель физически его не различает — явная инструкция усиливает внимание, но не добавляет разрешение.

Мини-рецепт

1. Перечисли что важно: явно назови людей, мелкие детали, периферийные объекты — то, что рискует быть проигнорированным.
2. Людей выноси отдельным пунктом: человек в кадре — что делает, какую атмосферу создаёт.
3. Добавь ограничение на центральное: не зацикливайся на самом крупном объекте по центру или опиши всю сцену, не только самое заметное.
4. Задай рамку смысла: опиши как живое пространство или передай нарратив сцены — это переключает модель с перечисления объектов по размеру на чтение смысла.

Примеры

[ПЛОХО] : Опиши это фото для объявления об аренде офиса.
[ХОРОШО] : Опиши это фото для объявления об аренде офиса. Обрати особое внимание: — Человек в кадре: как взаимодействует с пространством, какую рабочую атмосферу создаёт — Детали отделки у стен и у окна: материалы, свет, фактура — Ощущение от всего пространства в целом Не ограничивайся самым крупным предметом по центру — опиши сцену целиком. Результат: вместо монолога про переговорный стол — описание, которое передаёт атмосферу, включает людей и периферийные детали. Именно это продаёт аренду.
Источник: Revealing the Gap in Human and VLM Scene Perception through Counterfactual Semantic Saliency
ArXiv ID: 2605.13047 | Сгенерировано: 2026-05-14 05:34

Проблемы LLM

ПроблемаСутьКак обойти
Мультимодальная модель игнорирует людей и мелкие объекты на фотоОтправляешь фото с несколькими объектами. Модель описывает самый большой объект в центре. Люди, мелкие детали, угловые элементы — игнорируются. Не потому что ты не попросил. Потому что у модели есть встроенное ранжирование: большой + центральный = важный. Это ломает задачи где важное маленькое или это человекЯвно перечисли объекты которые важны. Особо — людей в кадре. Добавь: "не ограничивайся самыми крупными объектами"

Методы

МетодСуть
Явный список приоритетов для анализа фотоПеред задачей перечисли что важно: Особое внимание: — [человек в кадре][мелкий объект у края][деталь которую легко пропустить]. Добавь: "Не ограничивайся центральными и крупными объектами". Почему работает: Явное указание переопределяет встроенное ранжирование модели. Она следует инструкции, а не своей дефолтной иерархии по размеру. Когда применять: любая задача с фото где важное не самое крупное или не в центре. Обязательно — если на фото есть люди и они важны. Когда не поможет: объект слишком мелкий и плохо различимый. Тогда модель просто не видит его достаточно чётко
📖 Простыми словами

Revealing the Gap in Human and VLM Scene Perception through Counterfactual Semantic Saliency

arXiv: 2605.13047

Нейросети видят мир не глазами, а статистикой, и в этом их главная проблема. Когда ты скармливаешь картинку VLM (зрительной языковой модели), она не рассматривает её как человек, который цепляется взглядом за детали. Модель работает через семантическую значимость: она ищет объекты, которые чаще всего встречались в её обучающей выборке в центре кадра. Для неё «важно» — это почти всегда «огромное и посередине». Исследователи доказали это через метод CSS, буквально вырезая объекты с фото и замеряя, насколько у модели «отвалится» логика описания.

Это как если бы ты пришёл на выставку с близоруким искусствоведом, который забыл очки. Он не видит тонких мазков или выражения лица на портрете, зато отлично замечает, что на стене висит здоровенное золотое пятно. Если убрать это пятно, он замолчит, а если убрать крошечную, но концептуально важную деталь в углу — он даже не заметит подвоха. Модели ведут себя так же: они игнорируют контекст и мелкие нюансы, фокусируясь на статистических якорях.

Метод Counterfactual Semantic Saliency (CSS) вскрыл этот разрыв максимально наглядно. Учёные брали фото, поочерёдно удаляли из него предметы и смотрели, как меняется текстовый выхлоп нейронки. Выяснилось, что 10 из 10 моделей фатально зависят от размера и расположения объекта. Если на фото интерьера стоит огромный диван, а в углу — живой человек, модель вывалит простыню текста про обивку дивана, а человека может вообще «забыть», потому что он занимает мало пикселей. Формально она видит всё, но по факту — только то, что жирнее прорисовано.

Этот принцип универсален для любой работы с визуальным AI, будь то ChatGPT, Claude или Gemini. Если ты хочешь, чтобы нейронка заметила «атмосферу» или конкретную маленькую деталь, бесполезно просто кидать фото и ждать чуда. Нужно понимать: для модели геометрия важнее смысла. Этот разрыв в восприятии означает, что без четкого указания в промпте на мелкие детали, AI будет нести стандартную чепуху про самые крупные пятна на картинке. Размер имеет значение, и в мире VLM это приговор для нюансов.

Короче: хватит надеяться на «интеллект» зрения нейросетей — они до сих пор смотрят на мир как близорукие калькуляторы. Если тебе важно, чтобы AI заметил менеджера Женю у стены, а не только диван-гигант, тыкай модель носом в детали через текст. Либо делай кроп важного участка, либо смирись с тем, что для нейросети фон — это просто шум, а не часть композиции. Кто понимает эту механику «слепоты», тот получает точные описания, остальные — гадают, почему AI тупит на ровном месте.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с