TL;DR
Мультимодальные модели (те, что работают с изображениями: GPT-4o, Claude, Gemini) умеют находить объекты на картинке, но системно ошибаются в описании отношений между ними. Причина — Visual Inertia («визуальная инерция»): внимание модели «прилипает» к одной зоне изображения в начале генерации и больше не сдвигается, даже когда для ответа нужно динамично переключаться между несколькими объектами.
Стандартная реакция пользователей — «попроси ещё раз» или «скажи смотреть внимательнее» — не работает. Исследователи подтвердили: усиление внимания к изображению закрепляет инерцию, а не ломает её. Точно так же не помогают популярные техники усиления визуального внимания — они увеличивают интенсивность там, где модель уже застряла.
Исследование описывает метод IVE (Inertia-aware Visual Excitation), который отслеживает историю внимания на каждом шаге генерации и перераспределяет его от «застрявших» зон к тем, куда внимание ещё не заходило. IVE работает без дообучения — только манипуляция весами внимания в реальном времени. Применить IVE в обычном чате нельзя: нужен доступ к весам модели. Но инсайт про инерцию даёт конкретные техники промптинга, которые частично воспроизводят эффект вручную.
Схема метода
Что делает IVE внутри модели (понять механику → применить вручную):
ШАГ 1: Отслеживание истории внимания
→ модель запоминает, на каких зонах картинки фокусировалась раньше
ШАГ 2: Классификация токенов (каждый шаг генерации)
→ «застрявшие» токены — зоны с устойчивой высокой концентрацией
→ «всплывающие» токены — зоны, которые стали важны относительно истории
ШАГ 3: Перераспределение внимания
→ внимание от «застрявших» зон → переносится на «всплывающие»
→ генерация следующего слова идёт с обновлённым вниманием
Всё происходит автоматически на каждом шаге в одном проходе.
Ручной аналог для чата:
ШАГ 1: Принудительное сканирование частей изображения (отдельный промпт)
→ "Опиши только [объект A]" → "Опиши только [объект B]"
ШАГ 2: Синтез отношений (отдельный промпт)
→ "Теперь опиши, как [A] связан с [B]"
Пример применения
Задача: Ты запускаешь Wildberries-карточку и загружаешь фото товара в ChatGPT с просьбой написать описание. Модель правильно называет предметы, но путает их расположение, состав сцены, взаимодействие элементов — и описание получается мимо.
Промпт (два шага вместо одного):
Шаг 1. Посмотри на изображение и выполни по очереди:
1. Опиши только главный товар — что именно это за предмет,
его форма, материал, цвет.
2. Опиши только фон и окружение — что находится рядом,
какая атмосфера.
3. Опиши только детали и элементы товара по отдельности
(если есть несколько).
Не пиши описание карточки — только эти три наблюдения.
---
Шаг 2 (отдельное сообщение после ответа):
Теперь, опираясь на то, что ты описал выше, напиши описание
для карточки Wildberries. Покажи, как элементы товара сочетаются
друг с другом и как он вписывается в сцену.
Результат: Модель сначала «принудительно просканирует» разные части изображения по очереди — это ломает инерцию застревания на одной зоне. В финальном описании будут правильные пространственные отношения, сочетание элементов, атмосфера сцены. Без этого шага модель нередко сочиняет отношения между компонентами — особенно если объектов несколько.
Почему это работает
Слабость мультимодальных LLM: Модель не «смотрит» на изображение как человек. Она преобразует картинку в набор токенов (участков) и при генерации каждого слова тянет внимание к части этих токенов. Ранние шаги генерации «задают паттерн» — внимание прилипает к тем участкам, которые оказались важны первыми. Дальше оно уже почти не двигается.
Почему объекты ≠ отношения: Найти объект — значит правильно опознать один участок изображения. Описать отношение — значит одновременно активировать несколько участков и сравнить их. При инерции модель держит внимание на одном, описывает другие по памяти или придумывает. Результат: кот есть, стол есть, а «на столе» или «под столом» — лотерея.
Как ручное сканирование ломает инерцию: Когда мы принуждаем модель последовательно описывать разные объекты в отдельных задачах, мы искусственно «принудительно перемещаем» её внимание. К моменту синтеза у модели в контексте уже есть текстовые описания разных зон — и финальный запрос опирается на этот текст, а не на «застрявшее» внимание к одной точке изображения.
Рычаги управления: - Количество шагов сканирования → больше объектов = больше отдельных описаний перед синтезом - Детализация каждого шага → попроси описать расположение каждого объекта относительно края кадра — это заставляет модель работать с пространством - Явное указание на отношения → в синтезном запросе назови конкретные отношения: "как X расположен относительно Y", "что происходит между A и B"
Шаблон промпта
Шаг 1. Изучи изображение и ответь по очереди на каждый пункт отдельно:
1. Только {объект_A}: опиши его — форма, положение в кадре, детали.
2. Только {объект_B}: опиши его — форма, положение в кадре, детали.
3. Только {объект_C} (если есть): то же самое.
Не делай выводов и не описывай сцену целиком — только отдельные наблюдения.
---
Шаг 2 (после получения ответа на шаг 1 — новое сообщение):
Теперь, используя всё, что ты описал выше, ответь на вопрос:
{что именно нужно узнать об отношениях между объектами}
Плейсхолдеры:
- {объект_A}, {объект_B}, {объект_C} — назови конкретные элементы на изображении
- {что именно нужно узнать} — твой финальный вопрос: "как они расположены друг к другу", "что происходит между ними", "напиши текст про их взаимодействие"
🚀 Быстрый старт — вставь в чат с изображением:
Вот шаблон для анализа изображений с несколькими объектами.
Адаптируй под мою задачу: [опиши что хочешь получить].
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит какие объекты на изображении и что именно нужно узнать об их отношениях — потому что для правильного заполнения шагов сканирования ей нужно знать на чём фокусироваться.
Ограничения
⚠️ Метод IVE недоступен в чате: IVE работает на уровне весов внимания внутри модели. Применить его можно только с прямым доступом к весам — не в ChatGPT, Claude или Gemini.
⚠️ Ручное сканирование не эквивалентно IVE: Мы обходим инерцию через контекст, а не через перераспределение внимания. Это улучшает результат, но не так точно, как технический метод.
⚠️ Не помогает для простых одиночных объектов: Если задача — найти объект, описать его цвет или назвать факт — инерция не мешает. Метод нужен только когда важны отношения, пространство, взаимодействие между несколькими элементами.
⚠️ Разные модели ведут себя по-разному: Авторы тестировали три конкретных открытых модели. Поведение GPT-4o, Claude и Gemini — отдельный вопрос, требует проверки.
Как исследовали
Команда из Tsinghua University начала с простого вопроса: почему мультимодальные модели правильно видят объекты, но путаются в их отношениях? Чтобы ответить, они визуализировали внимание на уровне токенов — то есть смотрели, куда именно смотрит модель в каждый момент генерации. Результат оказался неожиданным: внимание «замораживается» уже на ранних шагах и почти не двигается дальше.
Чтобы подтвердить гипотезу, исследователи провели красивый контреxperiment: намеренно увеличивали инерцию вручную — добавляли к текущему вниманию умноженное предыдущее. Чем выше инерция, тем хуже результат на когнитивных задачах. Гипотеза подтвердилась чисто механически.
Тогда же обнаружился неочевидный факт: популярный метод PAI, который просто усиливает визуальное внимание, улучшает ответы про объекты, но ухудшает ответы про отношения при сильном усилении. То есть интуитивная реакция «смотри внимательнее» контрпродуктивна. IVE тестировали на трёх моделях (LLaVA-1.5, InstructBLIP, Qwen2.5-VL) и четырёх бенчмарках — включая специализированный Reefknot, заточенный именно под отношения между объектами.
Адаптации и экстраполяции
🔧 Техника: явные инструкции о пространстве → меньше ошибок в расположении
Вместо просто "опиши объект" — попроси модель явно указать расположение относительно кадра:
Опиши [объект]: где он находится в кадре (слева/справа/в центре/на переднем плане),
на каком расстоянии от [другого объекта], что его окружает с каждой стороны.
Это принудительно активирует пространственный контекст до финального вопроса.
🔧 Техника: синтез через противопоставление → острее описание отношений
Экстраполяция принципа на текстовые задачи (сравнение, анализ, конкуренция):
Шаг 1. Опиши [A] — только его сильные стороны, без сравнений.
Шаг 2. Опиши [B] — только его сильные стороны, без сравнений.
Шаг 3. Теперь сравни их: где они пересекаются, где расходятся, что выбрать в ситуации [контекст].
Принцип тот же: сначала принудительный фокус на каждом объекте отдельно, потом синтез — вместо того чтобы строить сравнение "с нуля" одним запросом.
Ресурсы
Статья: Boyang Gong, Yu Zheng, Fanye Kong, Jie Zhou, Jiwen Lu — "Attention at Rest Stays at Rest: Breaking Visual Inertia for Cognitive Hallucination Mitigation"
Организация: Tsinghua University, Beijing, China
Бенчмарки: Reefknot (когнитивные галлюцинации), POPE (перцептивные), MME, MMBench
