3,583 papers
arXiv:2604.01989 70 2 апр. 2026 г. FREE

Visual Inertia в мультимодальных LLM: почему модели врут про отношения между объектами — и как провоцировать внимание вручную

КЛЮЧЕВАЯ СУТЬ
Парадокс: когда просишь мультимодальную модель — GPT-4o, Claude, Gemini — смотреть на картинку внимательнее, галлюцинации об отношениях между объектами усиливаются, а не пропадают. Внимание с первых токенов 'прилипает' к одной зоне изображения и больше не сдвигается — это называется визуальная инерция. Двухшаговый промпт позволяет принудительно пересканировать изображение по частям до того, как спрашивать об отношениях: сначала опиши только объект A, потом только объект B, потом задавай итоговый вопрос. Поочерёдное описание каждого объекта вносит их позиции в контекст, и финальный ответ опирается на этот текст, а не на застрявшее внимание — модель перестаёт придумывать 'на столе' или 'под столом' и начинает отвечать правильно.
Адаптировать под запрос

TL;DR

Мультимодальные модели (те, что работают с изображениями: GPT-4o, Claude, Gemini) умеют находить объекты на картинке, но системно ошибаются в описании отношений между ними. Причина — Visual Inertia («визуальная инерция»): внимание модели «прилипает» к одной зоне изображения в начале генерации и больше не сдвигается, даже когда для ответа нужно динамично переключаться между несколькими объектами.

Стандартная реакция пользователей — «попроси ещё раз» или «скажи смотреть внимательнее» — не работает. Исследователи подтвердили: усиление внимания к изображению закрепляет инерцию, а не ломает её. Точно так же не помогают популярные техники усиления визуального внимания — они увеличивают интенсивность там, где модель уже застряла.

Исследование описывает метод IVE (Inertia-aware Visual Excitation), который отслеживает историю внимания на каждом шаге генерации и перераспределяет его от «застрявших» зон к тем, куда внимание ещё не заходило. IVE работает без дообучения — только манипуляция весами внимания в реальном времени. Применить IVE в обычном чате нельзя: нужен доступ к весам модели. Но инсайт про инерцию даёт конкретные техники промптинга, которые частично воспроизводят эффект вручную.


🔬

Схема метода

Что делает IVE внутри модели (понять механику → применить вручную):

ШАГ 1: Отслеживание истории внимания
  → модель запоминает, на каких зонах картинки фокусировалась раньше

ШАГ 2: Классификация токенов (каждый шаг генерации)
  → «застрявшие» токены — зоны с устойчивой высокой концентрацией
  → «всплывающие» токены — зоны, которые стали важны относительно истории

ШАГ 3: Перераспределение внимания
  → внимание от «застрявших» зон → переносится на «всплывающие»
  → генерация следующего слова идёт с обновлённым вниманием

Всё происходит автоматически на каждом шаге в одном проходе.

Ручной аналог для чата:

ШАГ 1: Принудительное сканирование частей изображения (отдельный промпт)
  → "Опиши только [объект A]" → "Опиши только [объект B]"

ШАГ 2: Синтез отношений (отдельный промпт)
  → "Теперь опиши, как [A] связан с [B]"

🚀

Пример применения

Задача: Ты запускаешь Wildberries-карточку и загружаешь фото товара в ChatGPT с просьбой написать описание. Модель правильно называет предметы, но путает их расположение, состав сцены, взаимодействие элементов — и описание получается мимо.

Промпт (два шага вместо одного):

Шаг 1. Посмотри на изображение и выполни по очереди:

1. Опиши только главный товар — что именно это за предмет, 
   его форма, материал, цвет.

2. Опиши только фон и окружение — что находится рядом, 
   какая атмосфера.

3. Опиши только детали и элементы товара по отдельности 
   (если есть несколько).

Не пиши описание карточки — только эти три наблюдения.

---

Шаг 2 (отдельное сообщение после ответа):

Теперь, опираясь на то, что ты описал выше, напиши описание 
для карточки Wildberries. Покажи, как элементы товара сочетаются 
друг с другом и как он вписывается в сцену.

Результат: Модель сначала «принудительно просканирует» разные части изображения по очереди — это ломает инерцию застревания на одной зоне. В финальном описании будут правильные пространственные отношения, сочетание элементов, атмосфера сцены. Без этого шага модель нередко сочиняет отношения между компонентами — особенно если объектов несколько.


🧠

Почему это работает

Слабость мультимодальных LLM: Модель не «смотрит» на изображение как человек. Она преобразует картинку в набор токенов (участков) и при генерации каждого слова тянет внимание к части этих токенов. Ранние шаги генерации «задают паттерн» — внимание прилипает к тем участкам, которые оказались важны первыми. Дальше оно уже почти не двигается.

Почему объекты ≠ отношения: Найти объект — значит правильно опознать один участок изображения. Описать отношение — значит одновременно активировать несколько участков и сравнить их. При инерции модель держит внимание на одном, описывает другие по памяти или придумывает. Результат: кот есть, стол есть, а «на столе» или «под столом» — лотерея.

Как ручное сканирование ломает инерцию: Когда мы принуждаем модель последовательно описывать разные объекты в отдельных задачах, мы искусственно «принудительно перемещаем» её внимание. К моменту синтеза у модели в контексте уже есть текстовые описания разных зон — и финальный запрос опирается на этот текст, а не на «застрявшее» внимание к одной точке изображения.

Рычаги управления: - Количество шагов сканирования → больше объектов = больше отдельных описаний перед синтезом - Детализация каждого шага → попроси описать расположение каждого объекта относительно края кадра — это заставляет модель работать с пространством - Явное указание на отношения → в синтезном запросе назови конкретные отношения: "как X расположен относительно Y", "что происходит между A и B"


📋

Шаблон промпта

Шаг 1. Изучи изображение и ответь по очереди на каждый пункт отдельно:

1. Только {объект_A}: опиши его — форма, положение в кадре, детали.
2. Только {объект_B}: опиши его — форма, положение в кадре, детали.
3. Только {объект_C} (если есть): то же самое.

Не делай выводов и не описывай сцену целиком — только отдельные наблюдения.

---

Шаг 2 (после получения ответа на шаг 1 — новое сообщение):

Теперь, используя всё, что ты описал выше, ответь на вопрос:
{что именно нужно узнать об отношениях между объектами}

Плейсхолдеры: - {объект_A}, {объект_B}, {объект_C} — назови конкретные элементы на изображении - {что именно нужно узнать} — твой финальный вопрос: "как они расположены друг к другу", "что происходит между ними", "напиши текст про их взаимодействие"


🚀 Быстрый старт — вставь в чат с изображением:

Вот шаблон для анализа изображений с несколькими объектами. 
Адаптируй под мою задачу: [опиши что хочешь получить].
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит какие объекты на изображении и что именно нужно узнать об их отношениях — потому что для правильного заполнения шагов сканирования ей нужно знать на чём фокусироваться.


⚠️

Ограничения

⚠️ Метод IVE недоступен в чате: IVE работает на уровне весов внимания внутри модели. Применить его можно только с прямым доступом к весам — не в ChatGPT, Claude или Gemini.

⚠️ Ручное сканирование не эквивалентно IVE: Мы обходим инерцию через контекст, а не через перераспределение внимания. Это улучшает результат, но не так точно, как технический метод.

⚠️ Не помогает для простых одиночных объектов: Если задача — найти объект, описать его цвет или назвать факт — инерция не мешает. Метод нужен только когда важны отношения, пространство, взаимодействие между несколькими элементами.

⚠️ Разные модели ведут себя по-разному: Авторы тестировали три конкретных открытых модели. Поведение GPT-4o, Claude и Gemini — отдельный вопрос, требует проверки.


🔍

Как исследовали

Команда из Tsinghua University начала с простого вопроса: почему мультимодальные модели правильно видят объекты, но путаются в их отношениях? Чтобы ответить, они визуализировали внимание на уровне токенов — то есть смотрели, куда именно смотрит модель в каждый момент генерации. Результат оказался неожиданным: внимание «замораживается» уже на ранних шагах и почти не двигается дальше.

Чтобы подтвердить гипотезу, исследователи провели красивый контреxperiment: намеренно увеличивали инерцию вручную — добавляли к текущему вниманию умноженное предыдущее. Чем выше инерция, тем хуже результат на когнитивных задачах. Гипотеза подтвердилась чисто механически.

Тогда же обнаружился неочевидный факт: популярный метод PAI, который просто усиливает визуальное внимание, улучшает ответы про объекты, но ухудшает ответы про отношения при сильном усилении. То есть интуитивная реакция «смотри внимательнее» контрпродуктивна. IVE тестировали на трёх моделях (LLaVA-1.5, InstructBLIP, Qwen2.5-VL) и четырёх бенчмарках — включая специализированный Reefknot, заточенный именно под отношения между объектами.


💡

Адаптации и экстраполяции

🔧 Техника: явные инструкции о пространстве → меньше ошибок в расположении

Вместо просто "опиши объект" — попроси модель явно указать расположение относительно кадра:

Опиши [объект]: где он находится в кадре (слева/справа/в центре/на переднем плане), 
на каком расстоянии от [другого объекта], что его окружает с каждой стороны.

Это принудительно активирует пространственный контекст до финального вопроса.


🔧 Техника: синтез через противопоставление → острее описание отношений

Экстраполяция принципа на текстовые задачи (сравнение, анализ, конкуренция):

Шаг 1. Опиши [A] — только его сильные стороны, без сравнений.
Шаг 2. Опиши [B] — только его сильные стороны, без сравнений.
Шаг 3. Теперь сравни их: где они пересекаются, где расходятся, что выбрать в ситуации [контекст].

Принцип тот же: сначала принудительный фокус на каждом объекте отдельно, потом синтез — вместо того чтобы строить сравнение "с нуля" одним запросом.


🔗

Ресурсы

Статья: Boyang Gong, Yu Zheng, Fanye Kong, Jie Zhou, Jiwen Lu — "Attention at Rest Stays at Rest: Breaking Visual Inertia for Cognitive Hallucination Mitigation"

Организация: Tsinghua University, Beijing, China

Код: github.com/wfr429/IVE

Бенчмарки: Reefknot (когнитивные галлюцинации), POPE (перцептивные), MME, MMBench


📋 Дайджест исследования

Ключевая суть

Парадокс: когда просишь мультимодальную модель — GPT-4o, Claude, Gemini — смотреть на картинку внимательнее, галлюцинации об отношениях между объектами усиливаются, а не пропадают. Внимание с первых токенов 'прилипает' к одной зоне изображения и больше не сдвигается — это называется визуальная инерция. Двухшаговый промпт позволяет принудительно пересканировать изображение по частям до того, как спрашивать об отношениях: сначала опиши только объект A, потом только объект B, потом задавай итоговый вопрос. Поочерёдное описание каждого объекта вносит их позиции в контекст, и финальный ответ опирается на этот текст, а не на застрявшее внимание — модель перестаёт придумывать 'на столе' или 'под столом' и начинает отвечать правильно.

Принцип работы

Модель не смотрит на картинку как человек. Она разбивает изображение на участки-токены и при генерации каждого слова тянется к нескольким из них. Первые шаги генерации захватывают самые 'яркие' участки — и дальше внимание к остальным только падает. Найти объект — значит опознать один участок. Описать отношение — значит одновременно удержать в активном фокусе несколько зон. При инерции модель держит внимание на одной точке, описывает остальное по памяти или придумывает. Один промпт — одно застревание. Два промпта — два отдельных захода к разным зонам. Когда задача разбита на поочерёдные описания, каждый объект успевает побыть в центре внимания отдельно. К моменту синтеза у модели в контексте уже лежат текстовые описания всех зон — а текст не 'застревает', он просто данные для следующего шага. Прикол: усилить внимание к картинке — значит укрепить инерцию там, где она уже есть. Именно поэтому 'посмотри внимательнее' работает против тебя.

Почему работает

Веса внимания между участками изображения не статичны. Ранние шаги генерации захватывают самые контрастные зоны, последующие шаги продолжают тянуться туда же — инерция нарастает как снежный ком. Поэтому с одиночными объектами модели справляются хорошо: достаточно опознать один участок. Отношения ломаются, потому что нужно удерживать в активном фокусе сразу несколько зон — а инерция сопротивляется. Когда модель описывает каждый объект отдельным промптом, результат записывается в текстовый контекст. Синтезный вопрос получает полноценные описания всех зон как готовые данные — и уже не зависит от того, куда 'смотрит' модель прямо сейчас. Важная оговорка: технический метод IVE, описанный в исследовании, работает на уровне весов внутри модели и в обычном чате недоступен. Ручное сканирование обходит инерцию через контекст — это не то же самое, но работает.

Когда применять

Изображения с несколькими объектами — особенно когда важно пространственное расположение ('что слева', 'что ближе к камере', 'что за чем'), взаимодействие элементов или описание сцены как единого целого. Актуально когда модель правильно называет все объекты, но путает кто где и что с чем. Хорошо подходит для: описания товаров с несколькими элементами в кадре, анализа интерьеров, разбора схем и диаграмм с несколькими компонентами, описания людей и их взаимодействия на фото. НЕ нужно для: простых одиночных объектов, извлечения текста с изображения, вопросов типа 'что это за предмет' — там инерция не мешает и двухшаговый подход только замедляет.

Мини-рецепт

1. Выдели объекты: Определи 2-3 ключевых элемента на изображении, отношения между которыми важны для ответа. Не пытайся описать всё за один раз.

2. Сканируй по очереди первым сообщением: Посмотри на изображение и выполни по очереди: 1. Опиши только [объект A] — форму, положение в кадре, детали. 2. Опиши только [объект B] — то же самое. Не описывай сцену целиком и не делай выводов.

3. Синтезируй отдельным сообщением: После ответа отправь новый промпт: Теперь, опираясь на то что ты описал выше, ответь: [конкретный вопрос об отношениях — как расположены, что происходит между ними, напиши описание их взаимодействия].

4. Добавь пространственный якорь при необходимости: В шаге сканирования попроси указать положение каждого объекта относительно края кадра или относительно друг друга — это заставляет модель работать с координатами, а не угадывать.

Примеры

[ПЛОХО] : Опиши изображение товара и напиши текст для карточки — что на фото, как элементы сочетаются, какая атмосфера сцены
[ХОРОШО] : Шаг 1 (первое сообщение): Посмотри на изображение и выполни отдельно три наблюдения: 1. Только главный товар — форма, материал, цвет, детали. 2. Только фон и окружение — что рядом, какая атмосфера. 3. Только дополнительные элементы в кадре, если есть. Не пиши описание карточки — только три отдельных наблюдения. Шаг 2 (новое сообщение после ответа): Теперь напиши описание для карточки: покажи как элементы товара сочетаются друг с другом и как он вписывается в сцену на фото.
Источник: Attention at Rest Stays at Rest: Breaking Visual Inertia for Cognitive Hallucination Mitigation
ArXiv ID: 2604.01989 | Сгенерировано: 2026-04-03 04:28

Проблемы LLM

ПроблемаСутьКак обойти
Мультимодальная модель видит объекты, но путает их отношенияМодель преобразует картинку в участки. При генерации внимание прилипает к одному участку с первых шагов. Дальше уже почти не двигается. Найти кота — значит опознать один участок. Сказать "кот на столе" — значит одновременно активировать кота и стол. Модель не делает второе: один объект видит, второй описывает по памяти или придумывает. Итог: объекты верные, пространство и взаимодействие — лотереяНе спрашивай сразу об отношениях. Сначала — два отдельных запроса: "Опиши только объект A" и "Опиши только объект B". Потом — третий: "Как A и B соотносятся между собой". Модель опирается на текст в контексте, а не на застрявшее внимание
Просьба "посмотри внимательнее" усиливает ошибку, а не исправляетИнтуитивная реакция на ошибку — попросить модель обратить больше внимания на изображение. Это работает наоборот: усиление внимания закрепляет модель там, где она уже застряла. Ошибка повторяется с большей уверенностьюНе переспрашивай. Не добавляй "внимательно изучи изображение". Вместо этого принудительно переключи внимание: задай отдельный вопрос про другой объект или зону

Методы

МетодСуть
Последовательное сканирование — точные отношения между объектамиРазбей один запрос на три. Первый: Опиши только {объект_A} — форма, положение в кадре, детали. Второй: Опиши только {объект_B} — то же самое. Третий (новое сообщение): Используя то, что описал выше, ответь: {вопрос об отношениях между ними}. Почему работает: к третьему шагу в контексте уже есть текстовые описания обоих объектов. Модель строит ответ на тексте, не на застрявшем внимании. Добавь в первые шаги "опиши положение относительно края кадра" — это форсирует пространственную работу. Когда применять: несколько объектов, важно расположение, взаимодействие, сочетание элементов. Не нужен: один объект, нет отношений

Тезисы

ТезисКомментарий
Найти объект и описать его отношения с другим — разные механикиНайти объект — значит правильно опознать один участок изображения. Описать отношение — значит одновременно держать в внимании несколько участков и сравнить их. Мультимодальные модели хорошо делают первое. Второе — системно слабее, потому что внимание не перемещается само. Применяй: как только в задаче есть слова "между", "рядом", "над", "сочетается", "взаимодействует" — включай разбивку на шаги
📖 Простыми словами

Attention at Rest Stays at Rest: Breaking Visual Inertia for Cognitive Hallucination Mitigation

arXiv: 2604.01989

Мультимодальные модели вроде GPT-4o или Gemini на самом деле не «видят» картинку целиком, как мы с тобой. Они рубят изображение на куски-токены и пытаются связать их с текстом, но тут зарыта фундаментальная проблема — визуальная инерция. Суть в том, что внимание нейронки дико ленивое: как только модель зацепилась взглядом за первый попавшийся объект в начале генерации, она «прилипает» к нему намертво. В итоге она отлично называет предметы по отдельности, но абсолютно лажает, когда нужно описать, как они взаимодействуют друг с другом, потому что ее фокус просто отказывается двигаться дальше первой точки.

Это как если бы ты зашел в комнату, увидел на столе яркое красное яблоко и до конца вечера смотрел только на него, игнорируя, что рядом стоит нож или сидит человек. Ты знаешь, что они там есть, но твой мозг отказывается переключать фокус. В мире AI это превращается в когнитивные галлюцинации: модель видит чашку и стол, но уверенно врет, что чашка парит в воздухе или находится под столом, просто потому что ее «взгляд» застрял и не смог адекватно сопоставить координаты двух объектов. Формально объекты опознаны, но сцена в целом — полная чушь.

Чтобы вылечить этот тупняк, придумали метод IVE (Inertia-Violating Exploration). Работает это как резкий щелчок по носу: алгоритм принудительно встряхивает внимание модели, заставляя его «отлипнуть» от первой зоны и динамично прыгать по всей картинке. Вместо того чтобы позволить вниманию застаиваться, метод заставляет нейронку перепроверять связи между объектами на каждом шаге. Это как если бы тебе каждые пять секунд напоминали: «Эй, посмотри левее, теперь правее, теперь сравни их». Только так модель начинает понимать пространственные отношения, а не просто перечислять существительные.

В жизни это бьет по самому больному — по контенту и аналитике. Допустим, ты просишь AI составить описание товара для маркетплейса по фото: на снимке модель в куртке на фоне гор. Без «встряски» внимания нейронка может выдать, что горы надеты на модель, или перепутать, в какой руке она держит рюкзак. Принцип IVE доказывает, что для нормальной работы с визуалом недостаточно просто «скормить» картинку — нужно заставлять модель активно сканировать сцену, иначе она так и будет галлюцинировать на ровном месте, выдавая абсурдные описания реальности.

Короче, главная проблема современных AI-зрителей не в том, что они плохо видят, а в том, что они залипают. Если не ломать эту инерцию принудительно, любая сложная сцена превращается для модели в набор случайных пятен. Визуальная инерция — это баг архитектуры, который лечится только жестким перераспределением внимания. Пока ты не заставишь нейронку «вертеть головой», она будет оставаться слепым профессором, который знает названия всех вещей, но не понимает, как они лежат у него на столе.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с