3,583 papers
arXiv:2606.14795 72 11 июня 2026 г. FREE

Visual Agency Deficit: VLM-модели слепы к деталям, которые вы не назвали

КЛЮЧЕВАЯ СУТЬ
Парадокс: модель знает стандартный диаметр монеты, умеет считать пропорции на фото — и при этом не посмотрит на монету рядом с бутылкой, если вы её не назвали. Метод позволяет получать обоснованные оценки размеров, веса и других характеристик объектов прямо из фотографии — без рулетки. Фишка: модель смотрит только туда, куда вы указали текстом. Либо назовите референсный объект сами («рядом лежит монета»), либо сначала попросите найти всё со стандартными размерами в кадре — потом решайте задачу. Вместо «угадала» получите пошаговый расчёт.
Адаптировать под запрос

TL;DR

Когда вы загружаете фото в ChatGPT или Claude и спрашиваете "какая высота этой бутылки?" — модель не смотрит на монету рядом, не замечает кредитку на столе, не видит линейку в углу кадра. Она смотрит только на бутылку — именно потому, что вы упомянули только бутылку. Это называют туннельным вниманием: модель обрабатывает пиксели целевого объекта точно, но весь окружающий контекст вне поля зрения.

Парадокс в том, что всё необходимое знание у модели есть. Она знает стандартный диаметр монеты. Она умеет измерять отношения размеров. Она прекрасно справится с задачей, если вы скажете: "рядом лежит пятирублёвая монета, используй её как масштаб". Но самостоятельно заметить монету и решить, что она нужна — этого не происходит. Модель пассивно ждёт, что вы укажете, куда смотреть.

Практический вывод: при работе с изображениями в чате вы управляете вниманием модели через текст. Всё, что вы не назвали — для модели не существует. Компенсируется это явным перечислением референсных объектов или просьбой сначала найти их самостоятельно.


🔬

Схема метода

Это не техника, а диагностическая находка. Практическое применение — два подхода:

ПОДХОД А — явный (вы знаете, что в кадре):
Промпт: [Задача] + "В кадре есть [объект с известным размером/свойством]"
→ Модель использует названный референс для точного ответа

ПОДХОД Б — поисковый (вы не знаете, что в кадре):
ШАГ 1: "Опиши все объекты на фото с известными стандартными размерами,
        физическими свойствами или характеристиками" → список референсов
ШАГ 2: "Используя [найденные объекты из шага 1], ответь: [задача]"
→ Модель сначала сама находит инструменты, потом решает задачу

Оба подхода выполняются в обычном чате. Подход Б — два запроса подряд.


🚀

Пример применения

Задача: Вы хотите купить стол с Авито. Продавец выложил фото, размеры не указаны. На фото рядом со столом стоит обычный стул и лежит телефон.

Промпт (Подход А):

Вот фото стола с Авито.

На фото виден обычный обеденный стул (стандартная высота сиденья — 45 см,
общая высота — 90 см) и смартфон (примерно 15 см в длину).

Используй эти объекты как масштаб и оцени:
— высоту стола
— ширину столешницы
— глубину столешницы

Покажи ход рассуждений: как ты определял пропорции.

Промпт (Подход Б — если не знаете, что в кадре):

Вот фото стола с Авито. Мне нужно оценить его габариты.

Шаг 1: Перечисли все объекты на фото, у которых есть стандартные,
общеизвестные размеры или характеристики (мебель, электроника,
предметы быта, упаковка и т.д.). Для каждого — укажи типичный размер.

Шаг 2: Используй найденные объекты как масштаб и оцени
высоту, ширину и глубину стола. Покажи ход рассуждений.

Результат: В Подходе А модель сразу строит пропорциональные отношения между столом и названными референсами и выдаёт оценку с ходом вычислений.

В Подходе Б — сначала появится список: "стул — 90 см, телефон — ~15 см, картонная коробка..." Затем модель использует их для оценки. Два чётких блока в ответе.

Точность оценки зависит от качества фото и угла съёмки — но порядок цифр будет куда точнее, чем просто "какой высоты этот стол?".


🧠

Почему это работает

Слабость модели: Языковые модели с поддержкой изображений обучались отвечать на вопросы — то есть реагировать на текст и подкреплять ответ визуальным поиском по конкретным упомянутым объектам. Самостоятельно инициировать поиск вспомогательных объектов модель не умеет. Логика "мне нужно измерить бутылку → значит мне нужен масштаб → ищу что-нибудь со стандартным размером в кадре" — этот цикл не запускается автоматически.

Сильная сторона модели: Когда вы называете объект — модель прекрасно его находит, извлекает характеристики и строит рассуждения. У неё есть знание стандартных размеров монет, кредиток, смартфонов, мебели. Она умеет сравнивать пропорции на изображении. Всё это работает — если вы запустили нужный поиск явным упоминанием.

Как метод обходит слабость: Вы берёте функцию "ищи то, что я назвал" и используете её сознательно — либо называя референсы сами (Подход А), либо прося модель сначала составить список кандидатов (Подход Б). Во втором случае первый вопрос активирует поиск по всему кадру, а второй вопрос превращает найденное в инструмент.

Рычаги управления: - Уточни тип референсов → "предметы с известными физическими свойствами" вместо "размерами" — для задач типа "оцени температуру" или "это устойчиво?" - Попроси ранжировать → "какой объект даст наиболее точный масштаб?" — модель выберет лучший референс - Попроси объяснить → без "покажи ход рассуждений" модель может дать цифру без обоснования — непонятно, угадала или посчитала


📋

Шаблон промпта

Вот изображение. Мне нужно {задача}.

Шаг 1: Найди и перечисли на изображении объекты,
у которых есть стандартные/известные {тип характеристики: размеры /
физические свойства / стандартные параметры}.
Для каждого — укажи типичное значение.

Шаг 2: Используй найденные объекты как {тип референса: масштаб /
эталон / точку отсчёта} и {конкретный вопрос}.
Покажи ход рассуждений.
  • {задача} → "оценить размеры мебели", "определить вес предмета", "понять масштаб сцены"
  • {тип характеристики} → "размеры", "масса", "температурные свойства", "электрические характеристики"
  • {тип референса} → "масштаб", "эталон сравнения", "точку отсчёта"
  • {конкретный вопрос} → ваш основной вопрос по изображению

🚀 Быстрый старт — вставь в чат вместе с изображением:

Вот шаблон для анализа изображения с поиском референсных объектов.
Адаптируй под мою задачу: {опиши что хочешь узнать из фото}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит какое изображение вы анализируете и что именно хотите измерить/оценить — потому что без конкретной цели она не сможет определить, какой тип референсных объектов искать на первом шаге.


⚠️

Ограничения

⚠️ Геометрические задачи — самая слабая зона: Оценка длины, площади, объёма, расстояния даёт наибольший провал в точности. Даже с явно названным референсом — угол съёмки, перспектива, качество фото вносят погрешность. Используйте как грубую оценку, не как замену рулетке.

⚠️ Работает лучше для "физики" чем для "геометрии": Температура ("горячая кастрюля — явно выше 100°C"), вес ("это явно тяжелее 5 кг"), окружение — модели справляются лучше, чем с точными линейными размерами.

⚠️ Референс должен быть в кадре, не в тексте: Написать "рядом лежит монета" без реальной монеты на фото — модель будет фантазировать. Техника работает только когда объект действительно присутствует на изображении.

⚠️ Модели меньшего размера хуже: Легковесные модели (аналоги < 7B параметров) слабее справляются даже с явными подсказками. В ChatGPT/Claude — полноразмерные, это не проблема для обычного пользователя.


🔍

Как исследовали

Команда из Уханьского университета задалась вопросом: почему VLM-модели так хороши в описании изображений, но ошибаются в "элементарных" задачах типа оценки размера? Проверку выстроили умно: сначала убедились, что модели знают нужное — могут опознать монету, знают её стандартный диаметр. Это важно — отсеяли гипотезу "просто не хватает знаний". Результат: узнаваемость объектов — почти 100% у всех моделей, параметрические знания — 74-96% в зависимости от размера модели. Знания есть.

Затем создали бенчмарк V-IRD с Target-Exclusive Prompting: промпты упоминают только целевой объект, никаких подсказок на референсы. Четыре категории задач — пространственная геометрия (длина/объём/площадь), физические свойства (температура/вес), физическая логика (электричество/кинематика), контекстный вывод. Проверили на широком спектре моделей — от компактных до закрытых коммерческих.

Самое показательное: коллапс в пространственной геометрии. Именно там, где модели в явном режиме работают точно — в неявном режиме они проваливаются почти полностью. Это не случайный шум, это системный сбой. Модели не просто ошибаются — они перестают искать. Вместо поиска масштаба они "угадывают" из обучающих данных: бутылка — наверное 30 см, потому что большинство бутылок такие. Это и есть туннельное внимание в действии.


💡

Адаптации и экстраполяции

🔧 Для задач проверки безопасности и качества

Если вы проверяете что-то на фото (ровно ли висит картина, устойчиво ли стоит конструкция, нет ли дефектов) — модель будет смотреть только на объект, который вы упомянули. Запустите активный поиск явно:

Посмотри на это изображение как инспектор.

Шаг 1: Найди все потенциальные признаки проблем — не только в
главном объекте, но и в окружающем контексте: фон, соседние объекты,
тени, положение в пространстве.

Шаг 2: Оцени [конкретный вопрос] с учётом всего найденного.

🔧 Комбинация с Chain-of-Thought

Принцип "сначала найди инструменты, потом реши задачу" хорошо накладывается на цепочку рассуждений. Попросите модель перед ответом написать "план поиска":

Прежде чем отвечать, выпиши:
1) Какая информация нужна для точного ответа на мой вопрос?
2) Какие объекты на изображении могут эту информацию содержать?
3) Теперь ответь на вопрос, опираясь на найденное.

Это принудительно активирует автономный поиск, который модель иначе не запускает.


🔗

Ресурсы

Position: The Systemic Lack of Agency in Visual Reasoning Yizhao Huang, Haoyang Chen, Shiqin Wang, Pohsun Huang, Jiayuan Li, Haoyuan Du, Yandong Shi, Zheng Wang, Zhixiang Wang

Wuhan University (National Engineering Research Center for Multimedia Software), Beijing Institute of Technology, Shanda AI Research Tokyo

Proceedings of ICML 2026

Проект и бенчмарк: https://haoychen.github.io/Implicit-Reasoning/


📋 Дайджест исследования

Ключевая суть

Парадокс: модель знает стандартный диаметр монеты, умеет считать пропорции на фото — и при этом не посмотрит на монету рядом с бутылкой, если вы её не назвали. Метод позволяет получать обоснованные оценки размеров, веса и других характеристик объектов прямо из фотографии — без рулетки. Фишка: модель смотрит только туда, куда вы указали текстом. Либо назовите референсный объект сами («рядом лежит монета»), либо сначала попросите найти всё со стандартными размерами в кадре — потом решайте задачу. Вместо «угадала» получите пошаговый расчёт.

Принцип работы

Два пути. Путь А — вы знаете, что в кадре: называете объект с известными размерами прямо в запросе. Путь Б — не знаете: два запроса подряд. Первый: «Найди все объекты на фото со стандартными размерами, перечисли их». Второй: «Используя найденные объекты как масштаб, ответь: [задача]». Первый запрос активирует поиск по всему кадру, второй превращает найденное в инструмент. Всё это — обычный чат, никаких надстроек.

Почему работает

VLM учились отвечать на вопросы про то, что вы упомянули. Логика «мне нужно измерить → ищу масштаб → нахожу монету в кадре» не запускается сама. Модель как хороший исполнитель без инициативы: знает всё, умеет всё — но без прямого указания не двинется. Когда вы называете объект — модель его находит, извлекает размеры из памяти и строит пропорции. Все знания есть. Нужен только запуск.

Когда применять

Маркетплейсы (Авито, Юла) — оценка мебели и техники по фото без указания размеров. Ремонт и планировка — прикинуть, войдёт ли диван в проём. Физические свойства — примерная температура раскалённой детали, вес предмета по контексту сцены. НЕ подходит для точных замеров: угол съёмки и перспектива дают погрешность. Это оценка, не замена рулетке.

Мини-рецепт

1. Выберите путь: знаете что в кадре — Путь А, не знаете — Путь Б.
2. Путь А — называете референс сами: укажите объект с известными размерами прямо в запросе. Пример: На фото стол. Рядом стоит обычный стул (высота 90 см) и лежит смартфон (~15 см). Используй их как масштаб, оцени размеры стола. Покажи ход расчёта.
3. Путь Б — два шага: Шаг 1: Перечисли все объекты на фото с известными стандартными размерами. Для каждого — типичное значение в сантиметрах. Получаете список. Шаг 2: Используя [объекты из шага 1] как масштаб, оцени [задача]. Покажи расчёт.
4. Всегда добавляйте «покажи ход рассуждений»: без этого модель выдаёт цифру без объяснения — непонятно, посчитала или угадала.

Примеры

[ПЛОХО]: `Какой высоты этот стол?` (Модель не посмотрит на стул рядом — вы его не назвали. Получите «примерно 75–80 см» без обоснования.) [ХОРОШО] Путь А: `На фото стол с Авито. Рядом стоит обычный обеденный стул (высота 90 см) и лежит смартфон (~15 см). Используй их как масштаб: оцени высоту, ширину и глубину стола. Покажи пропорции и ход расчёта.` [ХОРОШО] Путь Б, шаг 1: `На фото стол с Авито. Перечисли все объекты в кадре, у которых есть стандартные общеизвестные размеры. Для каждого — типичное значение в сантиметрах.` После ответа — шаг 2: `Используя [названные объекты] как масштаб, оцени высоту, ширину и глубину стола. Покажи расчёт.`
Источник: Position: The Systemic Lack of Agency in Visual Reasoning
ArXiv ID: 2606.14795 | Сгенерировано: 2026-06-16 05:41

Проблемы LLM

ПроблемаСутьКак обойти
Модель с изображением смотрит только туда, куда ты показал текстомЗагружаешь фото. Спрашиваешь про один объект. Модель видит только этот объект. Монета рядом, линейка в углу, стул для масштаба — всё это есть в кадре, но модель не заметит. Не потому что не умеет — потому что ты не назвал. Всё что не упомянуто в тексте запроса для модели не существуетИспользуй двухшаговый запрос. Шаг 1: "Найди на фото все объекты с известными стандартными размерами". Шаг 2: "Используй их как масштаб и ответь на вопрос". Либо назови референсные объекты сам, если знаешь что в кадре

Методы

МетодСуть
Двухшаговый поиск референсов — точный анализ изображенияРаздели запрос на два шага. Шаг 1: "Найди и перечисли все объекты на фото с известными стандартными [размерами / весом / физическими свойствами]. Для каждого — укажи типичное значение." Шаг 2: "Используй найденные объекты как масштаб и оцени [твой вопрос]. Покажи ход рассуждений." Почему работает: На первом шаге ты активируешь поиск по всему кадру. На втором — превращаешь найденное в инструмент. Модель умеет делать и то и другое — но только если ты явно запросил каждый шаг. Когда работает: на фото есть хотя бы один объект с известными характеристиками. Когда не работает: пустой фон без референсных объектов
📖 Простыми словами

Position: The Systemic Lack of Agency in Visual Reasoning

arXiv: 2606.14795

Современные мультимодальные модели вроде GPT-4V или Claude — это не зоркие аналитики, а скорее близорукие исполнители с туннельным зрением. Когда ты просишь AI оценить размер объекта на фото, он не сканирует всё изображение целиком в поисках зацепок. Модель работает как текстоцентричный фильтр: она берет твой вопрос, выцепляет из него ключевое слово и впивается глазами только в этот конкретный кусок пикселей. Весь остальной контекст, будь то линейка в углу или пачка сигарет для масштаба, для неё просто не существует, потому что ты не упомянул их в тексте.

Это как если бы ты попросил друга-тугодума найти ключи в темной комнате, дав ему в руки фонарик с очень узким лучом. Он будет светить ровно туда, куда ты ткнул пальцем, и даже если ключи лежат в десяти сантиметрах от пятна света, он их не заметит. Модель не обладает автономным мышлением: она не догадается, что для решения твоей задачи ей нужны вспомогательные данные из кадра. Она видит цель, но в упор игрирует средства её достижения, если они не прописаны в инструкции.

Проблема в том, что у нейронок напрочь отсутствует агентность в рассуждениях. В исследовании четко показано: цикл логики «мне нужно измерить X -> для этого нужен эталон -> ищу эталон в кадре» сам по себе не запускается. Модель тупо сопоставляет текст с картинкой и пытается угадать ответ на основе визуальных признаков самого объекта, а не его окружения. Если ты спросишь про высоту бутылки, она будет анализировать форму бутылки, а не сравнивать её с монетой, лежащей рядом. Это системный провал в архитектуре, который делает AI беспомощным в задачах, требующих элементарной смекалки.

Этот принцип применим к любому визуальному анализу: от оценки габаритов мебели на Авито до разбора медицинских снимков или схем. Пока ты не ткнешь модель носом в вспомогательный объект, она будет лажать. Если хочешь адекватный результат, используй метод явного указания контекста: не спрашивай «какой длины этот стол?», спрашивай «сравни длину стола с телефоном, который лежит на нем». Только так ты заставляешь луч фонарика расшириться и захватить нужные детали.

Короче, нынешний AI — это мощный движок, у которого отключен навигатор. Он может выдать феноменальную точность, если ты сам проложишь ему маршрут по картинке, но без твоих подсказок он просто едет в стену. Визуальное рассуждение сегодня — это костыль, который держится на твоем промпте, а не на интеллекте модели. Либо ты сам становишься «глазами» для AI, указывая на важные мелочи, либо получаешь ответ, взятый с потолка.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с