TL;DR
Когда вы загружаете фото в ChatGPT или Claude и спрашиваете "какая высота этой бутылки?" — модель не смотрит на монету рядом, не замечает кредитку на столе, не видит линейку в углу кадра. Она смотрит только на бутылку — именно потому, что вы упомянули только бутылку. Это называют туннельным вниманием: модель обрабатывает пиксели целевого объекта точно, но весь окружающий контекст вне поля зрения.
Парадокс в том, что всё необходимое знание у модели есть. Она знает стандартный диаметр монеты. Она умеет измерять отношения размеров. Она прекрасно справится с задачей, если вы скажете: "рядом лежит пятирублёвая монета, используй её как масштаб". Но самостоятельно заметить монету и решить, что она нужна — этого не происходит. Модель пассивно ждёт, что вы укажете, куда смотреть.
Практический вывод: при работе с изображениями в чате вы управляете вниманием модели через текст. Всё, что вы не назвали — для модели не существует. Компенсируется это явным перечислением референсных объектов или просьбой сначала найти их самостоятельно.
Схема метода
Это не техника, а диагностическая находка. Практическое применение — два подхода:
ПОДХОД А — явный (вы знаете, что в кадре):
Промпт: [Задача] + "В кадре есть [объект с известным размером/свойством]"
→ Модель использует названный референс для точного ответа
ПОДХОД Б — поисковый (вы не знаете, что в кадре):
ШАГ 1: "Опиши все объекты на фото с известными стандартными размерами,
физическими свойствами или характеристиками" → список референсов
ШАГ 2: "Используя [найденные объекты из шага 1], ответь: [задача]"
→ Модель сначала сама находит инструменты, потом решает задачу
Оба подхода выполняются в обычном чате. Подход Б — два запроса подряд.
Пример применения
Задача: Вы хотите купить стол с Авито. Продавец выложил фото, размеры не указаны. На фото рядом со столом стоит обычный стул и лежит телефон.
Промпт (Подход А):
Вот фото стола с Авито.
На фото виден обычный обеденный стул (стандартная высота сиденья — 45 см,
общая высота — 90 см) и смартфон (примерно 15 см в длину).
Используй эти объекты как масштаб и оцени:
— высоту стола
— ширину столешницы
— глубину столешницы
Покажи ход рассуждений: как ты определял пропорции.
Промпт (Подход Б — если не знаете, что в кадре):
Вот фото стола с Авито. Мне нужно оценить его габариты.
Шаг 1: Перечисли все объекты на фото, у которых есть стандартные,
общеизвестные размеры или характеристики (мебель, электроника,
предметы быта, упаковка и т.д.). Для каждого — укажи типичный размер.
Шаг 2: Используй найденные объекты как масштаб и оцени
высоту, ширину и глубину стола. Покажи ход рассуждений.
Результат: В Подходе А модель сразу строит пропорциональные отношения между столом и названными референсами и выдаёт оценку с ходом вычислений.
В Подходе Б — сначала появится список: "стул — 90 см, телефон — ~15 см, картонная коробка..." Затем модель использует их для оценки. Два чётких блока в ответе.
Точность оценки зависит от качества фото и угла съёмки — но порядок цифр будет куда точнее, чем просто "какой высоты этот стол?".
Почему это работает
Слабость модели: Языковые модели с поддержкой изображений обучались отвечать на вопросы — то есть реагировать на текст и подкреплять ответ визуальным поиском по конкретным упомянутым объектам. Самостоятельно инициировать поиск вспомогательных объектов модель не умеет. Логика "мне нужно измерить бутылку → значит мне нужен масштаб → ищу что-нибудь со стандартным размером в кадре" — этот цикл не запускается автоматически.
Сильная сторона модели: Когда вы называете объект — модель прекрасно его находит, извлекает характеристики и строит рассуждения. У неё есть знание стандартных размеров монет, кредиток, смартфонов, мебели. Она умеет сравнивать пропорции на изображении. Всё это работает — если вы запустили нужный поиск явным упоминанием.
Как метод обходит слабость: Вы берёте функцию "ищи то, что я назвал" и используете её сознательно — либо называя референсы сами (Подход А), либо прося модель сначала составить список кандидатов (Подход Б). Во втором случае первый вопрос активирует поиск по всему кадру, а второй вопрос превращает найденное в инструмент.
Рычаги управления: - Уточни тип референсов → "предметы с известными физическими свойствами" вместо "размерами" — для задач типа "оцени температуру" или "это устойчиво?" - Попроси ранжировать → "какой объект даст наиболее точный масштаб?" — модель выберет лучший референс - Попроси объяснить → без "покажи ход рассуждений" модель может дать цифру без обоснования — непонятно, угадала или посчитала
Шаблон промпта
Вот изображение. Мне нужно {задача}.
Шаг 1: Найди и перечисли на изображении объекты,
у которых есть стандартные/известные {тип характеристики: размеры /
физические свойства / стандартные параметры}.
Для каждого — укажи типичное значение.
Шаг 2: Используй найденные объекты как {тип референса: масштаб /
эталон / точку отсчёта} и {конкретный вопрос}.
Покажи ход рассуждений.
{задача}→ "оценить размеры мебели", "определить вес предмета", "понять масштаб сцены"{тип характеристики}→ "размеры", "масса", "температурные свойства", "электрические характеристики"{тип референса}→ "масштаб", "эталон сравнения", "точку отсчёта"{конкретный вопрос}→ ваш основной вопрос по изображению
🚀 Быстрый старт — вставь в чат вместе с изображением:
Вот шаблон для анализа изображения с поиском референсных объектов.
Адаптируй под мою задачу: {опиши что хочешь узнать из фото}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит какое изображение вы анализируете и что именно хотите измерить/оценить — потому что без конкретной цели она не сможет определить, какой тип референсных объектов искать на первом шаге.
Ограничения
⚠️ Геометрические задачи — самая слабая зона: Оценка длины, площади, объёма, расстояния даёт наибольший провал в точности. Даже с явно названным референсом — угол съёмки, перспектива, качество фото вносят погрешность. Используйте как грубую оценку, не как замену рулетке.
⚠️ Работает лучше для "физики" чем для "геометрии": Температура ("горячая кастрюля — явно выше 100°C"), вес ("это явно тяжелее 5 кг"), окружение — модели справляются лучше, чем с точными линейными размерами.
⚠️ Референс должен быть в кадре, не в тексте: Написать "рядом лежит монета" без реальной монеты на фото — модель будет фантазировать. Техника работает только когда объект действительно присутствует на изображении.
⚠️ Модели меньшего размера хуже: Легковесные модели (аналоги < 7B параметров) слабее справляются даже с явными подсказками. В ChatGPT/Claude — полноразмерные, это не проблема для обычного пользователя.
Как исследовали
Команда из Уханьского университета задалась вопросом: почему VLM-модели так хороши в описании изображений, но ошибаются в "элементарных" задачах типа оценки размера? Проверку выстроили умно: сначала убедились, что модели знают нужное — могут опознать монету, знают её стандартный диаметр. Это важно — отсеяли гипотезу "просто не хватает знаний". Результат: узнаваемость объектов — почти 100% у всех моделей, параметрические знания — 74-96% в зависимости от размера модели. Знания есть.
Затем создали бенчмарк V-IRD с Target-Exclusive Prompting: промпты упоминают только целевой объект, никаких подсказок на референсы. Четыре категории задач — пространственная геометрия (длина/объём/площадь), физические свойства (температура/вес), физическая логика (электричество/кинематика), контекстный вывод. Проверили на широком спектре моделей — от компактных до закрытых коммерческих.
Самое показательное: коллапс в пространственной геометрии. Именно там, где модели в явном режиме работают точно — в неявном режиме они проваливаются почти полностью. Это не случайный шум, это системный сбой. Модели не просто ошибаются — они перестают искать. Вместо поиска масштаба они "угадывают" из обучающих данных: бутылка — наверное 30 см, потому что большинство бутылок такие. Это и есть туннельное внимание в действии.
Адаптации и экстраполяции
🔧 Для задач проверки безопасности и качества
Если вы проверяете что-то на фото (ровно ли висит картина, устойчиво ли стоит конструкция, нет ли дефектов) — модель будет смотреть только на объект, который вы упомянули. Запустите активный поиск явно:
Посмотри на это изображение как инспектор.
Шаг 1: Найди все потенциальные признаки проблем — не только в
главном объекте, но и в окружающем контексте: фон, соседние объекты,
тени, положение в пространстве.
Шаг 2: Оцени [конкретный вопрос] с учётом всего найденного.
🔧 Комбинация с Chain-of-Thought
Принцип "сначала найди инструменты, потом реши задачу" хорошо накладывается на цепочку рассуждений. Попросите модель перед ответом написать "план поиска":
Прежде чем отвечать, выпиши:
1) Какая информация нужна для точного ответа на мой вопрос?
2) Какие объекты на изображении могут эту информацию содержать?
3) Теперь ответь на вопрос, опираясь на найденное.
Это принудительно активирует автономный поиск, который модель иначе не запускает.
Ресурсы
Position: The Systemic Lack of Agency in Visual Reasoning Yizhao Huang, Haoyang Chen, Shiqin Wang, Pohsun Huang, Jiayuan Li, Haoyuan Du, Yandong Shi, Zheng Wang, Zhixiang Wang
Wuhan University (National Engineering Research Center for Multimedia Software), Beijing Institute of Technology, Shanda AI Research Tokyo
Proceedings of ICML 2026
Проект и бенчмарк: https://haoychen.github.io/Implicit-Reasoning/
