TL;DR
VI-Probe — исследовательский фреймворк, который через классические визуальные иллюзии (Эббингауза, Мюллера-Лайера) выявляет полагаются ли VLM на визуальное восприятие или на заученные паттерны. Механика: показываешь модели оригинальную иллюзию (она отвечает правильно), затем инвертируешь факторы иллюзии — и модель продолжает давать тот же ответ, хотя картинка визуально изменилась.
Главная находка: VLM отвечают по памяти, а не по картинке. GPT-5 на оригинальных иллюзиях даёт 91.72% точности, но при инверсии факторов падает до 4.45% — модель продолжает выдавать заученный ответ на "классическую иллюзию", игнорируя что визуально всё изменилось. При этом на контрольных изображениях (без паттерна иллюзии) точность падает меньше: с 96.55% до 52.24%. Разрыв показывает: модель узнаёт композицию иллюзии и достаёт заготовленный ответ, вместо того чтобы анализировать что реально на картинке.
Исследователи ввели три метрики для диагностики: PFC (даёт ли модель противоположные ответы на противоположные вопросы), TFI (повторяет ли одинаковый ответ независимо от формулировки), R (во сколько раз эффект иллюзии сильнее обычного возмущения). Разные семейства моделей демонстрируют разные механизмы отказа: GPT-5 — полное переопределение памятью (R=1.97), Claude-Opus-4.1 — конкуренция восприятия и памяти (R≈1), Qwen — ограничения визуальной обработки (R<1).
Схема диагностики
ПОДГОТОВКА:
Берёшь визуальную иллюзию → создаёшь 4 варианта изображения
├─ Оригинал иллюзии (x^O)
├─ Инверсия факторов иллюзии (x^P) — например, большой/маленький круг меняются местами
├─ Контроль оригинала (x^OC) — убрали паттерн иллюзии, оставили объекты
└─ Контроль инверсии (x^PC)
ЯЗЫКОВЫЕ ВАРИАЦИИ:
Для каждого изображения задаёшь 3 вопроса
├─ Прямой: "Оба круга одинакового размера?" (q^f)
├─ Обратный: "Оба круга разного размера?" (q^r)
└─ Инструкция: "Судите только по визуальному восприятию, игнорируйте знания" (q^I)
МЕТРИКИ:
PFC = модель даёт противоположные ответы на q^f и q^r?
TFI = модель повторяет один ответ на оба вопроса?
R = (падение точности на иллюзии) / (падение на контроле)
Всё выполняется через обычные запросы к VLM API/чату.
Пример применения
Задача: Проверить, анализирует ли GPT-4o с Vision твой дизайн-макет по факту или выдаёт заученные клише.
Промпт (шаг 1 — оригинал):
Посмотри на этот макет лендинга. Какой элемент визуально доминирует —
заголовок или кнопка CTA?
[прикрепляешь скриншот где заголовок крупнее]
Промпт (шаг 2 — инверсия):
Посмотри на обновлённый макет. Какой элемент визуально доминирует —
заголовок или кнопка CTA?
[прикрепляешь скриншот где кнопка CTA теперь в 2 раза крупнее заголовка]
Промпт (шаг 3 — проверка полярности):
На первом макете — заголовок крупнее кнопки CTA или наоборот?
На втором макете — заголовок крупнее кнопки CTA или наоборот?
Результат:
Если модель на оба макета отвечает "заголовок доминирует" (хотя визуально второй изменился) — она судит по паттерну "классический лендинг = крупный заголовок", а не по твоей конкретной картинке. Если на шаг 3 даёт одинаковые ответы на противоположные вопросы — высокий TFI, модель игнорирует формулировку. Надёжный анализ: модель корректно переключается между ответами и объясняет визуальные различия.
Почему это работает
Слабость VLM: Модели обучены на миллионах изображений с подписями. Визуальные иллюзии — классические примеры из учебников психологии. Когда модель видит композицию круга в окружении других кругов (иллюзия Эббингауза), она узнаёт паттерн и достаёт заученный факт: "центральный круг кажется меньше, но физически одинаковый". Проблема: модель применяет этот факт даже когда факторы иллюзии инвертированы и круги реально стали разного размера.
Сильная сторона: VLM хорошо различают изображения без заученных паттернов. Когда убираешь окружающие круги (контрольное изображение), модель полагается на визуальный анализ, а не на память — точность остаётся выше даже при возмущениях.
Как метрики изолируют причину: R (illusion multiplier) нормализует падение точности на иллюзии относительно контроля. Если R > 1 — иллюзия мешает сильнее обычного возмущения, значит память перебивает восприятие (GPT-5: R=1.97). Если R < 1 — модель одинаково плохо справляется с иллюзией и контролем, значит слабая визуальная обработка в целом (Qwen2.5-3B: R=0.13). Если R ≈ 1 — восприятие и память конкурируют (Claude-Opus-4.1: R=1.01), модель частично видит изменения, но паттерн иллюзии вносит помехи.
Рычаги диагностики для твоих задач:
Противоположные вопросы — проси модель ответить на "Элемент A больше B?" и "Элемент A меньше B?" на одном изображении. Если ответы не комплементарны (оба "Да" или оба "Нет") — модель не уверена или игнорирует визуал.
Инверсия контента — покажи исходное изображение, получи ответ. Измени ключевой визуальный элемент (размер, цвет, положение) и повтори вопрос. Если ответ не меняется — модель судит по композиции/паттерну, не по деталям.
Убери контекст — если подозреваешь заученный паттерн, обрежь изображение до минимума (только целевые объекты, без окружения). Точность выросла? Значит окружение активировало память вместо анализа.
Инструкция фокусировки — добавь "Оцени строго по визуальному восприятию, игнорируй типичные паттерны". Для некоторых моделей это снижает опору на память (хотя эффект слабый для GPT-5).
Применимая техника: противоположные вопросы для проверки визуальной уверенности
Когда тебе критично важно получить точный визуальный анализ (дизайн-ревью, проверка данных с графика, сравнение изображений), используй технику противоположных вопросов:
Шаг 1: Задай прямой вопрос
"На графике выручка в марте выше чем в феврале?"
Шаг 2: Задай обратный вопрос (на том же изображении)
"На графике выручка в марте ниже чем в феврале?"
Шаг 3: Проверь комплементарность
Если модель ответила "Да" на оба — она не уверена или галлюцинирует.
Если ответы противоположные (Да/Нет или Нет/Да) — модель лингвистически корректна.
Шаг 4: Проверь точность (если знаешь правильный ответ)
Если оба ответа комплементарны, но оба неверны — модель уверенно ошибается
(высокая PFC, низкая точность — признак опоры на паттерн, а не на восприятие).
Когда применять: - Анализ графиков и диаграмм (цифры, тренды) - Дизайн-ревью (размеры, пропорции, выравнивание) - Сравнение версий документов/макетов - Проверка визуальных данных для отчётов
Признаки ненадёжного ответа: - Модель даёт одинаковый ответ ("Да") на "больше?" и "меньше?" - Модель меняет ответ при перефразировке, но не при визуальном изменении - Ответы комплементарны, но противоречат очевидному (для тебя) визуальному факту
Проверочный промпт для диагностики модели
Хочешь быстро проверить полагается ли твоя модель на визуал или на память? Вот готовый сценарий:
Покажи модели классическую оптическую иллюзию (найди в интернете:
иллюзия Эббингауза, Мюллера-Лайера, шахматная тень Адельсона).
Запрос 1: "Оба центральных круга одинакового размера?"
Запрос 2: "Оба центральных круга разного размера?"
Если модель даёт противоположные ответы (Да/Нет) — лингвистически корректна.
Если оба ответа "Нет" или "Да" — высокий TFI, игнорирует формулировку.
Теперь инвертируй иллюзию (в Photoshop/Figma/онлайн-редакторе измени размер
одного круга, чтобы они реально стали разными).
Запрос 3: "Оба центральных круга одинакового размера?"
Если ответ ТОТ ЖЕ что на оригинале — модель узнала паттерн иллюзии
и отвечает по памяти, игнорируя визуальное изменение.
Интерпретация результатов:
| Поведение модели | Что это значит | Твоя стратегия |
|---|---|---|
| На инверсии ответ НЕ изменился | Память > Восприятие (GPT-5 тип) | Проси "опиши что видишь пошагово", убирай контекст-подсказки |
| На инверсии ответ изменился, но слабо | Конкуренция (Claude-Opus тип) | Давай градуированные изменения, проси сравнить детали |
| На контроле (без иллюзии) точность падает так же | Слабое визуальное восприятие (Qwen-3B тип) | Используй более крупные модели семейства или другую |
| Одинаковые ответы на противоположные вопросы | Лингвистическая фиксация (TFI) | Модель не готова к визуальным задачам, смени инструмент |
Ограничения
⚠️ Это не техника промптинга, а диагностика: Исследование не даёт способ "починить" опору на память — оно лишь показывает как и почему модели ошибаются. Для критичных визуальных задач тестируй модель заранее или используй инверсию/контроли для проверки.
⚠️ Разные модели требуют разных стратегий: GPT-5 (сильная память) и Qwen2.5-3B (слабое восприятие) дают похожие низкие результаты на иллюзиях, но по разным причинам. Универсального промпта "заставить видеть" нет — выбирай модель под задачу или комбинируй (например, Claude-Haiku для визуала, GPT для рассуждений).
⚠️ Малые модели лингвистически нестабильны: Qwen2.5-3B показывает 46.82% TFI — почти половина ответов игнорирует полярность вопроса ("одинаковые?" vs "разные?" → оба раза "Нет"). Для визуальных задач такие модели непригодны независимо от промпта.
⚠️ Инструкции "игнорируй знания" почти не работают: Добавление "судите только по визуальному восприятию, не используйте знания" даёт минимальный прирост. Память активируется автоматически при узнавании паттерна — явной инструкцией это не перебить.
Как исследовали
Команда собрала 27 классических визуальных иллюзий из психологии восприятия: искажения размера (Эббингауз, Мюллер-Лайер), геометрические (Поггендорф, Цёлльнер), яркость и контраст (шахматная тень, полосы Маха). Для каждой иллюзии создали параметрически контролируемые варианты: оригинал, инверсия факторов иллюзии (например, большой/маленький круг меняются местами) с 10 градациями силы возмущения (α), контрольные изображения где убрали паттерн иллюзии (окружающие круги, стрелки и т.д.), и версии с визуальными подсказками (наложенные линейки, сетки). Итого 870 базовых кейсов × 11 визуальных вариантов = 9570 изображений плюс языковые вариации.
На языковой стороне каждое изображение получило три формулировки вопроса: прямую ("Оба круга одинакового размера?"), обратную полярность ("Оба круга разного размера?") и вариант с инструкциями игнорировать знания. Это дало ~30 000 пар изображение-вопрос.
Протестировали 15 VLM через API: последние OpenAI (GPT-5, GPT-5-Mini, GPT-5-Nano), Anthropic (Claude-Opus-4.1, Claude-Sonnet-4.5, Claude-Haiku-4.5), Google (Gemini-2.5-Flash и -Lite), серии Qwen3-VL и Qwen2.5-VL (от 3B до 235B параметров). Базовый метод сравнения: точность на оригинале vs инверсии vs контроле. Но главная идея — новые метрики, которые изолируют причины.
PFC (Polarity-Flip Consistency) мерит даёт ли модель комплементарные ответы на противоположные вопросы ("одинаковые?" → Да, "разные?" → Нет). Высокая PFC значит лингвистическая последовательность. Затем разложили PFC на PFA (оба ответа правильные) и CbW (coherent but wrong — комплементарны, но оба неверны). CbW выше у моделей с сильной памятью: GPT-5 показывает 82.51% PFC, но 31.08% CbW — модель лингвистически корректна, но визуально систематически ошибается.
R (illusion multiplier) нормализует падение точности: R = (падение на иллюзии Оригинал→Инверсия) / (падение на контроле). R > 1 значит иллюзия мешает сильнее обычного возмущения → память перебивает восприятие. R < 1 значит модель одинаково плохо везде → слабая визуальная обработка. R ≈ 1 — конкуренция сигналов.
Критический инсайт пришёл из инверсии результатов: на контрольных изображениях топ-3 модели (GPT-5, GPT-5-Mini, Claude-Opus-4.1) при инверсии факторов падают на места 15, 14, 11 — полная перестановка ранжирования. Значит сильные модели "сильны" в узнавании паттернов, а не в визуальном анализе. Малые модели (Claude-Haiku-4.5, GPT-5-Nano) наоборот поднимаются в топ — у них нет мощной памяти, они полагаются на входной сигнал.
Дополнительно собрали человеческие ответы на подмножестве стимулов чтобы установить перцептивные пороги. Люди тоже подвержены иллюзиям на оригиналах, но корректно переключаются на инверсиях (высокая PFC и PFA). VLM показывают высокую PFC, но низкую PFA на иллюзиях — лингвистическая логика есть, визуальная нет.
Почему результаты получились такими: Модели обучались на интернет-данных, где визуальные иллюзии — популярный контент с подписями типа "эти круги одинаковые, хотя кажутся разными!". Композиция иллюзии активирует заученную связь текста и паттерна. При инверсии композиция остаётся узнаваемой ("это та самая иллюзия Эббингауза"), модель достаёт закешированный факт и игнорирует что визуальные параметры изменились. На контрольных изображениях (круги без окружения) композиционный триггер отсутствует — модель вынуждена анализировать. Градуированные возмущения (α от 0 до 1) показали что GPT-5 вообще не реагирует на силу возмущения на иллюзиях (кривая плоская ~5%), а Claude-Opus-4.1 показывает дозозависимость (22%→40%) — частичное восприятие пробивается сквозь память.
Неожиданность: размер модели не коррелирует с визуальным восприятием. Qwen2.5-72B проигрывает Qwen3-8B на визуальных категориях, GPT-5-Nano работает лучше GPT-5 на инверсиях. Инсайт для практики: для критичных визуальных задач смотри не на размер, а на архитектуру обработки изображений и качество обучения на визуальных данных.
Ресурсы
Do VLMs Perceive or Recall? Probing Visual Perception vs. Memory with Classic Visual Illusions
https://sites.google.com/view/vi-probe/
Xiaoxiao Sun, Mingyang Li, Kun Yuan, Min Woo Sun, Mark Endo, Shengguang Wu, Changlin Li, Yuhui Zhang, Zeyu Wang, Serena Yeung-Levy
Stanford University, University of Strasbourg, Technical University of Munich
