arXiv:2601.22150 74 29 янв. 2026 г. FREE

VI-Probe: диагностика восприятия vs памяти через визуальные иллюзии

КЛЮЧЕВАЯ СУТЬ

Обнаружено: VLM отвечают по заученным паттернам, а не по тому что реально на картинке. GPT-5 на классической иллюзии Эббингауза даёт 91.72% точности, но при инверсии факторов (большой/маленький круг меняются местами) падает до 4.45% — модель продолжает выдавать заученный ответ "круги одинаковые", хотя визуально они теперь разные. Фреймворк VI-Probe диагностирует полагается ли модель на визуальное восприятие или на память через классические оптические иллюзии плюс инверсию. Показываешь оригинал → модель отвечает правильно. Инвертируешь факторы иллюзии → модель узнаёт композицию и достаёт заготовленный ответ, игнорируя что визуал изменился.

Адаптировать под запрос

⚡

TL;DR

VI-Probe — исследовательский фреймворк, который через классические визуальные иллюзии (Эббингауза, Мюллера-Лайера) выявляет полагаются ли VLM на визуальное восприятие или на заученные паттерны. Механика: показываешь модели оригинальную иллюзию (она отвечает правильно), затем инвертируешь факторы иллюзии — и модель продолжает давать тот же ответ, хотя картинка визуально изменилась.

Главная находка: VLM отвечают по памяти, а не по картинке. GPT-5 на оригинальных иллюзиях даёт 91.72% точности, но при инверсии факторов падает до 4.45% — модель продолжает выдавать заученный ответ на "классическую иллюзию", игнорируя что визуально всё изменилось. При этом на контрольных изображениях (без паттерна иллюзии) точность падает меньше: с 96.55% до 52.24%. Разрыв показывает: модель узнаёт композицию иллюзии и достаёт заготовленный ответ, вместо того чтобы анализировать что реально на картинке.

Исследователи ввели три метрики для диагностики: PFC (даёт ли модель противоположные ответы на противоположные вопросы), TFI (повторяет ли одинаковый ответ независимо от формулировки), R (во сколько раз эффект иллюзии сильнее обычного возмущения). Разные семейства моделей демонстрируют разные механизмы отказа: GPT-5 — полное переопределение памятью (R=1.97), Claude-Opus-4.1 — конкуренция восприятия и памяти (R≈1), Qwen — ограничения визуальной обработки (R<1).

📌

Схема диагностики

ПОДГОТОВКА:
Берёшь визуальную иллюзию → создаёшь 4 варианта изображения
├─ Оригинал иллюзии (x^O)
├─ Инверсия факторов иллюзии (x^P) — например, большой/маленький круг меняются местами
├─ Контроль оригинала (x^OC) — убрали паттерн иллюзии, оставили объекты
└─ Контроль инверсии (x^PC)

ЯЗЫКОВЫЕ ВАРИАЦИИ:
Для каждого изображения задаёшь 3 вопроса
├─ Прямой: "Оба круга одинакового размера?" (q^f)
├─ Обратный: "Оба круга разного размера?" (q^r)
└─ Инструкция: "Судите только по визуальному восприятию, игнорируйте знания" (q^I)

МЕТРИКИ:
PFC = модель даёт противоположные ответы на q^f и q^r? 
TFI = модель повторяет один ответ на оба вопроса?
R = (падение точности на иллюзии) / (падение на контроле)

Всё выполняется через обычные запросы к VLM API/чату.

🚀

Пример применения

Задача: Проверить, анализирует ли GPT-4o с Vision твой дизайн-макет по факту или выдаёт заученные клише.

Промпт (шаг 1 — оригинал):

Посмотри на этот макет лендинга. Какой элемент визуально доминирует — 
заголовок или кнопка CTA?

[прикрепляешь скриншот где заголовок крупнее]

Промпт (шаг 2 — инверсия):

Посмотри на обновлённый макет. Какой элемент визуально доминирует — 
заголовок или кнопка CTA?

[прикрепляешь скриншот где кнопка CTA теперь в 2 раза крупнее заголовка]

Промпт (шаг 3 — проверка полярности):

На первом макете — заголовок крупнее кнопки CTA или наоборот?
На втором макете — заголовок крупнее кнопки CTA или наоборот?

Результат:

Если модель на оба макета отвечает "заголовок доминирует" (хотя визуально второй изменился) — она судит по паттерну "классический лендинг = крупный заголовок", а не по твоей конкретной картинке. Если на шаг 3 даёт одинаковые ответы на противоположные вопросы — высокий TFI, модель игнорирует формулировку. Надёжный анализ: модель корректно переключается между ответами и объясняет визуальные различия.

🧠

Почему это работает

Слабость VLM: Модели обучены на миллионах изображений с подписями. Визуальные иллюзии — классические примеры из учебников психологии. Когда модель видит композицию круга в окружении других кругов (иллюзия Эббингауза), она узнаёт паттерн и достаёт заученный факт: "центральный круг кажется меньше, но физически одинаковый". Проблема: модель применяет этот факт даже когда факторы иллюзии инвертированы и круги реально стали разного размера.

Сильная сторона: VLM хорошо различают изображения без заученных паттернов. Когда убираешь окружающие круги (контрольное изображение), модель полагается на визуальный анализ, а не на память — точность остаётся выше даже при возмущениях.

Как метрики изолируют причину: R (illusion multiplier) нормализует падение точности на иллюзии относительно контроля. Если R > 1 — иллюзия мешает сильнее обычного возмущения, значит память перебивает восприятие (GPT-5: R=1.97). Если R < 1 — модель одинаково плохо справляется с иллюзией и контролем, значит слабая визуальная обработка в целом (Qwen2.5-3B: R=0.13). Если R ≈ 1 — восприятие и память конкурируют (Claude-Opus-4.1: R=1.01), модель частично видит изменения, но паттерн иллюзии вносит помехи.

Рычаги диагностики для твоих задач:

Противоположные вопросы — проси модель ответить на "Элемент A больше B?" и "Элемент A меньше B?" на одном изображении. Если ответы не комплементарны (оба "Да" или оба "Нет") — модель не уверена или игнорирует визуал.

Инверсия контента — покажи исходное изображение, получи ответ. Измени ключевой визуальный элемент (размер, цвет, положение) и повтори вопрос. Если ответ не меняется — модель судит по композиции/паттерну, не по деталям.

Убери контекст — если подозреваешь заученный паттерн, обрежь изображение до минимума (только целевые объекты, без окружения). Точность выросла? Значит окружение активировало память вместо анализа.

Инструкция фокусировки — добавь "Оцени строго по визуальному восприятию, игнорируй типичные паттерны". Для некоторых моделей это снижает опору на память (хотя эффект слабый для GPT-5).

📌

Применимая техника: противоположные вопросы для проверки визуальной уверенности

Когда тебе критично важно получить точный визуальный анализ (дизайн-ревью, проверка данных с графика, сравнение изображений), используй технику противоположных вопросов:

Шаг 1: Задай прямой вопрос
"На графике выручка в марте выше чем в феврале?"

Шаг 2: Задай обратный вопрос (на том же изображении)
"На графике выручка в марте ниже чем в феврале?"

Шаг 3: Проверь комплементарность
Если модель ответила "Да" на оба — она не уверена или галлюцинирует.
Если ответы противоположные (Да/Нет или Нет/Да) — модель лингвистически корректна.

Шаг 4: Проверь точность (если знаешь правильный ответ)
Если оба ответа комплементарны, но оба неверны — модель уверенно ошибается 
(высокая PFC, низкая точность — признак опоры на паттерн, а не на восприятие).

Когда применять: - Анализ графиков и диаграмм (цифры, тренды) - Дизайн-ревью (размеры, пропорции, выравнивание) - Сравнение версий документов/макетов - Проверка визуальных данных для отчётов

Признаки ненадёжного ответа: - Модель даёт одинаковый ответ ("Да") на "больше?" и "меньше?" - Модель меняет ответ при перефразировке, но не при визуальном изменении - Ответы комплементарны, но противоречат очевидному (для тебя) визуальному факту

📋

Проверочный промпт для диагностики модели

Хочешь быстро проверить полагается ли твоя модель на визуал или на память? Вот готовый сценарий:

Покажи модели классическую оптическую иллюзию (найди в интернете: 
иллюзия Эббингауза, Мюллера-Лайера, шахматная тень Адельсона).

Запрос 1: "Оба центральных круга одинакового размера?"
Запрос 2: "Оба центральных круга разного размера?"

Если модель даёт противоположные ответы (Да/Нет) — лингвистически корректна.
Если оба ответа "Нет" или "Да" — высокий TFI, игнорирует формулировку.

Теперь инвертируй иллюзию (в Photoshop/Figma/онлайн-редакторе измени размер 
одного круга, чтобы они реально стали разными).

Запрос 3: "Оба центральных круга одинакового размера?"

Если ответ ТОТ ЖЕ что на оригинале — модель узнала паттерн иллюзии 
и отвечает по памяти, игнорируя визуальное изменение.

Интерпретация результатов:

Поведение модели	Что это значит	Твоя стратегия
На инверсии ответ НЕ изменился	Память > Восприятие (GPT-5 тип)	Проси "опиши что видишь пошагово", убирай контекст-подсказки
На инверсии ответ изменился, но слабо	Конкуренция (Claude-Opus тип)	Давай градуированные изменения, проси сравнить детали
На контроле (без иллюзии) точность падает так же	Слабое визуальное восприятие (Qwen-3B тип)	Используй более крупные модели семейства или другую
Одинаковые ответы на противоположные вопросы	Лингвистическая фиксация (TFI)	Модель не готова к визуальным задачам, смени инструмент

⚠️

Ограничения

⚠️ Это не техника промптинга, а диагностика: Исследование не даёт способ "починить" опору на память — оно лишь показывает как и почему модели ошибаются. Для критичных визуальных задач тестируй модель заранее или используй инверсию/контроли для проверки.

⚠️ Разные модели требуют разных стратегий: GPT-5 (сильная память) и Qwen2.5-3B (слабое восприятие) дают похожие низкие результаты на иллюзиях, но по разным причинам. Универсального промпта "заставить видеть" нет — выбирай модель под задачу или комбинируй (например, Claude-Haiku для визуала, GPT для рассуждений).

⚠️ Малые модели лингвистически нестабильны: Qwen2.5-3B показывает 46.82% TFI — почти половина ответов игнорирует полярность вопроса ("одинаковые?" vs "разные?" → оба раза "Нет"). Для визуальных задач такие модели непригодны независимо от промпта.

⚠️ Инструкции "игнорируй знания" почти не работают: Добавление "судите только по визуальному восприятию, не используйте знания" даёт минимальный прирост. Память активируется автоматически при узнавании паттерна — явной инструкцией это не перебить.

🔍

Как исследовали

Команда собрала 27 классических визуальных иллюзий из психологии восприятия: искажения размера (Эббингауз, Мюллер-Лайер), геометрические (Поггендорф, Цёлльнер), яркость и контраст (шахматная тень, полосы Маха). Для каждой иллюзии создали параметрически контролируемые варианты: оригинал, инверсия факторов иллюзии (например, большой/маленький круг меняются местами) с 10 градациями силы возмущения (α), контрольные изображения где убрали паттерн иллюзии (окружающие круги, стрелки и т.д.), и версии с визуальными подсказками (наложенные линейки, сетки). Итого 870 базовых кейсов × 11 визуальных вариантов = 9570 изображений плюс языковые вариации.

На языковой стороне каждое изображение получило три формулировки вопроса: прямую ("Оба круга одинакового размера?"), обратную полярность ("Оба круга разного размера?") и вариант с инструкциями игнорировать знания. Это дало ~30 000 пар изображение-вопрос.

Протестировали 15 VLM через API: последние OpenAI (GPT-5, GPT-5-Mini, GPT-5-Nano), Anthropic (Claude-Opus-4.1, Claude-Sonnet-4.5, Claude-Haiku-4.5), Google (Gemini-2.5-Flash и -Lite), серии Qwen3-VL и Qwen2.5-VL (от 3B до 235B параметров). Базовый метод сравнения: точность на оригинале vs инверсии vs контроле. Но главная идея — новые метрики, которые изолируют причины.

PFC (Polarity-Flip Consistency) мерит даёт ли модель комплементарные ответы на противоположные вопросы ("одинаковые?" → Да, "разные?" → Нет). Высокая PFC значит лингвистическая последовательность. Затем разложили PFC на PFA (оба ответа правильные) и CbW (coherent but wrong — комплементарны, но оба неверны). CbW выше у моделей с сильной памятью: GPT-5 показывает 82.51% PFC, но 31.08% CbW — модель лингвистически корректна, но визуально систематически ошибается.

R (illusion multiplier) нормализует падение точности: R = (падение на иллюзии Оригинал→Инверсия) / (падение на контроле). R > 1 значит иллюзия мешает сильнее обычного возмущения → память перебивает восприятие. R < 1 значит модель одинаково плохо везде → слабая визуальная обработка. R ≈ 1 — конкуренция сигналов.

Критический инсайт пришёл из инверсии результатов: на контрольных изображениях топ-3 модели (GPT-5, GPT-5-Mini, Claude-Opus-4.1) при инверсии факторов падают на места 15, 14, 11 — полная перестановка ранжирования. Значит сильные модели "сильны" в узнавании паттернов, а не в визуальном анализе. Малые модели (Claude-Haiku-4.5, GPT-5-Nano) наоборот поднимаются в топ — у них нет мощной памяти, они полагаются на входной сигнал.

Дополнительно собрали человеческие ответы на подмножестве стимулов чтобы установить перцептивные пороги. Люди тоже подвержены иллюзиям на оригиналах, но корректно переключаются на инверсиях (высокая PFC и PFA). VLM показывают высокую PFC, но низкую PFA на иллюзиях — лингвистическая логика есть, визуальная нет.

Почему результаты получились такими: Модели обучались на интернет-данных, где визуальные иллюзии — популярный контент с подписями типа "эти круги одинаковые, хотя кажутся разными!". Композиция иллюзии активирует заученную связь текста и паттерна. При инверсии композиция остаётся узнаваемой ("это та самая иллюзия Эббингауза"), модель достаёт закешированный факт и игнорирует что визуальные параметры изменились. На контрольных изображениях (круги без окружения) композиционный триггер отсутствует — модель вынуждена анализировать. Градуированные возмущения (α от 0 до 1) показали что GPT-5 вообще не реагирует на силу возмущения на иллюзиях (кривая плоская ~5%), а Claude-Opus-4.1 показывает дозозависимость (22%→40%) — частичное восприятие пробивается сквозь память.

Неожиданность: размер модели не коррелирует с визуальным восприятием. Qwen2.5-72B проигрывает Qwen3-8B на визуальных категориях, GPT-5-Nano работает лучше GPT-5 на инверсиях. Инсайт для практики: для критичных визуальных задач смотри не на размер, а на архитектуру обработки изображений и качество обучения на визуальных данных.

🔗

Ресурсы

Do VLMs Perceive or Recall? Probing Visual Perception vs. Memory with Classic Visual Illusions

https://sites.google.com/view/vi-probe/

Xiaoxiao Sun, Mingyang Li, Kun Yuan, Min Woo Sun, Mark Endo, Shengguang Wu, Changlin Li, Yuhui Zhang, Zeyu Wang, Serena Yeung-Levy

Stanford University, University of Strasbourg, Technical University of Munich

📋 Дайджест исследования

Ключевая суть

Принцип работы

Диагностика через три шага. Шаг 1: Покажи оригинальную иллюзию (круг Эббингауза, стрелы Мюллера-Лайера). Задай прямой вопрос: "Оба круга одинакового размера?" Задай обратный вопрос: "Оба круга разного размера?" Проверь комплементарность ответов — если оба "Да" или оба "Нет", модель игнорирует формулировку (высокий TFI - текстовая фиксация). Шаг 2: Инвертируй факторы иллюзии в редакторе (измени размер одного круга, чтобы они реально стали разными). Повтори те же вопросы. Если ответ НЕ изменился — модель узнала паттерн и отвечает по памяти, не по визуалу. Шаг 3: Убери контекст иллюзии (обрежь окружающие круги, оставь только целевые объекты). Если точность выросла — окружение активировало память вместо анализа.

Почему работает

VLM обучены на миллионах изображений с подписями. Классические иллюзии = типовые примеры из учебников психологии, Wikipedia, образовательных сайтов. Когда модель видит композицию круга в окружении других кругов, она узнаёт паттерн "иллюзия Эббингауза" и достаёт заученный факт: "центральный круг кажется меньше, но физически одинаковый". Проблема: модель применяет этот факт даже когда факторы инвертированы и круги реально стали разными. Метрика R (illusion multiplier) изолирует причину: R=1.97 для GPT-5 означает память перебивает восприятие в 2 раза сильнее обычного возмущения. Для сравнения: Claude-Opus-4.1 показывает R≈1 (восприятие и память конкурируют), Qwen2.5-3B даёт R=0.13 (слабая визуальная обработка в целом, не только память).

Когда применять

Диагностика VLM перед критичными визуальными задачами → конкретно для дизайн-ревью (проверка размеров, пропорций, выравнивания), анализа графиков и диаграмм (тренды, сравнение столбцов), сравнения версий документов/макетов, проверки визуальных данных для отчётов. Особенно когда подозреваешь что модель отвечает по шаблону, а не по факту. НЕ подходит: для задач где визуальная точность не критична (общее описание изображения, поиск объектов).

Мини-рецепт

1. Подготовь тестовый набор: Возьми классическую иллюзию (Эббингауза, Мюллера-Лайера — найди в интернете). Создай инвертированную версию в редакторе — измени ключевой визуальный фактор (размер круга, длину линии).
2. Проверь оригинал: Задай прямой вопрос: "Оба круга одинакового размера?" Задай обратный: "Оба круга разного размера?" Если ответы не противоположные (оба "Да" или "Нет") — модель не готова к визуальным задачам, высокая текстовая фиксация.
3. Проверь инверсию: Покажи инвертированную версию. Задай те же вопросы. Если ответ ТАКОЙ ЖЕ как на оригинале — модель отвечает по памяти, игнорирует визуальное изменение.
4. Проверь контроль: Убери контекст иллюзии (обрежь окружающие элементы, оставь только целевые объекты). Если точность выросла — окружение активирует память вместо анализа.
5. Интерпретируй: Если точность на инверсии падает сильнее чем на контроле (R > 1) — память перебивает восприятие (GPT-5 тип). Если падает одинаково (R ≈ 1) — конкуренция (Claude тип). Если контроль падает сильнее (R < 1) — слабое визуальное восприятие в целом (Qwen-3B тип).

Примеры

[ПЛОХО]: `Посмотри на этот график выручки по месяцам. В марте выручка выше чем в феврале?` (модель может ответить по типовому паттерну "график растёт" не глядя на конкретные столбцы) [ХОРОШО — техника противоположных вопросов]: `Запрос 1: Посмотри на график. В марте выручка выше чем в феврале?` `Запрос 2 (на том же графике): В марте выручка ниже чем в феврале?` `Запрос 3 (показываешь инвертированный график - столбцы март/февраль поменялись местами): В марте выручка выше чем в феврале?` Если ответ на запрос 3 ТАКОЙ ЖЕ как на запрос 1 — модель отвечает по паттерну "типовой график", не по твоим данным. Если на запросы 1 и 2 ответы одинаковые (оба "Да") — модель игнорирует формулировку вопроса, визуальный анализ ненадёжен. Надёжный результат: запросы 1-2 дают противоположные ответы (Да/Нет), запрос 3 корректно меняется при визуальной инверсии.

Источник: Do VLMs Perceive or Recall? Probing Visual Perception vs. Memory with Classic Visual Illusions

ArXiv ID: 2601.22150 | Сгенерировано: 2026-01-31 09:39

Методы

Метод	Суть
Противоположные вопросы — диагностика визуальной уверенности	Задай два вопроса на одном изображении: прямой ("A больше B?") и обратный ("A меньше B?"). Проверь комплементарность ответов. Критерий PFC: ответы должны быть противоположными (Да/Нет или Нет/Да). Если оба "Да" или оба "Нет" — модель не уверена или галлюцинирует. Когда применять: перед принятием решения на основе визуального факта. Анализ графиков, дизайн-ревью, проверка данных с изображений, сравнение версий. Промпт: `"На графике выручка в марте выше чем в феврале?" → "На графике выручка в марте ниже чем в феврале?"`. Ответы комплементарны — лингвистически корректна. Некомплементарны — ненадёжна для этой картинки, смени подход. Не работает: когда тебе нужен не факт, а интерпретация (субъективная оценка дизайна, эмоциональный тон изображения)
Инверсия элементов — проверка опоры на память vs восприятие	Покажи изображение → получи ответ. Измени ключевой визуальный элемент (размер объекта, цвет, положение, пропорции) → задай тот же вопрос. Ответ НЕ изменился? Модель узнала паттерн композиции и отвечает по памяти, игнорируя твои изменения. Ответ изменился корректно? Модель анализирует визуал. Применяй: когда критично важна точность визуального анализа. Проверка макетов (изменил размер кнопки — модель это видит?), анализ данных (изменил значение на графике — модель заметила?), сравнение версий документов. Пример: Макет лендинга, заголовок крупнее кнопки → "Что доминирует?" → "Заголовок". Увеличиваешь кнопку в 2 раза → "Что доминирует?" Если снова "Заголовок" — модель судит по паттерну "лендинг = крупный заголовок", не по твоей картинке. Когда не работает: изменения слишком малые (модель их не различает даже при хорошем восприятии)
Убрать контекст — снизить активацию памяти	Подозреваешь что модель узнаёт паттерн вместо анализа? Обрежь изображение до минимума. Оставь только целевые объекты без окружения. Узнаваемый паттерн разрушается → модель полагается на визуальный анализ вместо заученного ответа. Пример: График с типичным оформлением (логотип компании, стандартная сетка, легенда) — модель может узнать "типовой отчёт" и выдать шаблонный ответ. Обрезаешь до осей и линий → модель анализирует данные. Применяй: когда точность важнее контекста. Извлечение цифр, сравнение размеров, проверка пропорций. Не применяй: когда контекст критичен для понимания (диаграммы со сложной легендой, изображения где окружение задаёт смысл)

Тезисы

Тезис	Комментарий
Узнаваемые паттерны активируют память сильнее визуального анализа	VLM обучены на миллионах изображений с подписями. Когда модель видит композицию похожую на что-то из обучающих данных (классическая иллюзия, типовой график, стандартный макет), она узнаёт паттерн → достаёт заученный ответ → применяет даже если детали изображения изменились. Механизм: память активируется автоматически при узнавании, перебивает визуальную обработку. Разница огромная: модель падает с 91% точности до 4% когда визуал меняется, но паттерн остаётся узнаваемым. Применяй: для критичных визуальных задач разрушай узнаваемые паттерны — обрезай лишнее, меняй композицию, проси "опиши что видишь пошагово" перед вопросом
Противоположные ответы на противоположные вопросы ≠ точность	Модель может быть лингвистически корректной (даёт "Да" на "больше?" и "Нет" на "меньше?"), но при этом оба ответа неверны. Это значит модель уверенно ошибается — высокая комплементарность (PFC), низкая точность. Признак: модель узнала паттерн, применила заученный ответ, лингвистически обработала вопрос корректно, но визуально не анализировала. Применяй: противоположные вопросы — это первый фильтр (отсекает лингвистические сбои), не гарантия точности. Если ответы комплементарны, но противоречат очевидному (для тебя) факту — модель полагается на память. Проверь через инверсию элементов или упрости изображение

Тезис

Комментарий

Узнаваемые паттерны активируют память сильнее визуального анализа

VLM обучены на миллионах изображений с подписями. Когда модель видит композицию похожую на что-то из обучающих данных (классическая иллюзия, типовой график, стандартный макет), она узнаёт паттерн → достаёт заученный ответ → применяет даже если детали изображения изменились. Механизм: память активируется автоматически при узнавании, перебивает визуальную обработку. Разница огромная: модель падает с 91% точности до 4% когда визуал меняется, но паттерн остаётся узнаваемым. Применяй: для критичных визуальных задач разрушай узнаваемые паттерны — обрезай лишнее, меняй композицию, проси "опиши что видишь пошагово" перед вопросом

Противоположные ответы на противоположные вопросы ≠ точность

Модель может быть лингвистически корректной (даёт "Да" на "больше?" и "Нет" на "меньше?"), но при этом оба ответа неверны. Это значит модель уверенно ошибается — высокая комплементарность (PFC), низкая точность. Признак: модель узнала паттерн, применила заученный ответ, лингвистически обработала вопрос корректно, но визуально не анализировала. Применяй: противоположные вопросы — это первый фильтр (отсекает лингвистические сбои), не гарантия точности. Если ответы комплементарны, но противоречат очевидному (для тебя) факту — модель полагается на память. Проверь через инверсию элементов или упрости изображение

📖 Простыми словами

Do VLMs Perceive or Recall? Probing Visual Perception vs. Memory with Classic Visual Illusions

arXiv: 2601.22150

Мультимодальные модели (VLM) вроде GPT-4o или Gemini на самом деле не «видят» картинку так, как мы, а скорее узнают знакомые декорации. Корень проблемы в том, что нейронки обучались на гигантских массивах данных, где классические визуальные иллюзии разжёваны миллион раз. Когда модель видит знакомую композицию, она не анализирует пиксели здесь и сейчас, а просто включает автопилот и выдаёт заученный текст из учебника психологии. Исследователи создали фреймворк VI-Probe, чтобы поймать их на этом вранье: они берут картинку, меняют в ней условия на противоположные, а модель продолжает талдычить старую мантру, игнорируя реальность перед глазами.

Это как если бы ты пришёл к окулисту, который заранее выучил таблицу Сивцева наизусть. Ты меняешь буквы местами или вешаешь другой плакат, а он бодро рапортует: «Ш, Б, М, Н, К», потому что привык, что они там должны быть. В итоге врач не проверяет твоё зрение, а просто цитирует память. Модель ведёт себя точно так же: она видит паттерн иллюзии Эббингауза и сразу «вспоминает», что круги должны быть одинаковыми, даже если ты нагло нарисовал их разными. Формально она умная, но по факту — просто заскриптованный попугай.

В работе это вскрыли через конкретные механики: инверсию факторов и контрольные замеры. Сначала модели показывают стандартную иллюзию Мюллера-Лайера (стрелочки), и она отвечает верно. Но как только исследователи меняют длину линий так, что иллюзия должна исчезнуть или сработать наоборот, модель лажает в 80% случаев. Она игнорирует визуальные данные в угоду текстовым ассоциациям из обучающей выборки. Вместо честного анализа геометрии мы получаем «галлюцинацию узнавания», где заученный паттерн побеждает здравый смысл.

Хотя тест проводили на картинках из учебников, принцип универсален для любого визуала. Это касается оценки дизайн-макетов, медицинских снимков или графиков: если ситуация похожа на «типичный случай» из интернета, модель может выдать шаблонный ответ вместо анализа конкретно твоего файла. Визуальное восприятие подменяется памятью, и это критическая уязвимость для всех, кто ждёт от AI объективности. Если картинка хоть немного напоминает популярный мем или известный кейс, модель с большой вероятностью просто «считает контекст», а не посмотрит на детали.

Короче: современные VLM — это не зоркие аналитики, а жертвы собственной эрудиции. Главный вывод исследования в том, что полагаться на «глаза» нейронки в нестандартных задачах — это полный провал, потому что она скорее верит своим старым базам данных, чем твоим пикселям. Пока мы не научим их разделять знание о предмете и наблюдение за предметом, они будут продолжать уверенно врать, глядя прямо на улики. Хочешь проверить модель на вшивость — дай ей задачу, где правильный ответ противоречит «общеизвестному факту».

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

Выберите модель ИИ:

Ваш запрос:

0 / 2000

~0.5-2 N-токенов ~10-30с

~0.3-1 N-токенов ~5-15с

Меню