3,583 papers
arXiv:2602.01816 73 2 фев. 2026 г. FREE

VIA-Bench: визуальные иллюзии как стресс-тест для мультимодальных LLM

КЛЮЧЕВАЯ СУТЬ
Парадокс: Мультимодальные LLM (GPT-4o, Claude, Gemini) не видят, а додумывают. На картинке рука с 6 пальцами — модель упорно отвечает «5», потому что «обычно у рук 5 пальцев». Люди справляются с визуальными иллюзиями на 93.3%, лучшая модель (OpenAI o3) — только на 69.2%. Разрыв минимум 24%. Исследование VIA-Bench позволяет понять когда мультимодальные модели врут о визуальном содержимом — они приоритизируют «что знаю» над «что вижу». Фишка: CoT (пошаговые рассуждения) на иллюзиях не исправляет ошибку, а рационализирует её. Модель делает начальную ошибку восприятия (видит 5 пальцев вместо 6), потом генерирует цепочку рассуждений которая объясняет почему это логично. Точность падает на 4-12% в зависимости от категории.
Адаптировать под запрос

TL;DR

VIA-Bench — исследование, которое проверило 20+ мультимодальных моделей (GPT-4o, Claude, Gemini, Qwen-VL, InternVL) на визуальных иллюзиях и аномалиях. Создали набор из 1004 вопросов в 6 категориях: цветовые иллюзии, иллюзии движения, гештальт-иллюзии, геометрические иллюзии, общие визуальные иллюзии и визуальные аномалии (например, рука с 6 пальцами, невозможные объекты, обманки восприятия).

Главная находка: Модели слепо следуют внутренним стереотипам, даже когда визуальное содержимое показывает обратное. На картинке рука с 6 пальцами — модель упорно отвечает "5", потому что "обычно у рук 5 пальцев". Люди справляются с задачами на 93.3%, лучшая модель (OpenAI o3) — только на 69.2%. Разрыв минимум 24%. Модели приоритизируют "что я знаю" над "что я вижу" — когда визуальное содержимое конфликтует с внутренними ожиданиями, модель выбирает стереотип.

Парадокс Chain-of-Thought: CoT (пошаговые рассуждения) на визуальных иллюзиях не помогает, а вредит. Вместо исправления ошибки восприятия модель начинает рационализировать галлюцинацию — генерирует правдоподобные объяснения неправильной предпосылки. Исследователи назвали это "хрупкие миражи" (brittle mirages) — логика разваливается под обманчивым визуальным стимулом. В некоторых категориях CoT снижает точность на 8-12%.

📌

Ключевые инсайты для работы с мультимодальными LLM

📌

1. Когда модели "не видят", а "додумывают"

Слабое место: Модели обучены на миллионах стандартных изображений. У них сформировались жёсткие визуальные стереотипы — "руки = 5 пальцев", "лестницы = прямые", "цвета = как обычно". Когда реальное изображение отклоняется от ожидания (6 пальцев, невозможная геометрия, оптическая иллюзия), модель не корректирует восприятие, а навязывает стереотип.

Механика ошибок: - Цветовые иллюзии (лучшая модель: 51.8%) — модель "знает", какого цвета должен быть объект, и не видит реальный цвет на картинке - Визуальные аномалии (лучшая модель: 25.0%) — модель не замечает лишний палец, искажённую перспективу, невозможную конструкцию - Геометрические иллюзии (лучшая модель: 97.2% у o4-mini, но другие проваливаются) — модель полагается на знание о прямых линиях, а не на визуальный анализ

📌

2. Почему CoT усиливает галлюцинации на визуальных задачах

Нормальная работа CoT: "Давай пошагово" помогает модели разложить задачу, проверить логику, найти ошибки.

На визуальных иллюзиях CoT ломается: 1. Модель делает начальную ошибку восприятия (видит 5 пальцев вместо 6) 2. CoT не исправляет, а рационализирует ошибку — генерирует цепочку рассуждений, которая объясняет, почему "это логично, что 5" 3. Возникает overthinking — модель зацикливается: "подожди... но... нет... может быть...", но не выходит из ловушки

Пример из исследования: На вопрос о количестве элементов в иллюзии модель с CoT даёт развёрнутое неправильное объяснение, а без CoT просто ошибается быстрее. Точность падает на 4-12% в зависимости от категории.

Почему: Визуальная иллюзия создаёт неправильную предпосылку. CoT развивает логику на основе этой предпосылки, но не проверяет саму предпосылку. Чем длиннее цепочка рассуждений, тем глубже модель увязает в галлюцинации.

📌

3. Ещё интересные находки

Текстовая модель GPT-4 (без зрения) показала 87.95% на иллюзиях движения — выше многих мультимодальных! Как? Использовала текстовые знания: "статичная картинка не может показать движение, значит это иллюзия". Парадокс: слепая модель лучше "видящей", потому что не попадает в визуальную ловушку.

Размер модели ≠ точность на иллюзиях: Qwen2.5-VL-3B (3 миллиарда параметров) показывает 34.84%, а Qwen2.5-VL-72B (72 миллиарда) — примерно на том же уровне. Проблема не в мощности, а в фундаментальной архитектуре восприятия.

Категория "не уверен": В каждом вопросе был вариант "Not Sure". Модели редко его выбирают, даже когда ошибаются. Это показывает overconfidence — модель не осознаёт свою неопределённость на визуальных иллюзиях.

📌

Что это значит для работы в ChatGPT/Claude

📌

Практический вывод 1: Избегай CoT на визуальных задачах с необычным содержимым

Когда НЕ использовать "давай пошагово": - Описание фотографий с дефектами, аномалиями, нестандартными деталями - Анализ дизайна с визуальными эффектами, оптическими иллюзиями - Проверка изображений на соответствие реальности (count пальцев, зубов, элементов) - Любые задачи, где визуальное содержимое может конфликтовать с "обычным"

Вместо CoT используй прямой конкретный вопрос:

Плохо:

Посмотри на эту фотографию руки. Давай пошагово проверим:
сколько пальцев на ней?

Хорошо:

Сколько пальцев на этой руке? Посчитай ровно то, что видишь 
на фотографии, не опирайся на знание "сколько обычно".
📌

Практический вывод 2: Критически проверяй визуальные описания

Модель может "не увидеть" и "додумать". Если задача критична — проверяй:

Техника "якорь на визуальное содержимое":

Опиши точно что видишь на картинке. Не используй общие знания.
Если видишь {конкретная деталь} — назови это.
Если не уверен — скажи "не уверен", не додумывай.
📌

Практический вывод 3: Разделяй "описание" и "анализ"

Если нужно описать необычное изображение:

Шаг 1 — попроси только описать видимое (без интерпретаций) Шаг 2 — отдельным запросом попроси проанализировать описанное

Это снижает риск, что модель "додумает" на этапе восприятия.

🚀

Примеры применения

📌

Задача 1: Проверка фотографий товаров на маркетплейсе

Контекст: Нужно проверить, совпадает ли описание с фото — все ли элементы на месте, нет ли дефектов.

Плохой подход:

Посмотри на фото кроссовок. Давай пошагово проверим:
соответствует ли фото описанию "белые кроссовки 
с тремя полосками"?

Хороший подход:

Опиши точно что видишь на фото: цвет, количество полосок,
детали. Не используй знание "как обычно выглядят кроссовки",
только то что показано на изображении.
📌

Задача 2: Анализ скриншота интерфейса с багом

Контекст: Скриншот интерфейса, где кнопка отображается не так, как должна (например, текст обрезан, цвет неправильный).

Плохой подход:

Вот скриншот интерфейса. Объясни пошагово, что не так с кнопкой.

Хороший подход:

Опиши кнопку на скриншоте: цвет фона, цвет текста, 
весь ли текст виден. Именно то, что показано на скриншоте,
не то, как "должно быть по стандартам".
📌

Задача 3: Оценка креативного дизайна с визуальными эффектами

Контекст: Дизайн с намеренными визуальными иллюзиями, игрой перспективы, необычными цветовыми решениями.

Плохой подход:

Проанализируй этот дизайн пошагово. Какие визуальные 
приёмы использованы?

Хороший подход:

Первый шаг: опиши что видишь — цвета, формы, расположение.
Второй шаг: после описания я попрошу проанализировать приёмы.

Результат: Разделение описания (что вижу) и анализа (что это значит) снижает риск, что модель пропустит намеренные визуальные приёмы, приняв их за "нестандартность, которую нужно исправить".

🧠

Почему это работает (и почему не работает)

Слабость: Мультимодальные LLM обучены на стандартных изображениях. Визуальный энкодер настроен на распознавание типичных паттернов. Когда паттерн нарушен (аномалия, иллюзия), энкодер выдаёт смешанный сигнал, а текстовая часть модели приоритизирует внутренние знания над визуальным сигналом.

Почему CoT вредит: CoT работает в текстовом пространстве. Если визуальный энкодер дал неправильный сигнал ("5 пальцев"), текстовая цепочка рассуждений не исправит — она развивает логику на основе ошибочной предпосылки. Чем длиннее цепочка, тем глубже модель закрепляет ошибку через рационализацию.

Почему прямой вопрос лучше: Короткий прямой вопрос снижает риск overthinking и рационализации. Модель выдаёт первый ответ (который может быть правильным или неправильным), но не успевает переубедить саму себя в неправильном варианте через развёрнутые рассуждения.

Рычаги управления:

  1. Инструкция "только видимое" — фокусирует модель на визуальном сигнале, а не на стереотипах
  2. Разделение описания и анализа — снижает смешивание восприятия и интерпретации
  3. Запрет на CoT для визуальных аномалий — избегает рационализации галлюцинаций
  4. Опция "не уверен" — даёт модели право не додумывать (хотя модели редко её используют)
⚠️

Ограничения

⚠️ Диагностика, не решение: Исследование показывает проблему, но не даёт техники её обхода. Практические выводы (избегать CoT, задавать прямые вопросы) — это смягчение, не устранение слабости.

⚠️ Применимо только к мультимодальным моделям: ChatGPT с vision, Claude с загрузкой изображений, Gemini. Текстовые модели этой проблемы не имеют (им нечего "не увидеть").

⚠️ Не все визуальные задачи подвержены: Проблема проявляется на аномалиях и иллюзиях — там, где визуальное содержимое конфликтует с ожиданиями. На стандартных фотографиях (пейзажи, обычные объекты) CoT работает нормально.

⚠️ Модели развиваются: Исследование показало текущее состояние (начало 2025). Будущие модели могут улучшить визуальное восприятие. Но фундаментальная проблема (конфликт "вижу" vs "знаю") вряд ли решится быстро.

🔍

Как исследовали

Исследователи из Zhejiang University, Tencent и Stanford создали VIA-Bench — набор из 1004 вопросов-ответов с изображениями. Процесс был многоступенчатым: manual web-crawling (ручной сбор иллюзий из специализированных источников), human-in-the-loop review (эксперты проверяли каждую пару вопрос-ответ), debiasing (рандомизация порядка вариантов ответа, чтобы модель не угадывала по позиции).

Протестировали 20+ моделей — от 3B до 235B параметров. Разделили на три группы: proprietary (GPT-4o, Gemini, Claude), open-source (Qwen-VL, InternVL), reasoning-enhanced (OpenAI o3, модели с "thinking mode"). Каждую модель прогнали 5 раз и усреднили результаты, чтобы снизить случайность.

Использовали два протокола оценки: Match (regex-парсинг ответа модели) и Judge (GPT-4.1-mini как арбитр). Это важно, потому что модели иногда отвечают не ровно "A/B/C/D", а развёрнуто — джадж позволяет засчитать правильную логику.

Интересная деталь: Текстовую GPT-4 (без vision) тоже протестировали как blind baseline. Она показала random chance 29.13% в среднем, но на иллюзиях движения — 87.95%! Как? Использовала текстовое знание: "статичная картинка → иллюзия движения". Это показало, что текстовые приоры могут быть сильнее визуального анализа.

Почему пришли к выводу о вреде CoT: Запустили модели с тремя вариантами промптов: zero-shot CoT ("Let's think step by step"), manual CoT (детальные инструкции по рассуждениям) и baseline (прямой вопрос без CoT). В большинстве категорий точность падала на CoT-промптах. Исследователи проанализировали reasoning traces (где модель показывает мысли) и нашли паттерн: модель рационализирует изначальную ошибку восприятия вместо её исправления.

Что удивило: Даже топовые reasoning-enhanced модели (OpenAI o3 с "thinking with images", Qwen3-VL-235B с A22B-Thinking) провалились на цветовых иллюзиях (макс 51.8%) и визуальных аномалиях (макс 25.0%). Это показывает, что длинная цепочка рассуждений не компенсирует фундаментальную слабость визуального энкодера.

Инсайт для практики: Если модель делает ошибку восприятия на первом шаге, CoT эту ошибку развивает и углубляет. Для визуальных задач с аномалиями лучше короткий прямой вопрос — так модель выдаёт первый ответ, не успевая переубедить саму себя через рационализацию.

🔗

Ресурсы

Seeing Is Believing? A Benchmark for Multimodal Large Language Models on Visual Illusions and Anomalies

Wenjin Hou, Wei Liu, Han Hu, Xiaoxiao Sun, Serena Yeung-Levy, Hehe Fan

Zhejiang University, Tencent Hunyuan Team, Stanford University


📋 Дайджест исследования

Ключевая суть

Парадокс: Мультимодальные LLM (GPT-4o, Claude, Gemini) не видят, а додумывают. На картинке рука с 6 пальцами — модель упорно отвечает «5», потому что «обычно у рук 5 пальцев». Люди справляются с визуальными иллюзиями на 93.3%, лучшая модель (OpenAI o3) — только на 69.2%. Разрыв минимум 24%. Исследование VIA-Bench позволяет понять когда мультимодальные модели врут о визуальном содержимом — они приоритизируют «что знаю» над «что вижу». Фишка: CoT (пошаговые рассуждения) на иллюзиях не исправляет ошибку, а рационализирует её. Модель делает начальную ошибку восприятия (видит 5 пальцев вместо 6), потом генерирует цепочку рассуждений которая объясняет почему это логично. Точность падает на 4-12% в зависимости от категории.

Принцип работы

Не делай: «Давай пошагово проверим это изображение» на визуальных аномалиях Делай: Прямой конкретный вопрос «Что ВИДИШЬ? Не опирайся на знание 'как обычно', только то что показано» Почему CoT ломается на иллюзиях: 1. Визуальный энкодер даёт смешанный сигнал (5 или 6 пальцев?) 2. Текстовая часть выбирает стереотип («обычно 5») 3. CoT развивает логику на основе ошибочной предпосылки — чем длиннее цепочка, тем глубже модель увязает в галлюцинации Прямой вопрос снижает риск overthinking и рационализации. Модель выдаёт первый ответ, не успевая переубедить саму себя через развёрнутые рассуждения.

Почему работает

Мультимодальные LLM обучены на миллионах стандартных изображений. У них сформировались жёсткие визуальные стереотипы — «руки = 5 пальцев», «лестницы = прямые», «цвета = как обычно». Когда реальное изображение отклоняется, модель не корректирует восприятие, а навязывает стереотип. Разбивка по категориям (лучшие результаты): - Визуальные аномалии (6 пальцев, невозможные объекты): 25.0% - Цветовые иллюзии: 51.8% - Геометрические иллюзии: 97.2% (у o4-mini, другие проваливаются) Жесть — слепая текстовая GPT-4 (без зрения) показала 87.95% на иллюзиях движения, выше многих мультимодальных! Как? Использовала логику: «статичная картинка не может показать движение, значит это иллюзия». Парадокс: слепая модель лучше видящей, потому что не попадает в визуальную ловушку. Размер модели не помогает: Qwen2.5-VL-3B (3 миллиарда параметров) — 34.84%, Qwen2.5-VL-72B (72 миллиарда) — примерно на том же уровне. Проблема в фундаментальной архитектуре восприятия, не в мощности.

Когда применять

Мультимодальная работа с визуальным контентом → конкретно для описания фото с дефектами/аномалиями, проверки товаров на маркетплейсе, анализа скриншотов интерфейса с багами, оценки креативного дизайна с визуальными эффектами. Особенно когда визуальное содержимое может конфликтовать с обычным — нестандартное количество элементов, искажённая перспектива, оптические иллюзии, намеренные визуальные приёмы. НЕ подходит для стандартных фотографий (пейзажи, обычные объекты) — там CoT работает нормально, проблема только на аномалиях.

Мини-рецепт

1. Задай прямой вопрос: Вместо Давай пошагово проверим используй Сколько пальцев на этой руке? Посчитай ровно то что видишь на фотографии

2. Добавь якорь на визуальное содержимое: Не используй общие знания о том 'как обычно'. Если видишь {конкретная деталь} — назови это. Если не уверен — скажи 'не уверен', не додумывай

3. Раздели описание и анализ: Шаг 1 — Опиши точно что видишь: цвет, количество элементов, детали (без интерпретаций). Шаг 2 — отдельным запросом попроси проанализировать описанное

4. Для критичных задач проверяй: После получения ответа переспроси конкретно про подозрительные детали — Точно 5 пальцев? Посмотри ещё раз на правую часть изображения

Примеры

[ПЛОХО]: `Посмотри на фото кроссовок. Давай пошагово проверим: соответствует ли фото описанию 'белые кроссовки с тремя полосками'?` (Модель может «додумать» три полоски даже если их две или четыре, потому что «обычно у Adidas три») [ХОРОШО]: `Опиши точно что видишь на фото: цвет кроссовок, количество полосок на боковой стороне, их расположение. Не используй знание 'как обычно выглядят кроссовки Adidas', только то что показано на этом конкретном изображении. Если полосок две — так и скажи 'две', а не 'должно быть три'` [ПЛОХО]: `Вот скриншот интерфейса с багом. Объясни пошагово что не так с кнопкой` (CoT может начать рационализацию: «кнопка выглядит нормально, потому что...» вместо того чтобы заметить обрезанный текст) [ХОРОШО]: `Опиши кнопку на скриншоте: цвет фона, цвет текста, виден ли весь текст полностью или часть обрезана. Именно то что показано на скриншоте, не то как 'должно быть по UI-стандартам'. После описания я спрошу что с этим не так`
Источник: Seeing Is Believing? A Benchmark for Multimodal Large Language Models on Visual Illusions and Anomalies (VIA-Bench)
ArXiv ID: 2602.01816 | Сгенерировано: 2026-02-03 06:24

Проблемы LLM

ПроблемаСутьКак обойти
Мультимодальная модель "знает" сильнее чем "видит"Загружаешь фото руки с 6 пальцами. Спрашиваешь "сколько пальцев?". Модель отвечает "5". Почему? Визуальный энкодер видит картинку нечётко. Текстовая часть модели знает "у рук обычно 5 пальцев". Конфликт решается в пользу стереотипа. Модель выбирает "что я знаю" вместо "что я вижу". Проблема появляется на любых изображениях с аномалиями: лишние элементы, дефекты, невозможная геометрия, оптические иллюзииДобавь в запрос якорь на визуальное: "Посчитай ровно то что видишь на фото, не опирайся на знание 'сколько обычно'". Или разбей на шаги: сначала "опиши что видишь", потом отдельным запросом "проанализируй описанное"

Методы

МетодСуть
Двухшаговое описание картинки — сначала "что", потом "зачем"Шаг 1: Попроси только описать видимое без интерпретаций. "Опиши что видишь: цвета, формы, количество элементов. Только то что показано на изображении". Шаг 2: Отдельным запросом попроси проанализировать. "Теперь объясни что это значит". Почему работает: Разделение снижает риск что модель "додумает" на этапе восприятия. Если сразу просишь анализ — модель смешивает "вижу" и "интерпретирую", визуальные стереотипы подменяют реальное содержимое. Двухшаговый подход фиксирует описание до интерпретации. Когда применять: изображения с дефектами, аномалиями, нестандартными деталями (проверка товаров, баги интерфейса, креативный дизайн). Когда не работает: стандартные фотографии без аномалий — там можно сразу просить анализ
📖 Простыми словами

Seeing Is Believing? A Benchmark for MultimodalLargeLanguageModelson Visual Illusions and Anomalies

arXiv: 2602.01816

Твои глаза тебя обманывают, но нейросети они обманывают еще жестче. Суть в том, что современные мультимодальные модели типа GPT-4o или Gemini не «видят» картинку целиком, как мы, а разбирают её на математические паттерны. Исследование VIA-Bench доказало: когда дело доходит до визуальных иллюзий и аномалий, хваленый искусственный интеллект превращается в слепого котенка. Он просто не понимает контекст взаимодействия объектов, потому что его учили предсказывать следующий пиксель, а не осознавать физику и логику пространства.

Это как если бы ты показал фокуснику карточный трюк, а он вместо того, чтобы восхититься, начал бы доказывать, что карты просто поменяли свои координаты в пространстве. Формально он прав, но сути не уловил. Нейросеть смотрит на картинку Эшера с бесконечной лестницей и не видит в ней ничего странного, потому что каждый отдельный фрагмент кажется ей логичным. Она не чувствует подвоха, который считывает любой пятилетний ребенок, просто взглянув на невозможный объект.

В тесте VIA-Bench прогнали 20 топовых моделей через 1004 вопроса, разбив их на жесткие категории. Самый большой провал случился на геометрических иллюзиях и цветовых искажениях — модели упорно не видят, что две линии одинаковой длины или два квадрата одного цвета. Еще хуже дела с визуальными аномалиями: ИИ часто пропускает такие косяки, как шесть пальцев на руке или парящие в воздухе предметы. Для него это не ошибка реальности, а просто еще один вариант статистической нормы.

Хотя тест проводили на картинках-обманках, принцип универсален для любой работы с визуалом. Если модель лажает на простых линиях Мюллера-Лайера, она так же легко пропустит критическую ошибку в медицинском снимке, чертеже двигателя или системе безопасности беспилотника. Визуальное понимание — это не распознавание объектов, это понимание связей между ними. Пока что ИИ просто хорошо угадывает названия предметов, но абсолютно не вдупляет, как они должны существовать в реальном мире.

Короче: не спеши доверять глазам нейросети, когда дело касается нюансов. Исследование показало, что даже самые мощные модели типа Claude или Qwen-VL пока не тянут роль полноценного визуального эксперта. 1004 теста, 6 категорий, тотальный провал на логике. Если хочешь найти косяк на картинке или проверить дизайн на адекватность — делай это сам, иначе рискуешь получить результат, где формально всё на месте, но пользоваться этим невозможно.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с