TL;DR
VIA-Bench — исследование, которое проверило 20+ мультимодальных моделей (GPT-4o, Claude, Gemini, Qwen-VL, InternVL) на визуальных иллюзиях и аномалиях. Создали набор из 1004 вопросов в 6 категориях: цветовые иллюзии, иллюзии движения, гештальт-иллюзии, геометрические иллюзии, общие визуальные иллюзии и визуальные аномалии (например, рука с 6 пальцами, невозможные объекты, обманки восприятия).
Главная находка: Модели слепо следуют внутренним стереотипам, даже когда визуальное содержимое показывает обратное. На картинке рука с 6 пальцами — модель упорно отвечает "5", потому что "обычно у рук 5 пальцев". Люди справляются с задачами на 93.3%, лучшая модель (OpenAI o3) — только на 69.2%. Разрыв минимум 24%. Модели приоритизируют "что я знаю" над "что я вижу" — когда визуальное содержимое конфликтует с внутренними ожиданиями, модель выбирает стереотип.
Парадокс Chain-of-Thought: CoT (пошаговые рассуждения) на визуальных иллюзиях не помогает, а вредит. Вместо исправления ошибки восприятия модель начинает рационализировать галлюцинацию — генерирует правдоподобные объяснения неправильной предпосылки. Исследователи назвали это "хрупкие миражи" (brittle mirages) — логика разваливается под обманчивым визуальным стимулом. В некоторых категориях CoT снижает точность на 8-12%.
Ключевые инсайты для работы с мультимодальными LLM
1. Когда модели "не видят", а "додумывают"
Слабое место: Модели обучены на миллионах стандартных изображений. У них сформировались жёсткие визуальные стереотипы — "руки = 5 пальцев", "лестницы = прямые", "цвета = как обычно". Когда реальное изображение отклоняется от ожидания (6 пальцев, невозможная геометрия, оптическая иллюзия), модель не корректирует восприятие, а навязывает стереотип.
Механика ошибок: - Цветовые иллюзии (лучшая модель: 51.8%) — модель "знает", какого цвета должен быть объект, и не видит реальный цвет на картинке - Визуальные аномалии (лучшая модель: 25.0%) — модель не замечает лишний палец, искажённую перспективу, невозможную конструкцию - Геометрические иллюзии (лучшая модель: 97.2% у o4-mini, но другие проваливаются) — модель полагается на знание о прямых линиях, а не на визуальный анализ
2. Почему CoT усиливает галлюцинации на визуальных задачах
Нормальная работа CoT: "Давай пошагово" помогает модели разложить задачу, проверить логику, найти ошибки.
На визуальных иллюзиях CoT ломается: 1. Модель делает начальную ошибку восприятия (видит 5 пальцев вместо 6) 2. CoT не исправляет, а рационализирует ошибку — генерирует цепочку рассуждений, которая объясняет, почему "это логично, что 5" 3. Возникает overthinking — модель зацикливается: "подожди... но... нет... может быть...", но не выходит из ловушки
Пример из исследования: На вопрос о количестве элементов в иллюзии модель с CoT даёт развёрнутое неправильное объяснение, а без CoT просто ошибается быстрее. Точность падает на 4-12% в зависимости от категории.
Почему: Визуальная иллюзия создаёт неправильную предпосылку. CoT развивает логику на основе этой предпосылки, но не проверяет саму предпосылку. Чем длиннее цепочка рассуждений, тем глубже модель увязает в галлюцинации.
3. Ещё интересные находки
Текстовая модель GPT-4 (без зрения) показала 87.95% на иллюзиях движения — выше многих мультимодальных! Как? Использовала текстовые знания: "статичная картинка не может показать движение, значит это иллюзия". Парадокс: слепая модель лучше "видящей", потому что не попадает в визуальную ловушку.
Размер модели ≠ точность на иллюзиях: Qwen2.5-VL-3B (3 миллиарда параметров) показывает 34.84%, а Qwen2.5-VL-72B (72 миллиарда) — примерно на том же уровне. Проблема не в мощности, а в фундаментальной архитектуре восприятия.
Категория "не уверен": В каждом вопросе был вариант "Not Sure". Модели редко его выбирают, даже когда ошибаются. Это показывает overconfidence — модель не осознаёт свою неопределённость на визуальных иллюзиях.
Что это значит для работы в ChatGPT/Claude
Практический вывод 1: Избегай CoT на визуальных задачах с необычным содержимым
Когда НЕ использовать "давай пошагово": - Описание фотографий с дефектами, аномалиями, нестандартными деталями - Анализ дизайна с визуальными эффектами, оптическими иллюзиями - Проверка изображений на соответствие реальности (count пальцев, зубов, элементов) - Любые задачи, где визуальное содержимое может конфликтовать с "обычным"
Вместо CoT используй прямой конкретный вопрос:
❌ Плохо:
Посмотри на эту фотографию руки. Давай пошагово проверим:
сколько пальцев на ней?
✅ Хорошо:
Сколько пальцев на этой руке? Посчитай ровно то, что видишь
на фотографии, не опирайся на знание "сколько обычно".
Практический вывод 2: Критически проверяй визуальные описания
Модель может "не увидеть" и "додумать". Если задача критична — проверяй:
Техника "якорь на визуальное содержимое":
Опиши точно что видишь на картинке. Не используй общие знания.
Если видишь {конкретная деталь} — назови это.
Если не уверен — скажи "не уверен", не додумывай.
Практический вывод 3: Разделяй "описание" и "анализ"
Если нужно описать необычное изображение:
Шаг 1 — попроси только описать видимое (без интерпретаций) Шаг 2 — отдельным запросом попроси проанализировать описанное
Это снижает риск, что модель "додумает" на этапе восприятия.
Примеры применения
Задача 1: Проверка фотографий товаров на маркетплейсе
Контекст: Нужно проверить, совпадает ли описание с фото — все ли элементы на месте, нет ли дефектов.
Плохой подход:
Посмотри на фото кроссовок. Давай пошагово проверим:
соответствует ли фото описанию "белые кроссовки
с тремя полосками"?
Хороший подход:
Опиши точно что видишь на фото: цвет, количество полосок,
детали. Не используй знание "как обычно выглядят кроссовки",
только то что показано на изображении.
Задача 2: Анализ скриншота интерфейса с багом
Контекст: Скриншот интерфейса, где кнопка отображается не так, как должна (например, текст обрезан, цвет неправильный).
Плохой подход:
Вот скриншот интерфейса. Объясни пошагово, что не так с кнопкой.
Хороший подход:
Опиши кнопку на скриншоте: цвет фона, цвет текста,
весь ли текст виден. Именно то, что показано на скриншоте,
не то, как "должно быть по стандартам".
Задача 3: Оценка креативного дизайна с визуальными эффектами
Контекст: Дизайн с намеренными визуальными иллюзиями, игрой перспективы, необычными цветовыми решениями.
Плохой подход:
Проанализируй этот дизайн пошагово. Какие визуальные
приёмы использованы?
Хороший подход:
Первый шаг: опиши что видишь — цвета, формы, расположение.
Второй шаг: после описания я попрошу проанализировать приёмы.
Результат: Разделение описания (что вижу) и анализа (что это значит) снижает риск, что модель пропустит намеренные визуальные приёмы, приняв их за "нестандартность, которую нужно исправить".
Почему это работает (и почему не работает)
Слабость: Мультимодальные LLM обучены на стандартных изображениях. Визуальный энкодер настроен на распознавание типичных паттернов. Когда паттерн нарушен (аномалия, иллюзия), энкодер выдаёт смешанный сигнал, а текстовая часть модели приоритизирует внутренние знания над визуальным сигналом.
Почему CoT вредит: CoT работает в текстовом пространстве. Если визуальный энкодер дал неправильный сигнал ("5 пальцев"), текстовая цепочка рассуждений не исправит — она развивает логику на основе ошибочной предпосылки. Чем длиннее цепочка, тем глубже модель закрепляет ошибку через рационализацию.
Почему прямой вопрос лучше: Короткий прямой вопрос снижает риск overthinking и рационализации. Модель выдаёт первый ответ (который может быть правильным или неправильным), но не успевает переубедить саму себя в неправильном варианте через развёрнутые рассуждения.
Рычаги управления:
- Инструкция "только видимое" — фокусирует модель на визуальном сигнале, а не на стереотипах
- Разделение описания и анализа — снижает смешивание восприятия и интерпретации
- Запрет на CoT для визуальных аномалий — избегает рационализации галлюцинаций
- Опция "не уверен" — даёт модели право не додумывать (хотя модели редко её используют)
Ограничения
⚠️ Диагностика, не решение: Исследование показывает проблему, но не даёт техники её обхода. Практические выводы (избегать CoT, задавать прямые вопросы) — это смягчение, не устранение слабости.
⚠️ Применимо только к мультимодальным моделям: ChatGPT с vision, Claude с загрузкой изображений, Gemini. Текстовые модели этой проблемы не имеют (им нечего "не увидеть").
⚠️ Не все визуальные задачи подвержены: Проблема проявляется на аномалиях и иллюзиях — там, где визуальное содержимое конфликтует с ожиданиями. На стандартных фотографиях (пейзажи, обычные объекты) CoT работает нормально.
⚠️ Модели развиваются: Исследование показало текущее состояние (начало 2025). Будущие модели могут улучшить визуальное восприятие. Но фундаментальная проблема (конфликт "вижу" vs "знаю") вряд ли решится быстро.
Как исследовали
Исследователи из Zhejiang University, Tencent и Stanford создали VIA-Bench — набор из 1004 вопросов-ответов с изображениями. Процесс был многоступенчатым: manual web-crawling (ручной сбор иллюзий из специализированных источников), human-in-the-loop review (эксперты проверяли каждую пару вопрос-ответ), debiasing (рандомизация порядка вариантов ответа, чтобы модель не угадывала по позиции).
Протестировали 20+ моделей — от 3B до 235B параметров. Разделили на три группы: proprietary (GPT-4o, Gemini, Claude), open-source (Qwen-VL, InternVL), reasoning-enhanced (OpenAI o3, модели с "thinking mode"). Каждую модель прогнали 5 раз и усреднили результаты, чтобы снизить случайность.
Использовали два протокола оценки: Match (regex-парсинг ответа модели) и Judge (GPT-4.1-mini как арбитр). Это важно, потому что модели иногда отвечают не ровно "A/B/C/D", а развёрнуто — джадж позволяет засчитать правильную логику.
Интересная деталь: Текстовую GPT-4 (без vision) тоже протестировали как blind baseline. Она показала random chance 29.13% в среднем, но на иллюзиях движения — 87.95%! Как? Использовала текстовое знание: "статичная картинка → иллюзия движения". Это показало, что текстовые приоры могут быть сильнее визуального анализа.
Почему пришли к выводу о вреде CoT: Запустили модели с тремя вариантами промптов: zero-shot CoT ("Let's think step by step"), manual CoT (детальные инструкции по рассуждениям) и baseline (прямой вопрос без CoT). В большинстве категорий точность падала на CoT-промптах. Исследователи проанализировали reasoning traces (где модель показывает мысли) и нашли паттерн: модель рационализирует изначальную ошибку восприятия вместо её исправления.
Что удивило: Даже топовые reasoning-enhanced модели (OpenAI o3 с "thinking with images", Qwen3-VL-235B с A22B-Thinking) провалились на цветовых иллюзиях (макс 51.8%) и визуальных аномалиях (макс 25.0%). Это показывает, что длинная цепочка рассуждений не компенсирует фундаментальную слабость визуального энкодера.
Инсайт для практики: Если модель делает ошибку восприятия на первом шаге, CoT эту ошибку развивает и углубляет. Для визуальных задач с аномалиями лучше короткий прямой вопрос — так модель выдаёт первый ответ, не успевая переубедить саму себя через рационализацию.
Ресурсы
Seeing Is Believing? A Benchmark for Multimodal Large Language Models on Visual Illusions and Anomalies
Wenjin Hou, Wei Liu, Han Hu, Xiaoxiao Sun, Serena Yeung-Levy, Hehe Fan
Zhejiang University, Tencent Hunyuan Team, Stanford University
