TL;DR
Современные мультимодальные модели (GPT-5, Claude, Gemini) проваливают базовые визуальные задачи, с которыми справляются дети 6-7 лет. Исследование KidVis проверило 20 моделей на 10 типах визуальных задач: посчитать пальцы на руке, проследить запутанную линию, прочитать часы, найти недостающий фрагмент. Дети показали 95% точности, лучшая модель GPT-5 — только 67%. Остальные модели ещё хуже: открытые модели вроде Qwen и InternVL набрали меньше 40%.
Модели предпочитают концепции реальному восприятию. Если на картинке кот с пятью лапами, модель "знает" что у котов четыре лапы и выдаст "4" вместо того что видит. Если нужно отличить пятиугольник от шестиугольника, модель понимает критерий ("пять сторон"), но не может строго различить контуры — путает визуально похожие фигуры. Модели смотрят на цвет и текстуру, игнорируя геометрию и границы. В задачах со сборкой пазла модель подбирает фрагменты по похожему цвету, а не по форме стыка.
Увеличение параметров модели не улучшает базовое восприятие — это "Парадокс масштабирования". Qwen-30B показал результат хуже, чем Qwen-8B. Причина: мощный языковой декодер начинает перерассуждать простые визуальные задачи, генерируя семантически логичные, но визуально неточные ответы.
Слабости визуального восприятия
Исследователи разложили зрение на шесть базовых способностей, которыми владеют дети 6-7 лет:
Концентрация (Visual Concentration) — способность удерживать внимание на целевом объекте, игнорируя фоновый шум. Люди используют жёсткое внимание (физически фиксируют взгляд), модели — мягкое (присваивают веса всем элементам сразу). В задачах с высоким уровнем помех (например, таблица Шульте с перемешанными цифрами) модели накапливают шум и теряют фокус.
Отслеживание (Visual Tracking) — способность плавно следить глазами за линией или траекторией. Это самая слабая способность моделей. Vision Transformer разбивает изображение на патчи (квадратики), что разрывает непрерывные линии. Модель статистически прыгает на пересекающиеся линии с похожей текстурой, вместо того чтобы сохранять топологическую связность.
Различение (Visual Discrimination) — способность улавливать тонкие различия: цвет, форму, позицию, текстуру. Здесь проявляются два провала. Первый — приоритет семантических знаний. Если на картинке кот с пятью лапами, модель "знает" что у котов четыре лапы и выдаёт биологически правильный, но визуально ложный ответ. Второй — неточность восприятия. Модель правильно понимает критерий ("найди пятиугольник — фигуру с пятью сторонами"), но не может строго отличить контуры пятиугольника от визуально похожих помех.
Память (Visual Memory) — способность удерживать визуальные детали (последовательность, расположение) и доставать из памяти эталонные образы. Топовые модели (GPT-5 — 82%) хранят статичный контекст надёжно. Но операционная гибкость хромает. Люди используют визуальную память как динамическое рабочее пространство — мысленно вращают объекты, проверяют гипотезы. Модели относятся к визуальной истории как к read-only буферу, не выполняя активных преобразований состояний для последовательного вывода.
Пространственное мышление (Visual Spatial) — восприятие относительных позиций (покрытие, поворот, вид сверху) и ментальные манипуляции (мысленный поворот). Модели проваливаются на задачах с глубиной и перспективой — не могут построить внутреннюю систему координат. Без заземлённого референсного фрейма невозможно выполнить трансформацию точки зрения. Модели путают внутренние свойства объекта и свойства, зависимые от угла обзора (например, "слева/справа"). Вместо точных метрических вычислений дают грубые семантические приближения: "стрелка указывает около 7" вместо точного угла.
Замыкание (Visual Closure) — способность опознать объект, видя только часть: размытый контур, разрозненные фрагменты, неполное изображение. Модели разделяют текстуру и геометрию. Люди используют гештальт-принцип целостности — мысленно достраивают недостающие части по характерным контурам и внутренним деталям. Модели приоритизируют поверхностную согласованность текстуры (похожий цвет, паттерн). В задачах сборки пазла модель не может строго проверить, действительно ли граница и внутренняя текстура фрагментов совместимы — полагается на визуальное сходство.
Почему модели проигрывают
Модели обучены на данных, где высокоуровневые рассуждения коррелируют со статистическими паттернами в пикселях. Это работает для задач, где семантика доминирует: описать картину, ответить на вопрос по фото, сгенерировать код по скетчу. Но физическое восприятие требует другого: точный подсчёт, строгое отслеживание, метрическая геометрия.
Архитектура Vision Transformer разбивает изображение на патчи. Это эффективно для глобального контекста, но разрушает непрерывность. Тонкие линии, границы, траектории теряют связность между патчами.
Soft attention присваивает веса всем визуальным токенам одновременно. Люди физически исключают помехи жёстким вниманием (фиксация взгляда). Модели аккумулируют шум, не имея механизма активного подавления фоновых отвлечений.
Semantic prior bias — модели заучили огромное количество концептуальных знаний во время предобучения. Когда визуальный стимул конфликтует с внутренней базой знаний, модель выбирает концепцию, а не восприятие. Пример: "у котов четыре лапы" сильнее, чем "на картинке пять лап".
Статичная память — модели хранят визуальный контекст, но не используют его как рабочее пространство для активных манипуляций. Нет механизма "мысленного поворота", "проверки гипотезы через симуляцию".
Отсутствие референсного фрейма — модели не строят внутреннюю систему координат. Без заземлённого пространственного представления невозможно выполнить точные метрические расчёты (угол стрелки, расстояние, относительная позиция).
Как обойти слабости в промптах
Базовый принцип: отключи "знания", включи "только восприятие"
Когда просишь визуальный анализ, модель по умолчанию смешивает восприятие и знания. Явно запрети использовать внутреннюю базу знаний.
Пример: Нужно посчитать элементы на изображении (пальцы, предметы, фигуры)
Промпт:
Игнорируй своё знание о том, сколько {элементов} ДОЛЖНО быть.
Смотри ТОЛЬКО на изображение.
Опиши пошагово:
1. Какую часть изображения я прошу проанализировать?
2. Где она находится?
3. Назови каждый видимый {элемент} отдельно: "Первый: [описание позиции]", "Второй: [описание позиции]"...
4. Сколько всего насчитал?
Финальный ответ: [число]
Результат: Модель вынуждена описывать каждый элемент явно, не полагаясь на эталон "как должно быть". Пошаговая номенклатура снижает вероятность галлюцинации.
Принцип: разложи визуальную задачу на вербальные шаги
Модели сильны в языковых рассуждениях, слабы в чистом восприятии. Перенеси нагрузку с восприятия на рассуждение: попроси модель описать что видит словами, потом рассуждать над описанием.
Пример: Нужно проследить запутанную линию от начала до конца
Промпт:
Задача: проследи линию от точки A до точки B.
Шаг 1: Опиши словами начальное направление линии от точки A (вверх/вниз/влево/вправо).
Шаг 2: Назови первый поворот или пересечение. В какую сторону линия поворачивает?
Шаг 3: Продолжай описывать каждый сегмент, пока не дойдёшь до точки B.
Шаг 4: Какой номер или буква в точке B?
Финальный ответ: [номер/буква]
Результат: Модель не пытается "увидеть" путь целиком (где проваливается), а строит вербальное представление траектории по сегментам. Язык — мост между слабым восприятием и сильным рассуждением.
Принцип: запроси геометрическую проверку вместо визуальной похожести
Модели полагаются на текстуру и цвет. Явно запроси проверку границ, углов, сторон, симметрии.
Пример: Найти фигуру с определённым количеством сторон
Промпт:
Найди все пятиугольники на изображении.
Критерий пятиугольника:
- Замкнутая фигура
- Ровно 5 сторон (прямых или изогнутых отрезков между углами)
- Ровно 5 углов
Для каждой фигуры:
1. Посчитай углы по часовой стрелке
2. Посчитай стороны между углами
3. Проверь: фигура замкнута?
4. Если 5 углов + 5 сторон + замкнута = ДА → пятиугольник
Список найденных пятиугольников: [позиции]
Результат: Модель вынуждена выполнить геометрическую проверку, а не полагаться на визуальное сходство. Явные критерии снижают ошибки различения.
Принцип: попроси несколько проходов с разными фокусами
Модели с soft attention накапливают шум при высокой плотности помех. Разбей задачу на несколько проходов, каждый с узким фокусом.
Пример: Посчитать объекты в сложной сцене
Промпт:
Посчитай {объекты} на изображении.
Проход 1: Раздели изображение на 4 квадранта (верх-лево, верх-право, низ-лево, низ-право).
Проход 2: Для каждого квадранта отдельно — посчитай {объекты} и перечисли их позиции.
Проход 3: Сложи результаты по всем квадрантам.
Итого: [число]
Результат: Разделение на зоны снижает интерференцию фона. Модель обрабатывает меньше визуальных токенов за раз, что уменьшает аттенционный шум.
Шаблон универсального компенсирующего промпта
Задача: {описание визуальной задачи}
Правила анализа:
1. Игнорируй своё знание о том, как {объект/ситуация} ДОЛЖЕН выглядеть
2. Смотри ТОЛЬКО на изображение
3. Опирайся на геометрию и границы, не на цвет и текстуру
Пошаговый анализ:
1. Опиши что видишь в {целевой области} — перечисли элементы словами
2. Для каждого элемента назови {критерий проверки: количество сторон / позицию / направление}
3. Проверь результат: {условие корректности}
Финальный ответ: {формат ответа}
Где подставлять:
- {описание визуальной задачи} — что нужно сделать: "посчитать пальцы на руке", "проследить красную линию", "найти недостающий фрагмент"
- {объект/ситуация} — что модель может "знать": "количество пальцев у кота", "как выглядит полный циферблат"
- {целевая область} — где искать: "левая лапа кота", "верхний левый угол", "все замкнутые фигуры"
- {критерий проверки} — что считать/измерять: "углы и стороны", "точки поворота линии", "совпадение границ фрагментов"
- {условие корректности} — как проверить правильность: "если 5 углов и 5 сторон = пятиугольник", "если линия не прервалась = правильный путь"
- {формат ответа} — как выдать результат: "число", "буква", "список позиций"
Ограничения компенсаций
⚠️ Отслеживание непрерывных линий: Даже с пошаговым описанием модели теряют нить при длинных траекториях с множественными пересечениями. Архитектура Vision Transformer физически разрывает линии на границах патчей.
⚠️ Точный подсчёт при высокой плотности: В сценах с 15+ мелкими объектами модели систематически ошибаются на 1-3 единицы, даже с разбивкой на квадранты. Механизм attention рассеивается при высокой визуальной энтропии.
⚠️ Глубина и перспектива: Задачи, требующие построения 3D ментальной модели (например, "сколько блоков скрыто сзади") остаются провальными. Модели не строят внутренний референсный фрейм.
⚠️ Токены и задержка: Компенсирующие промпты увеличивают длину запроса в 2-3 раза. Для API с лимитами токенов или платным доступом это дороже. Для задач реального времени — медленнее.
Как исследовали
Команда из Shanghai Jiao Tong University и Shanghai AI Laboratory построила бенчмарк KidVis на основе теории развития человеческого зрения. Взяли классические когнитивные тесты для детей — Motor-Free Visual Perceptual Test (MVPT-3) и Developmental Test of Visual Perception (DTVP-2) — и выделили шесть атомарных способностей, которыми владеют дети 6-7 лет. Сознательно убрали моторику (координацию "глаз-рука") и семантику, оставив чистое восприятие.
Создали 10 типов задач, по 50 вопросов в каждой. Примеры: посчитать пальцы на лапе кота (могут быть анатомические аномалии), прочитать точное время на часах (по углу стрелок), проследить запутанную линию, найти скрытую фигуру в сплетении линий, найти недостающий фрагмент пазла. Все изображения — 2K+ разрешение, чтобы детали не потерялись при сжатии.
Протестировали 20 моделей — топовые проприетарные (GPT-5, Gemini-2.5-Pro, Claude-Sonnet) и открытые (Qwen3-VL, InternVL3.5, LLaVA-Next) от 2B до 110B параметров. Запускали в zero-shot режиме (без примеров, без специальной настройки) — чистая проверка "из коробки".
Параллельно дали те же задачи трём детям 6-7 лет. Этот возраст критичен: визуальная кора уже сформирована, но энциклопедических знаний мало — проверка именно перцептивных механизмов, а не эрудиции.
Результаты оказались разгромными. Дети показали средний балл 95.32 (почти идеально). Лучшая модель GPT-5 — 67.33 (отставание на 28 пунктов). Открытые модели провалились катастрофически: большинство набрало меньше 40 баллов, некоторые не отличались от случайного выбора.
Что особенно удивило: увеличение параметров не помогает. Qwen3-VL-30B показал хуже, чем Qwen3-VL-8B. Исследователи назвали это "Scaling Law Paradox" — парадокс масштабирования. Чем мощнее языковой декодер, тем сильнее он перерассуждает простые визуальные задачи, генерируя семантически логичные, но визуально неточные ответы. Рост параметров улучшает рассуждения, но не улучшает восприятие — это разные когнитивные функции.
Самая слабая способность у всех моделей — Visual Tracking (отслеживание линий). Причина: Vision Transformer разрезает изображение на патчи (квадратики), что физически разрывает непрерывные контуры. Модель статистически прыгает на визуально похожие пересечения, вместо строгого следования топологии.
Качественный анализ ошибок показал: модели предпочитают концепции восприятию. Пример с котом и пятью лапами: модель "знает" что у котов четыре лапы, и выдаёт "4" вместо того что видит на картинке. В задачах с пазлами модели подбирают фрагменты по цвету и текстуре, игнорируя геометрию границ — ищут "похожее", а не "совместимое по форме стыка".
Это подтверждает парадокс Моравека в зрении: высокоуровневые рассуждения (интерпретация графиков, генерация кода по скетчу) стали доступны машинам, но сенсомоторные задачи, инстинктивные для детей, остаются узким местом. Модели имитируют перцептивное поведение через статистические корреляции, но не обладают физическим восприятием реальности.
Ресурсы
KidVis: Do Multimodal Large Language Models Possess the Visual Perceptual Capabilities of a 6-Year-Old?
Авторы: Xianfeng Wang, Kaiwei Zhang, Qi Jia, Zijian Chen, Guangtao Zhai, Xiongkuo Min
Организации: Shanghai Jiao Tong University, Shanghai AI Laboratory
Теоретическая база: Carroll's Three-Stratum Theory, Motor-Free Visual Perceptual Test (MVPT-3), Developmental Test of Visual Perception (DTVP-2)
