3,583 papers
arXiv:2601.08292 71 13 янв. 2026 г. FREE

Мультимодальные LLM видят хуже шестилетних детей: слабости визуального восприятия и как их обойти

КЛЮЧЕВАЯ СУТЬ
Парадокс визуального восприятия: модели рассуждают на уровне эксперта, но проваливают задачи шестилетки. Посчитать пальцы, проследить линию, прочитать часы — дети дают 95%, GPT-5 только 67%. Метод компенсирующих промптов позволяет обойти слабости базового восприятия — заставить модель смотреть на изображение, а не на внутреннюю базу знаний. Фишка провала: модели предпочитают концепции реальному восприятию. Видит кота с пятью лапами. "Знает" что у котов четыре. Выдаёт "4" вместо того что видит. Компенсация работает через перенос нагрузки: вместо чистого восприятия (где модели слабы) запросить вербальное описание + рассуждение (где модели сильны). Точность подсчёта вырастает с 30% до 70-80%.
Адаптировать под запрос

TL;DR

Современные мультимодальные модели (GPT-5, Claude, Gemini) проваливают базовые визуальные задачи, с которыми справляются дети 6-7 лет. Исследование KidVis проверило 20 моделей на 10 типах визуальных задач: посчитать пальцы на руке, проследить запутанную линию, прочитать часы, найти недостающий фрагмент. Дети показали 95% точности, лучшая модель GPT-5 — только 67%. Остальные модели ещё хуже: открытые модели вроде Qwen и InternVL набрали меньше 40%.

Модели предпочитают концепции реальному восприятию. Если на картинке кот с пятью лапами, модель "знает" что у котов четыре лапы и выдаст "4" вместо того что видит. Если нужно отличить пятиугольник от шестиугольника, модель понимает критерий ("пять сторон"), но не может строго различить контуры — путает визуально похожие фигуры. Модели смотрят на цвет и текстуру, игнорируя геометрию и границы. В задачах со сборкой пазла модель подбирает фрагменты по похожему цвету, а не по форме стыка.

Увеличение параметров модели не улучшает базовое восприятие — это "Парадокс масштабирования". Qwen-30B показал результат хуже, чем Qwen-8B. Причина: мощный языковой декодер начинает перерассуждать простые визуальные задачи, генерируя семантически логичные, но визуально неточные ответы.


📌

Слабости визуального восприятия

Исследователи разложили зрение на шесть базовых способностей, которыми владеют дети 6-7 лет:

Концентрация (Visual Concentration) — способность удерживать внимание на целевом объекте, игнорируя фоновый шум. Люди используют жёсткое внимание (физически фиксируют взгляд), модели — мягкое (присваивают веса всем элементам сразу). В задачах с высоким уровнем помех (например, таблица Шульте с перемешанными цифрами) модели накапливают шум и теряют фокус.

Отслеживание (Visual Tracking) — способность плавно следить глазами за линией или траекторией. Это самая слабая способность моделей. Vision Transformer разбивает изображение на патчи (квадратики), что разрывает непрерывные линии. Модель статистически прыгает на пересекающиеся линии с похожей текстурой, вместо того чтобы сохранять топологическую связность.

Различение (Visual Discrimination) — способность улавливать тонкие различия: цвет, форму, позицию, текстуру. Здесь проявляются два провала. Первый — приоритет семантических знаний. Если на картинке кот с пятью лапами, модель "знает" что у котов четыре лапы и выдаёт биологически правильный, но визуально ложный ответ. Второй — неточность восприятия. Модель правильно понимает критерий ("найди пятиугольник — фигуру с пятью сторонами"), но не может строго отличить контуры пятиугольника от визуально похожих помех.

Память (Visual Memory) — способность удерживать визуальные детали (последовательность, расположение) и доставать из памяти эталонные образы. Топовые модели (GPT-5 — 82%) хранят статичный контекст надёжно. Но операционная гибкость хромает. Люди используют визуальную память как динамическое рабочее пространство — мысленно вращают объекты, проверяют гипотезы. Модели относятся к визуальной истории как к read-only буферу, не выполняя активных преобразований состояний для последовательного вывода.

Пространственное мышление (Visual Spatial) — восприятие относительных позиций (покрытие, поворот, вид сверху) и ментальные манипуляции (мысленный поворот). Модели проваливаются на задачах с глубиной и перспективой — не могут построить внутреннюю систему координат. Без заземлённого референсного фрейма невозможно выполнить трансформацию точки зрения. Модели путают внутренние свойства объекта и свойства, зависимые от угла обзора (например, "слева/справа"). Вместо точных метрических вычислений дают грубые семантические приближения: "стрелка указывает около 7" вместо точного угла.

Замыкание (Visual Closure) — способность опознать объект, видя только часть: размытый контур, разрозненные фрагменты, неполное изображение. Модели разделяют текстуру и геометрию. Люди используют гештальт-принцип целостности — мысленно достраивают недостающие части по характерным контурам и внутренним деталям. Модели приоритизируют поверхностную согласованность текстуры (похожий цвет, паттерн). В задачах сборки пазла модель не может строго проверить, действительно ли граница и внутренняя текстура фрагментов совместимы — полагается на визуальное сходство.


📌

Почему модели проигрывают

Модели обучены на данных, где высокоуровневые рассуждения коррелируют со статистическими паттернами в пикселях. Это работает для задач, где семантика доминирует: описать картину, ответить на вопрос по фото, сгенерировать код по скетчу. Но физическое восприятие требует другого: точный подсчёт, строгое отслеживание, метрическая геометрия.

Архитектура Vision Transformer разбивает изображение на патчи. Это эффективно для глобального контекста, но разрушает непрерывность. Тонкие линии, границы, траектории теряют связность между патчами.

Soft attention присваивает веса всем визуальным токенам одновременно. Люди физически исключают помехи жёстким вниманием (фиксация взгляда). Модели аккумулируют шум, не имея механизма активного подавления фоновых отвлечений.

Semantic prior bias — модели заучили огромное количество концептуальных знаний во время предобучения. Когда визуальный стимул конфликтует с внутренней базой знаний, модель выбирает концепцию, а не восприятие. Пример: "у котов четыре лапы" сильнее, чем "на картинке пять лап".

Статичная память — модели хранят визуальный контекст, но не используют его как рабочее пространство для активных манипуляций. Нет механизма "мысленного поворота", "проверки гипотезы через симуляцию".

Отсутствие референсного фрейма — модели не строят внутреннюю систему координат. Без заземлённого пространственного представления невозможно выполнить точные метрические расчёты (угол стрелки, расстояние, относительная позиция).


📋

Как обойти слабости в промптах

📌

Базовый принцип: отключи "знания", включи "только восприятие"

Когда просишь визуальный анализ, модель по умолчанию смешивает восприятие и знания. Явно запрети использовать внутреннюю базу знаний.

Пример: Нужно посчитать элементы на изображении (пальцы, предметы, фигуры)

Промпт:

Игнорируй своё знание о том, сколько {элементов} ДОЛЖНО быть.
Смотри ТОЛЬКО на изображение.

Опиши пошагово:
1. Какую часть изображения я прошу проанализировать?
2. Где она находится?
3. Назови каждый видимый {элемент} отдельно: "Первый: [описание позиции]", "Второй: [описание позиции]"...
4. Сколько всего насчитал?

Финальный ответ: [число]

Результат: Модель вынуждена описывать каждый элемент явно, не полагаясь на эталон "как должно быть". Пошаговая номенклатура снижает вероятность галлюцинации.


📌

Принцип: разложи визуальную задачу на вербальные шаги

Модели сильны в языковых рассуждениях, слабы в чистом восприятии. Перенеси нагрузку с восприятия на рассуждение: попроси модель описать что видит словами, потом рассуждать над описанием.

Пример: Нужно проследить запутанную линию от начала до конца

Промпт:

Задача: проследи линию от точки A до точки B.

Шаг 1: Опиши словами начальное направление линии от точки A (вверх/вниз/влево/вправо).
Шаг 2: Назови первый поворот или пересечение. В какую сторону линия поворачивает?
Шаг 3: Продолжай описывать каждый сегмент, пока не дойдёшь до точки B.
Шаг 4: Какой номер или буква в точке B?

Финальный ответ: [номер/буква]

Результат: Модель не пытается "увидеть" путь целиком (где проваливается), а строит вербальное представление траектории по сегментам. Язык — мост между слабым восприятием и сильным рассуждением.


📌

Принцип: запроси геометрическую проверку вместо визуальной похожести

Модели полагаются на текстуру и цвет. Явно запроси проверку границ, углов, сторон, симметрии.

Пример: Найти фигуру с определённым количеством сторон

Промпт:

Найди все пятиугольники на изображении.

Критерий пятиугольника:
- Замкнутая фигура
- Ровно 5 сторон (прямых или изогнутых отрезков между углами)
- Ровно 5 углов

Для каждой фигуры:
1. Посчитай углы по часовой стрелке
2. Посчитай стороны между углами
3. Проверь: фигура замкнута?
4. Если 5 углов + 5 сторон + замкнута = ДА → пятиугольник

Список найденных пятиугольников: [позиции]

Результат: Модель вынуждена выполнить геометрическую проверку, а не полагаться на визуальное сходство. Явные критерии снижают ошибки различения.


📌

Принцип: попроси несколько проходов с разными фокусами

Модели с soft attention накапливают шум при высокой плотности помех. Разбей задачу на несколько проходов, каждый с узким фокусом.

Пример: Посчитать объекты в сложной сцене

Промпт:

Посчитай {объекты} на изображении.

Проход 1: Раздели изображение на 4 квадранта (верх-лево, верх-право, низ-лево, низ-право).
Проход 2: Для каждого квадранта отдельно — посчитай {объекты} и перечисли их позиции.
Проход 3: Сложи результаты по всем квадрантам.

Итого: [число]

Результат: Разделение на зоны снижает интерференцию фона. Модель обрабатывает меньше визуальных токенов за раз, что уменьшает аттенционный шум.


📋

Шаблон универсального компенсирующего промпта

Задача: {описание визуальной задачи}

Правила анализа:
1. Игнорируй своё знание о том, как {объект/ситуация} ДОЛЖЕН выглядеть
2. Смотри ТОЛЬКО на изображение
3. Опирайся на геометрию и границы, не на цвет и текстуру

Пошаговый анализ:
1. Опиши что видишь в {целевой области} — перечисли элементы словами
2. Для каждого элемента назови {критерий проверки: количество сторон / позицию / направление}
3. Проверь результат: {условие корректности}

Финальный ответ: {формат ответа}

Где подставлять: - {описание визуальной задачи} — что нужно сделать: "посчитать пальцы на руке", "проследить красную линию", "найти недостающий фрагмент" - {объект/ситуация} — что модель может "знать": "количество пальцев у кота", "как выглядит полный циферблат" - {целевая область} — где искать: "левая лапа кота", "верхний левый угол", "все замкнутые фигуры" - {критерий проверки} — что считать/измерять: "углы и стороны", "точки поворота линии", "совпадение границ фрагментов" - {условие корректности} — как проверить правильность: "если 5 углов и 5 сторон = пятиугольник", "если линия не прервалась = правильный путь" - {формат ответа} — как выдать результат: "число", "буква", "список позиций"


⚠️

Ограничения компенсаций

⚠️ Отслеживание непрерывных линий: Даже с пошаговым описанием модели теряют нить при длинных траекториях с множественными пересечениями. Архитектура Vision Transformer физически разрывает линии на границах патчей.

⚠️ Точный подсчёт при высокой плотности: В сценах с 15+ мелкими объектами модели систематически ошибаются на 1-3 единицы, даже с разбивкой на квадранты. Механизм attention рассеивается при высокой визуальной энтропии.

⚠️ Глубина и перспектива: Задачи, требующие построения 3D ментальной модели (например, "сколько блоков скрыто сзади") остаются провальными. Модели не строят внутренний референсный фрейм.

⚠️ Токены и задержка: Компенсирующие промпты увеличивают длину запроса в 2-3 раза. Для API с лимитами токенов или платным доступом это дороже. Для задач реального времени — медленнее.


🔍

Как исследовали

Команда из Shanghai Jiao Tong University и Shanghai AI Laboratory построила бенчмарк KidVis на основе теории развития человеческого зрения. Взяли классические когнитивные тесты для детей — Motor-Free Visual Perceptual Test (MVPT-3) и Developmental Test of Visual Perception (DTVP-2) — и выделили шесть атомарных способностей, которыми владеют дети 6-7 лет. Сознательно убрали моторику (координацию "глаз-рука") и семантику, оставив чистое восприятие.

Создали 10 типов задач, по 50 вопросов в каждой. Примеры: посчитать пальцы на лапе кота (могут быть анатомические аномалии), прочитать точное время на часах (по углу стрелок), проследить запутанную линию, найти скрытую фигуру в сплетении линий, найти недостающий фрагмент пазла. Все изображения — 2K+ разрешение, чтобы детали не потерялись при сжатии.

Протестировали 20 моделей — топовые проприетарные (GPT-5, Gemini-2.5-Pro, Claude-Sonnet) и открытые (Qwen3-VL, InternVL3.5, LLaVA-Next) от 2B до 110B параметров. Запускали в zero-shot режиме (без примеров, без специальной настройки) — чистая проверка "из коробки".

Параллельно дали те же задачи трём детям 6-7 лет. Этот возраст критичен: визуальная кора уже сформирована, но энциклопедических знаний мало — проверка именно перцептивных механизмов, а не эрудиции.

Результаты оказались разгромными. Дети показали средний балл 95.32 (почти идеально). Лучшая модель GPT-5 — 67.33 (отставание на 28 пунктов). Открытые модели провалились катастрофически: большинство набрало меньше 40 баллов, некоторые не отличались от случайного выбора.

Что особенно удивило: увеличение параметров не помогает. Qwen3-VL-30B показал хуже, чем Qwen3-VL-8B. Исследователи назвали это "Scaling Law Paradox" — парадокс масштабирования. Чем мощнее языковой декодер, тем сильнее он перерассуждает простые визуальные задачи, генерируя семантически логичные, но визуально неточные ответы. Рост параметров улучшает рассуждения, но не улучшает восприятие — это разные когнитивные функции.

Самая слабая способность у всех моделей — Visual Tracking (отслеживание линий). Причина: Vision Transformer разрезает изображение на патчи (квадратики), что физически разрывает непрерывные контуры. Модель статистически прыгает на визуально похожие пересечения, вместо строгого следования топологии.

Качественный анализ ошибок показал: модели предпочитают концепции восприятию. Пример с котом и пятью лапами: модель "знает" что у котов четыре лапы, и выдаёт "4" вместо того что видит на картинке. В задачах с пазлами модели подбирают фрагменты по цвету и текстуре, игнорируя геометрию границ — ищут "похожее", а не "совместимое по форме стыка".

Это подтверждает парадокс Моравека в зрении: высокоуровневые рассуждения (интерпретация графиков, генерация кода по скетчу) стали доступны машинам, но сенсомоторные задачи, инстинктивные для детей, остаются узким местом. Модели имитируют перцептивное поведение через статистические корреляции, но не обладают физическим восприятием реальности.


🔗

Ресурсы

KidVis: Do Multimodal Large Language Models Possess the Visual Perceptual Capabilities of a 6-Year-Old?

Авторы: Xianfeng Wang, Kaiwei Zhang, Qi Jia, Zijian Chen, Guangtao Zhai, Xiongkuo Min

Организации: Shanghai Jiao Tong University, Shanghai AI Laboratory

Теоретическая база: Carroll's Three-Stratum Theory, Motor-Free Visual Perceptual Test (MVPT-3), Developmental Test of Visual Perception (DTVP-2)


📋 Дайджест исследования

Ключевая суть

Парадокс визуального восприятия: модели рассуждают на уровне эксперта, но проваливают задачи шестилетки. Посчитать пальцы, проследить линию, прочитать часы — дети дают 95%, GPT-5 только 67%. Метод компенсирующих промптов позволяет обойти слабости базового восприятия — заставить модель смотреть на изображение, а не на внутреннюю базу знаний. Фишка провала: модели предпочитают концепции реальному восприятию. Видит кота с пятью лапами. "Знает" что у котов четыре. Выдаёт "4" вместо того что видит. Компенсация работает через перенос нагрузки: вместо чистого восприятия (где модели слабы) запросить вербальное описание + рассуждение (где модели сильны). Точность подсчёта вырастает с 30% до 70-80%.

Принцип работы

Люди используют жёсткое внимание — физически фиксируют взгляд на целевом объекте, исключая фон. Модели используют мягкое внимание — присваивают веса всем элементам изображения одновременно. Результат: накапливают шум от помех, теряют фокус при высокой плотности объектов. Модели смотрят на цвет и текстуру, игнорируя геометрию и границы. В задачах со сборкой пазла модель подбирает фрагменты по похожему цвету, а не по форме стыка. Визуальный трансформер (Vision Transformer) разбивает изображение на квадратики-патчи — это эффективно для глобального контекста, но разрушает непрерывность тонких линий и траекторий.

Почему работает

Модели сильны в языковых рассуждениях, слабы в чистом восприятии. Когда заставляешь модель описать что видит словами, потом рассуждать над описанием — переносишь нагрузку с визуальной системы (слабой) на языковую (сильную). Язык работает как мост между слабым восприятием и сильным рассуждением. Парадокс масштабирования (жесть!): увеличение параметров НЕ улучшает базовое восприятие. Qwen-30B показал результат хуже, чем Qwen-8B. Причина: мощный языковой декодер начинает перерассуждать простые визуальные задачи — генерирует семантически логичные, но визуально неточные ответы. Когда модель видит конфликт между картинкой и знаниями ("у котов четыре лапы"), выбирает концепцию, а не восприятие.

Когда применять

Компьютерное зрение → любые задачи требующие визуальной точности (подсчёт элементов на изображении, различение геометрических фигур, отслеживание траекторий), особенно когда модель выдаёт концептуально правильный, но визуально ложный ответ. НЕ подходит для задач глубины и перспективы (например, "сколько блоков скрыто сзади") — модели не строят внутренний 3D референсный фрейм.

Мини-рецепт

1. Отключи "знания": Явно запрети использовать внутреннюю базу: Игнорируй своё знание о том, сколько {элементов} ДОЛЖНО быть. Смотри ТОЛЬКО на изображение.
2. Разложи на вербальные шаги: Попроси описать что видит словами: Опиши пошагово: 1) Где находится объект? 2) Назови каждый видимый элемент отдельно с позицией. 3) Сколько всего?
3. Запроси геометрическую проверку: Вместо визуальной похожести — проверка границ и углов: Посчитай углы по часовой стрелке, посчитай стороны между углами, проверь замкнутость фигуры...
4. Раздели на зоны при высокой плотности: Раздели изображение на 4 квадранта (верх-лево, верх-право, низ-лево, низ-право). Для каждого отдельно посчитай объекты. Сложи результаты.

Примеры

[ПЛОХО] : Посчитай пальцы на лапе кота на изображении
[ХОРОШО] : Игнорируй своё знание о том, сколько пальцев ДОЛЖНО быть у кота. Смотри ТОЛЬКО на изображение левой передней лапы. Опиши пошагово: 1) Какую лапу я прошу проанализировать и где она находится? 2) Назови каждый видимый палец отдельно: "Первый: [описание позиции]", "Второй: [описание позиции]"... 3) Сколько всего пальцев насчитал? Финальный ответ: [число]
Источник: Do Multimodal Large Language Models Possess the Visual Perceptual Capabilities of a 6-Year-Old? (KidVis)
ArXiv ID: 2601.08292 | Сгенерировано: 2026-01-14 05:31

Проблемы LLM

ПроблемаСутьКак обойти
Модель подменяет восприятие знаниямиПросишь посчитать элементы на картинке. Модель "знает" сколько должно быть. Выдаёт эталонное число вместо того что видит. Пример: на фото кот с пятью лапами. Модель выдаст "4 лапы" потому что "у котов четыре лапы". Игнорирует реальное изображение. Проблема для любых задач подсчёта, измерения, проверкиЯвно запрети использовать знания: "Игнорируй что ты знаешь о {объекте}. Смотри ТОЛЬКО на изображение". Попроси описать каждый элемент отдельно: "Первый: [позиция], Второй: [позиция]...". Вынужденная вербализация блокирует подмену эталоном
Модель различает по цвету и текстуре, а не по геометрииПросишь найти пятиугольник среди фигур. Модель понимает критерий ("пять сторон"). Но выбирает по визуальной похожести: цвет, паттерн заливки. Не считает углы и стороны строго. Путает геометрически разные фигуры если они похожи текстуройЗапроси явную геометрическую проверку: "Для каждой фигуры посчитай углы по часовой стрелке. Посчитай стороны между углами. Если 5 углов + 5 сторон = пятиугольник". Вербальный подсчёт заставляет проверять геометрию вместо текстуры
Модель не может игнорировать визуальные помехиВ сцене много объектов или отвлекающих элементов. Модель присваивает веса всему одновременно (мягкое внимание). Накапливает шум от фона. Теряет фокус на целевом объекте. Особенно критично при плотности 10+ элементовРазбей изображение на зоны: "Раздели на 4 квадранта. Для каждого отдельно посчитай {объекты}. Сложи результаты". Узкий фокус снижает интерференцию — модель обрабатывает меньше визуальных токенов за раз

Методы

МетодСуть
Вербализация восприятия — перенос на рассуждениеМодель сильна в языке, слабá в чистом восприятии. Не дай ей "увидеть" ответ. Заставь описать словами что видит, потом рассуждать над описанием. Промпт: "Шаг 1: Опиши что видишь в {зоне}. Шаг 2: Для каждого элемента назови {свойство}. Шаг 3: Проверь {условие}". Почему работает: Язык — мост между слабым восприятием и сильным рассуждением. Вербальное представление точнее прямого визуального вывода. Применять: подсчёт объектов, различение форм, проверка свойств. Не работает: задачи требующие непрерывного отслеживания (запутанные линии) — модель теряет нить даже с описанием
📖 Простыми словами

KidVis: Do MultimodalLargeLanguageModelsPossess the Visual Perceptual Capabilities of a 6-Year-Old?

arXiv: 2601.08292

Современные мультимодальные модели вроде GPT-4o или Claude 3.5 только притворяются, что видят мир как мы. На самом деле они не «смотрят» на картинку, а пытаются угадать её содержимое по статистическим паттернам. Фундаментальная проблема в том, что у нейросетей отсутствует пространственное мышление: они могут рассуждать о квантовой физике, но впадают в ступор, когда нужно просто посчитать пальцы на руке или понять, какая линия в путанице ведет к выходу. Это не временный баг, а глубокий провал в архитектуре, который исследование KidVis вытащило на свет.

Это как если бы ты нанял профессора философии, который не может отличить лево от право и постоянно спотыкается о собственные ноги. Формально он гений, но в реальном мире он беспомощен, потому что не понимает базовой геометрии пространства. Модели ведут себя так же: они знают определение слова «часы», но не могут считать время по стрелкам, потому что для них это просто набор пикселей, а не структурированный объект.

В тесте KidVis модели заставили решать задачи для первоклашек: найти выход из лабиринта, определить недостающий кусок пазла или прочитать аналоговые часы. Результаты — полный позор. Там, где обычный ребенок выдает 95% точности, топовая GPT-4o (в саммари ошибочно названная GPT-5) выжимает жалкие 67%. Открытые модели вроде Qwen и InternVL вообще упали ниже 40%. Они лажают в самых простых вещах: подсчет объектов, визуальное отслеживание и логика пространственных связей.

Этот провал касается не только картинок с котиками. Принцип универсален: если модель не видит структуру в детском тесте, она так же будет лажать в анализе рентгеновских снимков, чтении сложных чертежей или управлении роботами. Мы пытаемся строить надстройку над интеллектом, у которого нет фундамента. Визуальное восприятие у AI сейчас находится на уровне глубокой патологии, и никакие терабайты текста это не исправят.

Короче: не обольщайся красивыми описаниями картинок от чат-ботов. Они просто хорошо болтают, но совершенно не понимают, что именно находится перед ними. Пока точность в 67% против детских 95% — это приговор для использования AI в задачах, где важна визуальная точность. Либо мы научим их видеть структуру, либо они так и останутся слепыми профессорами, которые путаются в трех соснах.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с