3,583 papers
arXiv:2602.12196 74 12 фев. 2026 г. FREE

VRB (Visual Reasoning Benchmark): карта слепых зон мультимодальных LLM в пространственном мышлении

КЛЮЧЕВАЯ СУТЬ
Мультимодальные LLM отлично считают объекты (+1.4% точности) и распознают масштаб (+5%), но проваливаются на пространственных трансформациях: вращение −5%, отражение −5.8%, складывание −9%. Это называют «зубчатой границей способностей» (jagged frontier). Тест 45 моделей на 701 настоящем школьном задании из Замбии и Индии показал: модели видят дискретные элементы, но не могут мысленно манипулировать ими в пространстве. Задача «сколько кубиков?» решается легко. Задача «как выглядит фигура после поворота на 90°?» — провал. Лучший результат — Gemini 3.0 Flash с 78%, что ниже порога полезности в классе (94%).
Адаптировать под запрос

TL;DR

Модели отлично считают объекты и распознают масштаб, но проваливаются на пространственных трансформациях — вращениях, отражениях, складываниях. Исследователи протестировали 45 мультимодальных моделей на 701 настоящем школьном задании по визуальной логике из начальных классов Замбии и Индии. Лучший результат — Gemini 3.0 Flash с 78%, что далеко от порога "полезности в классе" в 94% (консенсус трёх взрослых экспертов).

Причина провала — "зубчатая граница способностей" (jagged frontier). Модели хорошо работают со статическими навыками (counting, scaling) — это +5% к точности на задачах с масштабированием, +1.4% на подсчёте. Но достигают "пространственного потолка" на динамических операциях: rotation снижает точность на −5%, reflection на −5.8%, folding на −9%. Всё, что требует мысленно повернуть, отразить или сложить объект в пространстве — слабое место даже топовых моделей.

Исследование показало конкретную закономерность: чем сложнее пространственная трансформация, тем больше модель полагается на текстовые подсказки вместо визуального понимания. На задачах типа "найди лишнее" или "продолжи паттерн" модели работают лучше (+10-15%), чем на "сопоставь после трансформации" — там нужно удержать в памяти промежуточное состояние объекта после вращения или складывания.


📌

Главные находки

📌

1. Карта слепых зон в визуальном мышлении

Что работает хорошо (положительный эффект на точность): - Scaling (масштабирование): +5% — модель легко видит "это больше/меньше" - Counting (подсчёт): +1.4% — распознавание количества объектов

Что работает плохо (негативный эффект на точность): - Layering (наложение слоёв): −3.5% - Reconfiguring Shapes (перестройка фигур): −3.5% - Shading and Line Type (штриховка и типы линий): −4.5% - Shape and Form (форма и структура): −4.5% - Rotation (вращение): −5% - Reflection (отражение): −5.8% - Folding (складывание): −9%

Механика провала: Модели "видят" дискретные элементы, но не могут мысленно манипулировать ими в пространстве. Задача "сколько кубиков?" решается легко. Задача "как будет выглядеть эта фигура после поворота на 90°?" — провал.


📌

2. Формат задачи важнее сложности

Pattern Completion (Linear) — лучший результат у топ-15 моделей. Продолжить последовательность легче, чем применить трансформацию.

Match (Process) — худший результат даже у frontier-моделей. Требует многошаговой трансформации и удержания промежуточного состояния.

Odd One Out — относительно легко даже для слабых моделей. Прямое сравнение объектов, без применения правил.

Разброс внутри одной модели: У топовых моделей разница между лучшей и худшей категорией задач — 10-25%. У новых open-source (Kimi-K2.5, Qwen3-VL) — до 35%. Чем мощнее модель, тем более неравномерно распределены её способности.


⚖️

3. Стоимость vs точность: визуальная граница ценности

$0.01/M токенов: ~23% точности (уровень случайного угадывания) $0.10–0.20/M: ~38-40% (слабые модели) $0.50/M: 78% — Gemini-3 Flash (аномалия на value frontier) $5–100/M: 60-76% (большинство дорогих моделей)

Gemini-3 Flash — единственная модель, которая превосходит конкурентов в 10 раз дороже. Остальные дорогие модели ($10+/M) показывают 60-70%, что даже ниже бюджетного Gemini.

Value frontier сдвигается вверх: За период с конца 2024 до конца 2025 лучшие модели в диапазоне $0.10/M выросли с ~30% до ~38-39%. Визуальное мышление улучшается так же быстро, как текстовое.


📌

4. Open-source отстаёт, кроме Kimi-K2.5

Proprietary модели доминируют топ списка. Open-weight модели в основном ниже 45%, кроме: - Kimi-K2.5: 60% (но триллион параметров — непригоден для локального хостинга) - GLM-4.6V и QWEN3-VL: ~45%

Парадокс масштаба: Open-source модель достигает frontier-уровня, но требует инфраструктуры frontier-компаний. Преимущества локального хостинга (приватность, дешевизна, доступность в LMIC) нивелируются требованиями к железу.


🚀

Применение для работы с визуальными задачами

📌

Стратегия 1: Текстовое дублирование для spatial tasks

Когда: Задача требует rotation, reflection, folding — любую мысленную манипуляцию объектом.

Как:

[Приложить изображение]

Опиши словами что видишь на изображении: расположение элементов, их форму, ориентацию.

Теперь выполни задачу: {твоя задача с трансформацией}

Рассуждай пошагово, опираясь на описание.

Почему работает: Модель лучше работает с текстовыми представлениями трансформаций, чем с чисто визуальными. Описание создаёт текстовую "опору" для рассуждений.


📌

Стратегия 2: Декомпозиция на статические операции

Когда: Сложная задача включает несколько трансформаций (например, "поверни И отрази").

Как:

Задача: {задача с несколькими трансформациями}

Разбей на шаги:
1. Что происходит на первом шаге? Опиши результат словами.
2. Что происходит на втором шаге? Опиши результат словами.
3. Как выглядит финальный результат?

Теперь сопоставь с вариантами ответа.

Почему работает: Модель проваливается на удержании промежуточного состояния. Явное описание каждого шага переносит нагрузку с визуальной памяти на текстовую последовательность.


📌

Стратегия 3: Используй сильные стороны — counting и scaling

Когда: Задача может быть переформулирована через подсчёт или сравнение размеров.

Пример:

Вместо: "Какая фигура получится после трансформации?"

Переформулируй: "Сколько элементов изменят положение? Сколько увеличатся/уменьшатся?"

Промпт:

[Приложить изображение]

Вместо того чтобы трансформировать фигуру мысленно, ответь:
- Сколько элементов должно измениться?
- Какие элементы станут больше/меньше?
- Сколько элементов останутся на месте?

Теперь проверь варианты ответа на соответствие этим критериям.

Почему работает: Counting и scaling — сильные стороны моделей (+1.4% и +5% соответственно). Перевод задачи в эти операции повышает точность.


📌

Стратегия 4: Перепроверка на spatial tasks

Когда: Модель дала ответ на задачу с rotation/reflection/folding.

Промпт:

Ты дал ответ {ответ модели}.

Проверь себя:
1. Опиши исходное положение элементов словами.
2. Опиши что должно измениться при {трансформация}.
3. Опиши положение элементов в твоём ответе.
4. Совпадают ли шаг 2 и шаг 3?

Если нет — пересмотри ответ.

Почему работает: Модель может дать правильный ответ случайно или по текстовым паттернам. "Self-check" через текстовое описание выявляет логические ошибки.


🧠

Почему это работает

Слабость мультимодальных LLM: Vision-энкодеры хорошо распознают статические элементы (количество, размер, форму), но плохо справляются с мысленной манипуляцией — операциями, требующими удержать промежуточное состояние объекта в памяти. Rotation, reflection, folding — всё это требует "представить как объект будет выглядеть после", а модель не может "визуализировать" промежуточный шаг.

Сильная сторона LLM: Текстовые рассуждения и пошаговая логика. Модель может следовать цепочке "если повернуть на 90°, то элемент A окажется на месте B", но не может "увидеть" результат поворота без текстового описания.

Текстовое дублирование переносит нагрузку с визуальной памяти на текстовую последовательность. Вместо "представь результат вращения" модель получает "опиши что где окажется" — это она умеет.

Декомпозиция разбивает сложную трансформацию на серию простых текстовых шагов. Вместо одного визуального "прыжка" модель делает несколько текстовых "шагов".

Counting и scaling работают потому что это перцептивные операции, не требующие трансформации. Модель видит 5 объектов — она просто распознаёт их, не манипулирует. Видит большой/маленький — просто сравнивает размер, не вращает.


⚠️

Ограничения инсайтов

⚠️ Локальный хостинг: Open-source модели, достигающие приемлемой точности (Kimi-K2.5 на 60%), требуют триллион параметров — непригодны для локального запуска в школах или на личных устройствах.

⚠️ Порог полезности: Даже лучшая модель (Gemini-3 Flash, 78%) ниже порога "полезности в классе" (94% — консенсус трёх взрослых). Для критически важных задач (автоматическая проверка домашних заданий) текущие модели ненадёжны.

⚠️ Риск ложного скаффолдинга: Модель может дать правильный ответ на простых задачах (counting), создав у пользователя ложное впечатление о способностях. На spatial tasks та же модель провалится. Пользователь не увидит границу между "работает" и "не работает" без знания карты слепых зон.

⚠️ Текстовое дублирование — костыль: Инсайт "добавь текстовое описание" работает, но это обход проблемы, не решение. Если задача чисто визуальная (нет текста в оригинале), добавление текста может исказить задачу или сделать её проще, чем было задумано.


🔍

Как исследовали

Команда взяла 701 настоящий школьный вопрос по визуальной логике из экзаменов Замбии (Grade 7 End of Primary Exams, Special Paper 2) и Индии (JNVST Class 6 Selection Test). Это не синтетические задачи, а те, которые реально дают детям 11-12 лет. Важно: вопросы оставили как есть — с артефактами ксерокопирования, лёгкими дефектами печати, минимумом текста. Идея: проверить как модель справится с "настоящим" студенческим вопросом, не отполированным бенчмарком.

Верификация ответов: Три человека (два эксперта в образовании + один неэксперт) независимо решили каждый вопрос. Если большинство (2 из 3 или 3 из 3) согласны — вопрос попал в финальный датасет. 34 вопроса выкинули из-за отсутствия консенсуса, 10 — из-за технических ошибок. В итоге: 658 вопросов с полным консенсусом + 43 с консенсусом 2 из 3 (оставили чтобы проверить даже топовые модели на сложных кейсах). Полный консенсус трёх взрослых = 94% точности — это и есть "порог полезности в классе".

Аннотация по задачам и навыкам: Каждый вопрос разметили двумя тегами: - Task (формат вопроса): Odd One Out, Pattern Completion, Match (Figure), Match (Process), Series, Analogies — 6 категорий - Skill (визуальная операция): Counting, Scaling, Rotation, Reflection, Folding, Layering, Reconfiguring Shapes, Shading/Line Type, Shape/Form, Position/Direction — 10 категорий

Один вопрос мог иметь несколько skill-тегов (например, rotation + shading), но только один task-тег.

Тестирование моделей: 45 мультимодальных моделей (проприетарные + open-weight) протестировали на этих 701 вопросе. Промпт minimal-text — только изображение и "выбери вариант A/B/C/D", никаких подсказок или примеров. Это изолирует визуальное мышление от языковых подсказок.

Удивительные результаты: - Gemini-3 Flash за $0.50/M обогнал модели за $10-100/M — это единственная аномалия на value frontier - Kimi-K2.5 (open-source) достиг 60%, но только потому что триллион параметров — парадокс "открытой" модели, требующей недоступную инфраструктуру - Разброс внутри моделей до 35% между лучшей и худшей категорией задач — неравномерность способностей растёт с мощностью модели

Почему важна аннотация по skills: Task-уровень показывает "где провал", skill-уровень — "почему провал". Например, Match (Process) проваливается не просто потому что "сложный формат", а потому что требует Rotation + Folding — оба навыка с сильным негативным эффектом (−5% и −9%).

Marginal effects: Использовали статистическую модель, контролирующую модель, датасет, task-категорию. Это позволило изолировать чистый эффект каждого skill-тега на точность. Counting даёт +1.4%, Folding − 9% — это не просто корреляция, а контролируемое сравнение "всё остальное равно, как skill X влияет на accuracy".

Эволюция value frontier: Сравнили три снимка — конец 2024, середина 2025, конец 2025. Во всех ценовых диапазонах точность выросла на 5-10%. Визуальное мышление улучшается так же быстро, как текстовое — это опровергает гипотезу о "застое в мультимодальности".


🔗

Ресурсы

Visual Reasoning Benchmark (VRB): Evaluating Multimodal LLMs on Classroom-Authentic Visual Problems from Primary Education

Источники вопросов: - Zambia's National End of Primary Exams Special Paper 2 (Non-Verbal Reasoning), 2018-2022 - Jawahar Navodaya Vidyalaya Selection Test (JNVST) Class 6, Индия, 2014-2024 - UK '11+' Secondary Entrance Exams guidance material (использовали для категоризации)

Mohamed Huti, Alasdair Mackintosh, Amy Waldock, Dominic Andrews, Maxime Lelièvre, Moritz Boos, Tobias Murray, Paul Atherton, Robin A. A. Ince, Oliver G. B. Garrod — Fab AI


📋 Дайджест исследования

Ключевая суть

Мультимодальные LLM отлично считают объекты (+1.4% точности) и распознают масштаб (+5%), но проваливаются на пространственных трансформациях: вращение −5%, отражение −5.8%, складывание −9%. Это называют «зубчатой границей способностей» (jagged frontier). Тест 45 моделей на 701 настоящем школьном задании из Замбии и Индии показал: модели видят дискретные элементы, но не могут мысленно манипулировать ими в пространстве. Задача «сколько кубиков?» решается легко. Задача «как выглядит фигура после поворота на 90°?» — провал. Лучший результат — Gemini 3.0 Flash с 78%, что ниже порога полезности в классе (94%).

Принцип работы

Не полагайся на визуальное понимание для задач с трансформациями — переводи в текстовое описание. Модель хорошо работает со статическими навыками (подсчёт, сравнение размеров), но достигает «пространственного потолка» на динамических операциях. Чем сложнее пространственная трансформация, тем больше модель полагается на текстовые подсказки вместо визуального понимания. На задачах типа «найди лишнее» модели работают на +10-15% лучше, чем на «сопоставь после трансформации» — там нужно удержать промежуточное состояние объекта после вращения.

Почему работает

Vision-энкодеры распознают статические элементы (количество, размер, форму), но плохо справляются с мысленной манипуляцией — операциями, требующими удержать промежуточное состояние в памяти. Модель может следовать цепочке «если повернуть на 90°, то элемент A окажется на месте B», но не может «увидеть» результат поворота без текстового описания. Текстовое дублирование переносит нагрузку с визуальной памяти на текстовую последовательность. Вместо «представь результат вращения» модель получает «опиши что где окажется» — это она умеет.

Когда применять

Визуальные задачи → конкретно для пространственных трансформаций (вращение, отражение, складывание фигур), особенно когда требуется многошаговая манипуляция объектом. НЕ подходит для критически важных задач (автоматическая проверка домашних заданий) — даже лучшая модель (78%) ниже порога надёжности (94%).

Мини-рецепт

1. Текстовое дублирование: Перед spatial task попроси модель описать словами что видит на изображении — расположение элементов, форму, ориентацию. Потом задай задачу с трансформацией.
2. Декомпозиция на шаги: Разбей сложную трансформацию на серию простых. Вместо «поверни И отрази» → «что происходит на первом шаге? опиши результат. что на втором шаге? опиши результат».
3. Переформулируй через counting/scaling: Если возможно, переведи задачу в подсчёт элементов или сравнение размеров — это сильные стороны модели (+1.4% и +5%).
4. Self-check для spatial tasks: После ответа попроси модель описать словами исходное положение, что должно измениться при трансформации, и положение в её ответе — совпадают ли?

Примеры

[ПЛОХО] : [Приложить изображение развёртки куба] Какая грань окажется напротив красной после складывания?
[ХОРОШО] : [Приложить изображение] Опиши словами расположение цветных граней на развёртке: какая слева от красной, какая справа, какая сверху. Теперь представь что складываешь куб — какая грань окажется напротив красной? Рассуждай пошагово, опираясь на описание расположения.
Источник: Visual Reasoning Benchmark: Evaluating Multimodal LLMs on Classroom-Authentic Visual Problems from Primary Education
ArXiv ID: 2602.12196 | Сгенерировано: 2026-02-13 06:28

Проблемы LLM

ПроблемаСутьКак обойти
Модель видит объекты, но не может мысленно ими манипулироватьДаёшь картинку с фигурой. Просишь посчитать элементы — модель справляется отлично. Просишь показать как фигура будет выглядеть после поворота на 90° — провал. Модель распознаёт статические элементы (что есть, сколько, какой размер). Но не может удержать в памяти промежуточное состояние при трансформации (повернуть, отразить, сложить). Это проблема для любых задач где нужно представить результат изменения объектаПереведи визуальную операцию в текстовую последовательность шагов. Вместо "покажи результат поворота" попроси: "Опиши словами где сейчас каждый элемент. Опиши куда переместится каждый элемент после поворота. Опиши финальное положение". Модель справляется с текстовыми рассуждениями о трансформациях, но не с визуализацией результата
📖 Простыми словами

Visual Reasoning Benchmark: Evaluating MultimodalLLMson Classroom-Authentic Visual Problems from Primary Education

arXiv: 2602.12196

Мультимодальные модели сегодня напоминают зубрилу, который выучил все определения, но впадает в ступор при виде простейшей детской задачки. Проблема в том, как устроено их «зрение»: Vision-энкодеры отлично фиксируют статику — они видят, что на картинке три яблока или большой квадрат. Но как только нужно совершить мысленную манипуляцию, например, повернуть фигуру или сложить лист бумаги, нейронка ломается. Она не умеет удерживать в памяти промежуточное состояние объекта, поэтому для неё «до» и «после» — это две разные картинки, связь между которыми она просто не догоняет.

Это как если бы ты попросил человека собрать шкаф из Икеи, а он видел бы только отдельные доски, но совершенно не понимал, как они стыкуются в пространстве. Вроде глаза есть, а пространственного воображения — ноль. Модель видит детали, но не понимает динамику трансформации, поэтому любая попытка «отразить» или «повернуть» превращается для неё в угадайку.

Исследователи прогнали 45 топовых моделей через ад начальной школы: 701 задание из учебников Замбии и Индии. Результаты — полный облом. Даже хвалёная Gemini 3.0 Flash выдала всего 78% правильных ответов. На бумаге звучит неплохо, но для реальной помощи в классе нужно минимум 94% — это уровень обычного взрослого человека. Получается, что современные AI-гиганты пока не тянут даже на уровень четвероклассника, когда дело касается визуальной логики.

Этот провал — не просто проблема школьных тестов, а диагноз всей индустрии. Принцип универсален: если модель лажает на вращении кубика в учебнике, она так же будет косячить в архитектурных чертежах, дизайне или анализе сложных схем. Мы привыкли думать, что LLM — это всезнающий разум, но на деле это мощный калькулятор текста, который пасует перед элементарной геометрией и пространством.

Короче, не спеши доверять нейронкам задачи, где нужно что-то «представить» или «повернуть в уме». Пока они не научатся моделировать изменения объектов, а не просто описывать их, толку от них в реальном проектировании будет мало. Визуальный интеллект — это не про узнавание котиков, а про понимание того, как устроен мир в 3D. Пока что AI в этом плане — слепой котенок с энциклопедическими знаниями.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с