TL;DR
Модели отлично считают объекты и распознают масштаб, но проваливаются на пространственных трансформациях — вращениях, отражениях, складываниях. Исследователи протестировали 45 мультимодальных моделей на 701 настоящем школьном задании по визуальной логике из начальных классов Замбии и Индии. Лучший результат — Gemini 3.0 Flash с 78%, что далеко от порога "полезности в классе" в 94% (консенсус трёх взрослых экспертов).
Причина провала — "зубчатая граница способностей" (jagged frontier). Модели хорошо работают со статическими навыками (counting, scaling) — это +5% к точности на задачах с масштабированием, +1.4% на подсчёте. Но достигают "пространственного потолка" на динамических операциях: rotation снижает точность на −5%, reflection на −5.8%, folding на −9%. Всё, что требует мысленно повернуть, отразить или сложить объект в пространстве — слабое место даже топовых моделей.
Исследование показало конкретную закономерность: чем сложнее пространственная трансформация, тем больше модель полагается на текстовые подсказки вместо визуального понимания. На задачах типа "найди лишнее" или "продолжи паттерн" модели работают лучше (+10-15%), чем на "сопоставь после трансформации" — там нужно удержать в памяти промежуточное состояние объекта после вращения или складывания.
Главные находки
1. Карта слепых зон в визуальном мышлении
Что работает хорошо (положительный эффект на точность): - Scaling (масштабирование): +5% — модель легко видит "это больше/меньше" - Counting (подсчёт): +1.4% — распознавание количества объектов
Что работает плохо (негативный эффект на точность): - Layering (наложение слоёв): −3.5% - Reconfiguring Shapes (перестройка фигур): −3.5% - Shading and Line Type (штриховка и типы линий): −4.5% - Shape and Form (форма и структура): −4.5% - Rotation (вращение): −5% - Reflection (отражение): −5.8% - Folding (складывание): −9%
Механика провала: Модели "видят" дискретные элементы, но не могут мысленно манипулировать ими в пространстве. Задача "сколько кубиков?" решается легко. Задача "как будет выглядеть эта фигура после поворота на 90°?" — провал.
2. Формат задачи важнее сложности
Pattern Completion (Linear) — лучший результат у топ-15 моделей. Продолжить последовательность легче, чем применить трансформацию.
Match (Process) — худший результат даже у frontier-моделей. Требует многошаговой трансформации и удержания промежуточного состояния.
Odd One Out — относительно легко даже для слабых моделей. Прямое сравнение объектов, без применения правил.
Разброс внутри одной модели: У топовых моделей разница между лучшей и худшей категорией задач — 10-25%. У новых open-source (Kimi-K2.5, Qwen3-VL) — до 35%. Чем мощнее модель, тем более неравномерно распределены её способности.
3. Стоимость vs точность: визуальная граница ценности
$0.01/M токенов: ~23% точности (уровень случайного угадывания) $0.10–0.20/M: ~38-40% (слабые модели) $0.50/M: 78% — Gemini-3 Flash (аномалия на value frontier) $5–100/M: 60-76% (большинство дорогих моделей)
Gemini-3 Flash — единственная модель, которая превосходит конкурентов в 10 раз дороже. Остальные дорогие модели ($10+/M) показывают 60-70%, что даже ниже бюджетного Gemini.
Value frontier сдвигается вверх: За период с конца 2024 до конца 2025 лучшие модели в диапазоне $0.10/M выросли с ~30% до ~38-39%. Визуальное мышление улучшается так же быстро, как текстовое.
4. Open-source отстаёт, кроме Kimi-K2.5
Proprietary модели доминируют топ списка. Open-weight модели в основном ниже 45%, кроме: - Kimi-K2.5: 60% (но триллион параметров — непригоден для локального хостинга) - GLM-4.6V и QWEN3-VL: ~45%
Парадокс масштаба: Open-source модель достигает frontier-уровня, но требует инфраструктуры frontier-компаний. Преимущества локального хостинга (приватность, дешевизна, доступность в LMIC) нивелируются требованиями к железу.
Применение для работы с визуальными задачами
Стратегия 1: Текстовое дублирование для spatial tasks
Когда: Задача требует rotation, reflection, folding — любую мысленную манипуляцию объектом.
Как:
[Приложить изображение]
Опиши словами что видишь на изображении: расположение элементов, их форму, ориентацию.
Теперь выполни задачу: {твоя задача с трансформацией}
Рассуждай пошагово, опираясь на описание.
Почему работает: Модель лучше работает с текстовыми представлениями трансформаций, чем с чисто визуальными. Описание создаёт текстовую "опору" для рассуждений.
Стратегия 2: Декомпозиция на статические операции
Когда: Сложная задача включает несколько трансформаций (например, "поверни И отрази").
Как:
Задача: {задача с несколькими трансформациями}
Разбей на шаги:
1. Что происходит на первом шаге? Опиши результат словами.
2. Что происходит на втором шаге? Опиши результат словами.
3. Как выглядит финальный результат?
Теперь сопоставь с вариантами ответа.
Почему работает: Модель проваливается на удержании промежуточного состояния. Явное описание каждого шага переносит нагрузку с визуальной памяти на текстовую последовательность.
Стратегия 3: Используй сильные стороны — counting и scaling
Когда: Задача может быть переформулирована через подсчёт или сравнение размеров.
Пример:
Вместо: "Какая фигура получится после трансформации?"
Переформулируй: "Сколько элементов изменят положение? Сколько увеличатся/уменьшатся?"
Промпт:
[Приложить изображение]
Вместо того чтобы трансформировать фигуру мысленно, ответь:
- Сколько элементов должно измениться?
- Какие элементы станут больше/меньше?
- Сколько элементов останутся на месте?
Теперь проверь варианты ответа на соответствие этим критериям.
Почему работает: Counting и scaling — сильные стороны моделей (+1.4% и +5% соответственно). Перевод задачи в эти операции повышает точность.
Стратегия 4: Перепроверка на spatial tasks
Когда: Модель дала ответ на задачу с rotation/reflection/folding.
Промпт:
Ты дал ответ {ответ модели}.
Проверь себя:
1. Опиши исходное положение элементов словами.
2. Опиши что должно измениться при {трансформация}.
3. Опиши положение элементов в твоём ответе.
4. Совпадают ли шаг 2 и шаг 3?
Если нет — пересмотри ответ.
Почему работает: Модель может дать правильный ответ случайно или по текстовым паттернам. "Self-check" через текстовое описание выявляет логические ошибки.
Почему это работает
Слабость мультимодальных LLM: Vision-энкодеры хорошо распознают статические элементы (количество, размер, форму), но плохо справляются с мысленной манипуляцией — операциями, требующими удержать промежуточное состояние объекта в памяти. Rotation, reflection, folding — всё это требует "представить как объект будет выглядеть после", а модель не может "визуализировать" промежуточный шаг.
Сильная сторона LLM: Текстовые рассуждения и пошаговая логика. Модель может следовать цепочке "если повернуть на 90°, то элемент A окажется на месте B", но не может "увидеть" результат поворота без текстового описания.
Текстовое дублирование переносит нагрузку с визуальной памяти на текстовую последовательность. Вместо "представь результат вращения" модель получает "опиши что где окажется" — это она умеет.
Декомпозиция разбивает сложную трансформацию на серию простых текстовых шагов. Вместо одного визуального "прыжка" модель делает несколько текстовых "шагов".
Counting и scaling работают потому что это перцептивные операции, не требующие трансформации. Модель видит 5 объектов — она просто распознаёт их, не манипулирует. Видит большой/маленький — просто сравнивает размер, не вращает.
Ограничения инсайтов
⚠️ Локальный хостинг: Open-source модели, достигающие приемлемой точности (Kimi-K2.5 на 60%), требуют триллион параметров — непригодны для локального запуска в школах или на личных устройствах.
⚠️ Порог полезности: Даже лучшая модель (Gemini-3 Flash, 78%) ниже порога "полезности в классе" (94% — консенсус трёх взрослых). Для критически важных задач (автоматическая проверка домашних заданий) текущие модели ненадёжны.
⚠️ Риск ложного скаффолдинга: Модель может дать правильный ответ на простых задачах (counting), создав у пользователя ложное впечатление о способностях. На spatial tasks та же модель провалится. Пользователь не увидит границу между "работает" и "не работает" без знания карты слепых зон.
⚠️ Текстовое дублирование — костыль: Инсайт "добавь текстовое описание" работает, но это обход проблемы, не решение. Если задача чисто визуальная (нет текста в оригинале), добавление текста может исказить задачу или сделать её проще, чем было задумано.
Как исследовали
Команда взяла 701 настоящий школьный вопрос по визуальной логике из экзаменов Замбии (Grade 7 End of Primary Exams, Special Paper 2) и Индии (JNVST Class 6 Selection Test). Это не синтетические задачи, а те, которые реально дают детям 11-12 лет. Важно: вопросы оставили как есть — с артефактами ксерокопирования, лёгкими дефектами печати, минимумом текста. Идея: проверить как модель справится с "настоящим" студенческим вопросом, не отполированным бенчмарком.
Верификация ответов: Три человека (два эксперта в образовании + один неэксперт) независимо решили каждый вопрос. Если большинство (2 из 3 или 3 из 3) согласны — вопрос попал в финальный датасет. 34 вопроса выкинули из-за отсутствия консенсуса, 10 — из-за технических ошибок. В итоге: 658 вопросов с полным консенсусом + 43 с консенсусом 2 из 3 (оставили чтобы проверить даже топовые модели на сложных кейсах). Полный консенсус трёх взрослых = 94% точности — это и есть "порог полезности в классе".
Аннотация по задачам и навыкам: Каждый вопрос разметили двумя тегами: - Task (формат вопроса): Odd One Out, Pattern Completion, Match (Figure), Match (Process), Series, Analogies — 6 категорий - Skill (визуальная операция): Counting, Scaling, Rotation, Reflection, Folding, Layering, Reconfiguring Shapes, Shading/Line Type, Shape/Form, Position/Direction — 10 категорий
Один вопрос мог иметь несколько skill-тегов (например, rotation + shading), но только один task-тег.
Тестирование моделей: 45 мультимодальных моделей (проприетарные + open-weight) протестировали на этих 701 вопросе. Промпт minimal-text — только изображение и "выбери вариант A/B/C/D", никаких подсказок или примеров. Это изолирует визуальное мышление от языковых подсказок.
Удивительные результаты: - Gemini-3 Flash за $0.50/M обогнал модели за $10-100/M — это единственная аномалия на value frontier - Kimi-K2.5 (open-source) достиг 60%, но только потому что триллион параметров — парадокс "открытой" модели, требующей недоступную инфраструктуру - Разброс внутри моделей до 35% между лучшей и худшей категорией задач — неравномерность способностей растёт с мощностью модели
Почему важна аннотация по skills: Task-уровень показывает "где провал", skill-уровень — "почему провал". Например, Match (Process) проваливается не просто потому что "сложный формат", а потому что требует Rotation + Folding — оба навыка с сильным негативным эффектом (−5% и −9%).
Marginal effects: Использовали статистическую модель, контролирующую модель, датасет, task-категорию. Это позволило изолировать чистый эффект каждого skill-тега на точность. Counting даёт +1.4%, Folding − 9% — это не просто корреляция, а контролируемое сравнение "всё остальное равно, как skill X влияет на accuracy".
Эволюция value frontier: Сравнили три снимка — конец 2024, середина 2025, конец 2025. Во всех ценовых диапазонах точность выросла на 5-10%. Визуальное мышление улучшается так же быстро, как текстовое — это опровергает гипотезу о "застое в мультимодальности".
Ресурсы
Visual Reasoning Benchmark (VRB): Evaluating Multimodal LLMs on Classroom-Authentic Visual Problems from Primary Education
Источники вопросов: - Zambia's National End of Primary Exams Special Paper 2 (Non-Verbal Reasoning), 2018-2022 - Jawahar Navodaya Vidyalaya Selection Test (JNVST) Class 6, Индия, 2014-2024 - UK '11+' Secondary Entrance Exams guidance material (использовали для категоризации)
Mohamed Huti, Alasdair Mackintosh, Amy Waldock, Dominic Andrews, Maxime Lelièvre, Moritz Boos, Tobias Murray, Paul Atherton, Robin A. A. Ince, Oliver G. B. Garrod — Fab AI
