3,583 papers
arXiv:2603.26589 70 27 мар. 2026 г. PRO

Слепое пятно зрения-языка: VLM умеют называть объекты, но не понимают пространство

КЛЮЧЕВАЯ СУТЬ
Модель видит на фото каждый стул, каждый стол, каждую дверь. Но спроси «куда пройти?» или «где удобно сесть?» — ответ резко хуже. Переформулируй, добавь «думай как человек в этом месте», попробуй пошаговые рассуждения — не поможет. Исследование позволяет понять где именно VLM ломается на задачах с пространством и как это частично компенсировать. Фишка: дело не в конкретной модели и не в промпте — в миллиардах подписей к фото никто никогда не писал «здесь можно сесть, туда пройти, это удобно взять рукой». Это очевидно любому у кого есть тело. В итоге всё телесное знание системно выпало из данных — не случайно, а по законам человеческого общения.
Адаптировать под запрос
📋 Дайджест исследования

Контент доступен только для PRO подписчиков

Чтобы получить доступ к дайджесту этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Контент доступен только для PRO подписчиков

Чтобы получить доступ к концептам этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO
📖 Простыми словами

Контент доступен только для PRO подписчиков

Чтобы получить доступ к упрощённому объяснению этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с