3,583 papers
arXiv:2512.17875 73 19 дек. 2025 г. PRO

Визуальные маркеры на изображениях: чувствительность VLM к стилю разметки

КЛЮЧЕВАЯ СУТЬ
Загружаешь в мультимодальную модель (VLM) фото с красными точками 'А' и 'Б' — она отвечает правильно. Меняешь красный на синий или уменьшаешь размер маркера — точность падает на 10-21%. То же изображение, тот же вопрос. Метод позволяет повысить точность VLM на пространственных задачах (что ближе, какой объект соответствует метке), подобрав 'диалект' визуальной разметки под конкретную модель. Фишка: размер маркера и позиция подписи влияют сильнее цвета или формы — крупный контрастный кружок 20px с подписью 'A' прямо над точкой даёт +10-13% точности против мелкого маркера 5px с текстом сбоку. Каждая модель обучалась на своём стиле: GPT видел красные круги, Claude — другие маркеры.
Адаптировать под запрос
📋 Дайджест исследования

Контент доступен только для PRO подписчиков

Чтобы получить доступ к дайджесту этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Контент доступен только для PRO подписчиков

Чтобы получить доступ к концептам этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO
📖 Простыми словами

Контент доступен только для PRO подписчиков

Чтобы получить доступ к упрощённому объяснению этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с