3,583 papers
arXiv:2601.04897 74 8 янв. 2026 г. PRO

V-FAT: как текстовые подсказки заставляют LLM игнорировать изображения

КЛЮЧЕВАЯ СУТЬ
Мультимодальные LLM видят изображение, но склонны его игнорировать. Показываешь красное небо — модель говорит что синее, потому что «небо обычно синее». Фишка: два источника искажения работают одновременно — внутренний (статистика обучения: "трава зелёная") и внешний (сикофантство: модель соглашается с твоими предположениями в промпте). Метод двухшагового промптинга позволяет заблокировать оба искажения: сначала модель описывает что видит без намёков, потом рассуждает на основе своего описания. Frontier модели теряют 15-30% визуальной точности когда оба фактора давят одновременно — они возвращаются к роли "предсказателя текста", а не "наблюдателя реальности".
Адаптировать под запрос
📋 Дайджест исследования

Контент доступен только для PRO подписчиков

Чтобы получить доступ к дайджесту этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Контент доступен только для PRO подписчиков

Чтобы получить доступ к концептам этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO
📖 Простыми словами

Контент доступен только для PRO подписчиков

Чтобы получить доступ к упрощённому объяснению этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с