3,583 papers
arXiv:2512.13747 71 14 дек. 2025 г. FREE

Vision May Undermine: когда изображения мешают MLLMs принимать решения

КЛЮЧЕВАЯ СУТЬ
Парадокс: добавление изображения к тексту ухудшает работу MLLMs в сложных визуальных задачах. GPT-4o с текстовым описанием симптомов: 84% точности. Та же модель с изображением МРТ мозга: 13% — почти случайное угадывание. Исследование показывает когда отказаться от картинок в пользу текста. Слабая визуальная модальность тянет вниз сильную текстовую — модели не понимают тонкие визуальные различия (атрофия мозга, сопутствующие диагнозы), только очевидные аномалии (перелом, опухоль). InstructBLIP: 79% (text-only) → 5% (multimodal).
Адаптировать под запрос

TL;DR

Исследователи обнаружили парадокс: в сложных визуальных задачах (где различия между категориями тонкие) современные MLLMs работают лучше только с текстом, чем с изображением или комбинацией изображение+текст. Проверили на двух медицинских задачах: классификация стадий Альцгеймера по МРТ мозга (норма, лёгкие нарушения, деменция) и диагностика 14 заболеваний по рентгену грудной клетки. В обоих случаях text-only обошёл vision-only и multimodal.

Главная находка: GPT-4o с текстовым описанием симптомов показал 80-84% точности. Та же модель с изображением МРТ: 13% — почти случайное угадывание. Добавление изображения к тексту ухудшило результат у большинства моделей вместо улучшения. InstructBLIP упал с 79% (text-only) до 5% (multimodal). Даже специализированная XrayGPT, обученная на рентгеновских снимках, провалилась в vision-only режиме.

Причина: Современные MLLMs не обладают grounded visual understanding — глубоким пониманием визуальных паттернов. Они хорошо распознают очевидные аномалии (опухоль, перелом — что-то явно выделяющееся), но проваливаются на тонких различиях, требующих понимания целостной картины. Атрофия мозга при Альцгеймере — это не "пятно на снимке", а тонкие изменения объёмов разных зон. Несколько сопутствующих диагнозов на одном рентгене — это не "найди аномалию", а целостная интерпретация. Слабая визуальная модальность тянет вниз сильную текстовую, вместо того чтобы дополнять её.

📌

Ключевые находки

📌

1. Иерархия модальностей

Почти для всех моделей на обоих датасетах:

Text-only > Multimodal > Vision-only

  • OASIS (Альцгеймер): MedAgents достиг 84.44% (text), 84.21% (multimodal), 19.17% (vision)
  • MIMIC-CXR (рентген): GPT-4o с Debating — 59% (text), 16% (multimodal), 42.5% (vision)

Vision-only результаты часто близки к случайному угадыванию (33% для 3 классов, ~7% для 14 классов).

📌

2. Multimodal не помогает

В большинстве случаев добавление изображения к тексту либо не даёт прироста, либо вредит:

  • InstructBLIP на OASIS: 79.26% (text) → 8.82% (multimodal)
  • GPT-4o с Debating на MIMIC-CXR: 59% (text) → 16% (multimodal)

Только GPT-4o и Gemini 2.5 Pro показали небольшое улучшение на OASIS при multimodal, но на MIMIC-CXR ни одна модель не выиграла от комбинации.

📌

3. In-Context Learning спасает Vision

Добавление 2-3 примеров с правильными ответами в промпт резко улучшило vision-only производительность:

OASIS: - GPT-4o: 12.78% → 57.29% (vision-only)

- Debating: 5.26% → 14.39% (vision-only)

MIMIC-CXR: эффект меньше из-за дисбаланса классов (14 категорий, всего 3 примера), но агентные методы всё равно показали рост.

📌

Применимые принципы

📌

Принцип 1: Vision Captioning Pipeline

Когда: Работаешь с изображениями где различия тонкие (не очевидная аномалия, а целостная оценка).

Как: Двухшаговый процесс вместо прямого анализа изображения:

Шаг 1: Описание изображения

Детально опиши что видишь на этом изображении: 
[прикрепи изображение]

Обрати внимание на: [ключевые элементы для твоей задачи]

Шаг 2: Анализ описания (в новом запросе, без изображения)

Основываясь на этом описании, [твоя задача]:

[вставь описание из шага 1]

Пример:

Задача: Оценить состояние квартиры по фото для арендодателя — не одна очевидная проблема, а общая оценка.

Шаг 1:

Детально опиши состояние этой квартиры по фото:
[фото квартиры]

Обрати внимание на: чистоту, состояние стен и пола, мебель, 
освещённость, общий порядок.

Шаг 2 (без фото):

На основе этого описания оцени состояние квартиры по шкале 1-10 
и дай рекомендации что исправить перед показом:

[описание из шага 1]

Почему работает: Текстовое описание заставляет модель артикулировать что она видит. Потом сильная текстовая часть MLLMs работает с этим описанием, не отвлекаясь на слабое визуальное понимание.

📌

Принцип 2: In-Context Learning для визуальных задач

Когда: Нужно проанализировать изображение и есть доступ к примерам.

Как: Добавь 2-3 примера (изображение + правильный ответ) перед твоей задачей.

Работает только в проприетарных MLLMs: GPT-4o, Gemini, Claude — они умеют обрабатывать несколько изображений в одном промпте. Открытые модели (LLaVA, InstructBLIP) не поддерживают.

Шаблон:

Вот примеры анализа {тип_изображений}:

Пример 1:
[изображение_1]
Анализ: {правильный_ответ_1}

Пример 2:
[изображение_2]
Анализ: {правильный_ответ_2}

Пример 3:
[изображение_3]
Анализ: {правильный_ответ_3}

Теперь проанализируй это изображение:
[твоё_изображение]

Пример:

Задача: Оценить качество фотографий товаров для маркетплейса — нужно видеть тонкие детали (освещение, фон, ракурс), не только "товар в кадре или нет".

Вот примеры оценки фото товаров для Wildberries:

Пример 1:
[фото чашки на белом фоне, хорошее освещение]
Оценка: 9/10. Отличное освещение, чистый фон, товар в фокусе. 
Минус: небольшая тень слева.

Пример 2:
[фото футболки на вешалке, серый фон]
Оценка: 6/10. Товар виден, но фон скучный, освещение плоское. 
Не показывает посадку.

Пример 3:
[фото ноутбука под углом, бликующий экран]
Оценка: 4/10. Экран бликует, угол неудачный, не видно портов. 
Нужен прямой ракурс.

Теперь оцени это фото:
[твоё фото товара]

Результат: Модель видит паттерн оценки по примерам и применяет к твоему изображению. На OASIS точность выросла с 13% до 57% для GPT-4o.

📌

Принцип 3: Не доверяй multimodal слепо

Инсайт: "Больше модальностей = лучше" — миф. Слабая модальность может тянуть вниз сильную.

Когда multimodal вредит: - Задача сложная визуально (тонкие различия, не очевидные паттерны) - Есть хорошее текстовое описание (отчёт, summary, экспертная оценка)

Что делать: 1. Протестируй text-only вариант (убери изображение, оставь описание) 2. Сравни с multimodal 3. Если text-only лучше — используй его, не добавляй изображение "для полноты картины"

Пример:

Задача: Анализ резюме кандидата. Есть фото кандидата и текст резюме.

Хуже:

Оцени этого кандидата на позицию маркетолога:
[фото кандидата]
[текст резюме]

Лучше:

Оцени этого кандидата на позицию маркетолога:
[только текст резюме]

Почему: Фото кандидата не релевантно для оценки компетенций, но модель может зацепиться за визуальные элементы (оформление, внешность на фото) вместо содержания. Текстовая часть MLLMs сильнее — дай ей работать без помех.

🔍

Как исследовали

Команда взяла 6 публичных моделей (LLaVA-Med, LLaVA-Next, InstructBLIP, XrayGPT, GPT-4o, Gemini 2.5 Pro) и 5 агентных методов (CoT, CoT-SC, Debating, MedAgents, MDAgents). Плюс 2 baseline — CLIP и BiomedCLIP (контрастные модели, на которых обучены публичные MLLMs).

Два датасета: 1. OASIS-3: МРТ мозга, классификация Альцгеймера (норма, MCI, деменция). Взяли средние 3 среза из 3D МРТ, ресайзнули до 224×224. Классы визуально очень похожи — даже врачам сложно без контекста. 2. MIMIC-CXR: Рентген грудной клетки, 14 диагнозов (могут пересекаться). Случайно выбирали 200 снимков для каждого теста. Диагнозы часто сопутствующие, нужна целостная оценка.

Три режима: - Text-only (T): Без изображения. Для OASIS — текстовые отчёты психологических тестов. Для MIMIC — findings из радиологических отчётов. - Vision-only (I): Только изображение, никакого текста. - Multimodal (M): Изображение + текстовый промпт (тот же что в T).

Что измеряли: Точность (accuracy). Для CLIP-моделей — если предсказанный класс есть в ground truth, считали верным. Для генеративных моделей — должно 100% совпадать с ground truth.

Ключевой результат удивил: Ожидали что multimodal даст лучшее из двух миров (текст + визуал). Получилось наоборот — слабая vision-модальность ухудшила сильную text-модальность в большинстве случаев.

Почему так: Vision-энкодеры в MLLMs (даже специализированные медицинские) не научились grounded visual understanding. Они детектят очевидные аномалии (опухоль, перелом), но не понимают тонкие паттерны. Без domain expertise даже человек не отличит норму от MCI на МРТ — а модель пытается угадать по пикселям.

ICL-эксперимент: Добавили по 3 примера (image+label) из разных классов в промпт. На OASIS точность vision-only подскочила в 4 раза (13% → 57% для GPT-4o). На MIMIC-CXR рост меньше — всего 3 примера на 14 классов, плюс дисбаланс (редкие диагнозы не попали в примеры).

Вывод исследователей: Современные MLLMs — strong text reasoners, weak visual grounders. Они хорошо рассуждают с текстом, но плохо понимают визуал. Для сложных визуальных задач лучше сначала извлечь визуальную информацию в текст (captioning), потом работать с текстом.

⚠️

Ограничения

⚠️ Специфичная область: Исследование на медицинских задачах, где визуальные различия экстремально тонкие. Для задач с очевидными визуальными паттернами (найди кота, распознай текст, опиши сцену) multimodal работает нормально.

⚠️ ICL требует примеры: In-Context Learning эффективен, если есть доступ к размеченным примерам той же задачи. Холодный старт без примеров — возвращаемся к слабому vision-only.

⚠️ Только проприетарные MLLMs для ICL: GPT-4o, Gemini, Claude поддерживают несколько изображений в одном промпте. Открытые модели (LLaVA, InstructBLIP) — нет.

⚠️ Дисбаланс классов: На MIMIC-CXR эффект ICL слабее из-за 14 классов и всего 3 примеров. Редкие диагнозы не попали в примеры — модель их пропускает.

📌

Применимость для работы

Для кого полезно: - Работаешь с изображениями где важны тонкие детали, а не очевидные объекты - Есть текстовые описания (отчёты, экспертные оценки) в дополнение к изображениям - Нужна целостная оценка изображения, не детекция одной аномалии

Примеры задач: - Оценка состояния объектов (недвижимость, техника) — не "сломано/не сломано", а общая оценка - Анализ дизайна (интерьер, упаковка, макеты) — тонкие визуальные решения - Сравнение похожих вариантов (товары, фото, планировки)

Когда НЕ применимо: - Детекция очевидных объектов (найди кота, распознай текст) - OCR и чтение текста с изображений - Описание сцен и объектов — multimodal здесь работает хорошо


📋 Дайджест исследования

Ключевая суть

Парадокс: добавление изображения к тексту ухудшает работу MLLMs в сложных визуальных задачах. GPT-4o с текстовым описанием симптомов: 84% точности. Та же модель с изображением МРТ мозга: 13% — почти случайное угадывание. Исследование показывает когда отказаться от картинок в пользу текста. Слабая визуальная модальность тянет вниз сильную текстовую — модели не понимают тонкие визуальные различия (атрофия мозга, сопутствующие диагнозы), только очевидные аномалии (перелом, опухоль). InstructBLIP: 79% (text-only) → 5% (multimodal).

Принцип работы

Не добавляй изображение автоматически — слабая модальность тянет вниз сильную. Протестируй text-only вариант (текстовое описание без картинки), сравни с multimodal. Если задача требует целостной визуальной оценки с тонкими различиями (не очевидная аномалия типа "найди пятно", а комплексный анализ) — text-only часто выигрывает. Или используй Vision Captioning Pipeline: сначала попроси модель описать изображение детально, потом анализируй описание БЕЗ картинки.

Почему работает

MLLMs распознают очевидные аномалии (опухоль выделяется пятном на снимке), но не обладают глубоким визуальным пониманием (grounded visual understanding) целостной картины. Атрофия мозга при Альцгеймере — это тонкие изменения объёмов разных зон мозга, не "найди аномальное пятно". Несколько диагнозов на одном рентгене — целостная интерпретация, не "кликни где проблема". На сложных задачах текстовая модальность в 4-6 раз точнее визуальной: 84% vs 13% (диагностика Альцгеймера), 59% vs 16% (рентген с 14 категориями заболеваний). Текстовое описание заставляет модель артикулировать что она видит, потом сильная текстовая часть работает с этим описанием без помех от слабого визуального понимания.

Когда применять

Визуальные задачи с MLLMs → конкретно для сложных случаев с тонкими различиями (медицинская диагностика где несколько сопутствующих состояний, оценка качества по множеству критериев, экспертная оценка состояния требующая целостного анализа), особенно когда есть или можно получить текстовое описание изображения. НЕ подходит для очевидных аномалий где нужно просто "найти пятно" (обнаружить крупный перелом на рентгене, найти большую опухоль) — там vision-only справляется нормально.

Мини-рецепт

1. Получи описание изображения: попроси MLLM детально описать что на картинке: Опиши детально что видишь на этом изображении. Обрати внимание на: [перечисли ключевые элементы для твоей задачи]
2. Анализируй описание БЕЗ изображения: в новом запросе дай только текст описания без картинки: На основе этого описания [сформулируй задачу]: [вставь описание из шага 1]
3. Опционально протестируй multimodal: если есть время — сравни с вариантом где даёшь изображение+текст одновременно, выбери лучший результат

Примеры

[ПЛОХО] : Оцени состояние этой квартиры для аренды по фото. Дай оценку 1-10 и рекомендации что исправить. [прикрепляешь фото] — модель получает сложную целостную задачу с изображением, где нужно оценить множество тонких факторов (чистота, состояние стен, общий порядок). Визуальная часть сбоит.
[ХОРОШО] : Vision Captioning Pipeline: Шаг 1: Детально опиши состояние квартиры на этом фото. Обрати внимание на: чистоту, состояние стен и пола, мебель, освещённость, общий порядок. [прикрепляешь фото] Шаг 2 (БЕЗ фото): На основе этого описания оцени состояние квартиры по шкале 1-10 и дай рекомендации что исправить перед показом арендаторам: [вставляешь описание из шага 1] — сильная текстовая модальность работает с описанием, точность растёт в 4-6 раз.
Источник: Why Text Prevails: Vision May Undermine Multimodal Medical Decision Making
ArXiv ID: 2512.13747 | Сгенерировано: 2026-01-09 00:35

Проблемы LLM

ПроблемаСутьКак обойти
Добавление изображения к тексту ухудшает результат на задачах с тонкими визуальными различиямиТекст+изображение точность ниже чем только текст; InstructBLIP: 79%5%, GPT-4o Debating: 59%16%; причина: MLLMs видят очевидные аномалии (опухоль, перелом), но не тонкие паттерны (атрофия мозга, сопутствующие диагнозы) — нет grounded visual understanding; слабая визуальная модальность тянет вниз текстовуюУбери изображение — давай только текстовое описание; или двухшаговый анализ: Шаг 1: опиши что видишь [изображение] Шаг 2: проанализируй описание (БЕЗ изображения): [текст]

Методы

МетодСуть
Двухшаговый анализ изображений: описание анализ описания (без изображения)Шаг 1: Детально опиши что видишь на изображении: [изображение]. Обрати внимание на: [ключевые элементы]. Шаг 2 (новый запрос БЕЗ изображения): Основываясь на этом описании, [задача]: [вставь описание из шага 1]. Почему работает: текстовое описание заставляет модель артикулировать что видит сильная текстовая часть работает с описанием без помех от слабого визуального понимания. Для: сложные визуальные задачи (не одна очевидная аномалия, а целостная оценка). НЕ для: простые задачи распознавания

Тезисы

ТезисКомментарий
Слабая модальность в MLLMs может тянуть вниз сильную вместо дополненияТекст+изображение часто хуже чем только текст: InstructBLIP 79%5%. Визуальная часть не дополняет текстовую, а мешает ей на сложных задачах. Применяй: если есть хорошее текстовое описание — протестируй text-only вариант; не добавляй изображение "для полноты"
MLLMs распознают очевидные визуальные аномалии, но проваливаются на тонких паттернахОпухоль, перелом (что-то явно выделяющееся) распознают. Атрофия мозга, сопутствующие диагнозы (требуют целостной оценки) точность 13% (случайное угадывание для 3 классов). Применяй: для тонких визуальных различий используй text-only или двухшаговый анализ (описаниеанализ)
📖 Простыми словами

Vision May Undermine: когда изображения мешают MLLMs принимать решения

arXiv: 2512.13747

Современные мультимодальные нейронки (MLLM) работают не так, как мы привыкли думать. Казалось бы, если дать модели картинку и текст, она должна соображать лучше, но в медицине всё ровно наоборот. Когда дело доходит до тонких различий, вроде стадий болезни Альцгеймера на МРТ, зрение модели становится её слабым местом. Исследователи выяснили, что текстовые описания симптомов дают гораздо более точный результат, чем попытка нейронки «разглядеть» патологию на снимке. По сути, визуальный канал вносит шум, который сбивает модель с толку и заставляет её ошибаться там, где чистый текст ведет к правильному ответу.

Это как если бы опытный врач пытался поставить диагноз по размытому фотоснимку, сделанному на кнопочный телефон, игнорируя при этом подробную историю болезни. Картинка вроде есть, но толку от неё ноль, она только отвлекает от сути. В итоге модель начинает «галлюцинировать» на пикселях, пытаясь найти закономерности там, где их нет, и полностью заваливает задачу, которую легко щелкает в текстовом режиме.

В цифрах это выглядит как полный провал мультимодальности: text-only подход стабильно обходит и чистое зрение, и комбинацию «текст + картинка». На рентгене грудной клетки при поиске 14 разных болячек текстовые данные оказались надежнее. Модели банально не хватает визуальной грамотности для медицинских нюансов. Она отлично узнает котиков и закаты, но когда нужно отличить легкие когнитивные нарушения от начальной деменции по срезу мозга, её «глаза» пасуют перед сухими фактами из описания.

Хотя тест проводили на медиках, этот принцип — превосходство текста над визуалом — может вылезти где угодно, от анализа чертежей до юридической экспертизы документов. Если детали на картинке слишком мелкие или специфические, добавление изображения в промпт только испортит результат. Мы привыкли считать, что «лучше один раз увидеть», но для современных LLM это правило не работает: они всё ещё остаются текстоцентричными существами, которые лучше читают, чем смотрят.

Короче, не спешите пихать картинки в нейронку и ждать магии, особенно в критически важных задачах. Текст остается королем, а мультимодальность в её нынешнем виде — это часто просто красивая обертка, которая подрывает точность принятия решений. Пока модели не научатся видеть мир так же глубоко, как они понимают слова, самым надежным способом получить адекватный ответ будет старое доброе текстовое описание. Кто полагается только на «зрение» ИИ в сложных темах, рискует получить диагноз пальцем в небо.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с