TL;DR
Исследователи обнаружили парадокс: в сложных визуальных задачах (где различия между категориями тонкие) современные MLLMs работают лучше только с текстом, чем с изображением или комбинацией изображение+текст. Проверили на двух медицинских задачах: классификация стадий Альцгеймера по МРТ мозга (норма, лёгкие нарушения, деменция) и диагностика 14 заболеваний по рентгену грудной клетки. В обоих случаях text-only обошёл vision-only и multimodal.
Главная находка: GPT-4o с текстовым описанием симптомов показал 80-84% точности. Та же модель с изображением МРТ: 13% — почти случайное угадывание. Добавление изображения к тексту ухудшило результат у большинства моделей вместо улучшения. InstructBLIP упал с 79% (text-only) до 5% (multimodal). Даже специализированная XrayGPT, обученная на рентгеновских снимках, провалилась в vision-only режиме.
Причина: Современные MLLMs не обладают grounded visual understanding — глубоким пониманием визуальных паттернов. Они хорошо распознают очевидные аномалии (опухоль, перелом — что-то явно выделяющееся), но проваливаются на тонких различиях, требующих понимания целостной картины. Атрофия мозга при Альцгеймере — это не "пятно на снимке", а тонкие изменения объёмов разных зон. Несколько сопутствующих диагнозов на одном рентгене — это не "найди аномалию", а целостная интерпретация. Слабая визуальная модальность тянет вниз сильную текстовую, вместо того чтобы дополнять её.
Ключевые находки
1. Иерархия модальностей
Почти для всех моделей на обоих датасетах:
Text-only > Multimodal > Vision-only
- OASIS (Альцгеймер): MedAgents достиг 84.44% (text), 84.21% (multimodal), 19.17% (vision)
- MIMIC-CXR (рентген): GPT-4o с Debating — 59% (text), 16% (multimodal), 42.5% (vision)
Vision-only результаты часто близки к случайному угадыванию (33% для 3 классов, ~7% для 14 классов).
2. Multimodal не помогает
В большинстве случаев добавление изображения к тексту либо не даёт прироста, либо вредит:
- InstructBLIP на OASIS: 79.26% (text) → 8.82% (multimodal)
- GPT-4o с Debating на MIMIC-CXR: 59% (text) → 16% (multimodal)
Только GPT-4o и Gemini 2.5 Pro показали небольшое улучшение на OASIS при multimodal, но на MIMIC-CXR ни одна модель не выиграла от комбинации.
3. In-Context Learning спасает Vision
Добавление 2-3 примеров с правильными ответами в промпт резко улучшило vision-only производительность:
OASIS:
- GPT-4o: 12.78% → 57.29% (vision-only)
- Debating: 5.26% → 14.39% (vision-only)
MIMIC-CXR: эффект меньше из-за дисбаланса классов (14 категорий, всего 3 примера), но агентные методы всё равно показали рост.
Применимые принципы
Принцип 1: Vision Captioning Pipeline
Когда: Работаешь с изображениями где различия тонкие (не очевидная аномалия, а целостная оценка).
Как: Двухшаговый процесс вместо прямого анализа изображения:
Шаг 1: Описание изображения
Детально опиши что видишь на этом изображении:
[прикрепи изображение]
Обрати внимание на: [ключевые элементы для твоей задачи]
Шаг 2: Анализ описания (в новом запросе, без изображения)
Основываясь на этом описании, [твоя задача]:
[вставь описание из шага 1]
Пример:
Задача: Оценить состояние квартиры по фото для арендодателя — не одна очевидная проблема, а общая оценка.
Шаг 1:
Детально опиши состояние этой квартиры по фото:
[фото квартиры]
Обрати внимание на: чистоту, состояние стен и пола, мебель,
освещённость, общий порядок.
Шаг 2 (без фото):
На основе этого описания оцени состояние квартиры по шкале 1-10
и дай рекомендации что исправить перед показом:
[описание из шага 1]
Почему работает: Текстовое описание заставляет модель артикулировать что она видит. Потом сильная текстовая часть MLLMs работает с этим описанием, не отвлекаясь на слабое визуальное понимание.
Принцип 2: In-Context Learning для визуальных задач
Когда: Нужно проанализировать изображение и есть доступ к примерам.
Как: Добавь 2-3 примера (изображение + правильный ответ) перед твоей задачей.
Работает только в проприетарных MLLMs: GPT-4o, Gemini, Claude — они умеют обрабатывать несколько изображений в одном промпте. Открытые модели (LLaVA, InstructBLIP) не поддерживают.
Шаблон:
Вот примеры анализа {тип_изображений}:
Пример 1:
[изображение_1]
Анализ: {правильный_ответ_1}
Пример 2:
[изображение_2]
Анализ: {правильный_ответ_2}
Пример 3:
[изображение_3]
Анализ: {правильный_ответ_3}
Теперь проанализируй это изображение:
[твоё_изображение]
Пример:
Задача: Оценить качество фотографий товаров для маркетплейса — нужно видеть тонкие детали (освещение, фон, ракурс), не только "товар в кадре или нет".
Вот примеры оценки фото товаров для Wildberries:
Пример 1:
[фото чашки на белом фоне, хорошее освещение]
Оценка: 9/10. Отличное освещение, чистый фон, товар в фокусе.
Минус: небольшая тень слева.
Пример 2:
[фото футболки на вешалке, серый фон]
Оценка: 6/10. Товар виден, но фон скучный, освещение плоское.
Не показывает посадку.
Пример 3:
[фото ноутбука под углом, бликующий экран]
Оценка: 4/10. Экран бликует, угол неудачный, не видно портов.
Нужен прямой ракурс.
Теперь оцени это фото:
[твоё фото товара]
Результат: Модель видит паттерн оценки по примерам и применяет к твоему изображению. На OASIS точность выросла с 13% до 57% для GPT-4o.
Принцип 3: Не доверяй multimodal слепо
Инсайт: "Больше модальностей = лучше" — миф. Слабая модальность может тянуть вниз сильную.
Когда multimodal вредит: - Задача сложная визуально (тонкие различия, не очевидные паттерны) - Есть хорошее текстовое описание (отчёт, summary, экспертная оценка)
Что делать: 1. Протестируй text-only вариант (убери изображение, оставь описание) 2. Сравни с multimodal 3. Если text-only лучше — используй его, не добавляй изображение "для полноты картины"
Пример:
Задача: Анализ резюме кандидата. Есть фото кандидата и текст резюме.
❌ Хуже:
Оцени этого кандидата на позицию маркетолога:
[фото кандидата]
[текст резюме]
✅ Лучше:
Оцени этого кандидата на позицию маркетолога:
[только текст резюме]
Почему: Фото кандидата не релевантно для оценки компетенций, но модель может зацепиться за визуальные элементы (оформление, внешность на фото) вместо содержания. Текстовая часть MLLMs сильнее — дай ей работать без помех.
Как исследовали
Команда взяла 6 публичных моделей (LLaVA-Med, LLaVA-Next, InstructBLIP, XrayGPT, GPT-4o, Gemini 2.5 Pro) и 5 агентных методов (CoT, CoT-SC, Debating, MedAgents, MDAgents). Плюс 2 baseline — CLIP и BiomedCLIP (контрастные модели, на которых обучены публичные MLLMs).
Два датасета: 1. OASIS-3: МРТ мозга, классификация Альцгеймера (норма, MCI, деменция). Взяли средние 3 среза из 3D МРТ, ресайзнули до 224×224. Классы визуально очень похожи — даже врачам сложно без контекста. 2. MIMIC-CXR: Рентген грудной клетки, 14 диагнозов (могут пересекаться). Случайно выбирали 200 снимков для каждого теста. Диагнозы часто сопутствующие, нужна целостная оценка.
Три режима: - Text-only (T): Без изображения. Для OASIS — текстовые отчёты психологических тестов. Для MIMIC — findings из радиологических отчётов. - Vision-only (I): Только изображение, никакого текста. - Multimodal (M): Изображение + текстовый промпт (тот же что в T).
Что измеряли: Точность (accuracy). Для CLIP-моделей — если предсказанный класс есть в ground truth, считали верным. Для генеративных моделей — должно 100% совпадать с ground truth.
Ключевой результат удивил: Ожидали что multimodal даст лучшее из двух миров (текст + визуал). Получилось наоборот — слабая vision-модальность ухудшила сильную text-модальность в большинстве случаев.
Почему так: Vision-энкодеры в MLLMs (даже специализированные медицинские) не научились grounded visual understanding. Они детектят очевидные аномалии (опухоль, перелом), но не понимают тонкие паттерны. Без domain expertise даже человек не отличит норму от MCI на МРТ — а модель пытается угадать по пикселям.
ICL-эксперимент: Добавили по 3 примера (image+label) из разных классов в промпт. На OASIS точность vision-only подскочила в 4 раза (13% → 57% для GPT-4o). На MIMIC-CXR рост меньше — всего 3 примера на 14 классов, плюс дисбаланс (редкие диагнозы не попали в примеры).
Вывод исследователей: Современные MLLMs — strong text reasoners, weak visual grounders. Они хорошо рассуждают с текстом, но плохо понимают визуал. Для сложных визуальных задач лучше сначала извлечь визуальную информацию в текст (captioning), потом работать с текстом.
Ограничения
⚠️ Специфичная область: Исследование на медицинских задачах, где визуальные различия экстремально тонкие. Для задач с очевидными визуальными паттернами (найди кота, распознай текст, опиши сцену) multimodal работает нормально.
⚠️ ICL требует примеры: In-Context Learning эффективен, если есть доступ к размеченным примерам той же задачи. Холодный старт без примеров — возвращаемся к слабому vision-only.
⚠️ Только проприетарные MLLMs для ICL: GPT-4o, Gemini, Claude поддерживают несколько изображений в одном промпте. Открытые модели (LLaVA, InstructBLIP) — нет.
⚠️ Дисбаланс классов: На MIMIC-CXR эффект ICL слабее из-за 14 классов и всего 3 примеров. Редкие диагнозы не попали в примеры — модель их пропускает.
Применимость для работы
Для кого полезно: - Работаешь с изображениями где важны тонкие детали, а не очевидные объекты - Есть текстовые описания (отчёты, экспертные оценки) в дополнение к изображениям - Нужна целостная оценка изображения, не детекция одной аномалии
Примеры задач: - Оценка состояния объектов (недвижимость, техника) — не "сломано/не сломано", а общая оценка - Анализ дизайна (интерьер, упаковка, макеты) — тонкие визуальные решения - Сравнение похожих вариантов (товары, фото, планировки)
Когда НЕ применимо: - Детекция очевидных объектов (найди кота, распознай текст) - OCR и чтение текста с изображений - Описание сцен и объектов — multimodal здесь работает хорошо
