3,583 papers
arXiv:2512.14989 76 16 дек. 2025 г. FREE

Визуальная модальность может вредить: когда картинка мешает LLM решать задачи

КЛЮЧЕВАЯ СУТЬ
Парадокс: У многих мультимодальных моделей удаление картинки улучшало точность ответов. Протестировали 40 моделей на 473 задачах с графиками и диаграммами — оказалось, что визуальная информация часто вносит шум вместо ясности. Метод позволяет определить когда убрать картинку и дать данные текстом — это может поднять точность особенно у средних моделей. Модели плохо синхронизируют визуальную и текстовую информацию. При конфликте сигналов картинка сбивает с толку. Chain-of-Thought даёт +26 процентных пунктов для средних моделей (GPT-4.1-mini), если задать явные шаги рассуждения.
Адаптировать под запрос

TL;DR

Исследователи протестировали 40 мультимодальных моделей (GPT-5, o3, Gemini-2.5-Pro, Qwen2.5-VL и др.) на 473 олимпиадных задачах по химии с визуальными компонентами — диаграммами, молекулярными структурами, графиками. Задачи требуют одновременно понимать текст и картинку. Проверяли разные стратегии промптинга: zero-shot, few-shot, Chain-of-Thought.

Главная находка: у многих моделей удаление картинки улучшало точность ответов. Модели плохо интегрируют визуальную и текстовую информацию — вместо помощи картинка вносит шум и сбивает модель с толку. Проблема сильнее проявляется на сложных задачах национального уровня, где визуальное рассуждение критично. У маленьких и средних моделей визуальная модальность может конфликтовать с текстовой логикой.

Few-shot промптинг помогает маленьким моделям (Qwen2.5-VL-3B: с 30.9% до 37.5% при 4 примерах), но бесполезен для больших. Chain-of-Thought критичен для средних моделей — GPT-4.1-mini улучшил результат на 26.3pp с CoT промптингом. CoT сдвигает внимание модели с локального сопоставления паттернов на глобальное сравнение и пошаговое рассуждение. Специализированные химические модели (ChemVLM) отстают от универсальных — они хороши для распознавания структур, но слабы в комплексном рассуждении.

📌

Схема находок

ТРИ СТРАТЕГИИ ПРОМПТИНГА:

ZERO-SHOT: Задача без примеров
→ Базовый уровень, показывает чистую способность модели

FEW-SHOT: Задача + 1-5 примеров решений
→ Помогает маленьким моделям (+6-7pp)
→ Бесполезен для больших моделей
→ Лучше работает на простых задачах

CHAIN-OF-THOUGHT: "Реши пошагово"
→ Средние модели: +20-26pp (GPT-4.1-mini)
→ Маленькие модели: +3-5pp (Qwen2.5-VL-3B)  
→ Большие модели: +1pp (o4-mini)
→ Работает на всех типах задач

ЭФФЕКТ ВИЗУАЛЬНОЙ МОДАЛЬНОСТИ: - У слабых моделей: удаление картинки может улучшить результат - У сильных моделей: картинка помогает - Национальные задачи страдают больше при удалении — там визуальное рассуждение критичнее

🚀

Пример применения

Задача: Готовишь разбор стартапа для инвестора. У тебя есть презентация с графиками метрик (CAC, LTV, retention) и текстовое описание бизнес-модели. Нужен глубокий анализ.

Промпт (когда картинка может помешать):

[Прикрепляешь слайд с графиками метрик]

Проанализируй метрики стартапа на графике и дай рекомендацию — 
инвестировать или нет. Учти динамику CAC, LTV и retention.

Проблема: Модель может неправильно считать цифры с графика или выдумать тренды, которых там нет. Визуальная часть вносит шум вместо ясности.

Решение — Chain-of-Thought с явной структурой:

[Прикрепляешь тот же слайд]

Проанализируй метрики стартапа пошагово:

1. Опиши что видишь на графиках: оси, масштаб, ключевые точки
2. Извлеки конкретные цифры для каждой метрики
3. Определи тренды (растёт/падает/стабильно)
4. Сравни показатели между собой (LTV vs CAC)
5. Сделай вывод и дай рекомендацию

Показывай рассуждения на каждом шаге.

Результат:

Модель покажет пошаговое рассуждение: что видит на графике, какие цифры извлекла, как сравнивает показатели. Ты увидишь где модель ошиблась (неправильно прочитала ось или выдумала цифру) и сможешь поправить. Финальный вывод будет более обоснованным, потому что модель вынуждена явно показать логику.

Альтернатива (когда картинка точно мешает):

Вот текстовое описание метрик стартапа:
- CAC (стоимость привлечения): $50 в январе, $45 в феврале, $40 в марте
- LTV (пожизненная ценность): $200 стабильно
- Retention (удержание): 60% через месяц, 40% через три месяца

Проанализируй и дай рекомендацию — инвестировать или нет. 
Рассуждай пошагово.

Убираешь визуальную модальность — даёшь чистые цифры текстом. Если модель средняя (GPT-4.1-mini, Claude Sonnet), она может точнее проанализировать без картинки, чем с ней.

🧠

Почему это работает

Слабость мультимодальных LLM: Они плохо синхронизируют визуальную и текстовую информацию. Картинка обрабатывается отдельно от текста, и модель не всегда может свести их в единую логику. При конфликте сигналов модель теряется — визуальная часть вносит шум вместо ясности. Особенно это заметно у маленьких и средних моделей.

Сильная сторона LLM: Модели отлично рассуждают пошагово когда их явно просят показать логику. Chain-of-Thought заставляет модель артикулировать промежуточные шаги — что видит, какие цифры извлекла, как сравнивает. Это убирает импульсивные ответы и снижает галлюцинации.

Как методы обходят слабость:

Few-shot даёт маленьким моделям готовые паттерны для имитации. Модель копирует структуру примеров — это работает на простых задачах, где логика прямолинейна. Но если задача сложная и визуальная, примеры не помогают.

Chain-of-Thought включает явное пошаговое рассуждение. Модель не может прыгнуть к ответу — должна показать как пришла к выводу. Это сдвигает внимание с локального сопоставления паттернов (узнать знакомый объект на картинке) на глобальное сравнение (сопоставить элементы, найти связи, проверить логику). Средние модели получают максимальную пользу — у них есть способность рассуждать, но нет внутренней структуры. CoT даёт эту структуру извне.

Рычаги управления:

  • Добавить/убрать картинку: Если модель слабая и задача визуальная — попробуй дать только текст с явными цифрами. Может сработать лучше.
  • Число примеров (few-shot): Для маленьких моделей оптимум 3-4 примера. Больше — не помогает или даже вредит.
  • Структура CoT: Задай конкретные шаги рассуждения (1. Опиши, 2. Извлеки, 3. Сравни, 4. Сделай вывод). Чем слабее модель, тем подробнее расписывай шаги.
  • Тип задачи: CoT критичен для визуально-сложных задач. На простых текстовых он даёт +1-3pp, на сложных визуальных — +20-26pp.
📌

Универсальный шаблон CoT для визуальных задач

[Прикрепи картинку если нужна]

{описание_задачи}

Реши пошагово:

1. Опиши что видишь: {что_должна_заметить_модель}
2. Извлеки ключевые данные: {какие_цифры_или_элементы}
3. Проанализируй связи: {как_элементы_соотносятся}
4. Сравни варианты: {если_есть_выбор_из_нескольких}
5. Сделай вывод: {финальный_ответ}

Покажи рассуждения на каждом шаге.

Плейсхолдеры: - {описание_задачи} — твоя задача - {что_должна_заметить_модель} — на что обратить внимание (оси графика, элементы диаграммы, ключевые объекты) - {какие_цифры_или_элементы} — конкретные данные для извлечения - {как_элементы_соотносятся} — логические связи между элементами - {если_есть_выбор_из_нескольких} — если нужно выбрать из вариантов

Пример для средней модели (GPT-4.1-mini, Claude Sonnet):

[Прикрепи график продаж]

Вот график продаж за квартал. Определи: рост или падение? 
Нужно ли менять стратегию?

Реши пошагово:

1. Опиши что видишь: оси графика, масштаб, ключевые точки
2. Извлеки ключевые данные: продажи в начале/середине/конце квартала
3. Проанализируй связи: как изменялись продажи, есть ли тренд
4. Сравни периоды: какой месяц лучше/хуже и почему
5. Сделай вывод: рост или падение, нужна ли смена стратегии

Покажи рассуждения на каждом шаге.

🚀 Быстрый старт — вставь в чат:

Вот шаблон Chain-of-Thought для визуальных задач. 
Адаптируй под мою задачу: {твоя_задача}. 

Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит: что на картинке, какие данные важны, что нужно сравнить — потому что CoT требует явной структуры рассуждения под конкретную задачу. Она возьмёт паттерн пошаговости и адаптирует под твой контекст.

📌

Шаблон для проверки "картинка вредит или помогает"

Если сомневаешься — протестируй оба варианта:

ВАРИАНТ 1 — С картинкой:

[Прикрепи изображение]

{задача}

Реши пошагово, покажи что видишь на картинке.

ВАРИАНТ 2 — Без картинки (чистый текст):

{задача}

Вот текстовое описание данных с изображения:
{перепиши_ключевые_данные_текстом}

Реши пошагово на основе этих данных.

Сравни результаты: - Если ВАРИАНТ 2 точнее — картинка вредит, давай данные текстом - Если ВАРИАНТ 1 лучше — визуальная модальность работает, продолжай с картинками

Это особенно актуально для графиков, диаграмм, таблиц с числами — там модели часто галлюцинируют при чтении визуальных данных.

⚠️

Ограничения

⚠️ Специализация не спасает: Модели, обученные специально на химических структурах (ChemVLM), отстают от универсальных (GPT-5, Gemini-2.5-Pro). Они хороши для распознавания (перевести картинку в формулу), но слабы в комплексном рассуждении (решить задачу, используя структуру + текст). Узкая экспертиза не заменяет широкую способность к рассуждению.

⚠️ Few-shot бесполезен для сложных задач: На задачах с сильной визуальной компонентой few-shot промптинг не помогает или даже вредит (добавляет шум). Работает только на простых, текстоцентричных задачах. Если задача требует глубокого визуального анализа — используй CoT, не few-shot.

⚠️ CoT требует способности к рассуждению: Очень маленькие модели (Qwen2.5-VL-3B) получают минимальный выигрыш от CoT (+3-5pp), потому что им не хватает мощности для генерации логичных цепочек. CoT критичен именно для средних моделей (GPT-4.1-mini, Claude Sonnet), у которых есть потенциал, но нет внутренней структуры.

⚠️ Большие модели не нуждаются в CoT: Топовые модели (GPT-5, o3, Gemini-2.5-Pro) получают +1-2pp от CoT — у них рассуждение уже встроено внутрь. CoT может улучшить интерпретируемость (ты видишь логику), но не точность.

🔗

Ресурсы

"Evaluating Large Language Models on Multimodal Chemistry Olympiad Exams"

Yiming Cui, Xin Yao, Yuxuan Qin, Xin Li, Shijin Wang, Guoping Hu

_State Key Laboratory of Cognitive Intelligence, Hefei, China; iFLYTEK AI Research, Beijing, China_


📋 Дайджест исследования

Ключевая суть

Парадокс: У многих мультимодальных моделей удаление картинки улучшало точность ответов. Протестировали 40 моделей на 473 задачах с графиками и диаграммами — оказалось, что визуальная информация часто вносит шум вместо ясности. Метод позволяет определить когда убрать картинку и дать данные текстом — это может поднять точность особенно у средних моделей. Модели плохо синхронизируют визуальную и текстовую информацию. При конфликте сигналов картинка сбивает с толку. Chain-of-Thought даёт +26 процентных пунктов для средних моделей (GPT-4.1-mini), если задать явные шаги рассуждения.

Принцип работы

Не всегда «больше данных = лучше результат». Если модель слабо интегрирует визуал и текст — убери картинку, дай чистые цифры. Для средних моделей критичен Chain-of-Thought — расписывай шаги: 1) Что видишь, 2) Какие цифры, 3) Как связаны, 4) Вывод. Маленьким моделям помогает few-shot (3-4 примера дают +6-7pp), большим — ничего не нужно. Прикол: на сложных визуальных задачах few-shot бесполезен или вредит, зато CoT выстреливает максимально.

Почему работает

Мультимодальные LLM обрабатывают картинку и текст раздельно. Они не умеют сводить это в единую логику — визуальная часть вносит шум. Особенно у маленьких и средних моделей. Chain-of-Thought заставляет модель артикулировать промежуточные шаги — что видит, какие цифры извлекла, как сравнивает. Это сдвигает внимание с локального узнавания паттернов на глобальное сравнение и проверку логики. Средние модели получают максимум пользы — у них есть способность рассуждать, но нет внутренней структуры. CoT даёт эту структуру извне. Текстовые данные убирают конфликт модальностей — модель работает в своей сильной зоне (текст + рассуждения).

Когда применять

Анализ графиков, диаграмм, таблиц с числами → когда нужно извлечь цифры и сделать вывод, особенно если модель средняя (GPT-4.1-mini, Claude Sonnet). Конкретно: финансовые графики, таблицы метрик, технические схемы, визуализации данных. НЕ подходит если картинка содержит уникальную информацию которую нельзя описать текстом (фото реального объекта, художественное изображение).

Мини-рецепт

1. Протестируй оба варианта: Дай задачу с картинкой и отдельно — те же данные текстом. Сравни точность.
2. Если с картинкой — используй CoT: Реши пошагово: 1) Опиши что видишь на графике (оси, масштаб), 2) Извлеки ключевые цифры, 3) Проанализируй как связаны, 4) Сделай вывод. Покажи рассуждения на каждом шаге.
3. Если картинка мешает — убери её: Перепиши данные с изображения в текст: <данные>продажи январь 100к, февраль 120к, март 95к. Дай модели чистые цифры.
4. Для маленьких моделей добавь 3-4 примера решений в начало промпта (few-shot). Для больших не нужно.

Примеры

[ПЛОХО] : [прикрепляешь график продаж] Проанализируй динамику и дай рекомендацию — модель может неправильно считать с осей или выдумать тренды
[ХОРОШО] : Вот данные с графика продаж: январь 100 тысяч, февраль 120 тысяч, март 95 тысяч. Проанализируй пошагово: 1) Опиши тренд (рост/падение), 2) Посчитай процент изменений, 3) Определи причину падения в марте, 4) Дай рекомендацию. Покажи рассуждения. — убираешь визуальную модальность, задаёшь явные шаги через CoT
Источник: Evaluating Large Language Models on Multimodal Chemistry Olympiad Exams
ArXiv ID: 2512.14989 | Сгенерировано: 2026-01-08 22:36

Проблемы LLM

ПроблемаСутьКак обойти
Картинка может мешать вместо помощиМодель плохо синхронизирует визуальную и текстовую информацию. Когда обе модальности конфликтуют, визуальная часть вносит шум. Модель теряется между "что вижу на картинке" и "что говорит текст". Особенно сильно на графиках с числами и сложных диаграммах. Средние модели страдают больше всегоПротестируй два варианта: 1) с картинкой + CoT ("опиши что видишь пошагово"), 2) без картинки, данные текстом ("вот числа с графика: январь 50, февраль 45..."). Если второй вариант точнее — давай данные текстом, не картинкой
📖 Простыми словами

Визуальная модальность может вредить: когда картинка мешает LLM решать задачи

arXiv: 2512.14989

Мультимодальные модели сейчас пытаются заставить решать задачи уровня Международной олимпиады по химии, где нужно не просто текст прочитать, а сопоставить его с кривым графиком или сложной молекулярной структурой. Проблема в том, что AI до сих пор видит мир по частям: текст идет в один «глаз», картинка — в другой, а мозг посередине часто не может их подружить. В итоге 40 топовых моделей, включая хваленые o3 и Gemini-2.5-Pro, спотыкаются там, где нужно одновременно понимать и условия задачи, и визуальные нюансы.

Это как если бы ты пытался собрать шкаф из Икеи, где инструкция написана на китайском, а на картинках вместо деталей — абстрактные пятна. Ты вроде видишь и то, и другое, но синхронизация данных не происходит. В итоге ты либо прикручиваешь полку к потолку, либо просто сдаешься. У нейронок та же беда: визуальный ряд для них часто становится не подсказкой, а информационным шумом, который только путает логику.

Исследователи прогнали модели через 473 задачи и выяснили, что даже продвинутые методы вроде Chain-of-Thought (когда просишь модель «думать вслух») не всегда спасают. Если модель лажает в распознавании диаграммы, то вся ее дальнейшая цепочка рассуждений — это просто уверенный бред. Самые мощные игроки типа GPT-5 или Qwen2.5-VL справляются лучше, но даже они далеки от идеала, когда дело касается тонких материй вроде стереохимии или спектроскопии.

Этот принцип применим далеко за пределами химии: хоть в анализе графиков акций, хоть в разборе медицинских снимков. Если ты скармливаешь нейронке сложный отчет с кучей инфографики, помни — она может идеально прочитать текст, но полностью провалиться в интерпретации картинок. Пока что мультимодальность — это скорее склейка двух разных сущностей, чем единый интеллект, и слепо доверять AI в анализе визуальных данных пока рановато.

Короче, химия — это лакмусовая бумажка для AI, и пока что результат скорее кислый. Мы получили четкое подтверждение: чем сложнее визуальный контекст, тем выше шанс, что модель выдаст красивую, но абсолютно бесполезную фигню. Если хочешь адекватный результат, не надейся на магию — проверяй, как нейронка «видит» ключевые детали, иначе получишь галлюцинации в лабораторном халате.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с