arXiv:2512.14989 76 16 дек. 2025 г. FREE

Визуальная модальность может вредить: когда картинка мешает LLM решать задачи

КЛЮЧЕВАЯ СУТЬ

Парадокс: У многих мультимодальных моделей удаление картинки улучшало точность ответов. Протестировали 40 моделей на 473 задачах с графиками и диаграммами — оказалось, что визуальная информация часто вносит шум вместо ясности. Метод позволяет определить когда убрать картинку и дать данные текстом — это может поднять точность особенно у средних моделей. Модели плохо синхронизируют визуальную и текстовую информацию. При конфликте сигналов картинка сбивает с толку. Chain-of-Thought даёт +26 процентных пунктов для средних моделей (GPT-4.1-mini), если задать явные шаги рассуждения.

Адаптировать под запрос

⚡

TL;DR

Исследователи протестировали 40 мультимодальных моделей (GPT-5, o3, Gemini-2.5-Pro, Qwen2.5-VL и др.) на 473 олимпиадных задачах по химии с визуальными компонентами — диаграммами, молекулярными структурами, графиками. Задачи требуют одновременно понимать текст и картинку. Проверяли разные стратегии промптинга: zero-shot, few-shot, Chain-of-Thought.

Главная находка: у многих моделей удаление картинки улучшало точность ответов. Модели плохо интегрируют визуальную и текстовую информацию — вместо помощи картинка вносит шум и сбивает модель с толку. Проблема сильнее проявляется на сложных задачах национального уровня, где визуальное рассуждение критично. У маленьких и средних моделей визуальная модальность может конфликтовать с текстовой логикой.

Few-shot промптинг помогает маленьким моделям (Qwen2.5-VL-3B: с 30.9% до 37.5% при 4 примерах), но бесполезен для больших. Chain-of-Thought критичен для средних моделей — GPT-4.1-mini улучшил результат на 26.3pp с CoT промптингом. CoT сдвигает внимание модели с локального сопоставления паттернов на глобальное сравнение и пошаговое рассуждение. Специализированные химические модели (ChemVLM) отстают от универсальных — они хороши для распознавания структур, но слабы в комплексном рассуждении.

📌

Схема находок

ТРИ СТРАТЕГИИ ПРОМПТИНГА:

ZERO-SHOT: Задача без примеров
→ Базовый уровень, показывает чистую способность модели

FEW-SHOT: Задача + 1-5 примеров решений
→ Помогает маленьким моделям (+6-7pp)
→ Бесполезен для больших моделей
→ Лучше работает на простых задачах

CHAIN-OF-THOUGHT: "Реши пошагово"
→ Средние модели: +20-26pp (GPT-4.1-mini)
→ Маленькие модели: +3-5pp (Qwen2.5-VL-3B)  
→ Большие модели: +1pp (o4-mini)
→ Работает на всех типах задач

ЭФФЕКТ ВИЗУАЛЬНОЙ МОДАЛЬНОСТИ: - У слабых моделей: удаление картинки может улучшить результат - У сильных моделей: картинка помогает - Национальные задачи страдают больше при удалении — там визуальное рассуждение критичнее

🚀

Пример применения

Задача: Готовишь разбор стартапа для инвестора. У тебя есть презентация с графиками метрик (CAC, LTV, retention) и текстовое описание бизнес-модели. Нужен глубокий анализ.

Промпт (когда картинка может помешать):

[Прикрепляешь слайд с графиками метрик]

Проанализируй метрики стартапа на графике и дай рекомендацию — 
инвестировать или нет. Учти динамику CAC, LTV и retention.

Проблема: Модель может неправильно считать цифры с графика или выдумать тренды, которых там нет. Визуальная часть вносит шум вместо ясности.

Решение — Chain-of-Thought с явной структурой:

[Прикрепляешь тот же слайд]

Проанализируй метрики стартапа пошагово:

1. Опиши что видишь на графиках: оси, масштаб, ключевые точки
2. Извлеки конкретные цифры для каждой метрики
3. Определи тренды (растёт/падает/стабильно)
4. Сравни показатели между собой (LTV vs CAC)
5. Сделай вывод и дай рекомендацию

Показывай рассуждения на каждом шаге.

Результат:

Модель покажет пошаговое рассуждение: что видит на графике, какие цифры извлекла, как сравнивает показатели. Ты увидишь где модель ошиблась (неправильно прочитала ось или выдумала цифру) и сможешь поправить. Финальный вывод будет более обоснованным, потому что модель вынуждена явно показать логику.

Альтернатива (когда картинка точно мешает):

Вот текстовое описание метрик стартапа:
- CAC (стоимость привлечения): $50 в январе, $45 в феврале, $40 в марте
- LTV (пожизненная ценность): $200 стабильно
- Retention (удержание): 60% через месяц, 40% через три месяца

Проанализируй и дай рекомендацию — инвестировать или нет. 
Рассуждай пошагово.

Убираешь визуальную модальность — даёшь чистые цифры текстом. Если модель средняя (GPT-4.1-mini, Claude Sonnet), она может точнее проанализировать без картинки, чем с ней.

🧠

Почему это работает

Слабость мультимодальных LLM: Они плохо синхронизируют визуальную и текстовую информацию. Картинка обрабатывается отдельно от текста, и модель не всегда может свести их в единую логику. При конфликте сигналов модель теряется — визуальная часть вносит шум вместо ясности. Особенно это заметно у маленьких и средних моделей.

Сильная сторона LLM: Модели отлично рассуждают пошагово когда их явно просят показать логику. Chain-of-Thought заставляет модель артикулировать промежуточные шаги — что видит, какие цифры извлекла, как сравнивает. Это убирает импульсивные ответы и снижает галлюцинации.

Как методы обходят слабость:

Few-shot даёт маленьким моделям готовые паттерны для имитации. Модель копирует структуру примеров — это работает на простых задачах, где логика прямолинейна. Но если задача сложная и визуальная, примеры не помогают.

Chain-of-Thought включает явное пошаговое рассуждение. Модель не может прыгнуть к ответу — должна показать как пришла к выводу. Это сдвигает внимание с локального сопоставления паттернов (узнать знакомый объект на картинке) на глобальное сравнение (сопоставить элементы, найти связи, проверить логику). Средние модели получают максимальную пользу — у них есть способность рассуждать, но нет внутренней структуры. CoT даёт эту структуру извне.

Рычаги управления:

Добавить/убрать картинку: Если модель слабая и задача визуальная — попробуй дать только текст с явными цифрами. Может сработать лучше.
Число примеров (few-shot): Для маленьких моделей оптимум 3-4 примера. Больше — не помогает или даже вредит.
Структура CoT: Задай конкретные шаги рассуждения (1. Опиши, 2. Извлеки, 3. Сравни, 4. Сделай вывод). Чем слабее модель, тем подробнее расписывай шаги.
Тип задачи: CoT критичен для визуально-сложных задач. На простых текстовых он даёт +1-3pp, на сложных визуальных — +20-26pp.

📌

Универсальный шаблон CoT для визуальных задач

[Прикрепи картинку если нужна]

{описание_задачи}

Реши пошагово:

1. Опиши что видишь: {что_должна_заметить_модель}
2. Извлеки ключевые данные: {какие_цифры_или_элементы}
3. Проанализируй связи: {как_элементы_соотносятся}
4. Сравни варианты: {если_есть_выбор_из_нескольких}
5. Сделай вывод: {финальный_ответ}

Покажи рассуждения на каждом шаге.

Плейсхолдеры: - {описание_задачи} — твоя задача - {что_должна_заметить_модель} — на что обратить внимание (оси графика, элементы диаграммы, ключевые объекты) - {какие_цифры_или_элементы} — конкретные данные для извлечения - {как_элементы_соотносятся} — логические связи между элементами - {если_есть_выбор_из_нескольких} — если нужно выбрать из вариантов

Пример для средней модели (GPT-4.1-mini, Claude Sonnet):

[Прикрепи график продаж]

Вот график продаж за квартал. Определи: рост или падение? 
Нужно ли менять стратегию?

Реши пошагово:

1. Опиши что видишь: оси графика, масштаб, ключевые точки
2. Извлеки ключевые данные: продажи в начале/середине/конце квартала
3. Проанализируй связи: как изменялись продажи, есть ли тренд
4. Сравни периоды: какой месяц лучше/хуже и почему
5. Сделай вывод: рост или падение, нужна ли смена стратегии

Покажи рассуждения на каждом шаге.

🚀 Быстрый старт — вставь в чат:

Вот шаблон Chain-of-Thought для визуальных задач. 
Адаптируй под мою задачу: {твоя_задача}. 

Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит: что на картинке, какие данные важны, что нужно сравнить — потому что CoT требует явной структуры рассуждения под конкретную задачу. Она возьмёт паттерн пошаговости и адаптирует под твой контекст.

📌

Шаблон для проверки "картинка вредит или помогает"

Если сомневаешься — протестируй оба варианта:

ВАРИАНТ 1 — С картинкой:

[Прикрепи изображение]

{задача}

Реши пошагово, покажи что видишь на картинке.

ВАРИАНТ 2 — Без картинки (чистый текст):

{задача}

Вот текстовое описание данных с изображения:
{перепиши_ключевые_данные_текстом}

Реши пошагово на основе этих данных.

Сравни результаты: - Если ВАРИАНТ 2 точнее — картинка вредит, давай данные текстом - Если ВАРИАНТ 1 лучше — визуальная модальность работает, продолжай с картинками

Это особенно актуально для графиков, диаграмм, таблиц с числами — там модели часто галлюцинируют при чтении визуальных данных.

⚠️

Ограничения

⚠️ Специализация не спасает: Модели, обученные специально на химических структурах (ChemVLM), отстают от универсальных (GPT-5, Gemini-2.5-Pro). Они хороши для распознавания (перевести картинку в формулу), но слабы в комплексном рассуждении (решить задачу, используя структуру + текст). Узкая экспертиза не заменяет широкую способность к рассуждению.

⚠️ Few-shot бесполезен для сложных задач: На задачах с сильной визуальной компонентой few-shot промптинг не помогает или даже вредит (добавляет шум). Работает только на простых, текстоцентричных задачах. Если задача требует глубокого визуального анализа — используй CoT, не few-shot.

⚠️ CoT требует способности к рассуждению: Очень маленькие модели (Qwen2.5-VL-3B) получают минимальный выигрыш от CoT (+3-5pp), потому что им не хватает мощности для генерации логичных цепочек. CoT критичен именно для средних моделей (GPT-4.1-mini, Claude Sonnet), у которых есть потенциал, но нет внутренней структуры.

⚠️ Большие модели не нуждаются в CoT: Топовые модели (GPT-5, o3, Gemini-2.5-Pro) получают +1-2pp от CoT — у них рассуждение уже встроено внутрь. CoT может улучшить интерпретируемость (ты видишь логику), но не точность.

🔗

Ресурсы

"Evaluating Large Language Models on Multimodal Chemistry Olympiad Exams"

Yiming Cui, Xin Yao, Yuxuan Qin, Xin Li, Shijin Wang, Guoping Hu

_State Key Laboratory of Cognitive Intelligence, Hefei, China; iFLYTEK AI Research, Beijing, China_

📋 Дайджест исследования

Ключевая суть

Принцип работы

Не всегда «больше данных = лучше результат». Если модель слабо интегрирует визуал и текст — убери картинку, дай чистые цифры. Для средних моделей критичен Chain-of-Thought — расписывай шаги: 1) Что видишь, 2) Какие цифры, 3) Как связаны, 4) Вывод. Маленьким моделям помогает few-shot (3-4 примера дают +6-7pp), большим — ничего не нужно. Прикол: на сложных визуальных задачах few-shot бесполезен или вредит, зато CoT выстреливает максимально.

Почему работает

Мультимодальные LLM обрабатывают картинку и текст раздельно. Они не умеют сводить это в единую логику — визуальная часть вносит шум. Особенно у маленьких и средних моделей. Chain-of-Thought заставляет модель артикулировать промежуточные шаги — что видит, какие цифры извлекла, как сравнивает. Это сдвигает внимание с локального узнавания паттернов на глобальное сравнение и проверку логики. Средние модели получают максимум пользы — у них есть способность рассуждать, но нет внутренней структуры. CoT даёт эту структуру извне. Текстовые данные убирают конфликт модальностей — модель работает в своей сильной зоне (текст + рассуждения).

Когда применять

Анализ графиков, диаграмм, таблиц с числами → когда нужно извлечь цифры и сделать вывод, особенно если модель средняя (GPT-4.1-mini, Claude Sonnet). Конкретно: финансовые графики, таблицы метрик, технические схемы, визуализации данных. НЕ подходит если картинка содержит уникальную информацию которую нельзя описать текстом (фото реального объекта, художественное изображение).

Мини-рецепт

1. Протестируй оба варианта: Дай задачу с картинкой и отдельно — те же данные текстом. Сравни точность.
2. Если с картинкой — используй CoT:

Реши пошагово: 1) Опиши что видишь на графике (оси, масштаб), 2) Извлеки ключевые цифры, 3) Проанализируй как связаны, 4) Сделай вывод. Покажи рассуждения на каждом шаге.

3. Если картинка мешает — убери её: Перепиши данные с изображения в текст: <данные>продажи январь 100к, февраль 120к, март 95к. Дай модели чистые цифры.
4. Для маленьких моделей добавь 3-4 примера решений в начало промпта (few-shot). Для больших не нужно.

Примеры

[ПЛОХО] :

[прикрепляешь график продаж] Проанализируй динамику и дай рекомендацию

— модель может неправильно считать с осей или выдумать тренды

[ХОРОШО] :

Вот данные с графика продаж: январь 100 тысяч, февраль 120 тысяч, март 95 тысяч. Проанализируй пошагово: 1) Опиши тренд (рост/падение), 2) Посчитай процент изменений, 3) Определи причину падения в марте, 4) Дай рекомендацию. Покажи рассуждения.

— убираешь визуальную модальность, задаёшь явные шаги через CoT

Источник: Evaluating Large Language Models on Multimodal Chemistry Olympiad Exams

ArXiv ID: 2512.14989 | Сгенерировано: 2026-01-08 22:36

Проблемы LLM

Проблема	Суть	Как обойти
Картинка может мешать вместо помощи	Модель плохо синхронизирует визуальную и текстовую информацию. Когда обе модальности конфликтуют, визуальная часть вносит шум. Модель теряется между "что вижу на картинке" и "что говорит текст". Особенно сильно на графиках с числами и сложных диаграммах. Средние модели страдают больше всего	Протестируй два варианта: 1) с картинкой + CoT ("опиши что видишь пошагово"), 2) без картинки, данные текстом ("вот числа с графика: январь 50, февраль 45..."). Если второй вариант точнее — давай данные текстом, не картинкой

📖 Простыми словами

Визуальная модальность может вредить: когда картинка мешает LLM решать задачи

arXiv: 2512.14989

Мультимодальные модели сейчас пытаются заставить решать задачи уровня Международной олимпиады по химии, где нужно не просто текст прочитать, а сопоставить его с кривым графиком или сложной молекулярной структурой. Проблема в том, что AI до сих пор видит мир по частям: текст идет в один «глаз», картинка — в другой, а мозг посередине часто не может их подружить. В итоге 40 топовых моделей, включая хваленые o3 и Gemini-2.5-Pro, спотыкаются там, где нужно одновременно понимать и условия задачи, и визуальные нюансы.

Это как если бы ты пытался собрать шкаф из Икеи, где инструкция написана на китайском, а на картинках вместо деталей — абстрактные пятна. Ты вроде видишь и то, и другое, но синхронизация данных не происходит. В итоге ты либо прикручиваешь полку к потолку, либо просто сдаешься. У нейронок та же беда: визуальный ряд для них часто становится не подсказкой, а информационным шумом, который только путает логику.

Исследователи прогнали модели через 473 задачи и выяснили, что даже продвинутые методы вроде Chain-of-Thought (когда просишь модель «думать вслух») не всегда спасают. Если модель лажает в распознавании диаграммы, то вся ее дальнейшая цепочка рассуждений — это просто уверенный бред. Самые мощные игроки типа GPT-5 или Qwen2.5-VL справляются лучше, но даже они далеки от идеала, когда дело касается тонких материй вроде стереохимии или спектроскопии.

Этот принцип применим далеко за пределами химии: хоть в анализе графиков акций, хоть в разборе медицинских снимков. Если ты скармливаешь нейронке сложный отчет с кучей инфографики, помни — она может идеально прочитать текст, но полностью провалиться в интерпретации картинок. Пока что мультимодальность — это скорее склейка двух разных сущностей, чем единый интеллект, и слепо доверять AI в анализе визуальных данных пока рановато.

Короче, химия — это лакмусовая бумажка для AI, и пока что результат скорее кислый. Мы получили четкое подтверждение: чем сложнее визуальный контекст, тем выше шанс, что модель выдаст красивую, но абсолютно бесполезную фигню. Если хочешь адекватный результат, не надейся на магию — проверяй, как нейронка «видит» ключевые детали, иначе получишь галлюцинации в лабораторном халате.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

Выберите модель ИИ:

Ваш запрос:

0 / 2000

~0.5-2 N-токенов ~10-30с

~0.3-1 N-токенов ~5-15с

Меню

Визуальная модальность может вредить: когда картинка мешает LLM решать задачи

TL;DR

Схема находок

Пример применения

Почему это работает

Универсальный шаблон CoT для визуальных задач

Шаблон для проверки "картинка вредит или помогает"

Ограничения

Ресурсы

Ключевая суть

Принцип работы

Почему работает

Когда применять

Мини-рецепт

Примеры

Проблемы LLM

Визуальная модальность может вредить: когда картинка мешает LLM решать задачи

Работа с исследованием

Результат адаптации