TL;DR
Исследователи протестировали 40 мультимодальных моделей (GPT-5, o3, Gemini-2.5-Pro, Qwen2.5-VL и др.) на 473 олимпиадных задачах по химии с визуальными компонентами — диаграммами, молекулярными структурами, графиками. Задачи требуют одновременно понимать текст и картинку. Проверяли разные стратегии промптинга: zero-shot, few-shot, Chain-of-Thought.
Главная находка: у многих моделей удаление картинки улучшало точность ответов. Модели плохо интегрируют визуальную и текстовую информацию — вместо помощи картинка вносит шум и сбивает модель с толку. Проблема сильнее проявляется на сложных задачах национального уровня, где визуальное рассуждение критично. У маленьких и средних моделей визуальная модальность может конфликтовать с текстовой логикой.
Few-shot промптинг помогает маленьким моделям (Qwen2.5-VL-3B: с 30.9% до 37.5% при 4 примерах), но бесполезен для больших. Chain-of-Thought критичен для средних моделей — GPT-4.1-mini улучшил результат на 26.3pp с CoT промптингом. CoT сдвигает внимание модели с локального сопоставления паттернов на глобальное сравнение и пошаговое рассуждение. Специализированные химические модели (ChemVLM) отстают от универсальных — они хороши для распознавания структур, но слабы в комплексном рассуждении.
Схема находок
ТРИ СТРАТЕГИИ ПРОМПТИНГА:
ZERO-SHOT: Задача без примеров
→ Базовый уровень, показывает чистую способность модели
FEW-SHOT: Задача + 1-5 примеров решений
→ Помогает маленьким моделям (+6-7pp)
→ Бесполезен для больших моделей
→ Лучше работает на простых задачах
CHAIN-OF-THOUGHT: "Реши пошагово"
→ Средние модели: +20-26pp (GPT-4.1-mini)
→ Маленькие модели: +3-5pp (Qwen2.5-VL-3B)
→ Большие модели: +1pp (o4-mini)
→ Работает на всех типах задач
ЭФФЕКТ ВИЗУАЛЬНОЙ МОДАЛЬНОСТИ: - У слабых моделей: удаление картинки может улучшить результат - У сильных моделей: картинка помогает - Национальные задачи страдают больше при удалении — там визуальное рассуждение критичнее
Пример применения
Задача: Готовишь разбор стартапа для инвестора. У тебя есть презентация с графиками метрик (CAC, LTV, retention) и текстовое описание бизнес-модели. Нужен глубокий анализ.
Промпт (когда картинка может помешать):
[Прикрепляешь слайд с графиками метрик]
Проанализируй метрики стартапа на графике и дай рекомендацию —
инвестировать или нет. Учти динамику CAC, LTV и retention.
Проблема: Модель может неправильно считать цифры с графика или выдумать тренды, которых там нет. Визуальная часть вносит шум вместо ясности.
Решение — Chain-of-Thought с явной структурой:
[Прикрепляешь тот же слайд]
Проанализируй метрики стартапа пошагово:
1. Опиши что видишь на графиках: оси, масштаб, ключевые точки
2. Извлеки конкретные цифры для каждой метрики
3. Определи тренды (растёт/падает/стабильно)
4. Сравни показатели между собой (LTV vs CAC)
5. Сделай вывод и дай рекомендацию
Показывай рассуждения на каждом шаге.
Результат:
Модель покажет пошаговое рассуждение: что видит на графике, какие цифры извлекла, как сравнивает показатели. Ты увидишь где модель ошиблась (неправильно прочитала ось или выдумала цифру) и сможешь поправить. Финальный вывод будет более обоснованным, потому что модель вынуждена явно показать логику.
Альтернатива (когда картинка точно мешает):
Вот текстовое описание метрик стартапа:
- CAC (стоимость привлечения): $50 в январе, $45 в феврале, $40 в марте
- LTV (пожизненная ценность): $200 стабильно
- Retention (удержание): 60% через месяц, 40% через три месяца
Проанализируй и дай рекомендацию — инвестировать или нет.
Рассуждай пошагово.
Убираешь визуальную модальность — даёшь чистые цифры текстом. Если модель средняя (GPT-4.1-mini, Claude Sonnet), она может точнее проанализировать без картинки, чем с ней.
Почему это работает
Слабость мультимодальных LLM: Они плохо синхронизируют визуальную и текстовую информацию. Картинка обрабатывается отдельно от текста, и модель не всегда может свести их в единую логику. При конфликте сигналов модель теряется — визуальная часть вносит шум вместо ясности. Особенно это заметно у маленьких и средних моделей.
Сильная сторона LLM: Модели отлично рассуждают пошагово когда их явно просят показать логику. Chain-of-Thought заставляет модель артикулировать промежуточные шаги — что видит, какие цифры извлекла, как сравнивает. Это убирает импульсивные ответы и снижает галлюцинации.
Как методы обходят слабость:
Few-shot даёт маленьким моделям готовые паттерны для имитации. Модель копирует структуру примеров — это работает на простых задачах, где логика прямолинейна. Но если задача сложная и визуальная, примеры не помогают.
Chain-of-Thought включает явное пошаговое рассуждение. Модель не может прыгнуть к ответу — должна показать как пришла к выводу. Это сдвигает внимание с локального сопоставления паттернов (узнать знакомый объект на картинке) на глобальное сравнение (сопоставить элементы, найти связи, проверить логику). Средние модели получают максимальную пользу — у них есть способность рассуждать, но нет внутренней структуры. CoT даёт эту структуру извне.
Рычаги управления:
- Добавить/убрать картинку: Если модель слабая и задача визуальная — попробуй дать только текст с явными цифрами. Может сработать лучше.
- Число примеров (few-shot): Для маленьких моделей оптимум 3-4 примера. Больше — не помогает или даже вредит.
- Структура CoT: Задай конкретные шаги рассуждения (1. Опиши, 2. Извлеки, 3. Сравни, 4. Сделай вывод). Чем слабее модель, тем подробнее расписывай шаги.
- Тип задачи: CoT критичен для визуально-сложных задач. На простых текстовых он даёт +1-3pp, на сложных визуальных — +20-26pp.
Универсальный шаблон CoT для визуальных задач
[Прикрепи картинку если нужна]
{описание_задачи}
Реши пошагово:
1. Опиши что видишь: {что_должна_заметить_модель}
2. Извлеки ключевые данные: {какие_цифры_или_элементы}
3. Проанализируй связи: {как_элементы_соотносятся}
4. Сравни варианты: {если_есть_выбор_из_нескольких}
5. Сделай вывод: {финальный_ответ}
Покажи рассуждения на каждом шаге.
Плейсхолдеры:
- {описание_задачи} — твоя задача
- {что_должна_заметить_модель} — на что обратить внимание (оси графика, элементы диаграммы, ключевые объекты)
- {какие_цифры_или_элементы} — конкретные данные для извлечения
- {как_элементы_соотносятся} — логические связи между элементами
- {если_есть_выбор_из_нескольких} — если нужно выбрать из вариантов
Пример для средней модели (GPT-4.1-mini, Claude Sonnet):
[Прикрепи график продаж]
Вот график продаж за квартал. Определи: рост или падение?
Нужно ли менять стратегию?
Реши пошагово:
1. Опиши что видишь: оси графика, масштаб, ключевые точки
2. Извлеки ключевые данные: продажи в начале/середине/конце квартала
3. Проанализируй связи: как изменялись продажи, есть ли тренд
4. Сравни периоды: какой месяц лучше/хуже и почему
5. Сделай вывод: рост или падение, нужна ли смена стратегии
Покажи рассуждения на каждом шаге.
🚀 Быстрый старт — вставь в чат:
Вот шаблон Chain-of-Thought для визуальных задач.
Адаптируй под мою задачу: {твоя_задача}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит: что на картинке, какие данные важны, что нужно сравнить — потому что CoT требует явной структуры рассуждения под конкретную задачу. Она возьмёт паттерн пошаговости и адаптирует под твой контекст.
Шаблон для проверки "картинка вредит или помогает"
Если сомневаешься — протестируй оба варианта:
ВАРИАНТ 1 — С картинкой:
[Прикрепи изображение]
{задача}
Реши пошагово, покажи что видишь на картинке.
ВАРИАНТ 2 — Без картинки (чистый текст):
{задача}
Вот текстовое описание данных с изображения:
{перепиши_ключевые_данные_текстом}
Реши пошагово на основе этих данных.
Сравни результаты: - Если ВАРИАНТ 2 точнее — картинка вредит, давай данные текстом - Если ВАРИАНТ 1 лучше — визуальная модальность работает, продолжай с картинками
Это особенно актуально для графиков, диаграмм, таблиц с числами — там модели часто галлюцинируют при чтении визуальных данных.
Ограничения
⚠️ Специализация не спасает: Модели, обученные специально на химических структурах (ChemVLM), отстают от универсальных (GPT-5, Gemini-2.5-Pro). Они хороши для распознавания (перевести картинку в формулу), но слабы в комплексном рассуждении (решить задачу, используя структуру + текст). Узкая экспертиза не заменяет широкую способность к рассуждению.
⚠️ Few-shot бесполезен для сложных задач: На задачах с сильной визуальной компонентой few-shot промптинг не помогает или даже вредит (добавляет шум). Работает только на простых, текстоцентричных задачах. Если задача требует глубокого визуального анализа — используй CoT, не few-shot.
⚠️ CoT требует способности к рассуждению: Очень маленькие модели (Qwen2.5-VL-3B) получают минимальный выигрыш от CoT (+3-5pp), потому что им не хватает мощности для генерации логичных цепочек. CoT критичен именно для средних моделей (GPT-4.1-mini, Claude Sonnet), у которых есть потенциал, но нет внутренней структуры.
⚠️ Большие модели не нуждаются в CoT: Топовые модели (GPT-5, o3, Gemini-2.5-Pro) получают +1-2pp от CoT — у них рассуждение уже встроено внутрь. CoT может улучшить интерпретируемость (ты видишь логику), но не точность.
Ресурсы
"Evaluating Large Language Models on Multimodal Chemistry Olympiad Exams"
Yiming Cui, Xin Yao, Yuxuan Qin, Xin Li, Shijin Wang, Guoping Hu
_State Key Laboratory of Cognitive Intelligence, Hefei, China; iFLYTEK AI Research, Beijing, China_
