TL;DR
LLM справляются с текстом, но проваливаются на интерпретации символического смысла в схемах и графиках. Модели распознают визуальные элементы (линии, стрелки, точки), но не улавливают правила и процессы, которые эти элементы обозначают. Например, видят стрелки на диаграмме тайфуна, но не понимают что они показывают изменение направления ветра. Видят график температуры воды, но неправильно считывают значения с осей.
Исследование на корейском выпускном экзамене (CSAT Earth Science I) обнаружило три фундаментальных слабости: "Perception-Cognition Gap" (видят картинку, но не понимают символы), "Calculation-Conceptualization Discrepancy" (считают правильно, но не связывают с концепцией — например, получили 0.5, но не поняли что одно в 2 раза больше другого), "Process Hallucination" (пропускают проверку визуальных данных и заменяют правдоподобным, но необоснованным знанием).
Структура input критична. Когда целую страницу с несколькими задачами дали как одно изображение — модели провалились в распознавании (8-28% правильных ответов). Когда задачи разделили — улучшение минимальное у GPT-4o (14→16%) и Gemini Flash (8→18%), но значительное у Gemini Pro (28→56%). Когда текст и визуал подали раздельно — результаты выросли до 52-80%, но фундаментальные ошибки рассуждения остались.
Главные находки
1. Perception-Cognition Gap: видят, но не понимают
Слабость: Модели распознают визуальные элементы, но не интерпретируют символический смысл.
Это доминирующий тип ошибок (44% всех ошибок в оптимальных условиях). Два подтипа:
Visual Data Misreading — ошибки чтения количественных данных: - Неправильно считывают значения с осей графиков - Путают тренды (рост/падение) - Неверно читают таблицы
Schematic Misinterpretation — не понимают правила на схемах: - Видят нетипичную схему изменения направления ветра в тайфуне, но не понимают что стрелки показывают - Распознают элементы процесса на диаграмме, но не улавливают последовательность
Пример: Gemini 2.5 Pro видел график наклона земной оси в разные периоды, но неправильно считал значение для периода B. GPT-4o распознал диаграмму отношения между горячей точкой (hotspot) и движением тектонической плиты, но не понял пространственную связь — вывел направление движения противоположное реальному.
2. Calculation-Conceptualization Discrepancy: считают, но не понимают
Слабость: Модели выполняют расчёты корректно, но не связывают результат с концепцией.
Пример: GPT-4o правильно рассчитал отношение λmax,(B)/λmax,(C) = 0.5, но не понял что это значит "λmax,(C) в два раза больше".
Это уникальная для AI ошибка — человек, получивший 0.5, сразу видит "в 2 раза". Модель обрабатывает как изолированные операции, не интегрируя в общий смысл.
3. Process Hallucination: пропускают проверку данных
Слабость: Модели пропускают критический шаг (например, визуальную проверку данных) и заменяют правдоподобным знанием из обучающих данных.
Пример: GPT-4o должен был проверить P-T диаграмму (давление-температура) для определения типа плавления магмы. Вместо этого пропустил визуальную верификацию и сразу применил знание о "декомпрессионном плавлении" (decompression melting) — термин правильный, но не соответствующий данным в задаче.
В другом случае GPT-4o заявил что фузулиниды (fusulinids) вымерли в конце ордовикского периода, хотя на самом деле они вымерли в конце пермского. Уверенное, но фактически неверное знание.
4. Структура input = критический фактор
Unstructured input (вся страница целиком) убивает производительность:
- Gemini Flash: 8%
- GPT-4o: 14%
- Gemini Pro: 28%
Это хуже случайного угадывания (20%). Модели проваливаются на сегментации задач и распознавании границ между вопросами.
Individual input (каждый вопрос отдельно) даёт разный эффект: - Gemini Flash: 8% → 18% (минимальный рост) - GPT-4o: 14% → 16% (почти без изменений) - Gemini Pro: 28% → 56% (драматический рост)
Вывод: У Gemini Pro основная проблема была в layout analysis, а reasoning ability сохранён. У GPT-4o и Gemini Flash ограничения более фундаментальные.
Optimized input (текст + визуал раздельно): - Gemini Flash: 52% - GPT-4o: 60% - Gemini Pro: 80%
Но даже в оптимальных условиях 36 ошибок на 60 попыток (3 модели × 20 вопросов). Фундаментальные ограничения остались.
Что это значит для работы с LLM
Понимай слабости, адаптируй подход
1. Разделяй текст и визуал
Когда даёшь сложную задачу со схемами/графиками: - ❌ Скриншот всей страницы - ✅ Текст отдельно + изображение отдельно
Пример: вместо скриншота статьи с графиком продаж, напиши текст вопроса и приложи график отдельным файлом.
2. Не доверяй интерпретации символов на схемах
LLM видит элементы, но может не понять правила: - Схемы процессов (стрелки, циклы) - Нетипичные диаграммы - Карты с условными обозначениями
Что делать: Явно опиши символику. Вместо "что показывает эта схема?" → "на схеме стрелки показывают направление потока. Красные линии — высокое давление. Проанализируй изменения."
3. Проверяй связь расчёт-концепция
Модель может посчитать правильно, но не понять смысл результата.
Что делать: После расчёта попроси объяснить концептуальный смысл:
Рассчитай отношение выручки компании А к компании Б.
Затем объясни что это значит для их рыночных позиций.
4. Требуй показать процесс проверки
Чтобы поймать Process Hallucination:
Реши задачу пошагово. На каждом шаге укажи:
1. Какие данные из графика/таблицы ты используешь
2. Какое значение ты считал
3. Как это связано со следующим шагом
Если модель пропускает проверку визуальных данных → красный флаг.
5. Явно проси проверку количественных значений
При работе с графиками:
Определи значение по графику для точки X.
Покажи как ты считал координаты по осям.
Без этого модель может "придумать" правдоподобное, но неверное значение.
Пример применения
Задача: Анализ сезонных трендов продаж для pitch инвесторам. У тебя есть график с двумя линиями (продажи онлайн и офлайн) за 12 месяцев.
Промпт:
Анализирую график продаж для презентации инвесторам.
График показывает:
- Синяя линия: продажи онлайн (млн ₽)
- Красная линия: продажи офлайн (млн ₽)
- Ось X: месяцы (янв-дек 2024)
- Ось Y: выручка в млн ₽
[прикрепить график отдельным файлом]
Задачи:
1. Считай точные значения для марта, июня, сентября, декабря — для обоих каналов
2. Покажи как ты считал каждое значение (координаты на графике)
3. Рассчитай отношение онлайн/офлайн для каждого месяца
4. Объясни что эти отношения значат для бизнеса (концептуально)
5. Найди тренд: какой канал растёт быстрее и почему это важно
Результат:
Модель выдаст пошаговый разбор: значения с графика, координаты точек, расчёты, объяснение концепций. Ты увидишь как именно модель считала данные — это позволит поймать ошибки типа "неправильно считал ось" или "пропустил проверку и придумал цифры".
Почему это работает (и не работает)
Perception ≠ Cognition
LLM обучены распознавать паттерны в пикселях (computer vision компонент) и связывать их с текстовыми описаниями. Но символический смысл требует другого уровня абстракции.
Пример: модель видит "→" как визуальный элемент. Но что стрелка означает (направление, процесс, причина-следствие, временная последовательность) зависит от контекста и правил, которые могут быть нетипичными. На типичных схемах (из обучающих данных) модель угадывает правильно. На нестандартных — провал.
Расчёт как изолированная операция
Модель выполняет математические операции по шаблонам из обучающих данных. Но связать результат 0.5 с концепцией "в 2 раза больше" требует интеграции числового результата с семантикой задачи. Это разные слои обработки, которые модель не всегда связывает.
Hallucination как путь наименьшего сопротивления
Проверка визуальных данных — сложный процесс: нужно точно считать координаты, сопоставить с контекстом, проверить согласованность. Проще активировать знание из обучающих данных, которое "звучит правдоподобно" для такого типа задач. Модель не "ленится" — она оптимизирована на fluency (беглость текста), не на accuracy (точность данных).
Рычаги управления:
- Структура input → Разделяй сложные документы на текст + визуал = снижаешь OCR errors
- Explicitness (явность инструкций) → "Покажи как считал по осям" = заставляет проверять данные
- Пошаговость → "На каждом шаге укажи какие данные используешь" = уменьшает process hallucination
- Проверка связи расчёт-концепция → "Объясни что значит результат" = выявляет calculation-concept gap
Ограничения
⚠️ Defensive knowledge, не productivity boost: Это знание про слабости LLM, помогает избежать ошибок. Не делает работу быстрее — делает безопаснее.
⚠️ Не решает проблему полностью: Даже с оптимизированным input и явными инструкциями, фундаментальные ограничения остаются. Модели по-прежнему могут неправильно интерпретировать нетипичные схемы.
⚠️ Требует ручной проверки: В критических задачах (финансы, медицина, инженерия) результаты всё равно нужно проверять. LLM — ассистент, не замена экспертизе.
⚠️ Зависит от модели: Gemini Pro показал значительно лучшие результаты чем GPT-4o и Gemini Flash. Выбор модели важен для задач с визуальными данными.
Ресурсы
ChatGPT and Gemini participated in the Korean College Scholastic Ability Test - Earth Science I — Seok-Hyun Ga (Seoul National University), Chun-Yen Chang (National Taiwan Normal University).
Исследование использует экзамен CSAT (Korean College Scholastic Ability Test) 2025 года, секция Earth Science I, как бенчмарк для оценки мультимодальных способностей GPT-4o, Gemini 2.5 Flash, Gemini 2.5 Pro.
