3,583 papers
arXiv:2512.15298 72 17 дек. 2025 г. FREE

Perception-Cognition Gap: почему LLM видит данные, но не понимает их смысл

КЛЮЧЕВАЯ СУТЬ
Парадокс: LLM распознают визуальные элементы на графиках и схемах (линии, стрелки, точки), но проваливаются на интерпретации символического смысла. Модель видит стрелки на диаграмме тайфуна — но не понимает что они показывают изменение направления ветра. Видит график температуры — но неправильно считывает значения с осей. Даже когда расчёт правильный (получила 0.5), модель не связывает результат с концепцией («одно в 2 раза больше другого»). Исследование на корейском выпускном экзамене обнаружило что структура input критична: скриншот всей страницы даёт 8-28% правильных ответов (хуже случайного угадывания), разделение текста и визуала поднимает до 52-80% — но фундаментальные ошибки рассуждения остаются. Три типа провалов: Perception-Cognition Gap (видят элементы, но не понимают правила), Calculation-Concept Discrepancy (считают верно, но не понимают смысл результата), Process Hallucination (пропускают проверку данных и заменяют правдоподобным знанием).
Адаптировать под запрос

TL;DR

LLM справляются с текстом, но проваливаются на интерпретации символического смысла в схемах и графиках. Модели распознают визуальные элементы (линии, стрелки, точки), но не улавливают правила и процессы, которые эти элементы обозначают. Например, видят стрелки на диаграмме тайфуна, но не понимают что они показывают изменение направления ветра. Видят график температуры воды, но неправильно считывают значения с осей.

Исследование на корейском выпускном экзамене (CSAT Earth Science I) обнаружило три фундаментальных слабости: "Perception-Cognition Gap" (видят картинку, но не понимают символы), "Calculation-Conceptualization Discrepancy" (считают правильно, но не связывают с концепцией — например, получили 0.5, но не поняли что одно в 2 раза больше другого), "Process Hallucination" (пропускают проверку визуальных данных и заменяют правдоподобным, но необоснованным знанием).

Структура input критична. Когда целую страницу с несколькими задачами дали как одно изображение — модели провалились в распознавании (8-28% правильных ответов). Когда задачи разделили — улучшение минимальное у GPT-4o (14→16%) и Gemini Flash (8→18%), но значительное у Gemini Pro (28→56%). Когда текст и визуал подали раздельно — результаты выросли до 52-80%, но фундаментальные ошибки рассуждения остались.

📌

Главные находки

📌

1. Perception-Cognition Gap: видят, но не понимают

Слабость: Модели распознают визуальные элементы, но не интерпретируют символический смысл.

Это доминирующий тип ошибок (44% всех ошибок в оптимальных условиях). Два подтипа:

Visual Data Misreading — ошибки чтения количественных данных: - Неправильно считывают значения с осей графиков - Путают тренды (рост/падение) - Неверно читают таблицы

Schematic Misinterpretation — не понимают правила на схемах: - Видят нетипичную схему изменения направления ветра в тайфуне, но не понимают что стрелки показывают - Распознают элементы процесса на диаграмме, но не улавливают последовательность

Пример: Gemini 2.5 Pro видел график наклона земной оси в разные периоды, но неправильно считал значение для периода B. GPT-4o распознал диаграмму отношения между горячей точкой (hotspot) и движением тектонической плиты, но не понял пространственную связь — вывел направление движения противоположное реальному.

📌

2. Calculation-Conceptualization Discrepancy: считают, но не понимают

Слабость: Модели выполняют расчёты корректно, но не связывают результат с концепцией.

Пример: GPT-4o правильно рассчитал отношение λmax,(B)/λmax,(C) = 0.5, но не понял что это значит "λmax,(C) в два раза больше".

Это уникальная для AI ошибка — человек, получивший 0.5, сразу видит "в 2 раза". Модель обрабатывает как изолированные операции, не интегрируя в общий смысл.

📌

3. Process Hallucination: пропускают проверку данных

Слабость: Модели пропускают критический шаг (например, визуальную проверку данных) и заменяют правдоподобным знанием из обучающих данных.

Пример: GPT-4o должен был проверить P-T диаграмму (давление-температура) для определения типа плавления магмы. Вместо этого пропустил визуальную верификацию и сразу применил знание о "декомпрессионном плавлении" (decompression melting) — термин правильный, но не соответствующий данным в задаче.

В другом случае GPT-4o заявил что фузулиниды (fusulinids) вымерли в конце ордовикского периода, хотя на самом деле они вымерли в конце пермского. Уверенное, но фактически неверное знание.

🏗️

4. Структура input = критический фактор

Unstructured input (вся страница целиком) убивает производительность: - Gemini Flash: 8% - GPT-4o: 14%

- Gemini Pro: 28%

Это хуже случайного угадывания (20%). Модели проваливаются на сегментации задач и распознавании границ между вопросами.

Individual input (каждый вопрос отдельно) даёт разный эффект: - Gemini Flash: 8% → 18% (минимальный рост) - GPT-4o: 14% → 16% (почти без изменений) - Gemini Pro: 28% → 56% (драматический рост)

Вывод: У Gemini Pro основная проблема была в layout analysis, а reasoning ability сохранён. У GPT-4o и Gemini Flash ограничения более фундаментальные.

Optimized input (текст + визуал раздельно): - Gemini Flash: 52% - GPT-4o: 60% - Gemini Pro: 80%

Но даже в оптимальных условиях 36 ошибок на 60 попыток (3 модели × 20 вопросов). Фундаментальные ограничения остались.

📌

Что это значит для работы с LLM

📌

Понимай слабости, адаптируй подход

1. Разделяй текст и визуал

Когда даёшь сложную задачу со схемами/графиками: - ❌ Скриншот всей страницы - ✅ Текст отдельно + изображение отдельно

Пример: вместо скриншота статьи с графиком продаж, напиши текст вопроса и приложи график отдельным файлом.

2. Не доверяй интерпретации символов на схемах

LLM видит элементы, но может не понять правила: - Схемы процессов (стрелки, циклы) - Нетипичные диаграммы - Карты с условными обозначениями

Что делать: Явно опиши символику. Вместо "что показывает эта схема?" → "на схеме стрелки показывают направление потока. Красные линии — высокое давление. Проанализируй изменения."

3. Проверяй связь расчёт-концепция

Модель может посчитать правильно, но не понять смысл результата.

Что делать: После расчёта попроси объяснить концептуальный смысл:

Рассчитай отношение выручки компании А к компании Б.
Затем объясни что это значит для их рыночных позиций.

4. Требуй показать процесс проверки

Чтобы поймать Process Hallucination:

Реши задачу пошагово. На каждом шаге укажи:
1. Какие данные из графика/таблицы ты используешь
2. Какое значение ты считал
3. Как это связано со следующим шагом

Если модель пропускает проверку визуальных данных → красный флаг.

5. Явно проси проверку количественных значений

При работе с графиками:

Определи значение по графику для точки X.
Покажи как ты считал координаты по осям.

Без этого модель может "придумать" правдоподобное, но неверное значение.

🚀

Пример применения

Задача: Анализ сезонных трендов продаж для pitch инвесторам. У тебя есть график с двумя линиями (продажи онлайн и офлайн) за 12 месяцев.

Промпт:

Анализирую график продаж для презентации инвесторам.

График показывает:
- Синяя линия: продажи онлайн (млн ₽)
- Красная линия: продажи офлайн (млн ₽)
- Ось X: месяцы (янв-дек 2024)
- Ось Y: выручка в млн ₽

[прикрепить график отдельным файлом]

Задачи:
1. Считай точные значения для марта, июня, сентября, декабря — для обоих каналов
2. Покажи как ты считал каждое значение (координаты на графике)
3. Рассчитай отношение онлайн/офлайн для каждого месяца
4. Объясни что эти отношения значат для бизнеса (концептуально)
5. Найди тренд: какой канал растёт быстрее и почему это важно

Результат:

Модель выдаст пошаговый разбор: значения с графика, координаты точек, расчёты, объяснение концепций. Ты увидишь как именно модель считала данные — это позволит поймать ошибки типа "неправильно считал ось" или "пропустил проверку и придумал цифры".

🧠

Почему это работает (и не работает)

Perception ≠ Cognition

LLM обучены распознавать паттерны в пикселях (computer vision компонент) и связывать их с текстовыми описаниями. Но символический смысл требует другого уровня абстракции.

Пример: модель видит "→" как визуальный элемент. Но что стрелка означает (направление, процесс, причина-следствие, временная последовательность) зависит от контекста и правил, которые могут быть нетипичными. На типичных схемах (из обучающих данных) модель угадывает правильно. На нестандартных — провал.

Расчёт как изолированная операция

Модель выполняет математические операции по шаблонам из обучающих данных. Но связать результат 0.5 с концепцией "в 2 раза больше" требует интеграции числового результата с семантикой задачи. Это разные слои обработки, которые модель не всегда связывает.

Hallucination как путь наименьшего сопротивления

Проверка визуальных данных — сложный процесс: нужно точно считать координаты, сопоставить с контекстом, проверить согласованность. Проще активировать знание из обучающих данных, которое "звучит правдоподобно" для такого типа задач. Модель не "ленится" — она оптимизирована на fluency (беглость текста), не на accuracy (точность данных).

Рычаги управления:

  1. Структура input → Разделяй сложные документы на текст + визуал = снижаешь OCR errors
  2. Explicitness (явность инструкций) → "Покажи как считал по осям" = заставляет проверять данные
  3. Пошаговость → "На каждом шаге укажи какие данные используешь" = уменьшает process hallucination
  4. Проверка связи расчёт-концепция → "Объясни что значит результат" = выявляет calculation-concept gap
⚠️

Ограничения

⚠️ Defensive knowledge, не productivity boost: Это знание про слабости LLM, помогает избежать ошибок. Не делает работу быстрее — делает безопаснее.

⚠️ Не решает проблему полностью: Даже с оптимизированным input и явными инструкциями, фундаментальные ограничения остаются. Модели по-прежнему могут неправильно интерпретировать нетипичные схемы.

⚠️ Требует ручной проверки: В критических задачах (финансы, медицина, инженерия) результаты всё равно нужно проверять. LLM — ассистент, не замена экспертизе.

⚠️ Зависит от модели: Gemini Pro показал значительно лучшие результаты чем GPT-4o и Gemini Flash. Выбор модели важен для задач с визуальными данными.

🔗

Ресурсы

ChatGPT and Gemini participated in the Korean College Scholastic Ability Test - Earth Science I — Seok-Hyun Ga (Seoul National University), Chun-Yen Chang (National Taiwan Normal University).

Исследование использует экзамен CSAT (Korean College Scholastic Ability Test) 2025 года, секция Earth Science I, как бенчмарк для оценки мультимодальных способностей GPT-4o, Gemini 2.5 Flash, Gemini 2.5 Pro.


📋 Дайджест исследования

Ключевая суть

Парадокс: LLM распознают визуальные элементы на графиках и схемах (линии, стрелки, точки), но проваливаются на интерпретации символического смысла. Модель видит стрелки на диаграмме тайфуна — но не понимает что они показывают изменение направления ветра. Видит график температуры — но неправильно считывает значения с осей. Даже когда расчёт правильный (получила 0.5), модель не связывает результат с концепцией («одно в 2 раза больше другого»). Исследование на корейском выпускном экзамене обнаружило что структура input критична: скриншот всей страницы даёт 8-28% правильных ответов (хуже случайного угадывания), разделение текста и визуала поднимает до 52-80% — но фундаментальные ошибки рассуждения остаются. Три типа провалов: Perception-Cognition Gap (видят элементы, но не понимают правила), Calculation-Concept Discrepancy (считают верно, но не понимают смысл результата), Process Hallucination (пропускают проверку данных и заменяют правдоподобным знанием).

Принцип работы

Не полагайся на способность модели «понять с картинки». Разделяй сложные задачи на текст (отдельно) + визуал (отдельно) + явные инструкции для интерпретации. Вместо скриншота статьи с графиком продаж — опиши текст вопроса, приложи график отдельным файлом, явно укажи что показывают оси и линии. Вместо «проанализируй схему» — «на схеме стрелки показывают направление потока, красные линии — высокое давление, проанализируй изменения». Требуй показать процесс проверки: «на каждом шаге укажи какие данные из графика ты используешь, какое значение считал, как это связано со следующим шагом». Без этого модель может пропустить визуальную верификацию и заменить правдоподобным, но необоснованным знанием.

Почему работает

Восприятие (perception) и понимание (cognition) — разные уровни обработки. LLM распознают паттерны в пикселях через computer vision компонент, но символический смысл требует другой абстракции. Модель видит «→» как визуальный элемент, но что стрелка означает (направление, процесс, причина-следствие) зависит от контекста и правил. На типичных схемах из обучающих данных модель угадывает правильно — на нестандартных проваливается. Расчёты выполняются по шаблонам, но связать результат 0.5 с концепцией «в 2 раза больше» требует интеграции числового результата с семантикой задачи — эти слои обработки модель не всегда связывает. Process Hallucination возникает потому что проверка визуальных данных (точно считать координаты, сопоставить с контекстом) сложнее чем активация знания из обучающих данных, которое «звучит правдоподобно». Модель оптимизирована на беглость текста, не на точность данных.

Когда применять

Для работы с визуальными данными где точность критична → анализ графиков продаж для pitch инвесторам, интерпретация схем процессов, чтение таблиц с количественными значениями, работа с нетипичными диаграммами. Особенно когда одна ошибка в интерпретации меняет вывод. НЕ подходит: Если визуальные данные простые и типичные (стандартные bar charts, line graphs без сложной символики) — там модели справляются лучше.

Мини-рецепт

1. Разделяй input: Вместо скриншота документа — текст вопроса отдельно, график/схема отдельным файлом
2. Опиши символику явно: «На графике синяя линия — продажи онлайн (млн ₽), красная — офлайн. Ось X: месяцы (янв-дек), ось Y: выручка»
3. Требуй показать данные: «Считай точные значения для марта, июня, сентября. Покажи как считал каждое значение — координаты на графике»
4. Проверяй связь расчёт-концепция: «Рассчитай отношение онлайн/офлайн. Объясни что это значит для бизнеса — концептуально»
5. Требуй пошаговость: «На каждом шаге укажи: какие данные из графика используешь, какое значение получил, как связано со следующим шагом»

Примеры

[ПЛОХО] : Скриншот статьи с графиком сезонных трендов + вопрос Какой канал растёт быстрее?
[ХОРОШО] : Анализирую график продаж. График показывает: синяя линия — продажи онлайн (млн ₽), красная — офлайн. Ось X: месяцы (янв-дек 2024), ось Y: выручка. [прикрепить график отдельно] Задачи: 1) Считай точные значения для марта, июня, сентября, декабря — для обоих каналов. 2) Покажи как считал каждое значение (координаты на графике). 3) Рассчитай отношение онлайн/офлайн для каждого месяца. 4) Объясни что эти отношения значат для бизнеса — концептуально. 5) Найди тренд: какой канал растёт быстрее и почему это важно.
Источник: ChatGPT and Gemini participated in the Korean College Scholastic Ability Test - Earth Science I
ArXiv ID: 2512.15298 | Сгенерировано: 2026-01-09 00:21

Проблемы LLM

ПроблемаСутьКак обойти
LLM видят элементы схемы, но путают символический смыслСтрелки, точки, линии распознаются как визуальные объекты — но правила и процессы, которые они обозначают, не улавливаются; на нетипичных схемах (не из training data) — провал; 44% всех ошибокОпиши явно что означают символы: "стрелки показывают направление потока", "красные линии — высокое давление"; не полагайся на "увидит сам"
LLM правильно считают, но не связывают результат с концепциейРасчёт 0.5 выполнен корректно — но модель не понимает что это "в 2 раза"; разные слои обработки: математика vs семантика; уникальная для AI ошибка (человек сразу видит смысл)После расчёта запрашивай концептуальное объяснение: "рассчитай X/Y, затем объясни что это значит для..."
LLM пропускают проверку визуальных данных и подставляют знание из обученияВместо чтения P-T диаграммы — сразу применили термин "декомпрессионное плавление" (правильный, но не соответствует данным в задаче); проверка координат на графике сложнее чем активация "звучит правдоподобно"; оптимизация на fluency, не accuracyТребуй пошагово: "на каждом шаге укажи: какие данные из графика используешь, какое значение считал, как это связано с выводом"

Тезисы

ТезисКомментарий
LLM распознают визуальные элементы лучше чем интерпретируют символы — perception не равно cognitionVision компонент видит пиксели и паттерны; символический смысл требует абстракции (контекст + правила); на типичных схемах из training data — угадывает, на нетипичных — провал; 44% ошибок в оптимальных условиях. Применяй: не полагайся на интерпретацию схем — опиши явно что означают элементы
Расчёты выполняются изолированно — LLM реже связывают числовой результат с концептуальным смысломМатематические операции по шаблонам vs интеграция результата с семантикой задачи — разные слои обработки; получили 0.5, не поняли "в 2 раза". Применяй: после расчётов запрашивай концептуальное объяснение ("что это значит для...")
📖 Простыми словами

Perception-Cognition Gap: почему LLM видит данные, но не понимает их смысл

arXiv: 2512.15298

Нейросети сегодня — это отличные гуманитарии, но совершенно безнадежные технари, когда дело касается картинок. Корень проблемы в том, что LLM вроде ChatGPT или Gemini воспринимают графики и схемы как набор пикселей, а не как логическую систему. Они видят линии, точки и стрелки, но абсолютно не вдупляют в их символический смысл. Для модели стрелка на карте — это просто геометрический объект, а не указание на то, куда дует ветер или движется циклон. Это фундаментальный разрыв между «видеть» и «понимать правила игры».

Это как если бы ты привел на футбольный матч человека, который никогда не слышал о спорте. Он видит, как 22 мужика бегают по траве за белым шаром, и может даже посчитать количество их падений. Но он понятия не имеет, что такое офсайд, почему все орут на судью и зачем вообще нужно пинать этот мяч в сетку. Формально он наблюдает процесс, но логика происходящего от него ускользает полностью. Так и нейронка: она видит график, но для нее это просто абстрактная мазня, а не физический закон.

В корейском экзамене по наукам о Земле модели позорно слились именно на визуале. Что конкретно не работает: интерпретация динамики (видят стрелки тайфуна, но не понимают смену направления ветра) и точность считывания осей (путают значения температуры воды на графиках). Модель может распознать текст в задаче, но как только нужно сопоставить этот текст с кривой на картинке, начинается полный провал. Они лажают даже в простых вещах, где нужно просто соотнести точку на графике с числом на шкале.

Этот принцип универсален для любого бизнеса. Если ты закинешь в ChatGPT график продаж онлайн и офлайн, чтобы подготовить питч для инвесторов, готовься к подвоху. Модель может бодро отрапортовать, что «синяя линия выше красной», но она легко перепутает тренды или не заметит, что масштаб по осям разный. Тестировали на школьных задачах, но это касается любой аналитики: от медицинских снимков до финансовых отчетов. Визуальный интеллект AI пока находится на уровне пятилетнего ребенка с плохим зрением.

Короче: никогда не доверяй нейросети выводы, основанные на графиках, без ручной проверки. LLM — это текстовый движок, который пытается притвориться зрячим, но постоянно спотыкается о простейшие схемы. Если задача требует работы с осями, векторами или сложными диаграммами, модель с вероятностью 90% выдаст уверенную, но абсолютно бредовую галлюцинацию. Либо переводи данные из графиков в таблицы, либо проверяй каждую цифру, иначе твой отчет превратится в набор случайных фактов.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с