3,583 papers
arXiv:2604.08959 75 10 апр. 2026 г. FREE

Структурное перечисление vs. нарратив тренда: почему LLM описывает графики не так, как вы ожидаете

КЛЮЧЕВАЯ СУТЬ
Парадокс: человек смотрит на линейный график и говорит «продажи рухнули в марте». LLM смотрит на тот же график и говорит «значение в точке X=3 равно 31, в точке X=4 — 35». Не ошибка — это дефолтный режим всех трёх топовых моделей (GPT, Claude, Gemini). Метод трёхступенчатого запроса позволяет получать нарративную интерпретацию графика вместо сухого отчёта бухгалтера. Фишка: не просто ограничь длину ответа — заставь модель уложиться в одно предложение, и она сама выберет главный паттерн, потому что на перечисление места уже нет — так работает PC2 (принудительная расстановка приоритетов).
Адаптировать под запрос

TL;DR

Когда вы отправляете график в ChatGPT или Claude и пишете «опиши что видишь» — модель не рассказывает историю данных. Она перечисляет: значения, диапазоны, сравнения между отдельными точками. Это называется структурное перечисление — и это устойчивая стратегия всех трёх топовых моделей (GPT, Claude, Gemini).

Парадокс в том, что человек читает тренды, а LLM читает координаты. Человек смотрит на линейный график и говорит «продажи резко упали в марте, потом медленно восстановились». LLM говорит «значение X=2 составляет 45, X=3 — 31, X=4 — 35, X=5 — 38». Это не ошибка, это дефолтный режим. Модель натренирована читать данные точно, не интерпретировать их нарративно.

Из этого вытекают два практических следствия. Первое: стандартный запрос «опиши график» даёт плоский список — ему нужна явная инструкция синтезировать тренд. Второе: LLM неожиданно хорошо справляется с ролью «проверщика кодов дизайнера» — понимает, что именно автор хотел сказать графиком, точнее, чем среднестатистический читатель.


🔬

Схема метода

Исследование описывает три условия промптинга при анализе графиков:

PC0 (свободный): "Опиши что ты видишь на графике"
→ Длинное структурное перечисление, модель выдаёт всё подряд

PC1 (сжатый): "Опиши в 2-3 предложениях"
→ Короче, но та же структура: сравнения и диапазоны

PC2 (экстремальный синтез): "В одном предложении — главное"
→ Модель вынуждена выбрать самый важный паттерн

Все три выполняются в одном запросе. PC2 — самый полезный для получения сути.


🚀

Пример применения

Задача: Вы готовите квартальный отчёт для команды в Яндекс.Практикуме. Есть график динамики конверсии по неделям — нужно понять, какую историю он рассказывает, и написать вывод для презентации.

Промпт:

Вот график динамики конверсии по неделям за Q1. 

Шаг 1 — Один факт: В одном предложении напиши 
ГЛАВНЫЙ ТРЕНД этого графика. Не перечисляй значения — 
опиши движение и характер изменений.

Шаг 2 — Нарратив: В 2-3 предложениях расскажи 
историю этих данных — что происходило, был ли перелом, 
чем всё закончилось.

Шаг 3 — Проверка намерения: Я хочу, чтобы этот график 
показывал рост после просадки в феврале. 
Он это коммуницирует? Что усилить в дизайне или подписи?

[вставить график]

Результат: В Шаге 1 модель выдаст одно предложение с кинетикой данных — «конверсия падала первые 4 недели, затем начала восстанавливаться». Шаг 2 — связный нарратив с причинно-следственной логикой. Шаг 3 — оценка: соответствует ли визуализация вашему замыслу, и конкретные рекомендации (добавить аннотацию, поменять цвет линии).


🧠

Почему это работает

Дефолтный режим LLM — это точность, не нарратив. Модель обучена на данных, где правильный ответ — это точное считывание значений. Попросите «что на графике» — получите отчёт бухгалтера, не колонку аналитика.

Но у LLM есть неочевидная сила — она хорошо понимает замысел автора. Исследование показало, что LLM точнее людей угадывает, что именно дизайнер хотел донести графиком. Люди отвлекаются на форму и цвет. LLM смотрит на структуру данных и быстро находит «ключевое сообщение».

PC2 — это не просто ограничение на длину. Когда вы принуждаете модель к одному предложению, она не может позволить себе перечисление. Она вынуждена иерархизировать — выбрать один самый весомый паттерн и сформулировать его. Это принудительная расстановка приоритетов.

Рычаги управления: - «Не перечисляй значения» — явный запрет дефолтного режима. Без него модель вернётся к координатам. - «Расскажи историю» — слово «история» запускает нарративный режим вместо аналитического. - «Я хотел показать X — я достиг цели?» — переключает LLM в режим дизайн-ревью, где она неожиданно сильна. - Один шаг = один запрос к синтезу — несколько шагов в промпте дают разные углы на один и тот же график.


📋

Шаблон промпта

Перед тобой график. Выполни три шага:

Шаг 1 — Главный тренд (1 предложение):
Не перечисляй значения. Опиши движение данных — 
есть ли рост, спад, перелом, платo. 
Назови характер изменений.

Шаг 2 — История данных (2-3 предложения):
Расскажи что происходило в {временной период / по категориям}. 
Был ли переломный момент? Чем заканчивается? 

Шаг 3 — Проверка намерения:
Я хочу, чтобы этот график коммуницировал: {твой замысел}.
Достигает ли он цели? Что в дизайне или подписях стоит усилить?

[вставить график или его описание]

Плейсхолдеры: - {временной период / по категориям} — «за Q1», «по регионам», «по возрастным группам» - {твой замысел} — «что продукт растёт быстрее рынка», «что февраль был аномальным провалом»


🚀 Быстрый старт — вставь в чат:

Вот шаблон для анализа графиков через три шага: тренд, история, 
проверка намерения. Адаптируй под мою задачу: [твоя задача].
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит какой замысел вы вкладывали в график и за какой период данные — потому что без этого не сможет выполнить Шаг 3 (проверку дизайнерского намерения), а это самый ценный шаг.


⚠️

Ограничения

⚠️ Нарратив — только если явно попросить: Без инструкции «рассказывай историю» / «не перечисляй значения» модель возвращается к структурному перечислению в большинстве случаев.

⚠️ Цифровые данные на графике: LLM лучше работает с линейными и столбчатыми графиками. Со скаттерплотами (точечными облаками) — хуже. Корреляции и кластеры она считывает менее надёжно.

⚠️ Текстовые подписи влияют: Исследование намеренно убрало реальные подписи с осей, чтобы изолировать визуальное восприятие. В реальных графиках с подписями LLM частично опирается на текст, а не только на форму.

⚠️ Высокий когнитивный состав — риск галлюцинаций: При сложных juxtaposed-графиках (несколько панелей рядом) растёт вероятность частичных ошибок.


🔍

Как исследовали

Команда из POSTECH и Университета Оклахомы взяла 60 графиков из настоящей дата-журналистики — от изданий вроде NYT и The Economist — но заменила все реальные подписи и данные на синтетические. Это изолировало визуальное восприятие от «я знаю что происходило с COVID в 2021». GPT-4o, Claude Sonnet 4 и Gemini 2.5 Flash описывали каждый график в трёх режимах: свободно, в 2-3 предложениях, в одном предложении. Ответы сравнивали с описаниями 24 реальных людей.

Для оценки использовали сразу два фрейма: таксономию Блума (насколько глубокое понимание?) и набор статистических задач (тренды? сравнения? аномалии?). Дополнительно три живых кодировщика оценивали «верность дизайну» — понял ли интерпретатор, что автор хотел показать.

Самое неожиданное: LLM почти не меняла стратегию между свободным и сжатым форматом. Даже в одном предложении Gemini и GPT всё равно перечисляли. Люди под давлением переходили к тезисному тренду — модели нет. Зато по «верности намерению дизайнера» LLM обогнали среднего человека: они точнее считывали что именно автор хотел донести.


💡

Адаптации и экстраполяции

🔧 Техника: «Роль нарратора» → смена регистра описания

Вместо инструкции «не перечисляй» — дай модели роль:

Ты — колумнист Forbes, который объясняет сложные данные 
простым языком. Посмотри на этот график и напиши лид 
для колонки — 2 предложения, без единой цифры, 
только суть что происходит.

Роль нарратора принудительно отключает «режим бухгалтера» — модель начинает генерировать текст по паттерну нарративного стиля, а не аналитического перечисления.


🔧 Обратная задача: LLM пишет график, который ты должен нарисовать

Если у тебя есть тезис, но нет данных — используй LLM как «дизайнера визуализации в обратную сторону»:

Я хочу показать аудитории следующее: 
{твой тезис о данных}.

Опиши: какой тип графика лучше всего донесёт эту идею, 
что должно быть на осях, какой момент нужно выделить 
визуально, какую подпись добавить чтобы намерение 
считывалось правильно.

Это работает потому что исследование показало: LLM хорошо понимает «намерение дизайнера» и может работать в обратном направлении — от намерения к рекомендациям по дизайну.


🔗

Ресурсы

How Do LLMs See Charts? A Comparative Study on High-Level Visualization Comprehension in Humans and LLMs EuroVis 2026 / Computer Graphics Forum, Volume 45 (2026), Number 3

Авторы: Hyotaek Jeon, Hyunwook Lee, Minjeong Shin, Tapendra Pandey, Joohee Kim, Shinwook Seon, Daeun Jeong, Sungahn Ko, Ghulam Jilani Quadri

Институты: POSTECH (Южная Корея), Soongsil University, Australian National University, University of Oklahoma, UNIST

Опирается на: Bloom's Taxonomy [BEF'56], Statistical Tasks Framework [AES05], датасет визуализаций [QWW'24]


📋 Дайджест исследования

Ключевая суть

Парадокс: человек смотрит на линейный график и говорит «продажи рухнули в марте». LLM смотрит на тот же график и говорит «значение в точке X=3 равно 31, в точке X=4 — 35». Не ошибка — это дефолтный режим всех трёх топовых моделей (GPT, Claude, Gemini). Метод трёхступенчатого запроса позволяет получать нарративную интерпретацию графика вместо сухого отчёта бухгалтера. Фишка: не просто ограничь длину ответа — заставь модель уложиться в одно предложение, и она сама выберет главный паттерн, потому что на перечисление места уже нет — так работает PC2 (принудительная расстановка приоритетов).

Принцип работы

Три условия запроса дают три разных угла: PC0 — свободный («опиши что видишь»): длинный список значений и сравнений PC1 — сжатый («опиши в 2-3 предложениях»): короче, но та же структура PC2 — принудительный синтез («главное в одном предложении»): модель вынуждена иерархизировать Слово «история» в запросе запускает нарративный режим вместо аналитического — добавь «расскажи историю этих данных» и модель переключается с координат на движение. Явный запрет «не перечисляй значения» блокирует дефолтный режим. Без него модель вернётся к цифрам даже после правильного ответа.

Почему работает

LLM обучена на текстах, где правильный ответ — точное считывание данных. Поэтому без инструкции она выдаёт отчёт, а не колонку аналитика. Принудительное ограничение до одного предложения — это не просто про длину. Модель физически не успевает перечислить всё — и вынуждена выбрать один самый весомый паттерн. Есть и неожиданный бонус: исследование показало, что LLM точнее людей угадывает замысел автора графика. Люди отвлекаются на форму и цвет, модель смотрит на структуру данных — и быстро находит ключевое сообщение. Это делает её неожиданно сильным инструментом для дизайн-ревью визуализаций.

Когда применять

Подготовка презентаций и отчётов — когда нужна история данных, а не таблица значений, особенно когда дедлайн давит и некогда думать что именно показывает график. Проверка дизайна дашбордов и инфографики — «я хотел показать рост после просадки, мне это удалось?» — модель честно скажет нет и объяснит что усилить. Анализ линейных и столбчатых графиков — здесь работает надёжно. НЕ подходит для точечных облаков (скаттерплотов) и сложных составных графиков из нескольких панелей — там точность падает и растёт риск ошибок.

Мини-рецепт

1. Заблокируй дефолт: явно напиши «не перечисляй значения» — иначе модель вернётся к координатам даже после правильной инструкции

2. Запроси PC2 первым: «В одном предложении — главный тренд этого графика. Назови характер движения: рост, спад, перелом, плато» — это принудительная расстановка приоритетов

3. Разверни в историю: «В 2-3 предложениях расскажи историю этих данных за [период / по категориям]. Был ли переломный момент? Чем заканчивается?»

4. Проверь замысел: «Я хотел, чтобы этот график коммуницировал: [твой замысел]. Достигает ли он цели? Что в дизайне или подписях усилить?» — это самый ценный шаг, здесь LLM сильнее среднего читателя

5. Вставь график (или его словесное описание, если загрузка изображения недоступна)

Примеры

[ПЛОХО] : Опиши что видишь на этом графике конверсии за квартал → Получишь: «значение на неделе 1 составляет 4.2%, на неделе 2 — 3.8%, на неделе 3...» — бухгалтерский отчёт, ноль истории
[ХОРОШО] : Вот график конверсии по неделям за Q1. Шаг 1 — не перечисляй значения. В одном предложении: главный тренд — движение и характер изменений. Шаг 2 — расскажи историю этих данных за Q1. Был ли перелом? Чем заканчивается? Шаг 3 — я хотел показать восстановление после просадки в феврале. Этот график коммуницирует это? Что усилить в дизайне или подписях? [график] → Шаг 1: «Конверсия снижалась первые пять недель, затем резко развернулась вверх и к концу квартала превысила стартовый уровень» — одно предложение, полная картина. Шаг 3: конкретные рекомендации — добавить аннотацию в точке перелома, выделить линию восстановления цветом.
Источник: How Do LLMs See Charts? A Comparative Study on High-Level Visualization Comprehension in Humans and LLMs
ArXiv ID: 2604.08959 | Сгенерировано: 2026-04-13 04:48

Проблемы LLM

ПроблемаСутьКак обойти
Модель описывает данные списком, а не историейПросишь "опиши график". Получаешь перечень: "значение A равно 45, значение B — 31". Не тренд. Не история. Просто координаты. Так работают все три топовых модели — это их стандартный режим при анализе визуальных данных. Тренд в голове у человека, а не в ответе моделиЯвно запрети перечисление: "не называй конкретные значения". Добавь "опиши движение данных". Ещё лучше — ограничь до одного предложения: модель сама выберет самый важный паттерн

Методы

МетодСуть
Жёсткое ограничение вместо просьбы синтезироватьПопроси модель описать главное одним предложением. Не "кратко", не "в 2-3 предложениях" — а именно одним. Почему работает: при таком ограничении модель не может перечислять. Физически не помещается. Вынуждена выбрать один самый весомый паттерн и назвать его. Это принудительная расстановка приоритетов через синтаксическое ограничение. Применяй на любых данных — не только на графиках. Один вывод из таблицы, одна ключевая мысль из отчёта. Когда не работает: если данные действительно равнозначны и одного паттерна нет
Проверка замысла автораСкажи модели что ты хотел показать: "Я хочу чтобы этот график коммуницировал X. Достигает ли он цели?" Модель сравнивает данные с твоим намерением. Находит разрыв. Предлагает что усилить. Почему работает: модель смотрит на структуру данных, а не на оформление. Видит что реально показывает график — без визуальных отвлечений. Применяй когда готовишь презентацию и не уверен что визуализация "читается" правильно

Тезисы

ТезисКомментарий
Модель читает данные точно. Интерпретирует — только по инструкцииСтандартный режим модели при анализе визуальных данных — точность, не нарратив. Это не баг. Модель обучена отвечать правильно — "значение равно 45". Нарратив ("продажи упали и начали восстанавливаться") — отдельный режим, который надо явно включить. Применяй: добавляй "расскажи историю данных" или "опиши движение" всегда когда нужна интерпретация, а не сводка
📖 Простыми словами

How DoLLMsSee Charts? A Comparative Study on High-Level Visualization Comprehension in Humans andLLMs

arXiv: 2604.08959

Нейросети видят графики не как аналитики, а как дотошные бухгалтеры под спидами. Когда ты кидаешь в ChatGPT или Claude скриншот с диаграммой, модель не пытается понять «драму» твоих продаж или причину провала конверсии. Она просто сканирует картинку и переводит её в структурное перечисление. Для LLM график — это не история успеха, а набор координат, где точка А выше точки Б на 15%. Это фундаментальный баг восприятия: модели зациклены на точности считывания, а не на поиске смысла.

Это как если бы ты пришел к врачу с рентгеновским снимком сломанной ноги, а он вместо диагноза начал диктовать: «Вижу серый объект длиной 30 сантиметров, плотность в районе 4.8, угол наклона 15 градусов». Формально он прав, но тебе-то нужно знать, сможешь ли ты ходить. Так и нейронка: она выдает тебе сухую опись имущества вместо того, чтобы сказать, что твой бизнес летит в пропасть. Она видит пиксели и цифры, но в упор не замечает высокоуровневые тренды.

Исследователи выделили три режима работы с графиками, и дефолтный — самый бесполезный. Если просто спросить «что тут нарисовано», модель включит режим структурного описания и завалит тебя мусором из цифр. Чтобы выбить из неё хоть какой-то инсайт, нужно использовать направленный промптинг (тыкать носом в конкретную область) или контекстное уточнение. Без этого GPT-4o, Claude 3.5 и Gemini 1.5 Pro будут просто соревноваться в том, кто точнее перепишет легенду графика текстом.

Этот принцип универсален для любой визуализации: от квартального отчета в Яндекс.Практикуме до сложных научных схем. Если ты надеешься, что AI сам догадается сделать вывод для презентации, — забудь. Модель обучена на данных, где за ошибку в цифре её бьют по рукам, поэтому она выбирает безопасный путь — бесконечное перечисление фактов. Пока ты не задашь жесткую рамку «найди аномалию» или «объясни падение», ты будешь получать текстовую копию того, что и так видишь глазами.

Короче: хватит ждать от нейросетей глубокой аналитики «из коробки». Они отлично считывают данные, но абсолютно беспомощны в их интерпретации без твоего пинка. Дефолтный режим — это точность, а не нарратив. Если хочешь получить внятный вывод, а не список значений, заставляй модель игнорировать мелочевку и смотреть на общую картину. Иначе ты просто получишь описание очевидного, которое никак не поможет принять решение.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с