3,583 papers
arXiv:2512.12059 82 12 дек. 2025 г. FREE

The Forecast Critic: визуальная оценка прогнозов через LLM

КЛЮЧЕВАЯ СУТЬ
LLM лучше оценивает временные ряды через картинку графика, чем через последовательность чисел. Метод позволяет проверять прогнозы на адекватность без знания статистики — загружаешь изображение (история + прогноз) в ChatGPT/Claude, добавляешь контекст (праздники, акции), модель анализирует тренды, всплески, периодичность и говорит 'разумно' или 'нереалистично'. Фишка: LLM видит паттерны как визуальные объекты, а не числовые последовательности — синяя линия растёт под углом 30°, красная падает → визуально нелогично → F1 = 0.88 (человек 0.97).
Адаптировать под запрос

TL;DR

The Forecast Critic — техника оценки прогнозов временных рядов, где LLM смотрит на график (историю + прогноз) и определяет, выглядит ли прогноз разумным. Загружаешь изображение графика в ChatGPT/Claude, даёшь промпт — модель анализирует тренды, периодичность, всплески и говорит "разумно" или "подозрительно".

LLM хорошо ловят очевидные косяки: прогноз идёт вниз, когда история растёт; внезапный скачок без причины; прогноз слишком ровный для волатильных данных. Но плохо видят сжатую/растянутую периодичность — когда прогноз сохраняет паттерн, но меняет частоту (например, недельные циклы стали 5-дневными). Лучшая модель (Claude 3.7 Sonnet) даёт F1 = 0.88, человек — 0.97. Прогнозы, помеченные как "нереалистичные", действительно ошибаются на 10-30% сильнее по метрикам точности.

Метод работает в одном запросе: загружаешь картинку, добавляешь контекст (например, "15 марта была распродажа, 22 марта будет ещё одна"), модель учитывает это при оценке. Может детектить пропущенные промо-всплески (когда должен быть скачок, но его нет) и ложные (скачок есть, но причины нет).

🔬

Схема метода

ВХОД: Изображение графика (история + прогноз) + текстовый контекст
  ↓
LLM анализирует:
  - Тренд: прогноз продолжает или ломает направление истории?
  - Волатильность: прогноз сохраняет амплитуду колебаний?
  - Периодичность: паттерны повторяются с той же частотой?
  - Всплески: есть ли необъяснимые скачки или пропущенные события?
  ↓
ВЫХОД: "Reasonable" или "Unreasonable" + объяснение

Всё происходит в одном промпте. Не нужно несколько запросов или программирование.

🚀

Пример применения

Задача: Ты запустил таргет на новую коллекцию в интернет-магазине одежды. Аналитик дал прогноз продаж на следующие 30 дней — обещает рост, но график выглядит странно: в истории были скачки на Чёрную пятницу и 8 марта, а в прогнозе их нет, хотя впереди майские. Хочешь проверить, не накосячил ли аналитик с моделью.

Промпт:

Оцени, выглядит ли этот прогноз продаж разумным.

На графике:
- Синяя линия — история продаж за последние 90 дней (штуки в день)
- Красная линия — прогноз на следующие 30 дней

Контекст:
- 24 ноября была Чёрная пятница (скачок в истории)
- 8 марта была акция "Женский день" (скачок в истории)
- 1-3 и 9-11 мая будут майские праздники (в период прогноза)

Ответь:
1. Reasonable или Unreasonable?
2. Что настораживает или, наоборот, выглядит логично?
3. Если unreasonable — какую ошибку допустила модель?

[прикрепи изображение графика]

Результат:

Модель проанализирует график и скажет примерно следующее: "Unreasonable. Прогноз не учитывает майские праздники — в истории чётко видны всплески продаж во время акций (Чёрная пятница, 8 марта), но в прогнозе на 1-3 и 9-11 мая линия остаётся ровной. Это нереалистично: праздничные дни должны давать рост продаж, как было раньше." Или наоборот, если прогноз корректен: "Reasonable. Прогноз продолжает восходящий тренд истории, сохраняет недельную периодичность (падения в выходные), и показывает всплески 1-3 и 9-11 мая, что логично с учётом праздников."

🧠

Почему это работает

Слабость LLM: Модели плохо работают с чистыми числами временных рядов — они не "чувствуют" абстрактные последовательности цифр. Попроси LLM оценить ряд [120, 125, 130, 128, 133, 40, 145] — она может пропустить аномалию (40), потому что нет визуального контекста.

Сильная сторона LLM: Модели отлично работают с визуальными паттернами и пространственными отношениями. Мультимодальные LLM (GPT-4V, Claude) обучены на миллионах графиков, диаграмм, схем — они "видят" тренды, наклоны, всплески как визуальные объекты, а не как абстрактные числа. График для LLM — это как фотография кота: она распознаёт паттерны формы, не вычисляет пиксели.

Как метод использует это: The Forecast Critic переводит анализ временных рядов в задачу компьютерного зрения. Вместо "оцени последовательность [1, 2, 3, 10, 4, 5]" → "посмотри на график и скажи, выглядит ли красная линия логичным продолжением синей". LLM видит: синяя линия идёт вверх под углом 30° → красная внезапно падает → визуально нелогично → unreasonable. Это тот же механизм, что работает при анализе "посмотри на эту инфографику и объясни что не так" — только применён к прогнозам.

Дополнительная сила: Текстовый контекст (промо-акции, праздники) накладывается на визуальный паттерн. LLM связывает "в тексте сказано '15 марта распродажа'" + "на графике 15 марта есть пик" → логично. Или "в тексте сказано '15 марта распродажа'" + "на графике 15 марта прогноз ровный" → нелогично, должен быть всплеск. Это работает, потому что мультимодальные LLM обучены связывать визуальные и текстовые сигналы — тот же принцип, что позволяет им отвечать "что на этой фотографии?" или "найди на схеме элемент X".

Рычаги управления:

  • Уровень строгости: Добавь "помечай только ОЧЕВИДНЫЕ ошибки" → модель будет более консервативной, меньше ложных тревог. Убери эту фразу → модель будет придирчивее, заметит больше нюансов.

  • Контекст: Чем больше событий перечислишь (праздники, акции, сезонность) → тем точнее оценка. Но если контекст неправильный → модель ошибётся (скажет "должен быть всплеск", когда его не должно быть).

  • Формат объяснения: Попроси "объясни как для неспециалиста" → получишь простой язык. Попроси "объясни технически" → получишь термины типа "периодичность нарушена".

📋

Шаблон промпта

Оцени, выглядит ли этот прогноз разумным.

На графике:
- {цвет_1} линия — {описание_истории} (например: история продаж за последние 90 дней)
- {цвет_2} линия — {описание_прогноза} (например: прогноз на следующие 30 дней)

Контекст (при наличии):
{Опиши важные события, сезонность, промо-акции — что влияет на данные}

Ответь:
1. Reasonable (разумный) или Unreasonable (нереалистичный)?
2. Что в прогнозе выглядит логично или, наоборот, настораживает?
3. Если unreasonable — какую ошибку допустила модель?

[прикрепи изображение графика]

Что подставлять:

  • {цвет_1}, {цвет_2} — цвета линий на графике (синяя, красная, зелёная)
  • {описание_истории} — что показывает историческая часть (продажи, трафик, метрика)
  • {описание_прогноза} — что показывает прогноз (на сколько дней вперёд)
  • {контекст} — внешние факторы: праздники, промо-акции, запуски продуктов, сезонность (лето/зима), известные события (например, "в марте запустили рекламу в Яндекс.Директ")

Если контекста нет — убери секцию "Контекст", модель оценит только по визуальному паттерну.

⚠️

Ограничения

⚠️ Периодичность: LLM плохо видят сжатие/растяжение циклов. Если прогноз сохраняет недельный паттерн, но сдвигает его на 5 дней вместо 7 — модель может пропустить. Визуально "похоже на волны" → кажется ОК, хотя частота неправильная.

⚠️ Пропущенные всплески: Самая сложная задача для LLM — заметить отсутствие события. Если в истории каждый месяц был пик, а в прогнозе его нет — модель ловит это хуже (F1 ≈ 0.75), чем ложные всплески (F1 ≈ 0.85). Человеческий глаз лучше видит "здесь чего-то не хватает".

⚠️ Новые модели ≠ лучше: Claude 3.7 Sonnet обошёл Claude 4.0 Sonnet и Opus на этой задаче. Более новая/большая модель не гарантирует точность в визуальной оценке прогнозов.

⚠️ Субъективность "разумности": Модель опирается на визуальную логику, но не знает бизнес-контекста. Прогноз может выглядеть "странно", но быть правильным из-за скрытых факторов (например, модель учла смену поставщика, а LLM этого не видит).

🔗

Ресурсы

The Forecast Critic: Leveraging Large Language Models for Poor Forecast Identification Исследование использует датасеты: синтетические временные ряды (14 базисных функций), M5 Forecasting Competition (продажи в ритейле), модель Chronos для генерации прогнозов.

Luke Bhan (UC San Diego), Hanyu Zhang, Andrew Gordon Wilson, Michael W. Mahoney, Chuck Arvin — Amazon.


📋 Дайджест исследования

Ключевая суть

LLM лучше оценивает временные ряды через картинку графика, чем через последовательность чисел. Метод позволяет проверять прогнозы на адекватность без знания статистики — загружаешь изображение (история + прогноз) в ChatGPT/Claude, добавляешь контекст (праздники, акции), модель анализирует тренды, всплески, периодичность и говорит 'разумно' или 'нереалистично'. Фишка: LLM видит паттерны как визуальные объекты, а не числовые последовательности — синяя линия растёт под углом 30°, красная падает → визуально нелогично → F1 = 0.88 (человек 0.97).

Принцип работы

Не скармливай LLM ряды цифр — покажи график. Модель плохо чувствует абстрактные последовательности [120, 125, 130, 40, 145], но отлично распознаёт визуальные паттерны. График для LLM — задача компьютерного зрения: 'красная линия — логичное продолжение синей?' вместо 'оцени последовательность чисел'. Модель видит тренды, наклоны, всплески как форму изображения, не как математику.

Почему работает

Мультимодальные LLM обучены на миллионах графиков и диаграмм — они распознают тренды, наклоны, всплески как визуальные объекты, не вычисляя числа. Картинка графика переводит анализ временных рядов в задачу компьютерного зрения — тот же механизм, что работает при 'посмотри на инфографику и объясни что не так'. Текстовый контекст (промо, праздники) накладывается на визуальный паттерн: модель связывает 'в тексте распродажа 15 марта' + 'на графике 15 марта пик' → логично. Прогнозы, помеченные как 'нереалистичные', ошибаются на 10-30% сильнее по метрикам точности.

Когда применять

Проверка прогнозов продаж, трафика, метрик продукта — когда аналитик дал прогноз и ты хочешь быстро понять 'это вменяемо или бред?', не погружаясь в статистику. Особенно полезно для событийных данных: ритейл с промо-акциями, контент-платформы с сезонностью, продукты с запусками фич. НЕ подходит для выявления тонких проблем с периодичностью — LLM плохо видят сжатие или растяжение циклов (недельный паттерн стал 5-дневным).

Мини-рецепт

1. Создай график: история + прогноз, разные цвета линий (синяя/красная)
2. Загрузи в ChatGPT/Claude: изображение + промпт
3. Добавь контекст: перечисли важные события (праздники, акции, запуски) — что влияет на данные
4. Задай вопрос: 'Разумно или нереалистично? Что настораживает? Какую ошибку допустила модель?'
5. Получи вердикт: модель объяснит что логично или нелогично в прогнозе

Примеры

[ПЛОХО] : Оцени этот прогноз продаж на следующий месяц [прикрепи график]
[ХОРОШО] : Оцени прогноз продаж на 30 дней. На графике: синяя — история за 90 дней, красная — прогноз. Контекст: 24 ноября была Чёрная пятница (скачок в истории), 1-3 и 9-11 мая будут майские праздники (в период прогноза). Разумно или нереалистично? Что настораживает? Если нереалистично — какую ошибку допустила модель? [прикрепи график]
Источник: The Forecast Critic: Leveraging Large Language Models for Poor Forecast Identification
ArXiv ID: 2512.12059 | Сгенерировано: 2026-01-08 22:10

Проблемы LLM

ПроблемаСутьКак обойти
Модель плохо анализирует последовательности чиселДаёшь модели ряд чисел: [120, 125, 130, 40, 133, 145]. Просишь найти аномалию. Модель может пропустить резкое падение (40) — числа для неё абстрактные символы. Она не "чувствует" паттерн как человек видит график глазами. Проблема для любых задач с временными рядами: продажи, трафик, метрики, финансыПокажи данные КАРТИНКОЙ. Построй график: ось X — время, ось Y — значения. Загрузи изображение в модель. Теперь она видит тренд, всплеск, падение как визуальные объекты. Попроси оценить: "Выглядит ли паттерн логичным?" Модель анализирует форму линии, не вычисляет числа
Модель не замечает отсутствие ожидаемых событийЛегко увидеть лишнее: на графике внезапный пик — модель заметит. Трудно увидеть пропущенное: в истории каждый месяц был всплеск, в прогнозе его нет — модель может пропустить. "Чего-то не хватает" — сложная задача. Человек справляется лучше. Проблема для проверки прогнозов: забытые промо-акции, сезонные события, регулярные пикиДобавь текстовый контекст ЯВНО. Не надейся что модель сама заметит паттерн "каждый месяц пик". Напиши: "В истории были всплески 24 ноября (Чёрная пятница) и 8 марта (акция). В прогнозе 1-3 мая будут праздники — должен быть аналогичный всплеск." Модель проверит: есть ли пик 1-3 мая на графике прогноза

Методы

МетодСуть
Визуальная оценка данных — график вместо чиселВместо "дай модели последовательность чисел" построй график и дай картинку. LLM видят тренды, всплески, падения как визуальные паттерны — они обучены на миллионах графиков, диаграмм, схем. Для модели график = как фотография: она распознаёт форму, наклон, волны. Шаг 1: Построй график (любой инструмент: Excel, Python, Google Sheets). История + прогноз на одном изображении. Шаг 2: Загрузи в ChatGPT/Claude. Шаг 3: Промпт: "Оцени разумность прогноза. Синяя линия — история, красная — прогноз. Reasonable или unreasonable?" Почему работает: Ты переводишь задачу анализа последовательности в задачу компьютерного зрения. Модель не вычисляет, она ВИДИТ. Когда применять: временные ряды (продажи, трафик, метрики), любые данные с трендами и паттернами. Когда не работает: данные без визуального паттерна (например, случайный шум)
Текстовый контекст для визуального анализаМодель смотрит на график + читает текст о событиях. Связывает два источника: "в тексте написано '15 марта распродажа'" + "на графике 15 марта пик" = логично. Или "в тексте '15 марта распродажа'" + "на графике 15 марта ровная линия" = нелогично, всплеск пропущен. Формат: После описания графика добавь секцию "Контекст:" и перечисли события: праздники, промо-акции, запуски продуктов, сезонность, внешние факторы. Пример: "24 ноября Чёрная пятница (скачок в истории), 1-3 мая праздники (в период прогноза)." Почему работает: Мультимодальные LLM обучены связывать визуал и текст — тот же механизм что работает для "найди на схеме элемент X" или "что на этой фотографии?". Применяй: когда на данные влияют известные события. Чем больше деталей — тем точнее оценка. Но если контекст неправильный — модель ошибётся

Тезисы

ТезисКомментарий
Визуальный паттерн модель распознаёт лучше чем числовую последовательностьДашь модели числа [10, 20, 30, 5, 40] — она обрабатывает как абстрактные символы. Покажешь график этих чисел — она видит форму: линия растёт, потом резко падает, потом снова растёт. Визуальная форма = конкретный объект для распознавания. Мультимодальные LLM обучены на графиках, диаграммах, инфографике — они "читают" тренды как паттерны изображения. Механика: Ты переводишь абстрактную задачу (анализ последовательности) в конкретную (компьютерное зрение). Применяй: Любые данные с трендами/циклами — строй график и загружай картинку вместо текста с числами. Работает для временных рядов, сравнений, динамики метрик
📖 Простыми словами

The Forecast Critic: визуальная оценка прогнозов через LLM

arXiv: 2512.12059

Нейросети до сих пор тупят, когда им скармливают голые таблицы с цифрами — они просто не «чувствуют» последовательности чисел и легко пропускают дикие аномалии. Но стоит превратить эти цифры в картинку, как ситуация меняется: визуальное восприятие у современных LLM развито куда лучше, чем математическое. Метод The Forecast Critic использует этот баг как фичу: вместо того чтобы заставлять модель считать, ей просто показывают график, где нарисованы история и прогноз. Если линия ведет себя неадекватно, модель это видит сразу.

Это как если бы ты пришел к опытному врачу со стопкой анализов, а он, даже не глядя в цифры, просто глянул на твой рентген и сказал: «Друг, у тебя тут кость в другую сторону торчит». Тебе не нужно быть математиком, чтобы понять, что рука не должна так гнуться. Так и здесь: LLM работает как визуальный критик, который ловит косяки алгоритмов там, где сухие метрики вроде средней ошибки (MSE) говорят, что все якобы в норме.

Суть метода проста: ты скармливаешь ChatGPT или Claude скриншот графика и просишь оценить адекватность тренда. Модель проверяет три вещи: сохраняется ли общая логика движения, не пропала ли привычная сезонность и нет ли странных скачков там, где их быть не должно. Если в истории продаж у тебя каждый понедельник провал, а прогноз рисует ровную палку вверх — The Forecast Critic тут же поднимет тревогу. Это не замена расчетам, а жесткий фильтр на вшивость для любой аналитики.

Принцип универсален и применим везде, где есть данные во времени: от складских остатков и трафика на сайте до курса крипты или пульса пациента. Тестировали на классических временных рядах, но схема сработает для любого отчета, который можно визуализировать. Визуальный контекст дает модели ту интуицию, которой ей не хватает при чтении текста или таблиц. Если график выглядит как кардиограмма мертвого зайца, модель об этом скажет прямым текстом.

Короче, хватит верить аналитикам на слово и зарываться в формулы — просто покажи график нейросети. The Forecast Critic — это самый быстрый способ понять, что твой прогноз — полная фигня, прежде чем ты сольешь на него бюджет. Если модель видит, что картинка не сходится, значит, в данных или алгоритме есть критический баг. Используй это как финальный чекап, чтобы не выглядеть идиотом с невыполнимым планом продаж.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с