TL;DR
Более продвинутая модель не всегда принимает лучшие решения. Исследователи проверили GPT-4, GPT-4o и LLaMA-8B на классической задаче управления запасами (newsvendor problem): сколько товара заказать, если спрос неизвестен. GPT-4 отклонилась от оптимума на 70% больше чем люди, а оптимизированная GPT-4o сработала почти идеально. Причина: GPT-4 "передумывает" задачу, усложняя простое решение. GPT-4o действует эффективнее — меньше рассуждает, точнее считает.
LLM воспроизводят и усиливают человеческие искажения. Люди систематически ошибаются: при высокой марже заказывают слишком мало, при низкой — слишком много. LLM повторяют эту ошибку. Хуже того — LLM сильнее реагируют на последний результат (demand-chasing): если вчера продали много, сегодня закажут избыток, игнорируя общую статистику. Даже когда исследователи дали моделям точную формулу оптимального заказа, искажения остались. Значит проблема не в незнании математики, а в архитектуре: как модель обрабатывает информацию.
Структурированные промпты помогают. Когда промпт задает четкую последовательность (разбей задачу на шаги, посчитай по формуле, проверь результат), модели работают стабильнее. Без структуры LLM полагаются на эвристики из тренировочных данных — а там закодированы человеческие ошибки. Вывод: для числовых решений с высокими ставками нужен человеческий контроль, выбор правильной модели (не всегда самой мощной) и промпты с явными ограничениями.
Главные находки
1. Парадокс интеллекта
GPT-4 показала худший результат из трёх моделей — отклонение от оптимума на 70% больше чем у людей в экспериментах. GPT-4o (оптимизированная версия) сработала почти идеально. LLaMA-8B (самая простая) заняла середину.
Почему так: GPT-4 генерирует сложные цепочки рассуждений ("давайте рассмотрим разные сценарии", "нужно учесть риски"), но эта глубина вредит в задачах с четкой математикой. Модель уходит в эвристики вместо прямого счета. GPT-4o работает эффективнее: меньше токенов, меньше "размышлений", ближе к формуле.
2. Искажения не зависят от знания формулы
В половине экспериментов исследователи давали моделям точную формулу оптимального заказа. Искажения остались. Это значит проблема не в пробеле знаний ("модель не знает как считать"), а в архитектурных ограничениях: как модель обрабатывает числовую информацию, взвешивает факторы, генерирует итоговое число.
3. LLM усиливают demand-chasing
Люди переоценивают значение последнего результата: если вчера спрос был 150 при среднем 100, сегодня закажут 140 вместо оптимальных 100. LLM делают это сильнее: корректировка может быть 160-170. Модели обучены на текстах где люди описывают свои решения — и впитали эту ошибку с усилением.
4. Обучение на обратной связи не помогает
Даже после 30 раундов с информацией о прошлом спросе и прибыли, модели не выходят на оптимум. Производительность растет первые 5-10 раундов, потом плато. Как у людей: обратная связь улучшает решения, но не убирает базовые искажения.
Применимые принципы
Принцип 1: Выбор модели под задачу
Для числовых оптимизационных задач (расчеты, планирование, распределение ресурсов) GPT-4o может работать лучше GPT-4.
Сложность модели ≠ качество решения. Если задача требует прямого счета без эвристик — выбирай эффективную модель, не самую "умную".
Как проверить: Дай одну и ту же задачу GPT-4 и GPT-4o. Сравни не только ответ, но и процесс: если GPT-4 уходит в абстрактные рассуждения там где нужен счет — переключайся.
Принцип 2: Структурированные промпты для чисел
LLM следуют паттернам из тренировочных данных. Если не задать четкую структуру, модель применит эвристики — в том числе ошибочные.
Структура сдерживает эвристическое мышление: - "Шаг 1: извлеки данные. Шаг 2: примени формулу X. Шаг 3: проверь результат на здравый смысл" - Явные числовые ограничения: "результат должен быть между A и B" - Требование показать промежуточные расчеты
Принцип 3: Человеческий контроль для важных решений
Исследование показало: даже с формулой LLM отклоняются на десятки процентов. Для решений с финансовыми последствиями (бюджет, инвестиции, распределение ресурсов) не полагайся на модель вслепую.
Проверяй: - Соответствие здравому смыслу (если модель предлагает купить товара в 3 раза больше среднего спроса — красный флаг) - Чувствительность к последним данным (если решение сильно меняется от одного события — demand-chasing) - Промежуточные шаги (попроси показать расчеты, не только итог)
Принцип 4: Остерегайся demand-chasing
LLM переоценивают последние события. Если задача требует учета долгосрочных паттернов, явно укажи это в промпте.
Пример: - ❌ "Вчера продали 200 единиц. Сколько заказать на завтра?" - ✅ "Средний спрос 100 единиц, стандартное отклонение 30. Вчера было 200. Учти что это выброс, а не новая норма. Сколько заказать?"
Шаблон промпта для числовых решений
Задача: {описание задачи с числовыми параметрами}
Исходные данные:
- {параметр 1}: {значение}
- {параметр 2}: {значение}
- {если есть исторические данные}: {перечисли}
Процесс решения:
Шаг 1 — Извлеки ключевые числа
Выпиши все релевантные числа из условия. Не интерпретируй, просто перечисли.
Шаг 2 — Определи формулу или логику
Какая математическая формула или логика применяется? Если формула известна — используй её напрямую. Если нет — опиши логику простыми шагами.
Шаг 3 — Выполни расчет
Посчитай по формуле. Покажи промежуточные шаги.
Шаг 4 — Проверка на здравый смысл
Результат попадает в разумный диапазон? Если есть исторические данные — насколько результат отличается от средних значений? Если сильно отличается — объясни почему.
Шаг 5 — Итоговый ответ
{одно число или конкретное решение}
Ограничения:
- Не используй эвристики типа "обычно в таких случаях"
- Если задача про долгосрочное планирование — не переоценивай последние события
- Если результат кажется экстремальным — пересчитай или объясни почему он оправдан
Заполни:
- {задача} — конкретная ситуация с числами (планирование, оценка, распределение)
- {параметры} — исходные данные (бюджет, спрос, ограничения)
- {исторические данные} — если есть статистика прошлых периодов
Примеры применения
Пример 1: Планирование закупки для маркетплейса
Задача: Ты продаешь термокружки на Ozon. Средний спрос 80 штук в месяц, разброс 20-140. Себестоимость 400₽, продаешь за 1200₽. Ozon берет комиссию 15%. В прошлом месяце продал все 100 штук за 3 дня — был хайп после обзора блогера. Сколько закупить на следующий месяц?
Промпт:
Задача: Определить оптимальный размер закупки термокружек для продажи на Ozon
Исходные данные:
- Средний спрос: 80 штук/месяц
- Диапазон спроса: 20-140 штук
- Себестоимость: 400₽
- Цена продажи: 1200₽
- Комиссия Ozon: 15%
- Прошлый месяц: продал 100 штук за 3 дня после обзора блогера
- Остатки не продаются (сезонный товар)
Процесс решения:
Шаг 1 — Извлеки ключевые числа
Выпиши все релевантные числа из условия. Не интерпретируй, просто перечисли.
Шаг 2 — Определи формулу или логику
Это задача newsvendor: баланс между риском недозаказа (упущенная прибыль) и перезаказа (непроданный товар). Рассчитай критический квантиль.
Шаг 3 — Выполни расчет
Посчитай оптимальное количество. Покажи промежуточные шаги.
Шаг 4 — Проверка на здравый смысл
Прошлый месяц был аномалией (обзор блогера). Средний спрос 80, а не 100. Не переоценивай разовый хайп. Результат должен быть ближе к среднему с учетом маржи.
Шаг 5 — Итоговый ответ
Конкретное число штук для закупки.
Ограничения:
- Не используй эвристики типа "обычно закупают с запасом"
- Хайп прошлого месяца — выброс, не новая норма
- Покажи расчет критического квантиля, не просто "интуитивную оценку"
Результат: Модель выполнит расчет по шагам: выпишет числа, определит формулу (p-c)/p для критического квантиля, посчитает оптимальное количество с учетом распределения спроса, проверит что результат не завышен из-за последнего выброса. Итог — конкретное число с обоснованием.
Пример 2: Бюджет на рекламу стартапа
Задача: Запускаешь онлайн-школу по аналитике. Бюджет на первые 3 месяца — 300 000₽. LTV студента ~15 000₽, CAC (стоимость привлечения) в среднем 5 000₽. В прошлом месяце запустил тестовую кампанию: потратил 30 000₽, привлек 8 студентов (CAC 3 750₽). Сколько тратить на рекламу в месяц чтобы выйти на окупаемость через полгода?
Промпт:
Задача: Распределить рекламный бюджет онлайн-школы на 3 месяца для достижения окупаемости
Исходные данные:
- Общий бюджет: 300 000₽
- LTV студента: 15 000₽
- Средний CAC: 5 000₽
- Тестовая кампания: 30 000₽ → 8 студентов → CAC 3 750₽
- Цель: окупаемость через 6 месяцев
Процесс решения:
Шаг 1 — Извлеки ключевые числа
Выпиши все релевантные числа из условия. Не интерпретируй, просто перечисли.
Шаг 2 — Определи формулу или логику
Окупаемость = когда сумма LTV привлеченных студентов ≥ потраченный бюджет. Рассчитай сколько студентов нужно привлечь и при каком CAC это реалистично.
Шаг 3 — Выполни расчет
Посчитай оптимальный месячный бюджет. Покажи промежуточные шаги.
Шаг 4 — Проверка на здравый смысл
Тестовая кампания показала CAC 3 750₽ — это ниже среднего. Скорее всего это был удачный сегмент, а не новая норма. При масштабировании CAC обычно растет. Учти это в расчетах. Не закладывай что весь бюджет даст такой же низкий CAC.
Шаг 5 — Итоговый ответ
Конкретная сумма на месяц с обоснованием.
Ограничения:
- Не используй эвристики типа "треть бюджета на каждый месяц"
- Учти что тестовая кампания могла быть аномально удачной
- Покажи расчет окупаемости, не просто "интуитивную оценку"
Результат: Модель разобьет задачу: выпишет LTV, CAC, бюджет; рассчитает сколько студентов нужно для окупаемости; оценит реалистичный CAC (между тестовым 3 750₽ и средним 5 000₽); предложит месячный бюджет с учетом роста CAC при масштабировании. Итог — конкретная сумма с предупреждением о рисках.
Почему это работает
LLM обучены на человеческих текстах — в том числе на описаниях решений, где люди допускают систематические ошибки. Модель впитывает не только факты, но и паттерны мышления: как люди взвешивают факторы, на что обращают внимание, какие эвристики используют. Результат: LLM воспроизводят когнитивные искажения.
Числовые задачи особенно уязвимы. В текстовых задачах (написать письмо, объяснить концепцию) эвристики часто полезны — они создают естественность речи. В числовых задачах эвристики вредят: вместо применения формулы модель может "рассуждать по аналогии", "учитывать контекст", "корректировать интуитивно". GPT-4 делает это сильнее из-за глубины контекстуального понимания — поэтому ошибается больше.
Структурированный промпт работает как ограничитель. Когда ты явно задаешь последовательность (извлеки числа → примени формулу → проверь), модель следует предписанному паттерну вместо эвристик из тренировочных данных. Это не устраняет искажения полностью (архитектура остается той же), но снижает их влияние. Ты буквально перенаправляешь внимание модели: не "подумай над задачей" (приглашение к эвристикам), а "выполни эти шаги" (императив структуры).
Рычаги управления: - Явные шаги → убери если хочешь видеть "естественное" мышление модели (для анализа, не для точных решений) - "Покажи промежуточные расчеты" → всегда оставляй для числовых задач, это единственный способ отловить ошибку - "Проверка на здравый смысл" → добавь контекст задачи (исторические данные, типичные значения) чтобы модель калибровала результат - Ограничения в конце → список "не делай X" эффективнее чем "делай Y" — модель лучше реагирует на запреты
Ограничения и важные оговорки
⚠️ Архитектурная проблема: Даже со структурированным промптом LLM могут отклоняться на 10-30% от оптимума в числовых задачах. Это не "недостаточно хороший промпт", а ограничение архитектуры. Для критических решений нужна проверка.
⚠️ Усиление demand-chasing: LLM сильнее людей реагируют на последние события. Если задача требует учета долгосрочных трендов — явно пиши "не переоценивай последний результат" и давай статистику.
⚠️ Обучение не помогает в рамках одного диалога: Даже после десятков раундов с обратной связью модель не выходит на оптимум. Не жди что "модель научится" — каждый новый чат начинает с нуля.
⚠️ Специфика задачи: Исследование тестировало задачи с известным оптимумом (есть правильный ответ). В задачах с субъективными критериями (креатив, стратегия, приоритеты) результаты могут отличаться.
Как исследовали
Команда из университетов Южного Китая и Гонконга провела серию динамических многораундовых экспериментов с тремя моделями: GPT-4, GPT-4o и LLaMA-8B. Каждая модель решала классическую задачу управления запасами (newsvendor problem): сколько товара заказать при неизвестном спросе, балансируя риск недозаказа (упущенная прибыль) и перезаказа (непроданный остаток).
Дизайн: 30 раундов решений для каждой модели в разных условиях: - Высокая маржа (прибыль 75% от цены) vs низкая маржа (25%) - С формулой оптимального заказа vs без формулы - Разные диапазоны спроса (1-300 единиц и 901-1200) - Обратная связь после каждого раунда (реальный спрос и прибыль)
Зачем так сложно? В реальности менеджер не принимает решение один раз — он корректирует стратегию на основе результатов. Многораундовый формат позволил отследить: учатся ли LLM на обратной связи, как меняются искажения со временем, насколько сильна реакция на последние данные.
Главный сюрприз: GPT-4 показала худший результат — отклонения на 70% больше чем у людей в аналогичных экспериментах (benchmark из исследования Schweitzer & Cachon, 2000). GPT-4o (оптимизированная версия) сработала почти идеально. Это противоречит интуиции: более мощная модель должна быть точнее, верно? Нет.
Почему GPT-4 проиграла? Исследователи проанализировали текстовые обоснования, которые модели генерировали для каждого решения. GPT-4 уходила в сложные рассуждения: "нужно учесть риск непредсказуемого спроса", "давайте рассмотрим несколько сценариев", "важно не переоценить последнюю волатильность". Эти рассуждения звучат умно, но уводят от формулы. Модель применяла эвристики (якорение на средний спрос, корректировка "на глаз"), которые работают в текстовых задачах, но вредят в числовых.
GPT-4o работала иначе: меньше "размышлений", больше прямого применения данных. Эффективность оптимизации (меньше токенов на генерацию) случайно сработала как защита от overthinking.
Критический тест: В половине экспериментов исследователи дали моделям точную формулу оптимального заказа. Искажения остались — с формулой результаты улучшились, но отклонения на 15-20% сохранились. Вывод: проблема не в незнании математики, а в том как модель обрабатывает числовую информацию. Архитектура LLM (token-by-token generation, attention mechanisms) создает склонность к эвристикам даже при наличии алгоритма.
Demand-chasing: Исследователи измерили насколько сильно модели корректируют заказ после каждого раунда в зависимости от реализованного спроса. Люди обычно меняют заказ на 20-30% от отклонения (если спрос был на 50 единиц выше среднего, следующий заказ увеличат на 10-15 единиц). LLM показали 50-70% корректировку — почти линейную реакцию на последний результат, игнорируя общее распределение. Это demand-chasing на стероидах.
Практический вывод: Авторы предлагают human-in-the-loop для важных решений и структурированные промпты для ограничения эвристического мышления. Это не теория — исследование показывает что даже топовые модели систематически ошибаются в задачах с деньгами и числами.
Ресурсы
Исследование: Liu, J., Chen, Z., & Zhong, Y. (2025). Large Language Newsvendor: Decision Biases and Cognitive Mechanisms.
Авторы: - Jifei Liu, Yuanguang Zhong — School of Business Administration, South China University of Technology - Zhi Chen — Department of Decisions, Operations and Technology, The Chinese University of Hong Kong
Код эксперимента: https://github.com/kingsfei/llm-newsvendor-experiment.git
Ключевые отсылки в исследовании: - Schweitzer & Cachon (2000) — оригинальное исследование cognitive biases в newsvendor problem - Bolton & Katok (2008) — presentation-order effects и обучение на обратной связи - Chen et al. (2025) — comprehensive анализ GPT biases в operations management - Hagendorff et al. (2023), Binz & Schulz (2023) — loss aversion и probability weighting в LLM
