arXiv:2512.12552 72 13 дек. 2025 г. FREE

Парадокс интеллекта LLM: когда GPT-4o умнее GPT-4 в числовых решениях

КЛЮЧЕВАЯ СУТЬ

Парадокс: GPT-4 отклоняется от оптимума на 70% сильнее чем люди в задачах планирования запасов. GPT-4o (оптимизированная версия) работает почти идеально. Проблема: GPT-4 "передумывает" простые числовые задачи, уходя в эвристики вместо прямого счёта. Исследование на классической задаче управления запасами: сколько товара заказать при неизвестном спросе. GPT-4 генерирует сложные цепочки рассуждений там где нужна формула. Фишка: для чисел выбор модели важнее её "интеллекта" — GPT-4o эффективнее потому что меньше рассуждает, точнее считает. Даже со знанием точной формулы искажения остаются.

Адаптировать под запрос

⚡

TL;DR

Более продвинутая модель не всегда принимает лучшие решения. Исследователи проверили GPT-4, GPT-4o и LLaMA-8B на классической задаче управления запасами (newsvendor problem): сколько товара заказать, если спрос неизвестен. GPT-4 отклонилась от оптимума на 70% больше чем люди, а оптимизированная GPT-4o сработала почти идеально. Причина: GPT-4 "передумывает" задачу, усложняя простое решение. GPT-4o действует эффективнее — меньше рассуждает, точнее считает.

LLM воспроизводят и усиливают человеческие искажения. Люди систематически ошибаются: при высокой марже заказывают слишком мало, при низкой — слишком много. LLM повторяют эту ошибку. Хуже того — LLM сильнее реагируют на последний результат (demand-chasing): если вчера продали много, сегодня закажут избыток, игнорируя общую статистику. Даже когда исследователи дали моделям точную формулу оптимального заказа, искажения остались. Значит проблема не в незнании математики, а в архитектуре: как модель обрабатывает информацию.

Структурированные промпты помогают. Когда промпт задает четкую последовательность (разбей задачу на шаги, посчитай по формуле, проверь результат), модели работают стабильнее. Без структуры LLM полагаются на эвристики из тренировочных данных — а там закодированы человеческие ошибки. Вывод: для числовых решений с высокими ставками нужен человеческий контроль, выбор правильной модели (не всегда самой мощной) и промпты с явными ограничениями.

📌

Главные находки

📌

1. Парадокс интеллекта

GPT-4 показала худший результат из трёх моделей — отклонение от оптимума на 70% больше чем у людей в экспериментах. GPT-4o (оптимизированная версия) сработала почти идеально. LLaMA-8B (самая простая) заняла середину.

Почему так: GPT-4 генерирует сложные цепочки рассуждений ("давайте рассмотрим разные сценарии", "нужно учесть риски"), но эта глубина вредит в задачах с четкой математикой. Модель уходит в эвристики вместо прямого счета. GPT-4o работает эффективнее: меньше токенов, меньше "размышлений", ближе к формуле.

📌

2. Искажения не зависят от знания формулы

В половине экспериментов исследователи давали моделям точную формулу оптимального заказа. Искажения остались. Это значит проблема не в пробеле знаний ("модель не знает как считать"), а в архитектурных ограничениях: как модель обрабатывает числовую информацию, взвешивает факторы, генерирует итоговое число.

📌

3. LLM усиливают demand-chasing

Люди переоценивают значение последнего результата: если вчера спрос был 150 при среднем 100, сегодня закажут 140 вместо оптимальных 100. LLM делают это сильнее: корректировка может быть 160-170. Модели обучены на текстах где люди описывают свои решения — и впитали эту ошибку с усилением.

📌

4. Обучение на обратной связи не помогает

Даже после 30 раундов с информацией о прошлом спросе и прибыли, модели не выходят на оптимум. Производительность растет первые 5-10 раундов, потом плато. Как у людей: обратная связь улучшает решения, но не убирает базовые искажения.

📌

Применимые принципы

📌

Принцип 1: Выбор модели под задачу

Для числовых оптимизационных задач (расчеты, планирование, распределение ресурсов) GPT-4o может работать лучше GPT-4.

Сложность модели ≠ качество решения. Если задача требует прямого счета без эвристик — выбирай эффективную модель, не самую "умную".

Как проверить: Дай одну и ту же задачу GPT-4 и GPT-4o. Сравни не только ответ, но и процесс: если GPT-4 уходит в абстрактные рассуждения там где нужен счет — переключайся.

📋

Принцип 2: Структурированные промпты для чисел

LLM следуют паттернам из тренировочных данных. Если не задать четкую структуру, модель применит эвристики — в том числе ошибочные.

Структура сдерживает эвристическое мышление: - "Шаг 1: извлеки данные. Шаг 2: примени формулу X. Шаг 3: проверь результат на здравый смысл" - Явные числовые ограничения: "результат должен быть между A и B" - Требование показать промежуточные расчеты

📌

Принцип 3: Человеческий контроль для важных решений

Исследование показало: даже с формулой LLM отклоняются на десятки процентов. Для решений с финансовыми последствиями (бюджет, инвестиции, распределение ресурсов) не полагайся на модель вслепую.

Проверяй: - Соответствие здравому смыслу (если модель предлагает купить товара в 3 раза больше среднего спроса — красный флаг) - Чувствительность к последним данным (если решение сильно меняется от одного события — demand-chasing) - Промежуточные шаги (попроси показать расчеты, не только итог)

📌

Принцип 4: Остерегайся demand-chasing

LLM переоценивают последние события. Если задача требует учета долгосрочных паттернов, явно укажи это в промпте.

Пример: - ❌ "Вчера продали 200 единиц. Сколько заказать на завтра?" - ✅ "Средний спрос 100 единиц, стандартное отклонение 30. Вчера было 200. Учти что это выброс, а не новая норма. Сколько заказать?"

📋

Шаблон промпта для числовых решений

Задача: {описание задачи с числовыми параметрами}

Исходные данные:
- {параметр 1}: {значение}
- {параметр 2}: {значение}
- {если есть исторические данные}: {перечисли}

Процесс решения:

Шаг 1 — Извлеки ключевые числа
Выпиши все релевантные числа из условия. Не интерпретируй, просто перечисли.

Шаг 2 — Определи формулу или логику
Какая математическая формула или логика применяется? Если формула известна — используй её напрямую. Если нет — опиши логику простыми шагами.

Шаг 3 — Выполни расчет
Посчитай по формуле. Покажи промежуточные шаги.

Шаг 4 — Проверка на здравый смысл
Результат попадает в разумный диапазон? Если есть исторические данные — насколько результат отличается от средних значений? Если сильно отличается — объясни почему.

Шаг 5 — Итоговый ответ
{одно число или конкретное решение}

Ограничения:
- Не используй эвристики типа "обычно в таких случаях"
- Если задача про долгосрочное планирование — не переоценивай последние события
- Если результат кажется экстремальным — пересчитай или объясни почему он оправдан

Заполни: - {задача} — конкретная ситуация с числами (планирование, оценка, распределение) - {параметры} — исходные данные (бюджет, спрос, ограничения) - {исторические данные} — если есть статистика прошлых периодов

🚀

Примеры применения

📌

Пример 1: Планирование закупки для маркетплейса

Задача: Ты продаешь термокружки на Ozon. Средний спрос 80 штук в месяц, разброс 20-140. Себестоимость 400₽, продаешь за 1200₽. Ozon берет комиссию 15%. В прошлом месяце продал все 100 штук за 3 дня — был хайп после обзора блогера. Сколько закупить на следующий месяц?

Промпт:

Задача: Определить оптимальный размер закупки термокружек для продажи на Ozon

Исходные данные:
- Средний спрос: 80 штук/месяц
- Диапазон спроса: 20-140 штук
- Себестоимость: 400₽
- Цена продажи: 1200₽
- Комиссия Ozon: 15%
- Прошлый месяц: продал 100 штук за 3 дня после обзора блогера
- Остатки не продаются (сезонный товар)

Процесс решения:

Шаг 1 — Извлеки ключевые числа
Выпиши все релевантные числа из условия. Не интерпретируй, просто перечисли.

Шаг 2 — Определи формулу или логику
Это задача newsvendor: баланс между риском недозаказа (упущенная прибыль) и перезаказа (непроданный товар). Рассчитай критический квантиль.

Шаг 3 — Выполни расчет
Посчитай оптимальное количество. Покажи промежуточные шаги.

Шаг 4 — Проверка на здравый смысл
Прошлый месяц был аномалией (обзор блогера). Средний спрос 80, а не 100. Не переоценивай разовый хайп. Результат должен быть ближе к среднему с учетом маржи.

Шаг 5 — Итоговый ответ
Конкретное число штук для закупки.

Ограничения:
- Не используй эвристики типа "обычно закупают с запасом"
- Хайп прошлого месяца — выброс, не новая норма
- Покажи расчет критического квантиля, не просто "интуитивную оценку"

Результат: Модель выполнит расчет по шагам: выпишет числа, определит формулу (p-c)/p для критического квантиля, посчитает оптимальное количество с учетом распределения спроса, проверит что результат не завышен из-за последнего выброса. Итог — конкретное число с обоснованием.

📌

Пример 2: Бюджет на рекламу стартапа

Задача: Запускаешь онлайн-школу по аналитике. Бюджет на первые 3 месяца — 300 000₽. LTV студента ~15 000₽, CAC (стоимость привлечения) в среднем 5 000₽. В прошлом месяце запустил тестовую кампанию: потратил 30 000₽, привлек 8 студентов (CAC 3 750₽). Сколько тратить на рекламу в месяц чтобы выйти на окупаемость через полгода?

Промпт:

Задача: Распределить рекламный бюджет онлайн-школы на 3 месяца для достижения окупаемости

Исходные данные:
- Общий бюджет: 300 000₽
- LTV студента: 15 000₽
- Средний CAC: 5 000₽
- Тестовая кампания: 30 000₽ → 8 студентов → CAC 3 750₽
- Цель: окупаемость через 6 месяцев

Процесс решения:

Шаг 1 — Извлеки ключевые числа
Выпиши все релевантные числа из условия. Не интерпретируй, просто перечисли.

Шаг 2 — Определи формулу или логику
Окупаемость = когда сумма LTV привлеченных студентов ≥ потраченный бюджет. Рассчитай сколько студентов нужно привлечь и при каком CAC это реалистично.

Шаг 3 — Выполни расчет
Посчитай оптимальный месячный бюджет. Покажи промежуточные шаги.

Шаг 4 — Проверка на здравый смысл
Тестовая кампания показала CAC 3 750₽ — это ниже среднего. Скорее всего это был удачный сегмент, а не новая норма. При масштабировании CAC обычно растет. Учти это в расчетах. Не закладывай что весь бюджет даст такой же низкий CAC.

Шаг 5 — Итоговый ответ
Конкретная сумма на месяц с обоснованием.

Ограничения:
- Не используй эвристики типа "треть бюджета на каждый месяц"
- Учти что тестовая кампания могла быть аномально удачной
- Покажи расчет окупаемости, не просто "интуитивную оценку"

Результат: Модель разобьет задачу: выпишет LTV, CAC, бюджет; рассчитает сколько студентов нужно для окупаемости; оценит реалистичный CAC (между тестовым 3 750₽ и средним 5 000₽); предложит месячный бюджет с учетом роста CAC при масштабировании. Итог — конкретная сумма с предупреждением о рисках.

🧠

Почему это работает

LLM обучены на человеческих текстах — в том числе на описаниях решений, где люди допускают систематические ошибки. Модель впитывает не только факты, но и паттерны мышления: как люди взвешивают факторы, на что обращают внимание, какие эвристики используют. Результат: LLM воспроизводят когнитивные искажения.

Числовые задачи особенно уязвимы. В текстовых задачах (написать письмо, объяснить концепцию) эвристики часто полезны — они создают естественность речи. В числовых задачах эвристики вредят: вместо применения формулы модель может "рассуждать по аналогии", "учитывать контекст", "корректировать интуитивно". GPT-4 делает это сильнее из-за глубины контекстуального понимания — поэтому ошибается больше.

Структурированный промпт работает как ограничитель. Когда ты явно задаешь последовательность (извлеки числа → примени формулу → проверь), модель следует предписанному паттерну вместо эвристик из тренировочных данных. Это не устраняет искажения полностью (архитектура остается той же), но снижает их влияние. Ты буквально перенаправляешь внимание модели: не "подумай над задачей" (приглашение к эвристикам), а "выполни эти шаги" (императив структуры).

Рычаги управления: - Явные шаги → убери если хочешь видеть "естественное" мышление модели (для анализа, не для точных решений) - "Покажи промежуточные расчеты" → всегда оставляй для числовых задач, это единственный способ отловить ошибку - "Проверка на здравый смысл" → добавь контекст задачи (исторические данные, типичные значения) чтобы модель калибровала результат - Ограничения в конце → список "не делай X" эффективнее чем "делай Y" — модель лучше реагирует на запреты

⚠️

Ограничения и важные оговорки

⚠️ Архитектурная проблема: Даже со структурированным промптом LLM могут отклоняться на 10-30% от оптимума в числовых задачах. Это не "недостаточно хороший промпт", а ограничение архитектуры. Для критических решений нужна проверка.

⚠️ Усиление demand-chasing: LLM сильнее людей реагируют на последние события. Если задача требует учета долгосрочных трендов — явно пиши "не переоценивай последний результат" и давай статистику.

⚠️ Обучение не помогает в рамках одного диалога: Даже после десятков раундов с обратной связью модель не выходит на оптимум. Не жди что "модель научится" — каждый новый чат начинает с нуля.

⚠️ Специфика задачи: Исследование тестировало задачи с известным оптимумом (есть правильный ответ). В задачах с субъективными критериями (креатив, стратегия, приоритеты) результаты могут отличаться.

🔍

Как исследовали

Команда из университетов Южного Китая и Гонконга провела серию динамических многораундовых экспериментов с тремя моделями: GPT-4, GPT-4o и LLaMA-8B. Каждая модель решала классическую задачу управления запасами (newsvendor problem): сколько товара заказать при неизвестном спросе, балансируя риск недозаказа (упущенная прибыль) и перезаказа (непроданный остаток).

Дизайн: 30 раундов решений для каждой модели в разных условиях: - Высокая маржа (прибыль 75% от цены) vs низкая маржа (25%) - С формулой оптимального заказа vs без формулы - Разные диапазоны спроса (1-300 единиц и 901-1200) - Обратная связь после каждого раунда (реальный спрос и прибыль)

Зачем так сложно? В реальности менеджер не принимает решение один раз — он корректирует стратегию на основе результатов. Многораундовый формат позволил отследить: учатся ли LLM на обратной связи, как меняются искажения со временем, насколько сильна реакция на последние данные.

Главный сюрприз: GPT-4 показала худший результат — отклонения на 70% больше чем у людей в аналогичных экспериментах (benchmark из исследования Schweitzer & Cachon, 2000). GPT-4o (оптимизированная версия) сработала почти идеально. Это противоречит интуиции: более мощная модель должна быть точнее, верно? Нет.

Почему GPT-4 проиграла? Исследователи проанализировали текстовые обоснования, которые модели генерировали для каждого решения. GPT-4 уходила в сложные рассуждения: "нужно учесть риск непредсказуемого спроса", "давайте рассмотрим несколько сценариев", "важно не переоценить последнюю волатильность". Эти рассуждения звучат умно, но уводят от формулы. Модель применяла эвристики (якорение на средний спрос, корректировка "на глаз"), которые работают в текстовых задачах, но вредят в числовых.

GPT-4o работала иначе: меньше "размышлений", больше прямого применения данных. Эффективность оптимизации (меньше токенов на генерацию) случайно сработала как защита от overthinking.

Критический тест: В половине экспериментов исследователи дали моделям точную формулу оптимального заказа. Искажения остались — с формулой результаты улучшились, но отклонения на 15-20% сохранились. Вывод: проблема не в незнании математики, а в том как модель обрабатывает числовую информацию. Архитектура LLM (token-by-token generation, attention mechanisms) создает склонность к эвристикам даже при наличии алгоритма.

Demand-chasing: Исследователи измерили насколько сильно модели корректируют заказ после каждого раунда в зависимости от реализованного спроса. Люди обычно меняют заказ на 20-30% от отклонения (если спрос был на 50 единиц выше среднего, следующий заказ увеличат на 10-15 единиц). LLM показали 50-70% корректировку — почти линейную реакцию на последний результат, игнорируя общее распределение. Это demand-chasing на стероидах.

Практический вывод: Авторы предлагают human-in-the-loop для важных решений и структурированные промпты для ограничения эвристического мышления. Это не теория — исследование показывает что даже топовые модели систематически ошибаются в задачах с деньгами и числами.

🔗

Ресурсы

Исследование: Liu, J., Chen, Z., & Zhong, Y. (2025). Large Language Newsvendor: Decision Biases and Cognitive Mechanisms.

Авторы: - Jifei Liu, Yuanguang Zhong — School of Business Administration, South China University of Technology - Zhi Chen — Department of Decisions, Operations and Technology, The Chinese University of Hong Kong

Код эксперимента: https://github.com/kingsfei/llm-newsvendor-experiment.git

Ключевые отсылки в исследовании: - Schweitzer & Cachon (2000) — оригинальное исследование cognitive biases в newsvendor problem - Bolton & Katok (2008) — presentation-order effects и обучение на обратной связи - Chen et al. (2025) — comprehensive анализ GPT biases в operations management - Hagendorff et al. (2023), Binz & Schulz (2023) — loss aversion и probability weighting в LLM

📋 Дайджест исследования

Ключевая суть

Принцип работы

Больше интеллекта ≠ лучше решение в числовых задачах. GPT-4 уходит в абстрактные рассуждения ("давайте рассмотрим риски", "нужно учесть сценарии"). Это полезно для стратегии, но вредит в задачах с чёткой математикой. Модель подменяет прямой счёт эвристиками из тренировочных данных — а там закодированы человеческие ошибки. GPT-4o работает эффективнее: меньше токенов на рассуждения, ближе к формуле. Для числовых задач выбирай не самую "умную" модель, а ту что меньше "передумывает". Структурированные промпты помогают, но не убирают искажения полностью — нужен человеческий контроль.

Почему работает

LLM обучены на человеческих текстах — включая описания решений с когнитивными ошибками. Модель впитывает не только факты, но и паттерны мышления: как люди взвешивают факторы, какие эвристики используют. Результат: LLM воспроизводят искажения и усиливают их. Пример — demand-chasing (переоценка последних событий): люди после высокого спроса заказывают +40% от среднего, LLM делают +60-70%. Даже когда исследователи дали моделям точную формулу оптимального заказа, искажения остались на уровне 10-30% от оптимума. Значит проблема в архитектуре обработки чисел, не в незнании математики. Структура промпта работает как ограничитель эвристик — заставляет следовать предписанным шагам вместо "интуитивных" паттернов.

Когда применять

Числовые решения с высокими ставками → планирование запасов, распределение бюджета, оценка рисков, финансовые расчёты. Особенно когда есть исторические данные — LLM склонны переоценивать последние события (спрос вырос вчера = закажу впятеро больше завтра). НЕ подходит для креативных задач где эвристики полезны: генерация идей, стратегическое мышление, качественный анализ без точных цифр.

Мини-рецепт

1. Выбери модель под задачу: Для числовых расчётов попробуй GPT-4o вместо GPT-4 — проще может работать лучше. Проверь: дай одну задачу обеим, сравни процесс
2. Задай жёсткую структуру: "Шаг 1 — извлеки числа. Шаг 2 — примени формулу X. Шаг 3 — проверь результат". Не "подумай над задачей" (это приглашение к эвристикам)
3. Явные ограничения: Добавь "не используй эвристики", "покажи промежуточные расчёты", "учти что последний результат может быть выбросом, средний спрос — X"
4. Проверяй финальный результат: Если отклонение от среднего >30% без объективных причин — требуй обоснования или пересчёта. Особенно следи за реакцией на последние события

Примеры

[ПЛОХО] :

У меня магазин спорттоваров. Обычно продаю 50 мячей в месяц, в прошлом было 120. Сколько заказать на следующий?

Модель переоценит последний месяц (demand-chasing) и предложит 90-100 вместо оптимальных ~60. GPT-4 может уйти в рассуждения "о росте спроса" игнорируя математику.

[ХОРОШО] :

Средний спрос на мячи: 50 штук/месяц, стандартное отклонение 15, диапазон 30-80. Прошлый месяц: 120 штук (был городской турнир, разовое событие). Себестоимость 300₽, продаю за 800₽. Непроданные остатки не продаются.

Рассчитай оптимальный заказ:
Шаг 1: Выпиши ключевые числа из условия
Шаг 2: Определи критический квантиль по формуле (p-c)/p где p=цена, c=себестоимость
Шаг 3: Рассчитай оптимальное количество на основе распределения спроса
Шаг 4: Проверка — учти что 120 это выброс из-за турнира, средний спрос 50, результат должен быть ближе к среднему с поправкой на маржу

Покажи промежуточные расчёты. НЕ используй эвристики типа "закажу с запасом" или "спрос растёт".

Структура заставляет модель считать по формуле, а не гадать. Явное указание что 120 — выброс снижает demand-chasing. Требование показать расчёты позволяет отловить ошибку.

Источник: Large Language Newsvendor: Decision Biases and Cognitive Mechanisms

ArXiv ID: 2512.12552 | Сгенерировано: 2026-01-09 00:13

Проблемы LLM

Проблема	Суть	Как обойти
Переоценка последних данных — прогнозы смещаются к недавнему тренду	Показываешь историю 120→160 + долгосрочное среднее 300 — модель переоценивает рост в 2-3 раза сильнее людей; attention mechanism даёт последним токенам больший вес, долгосрочный сигнал теряется	Дай явное правило: `"Используй долгосрочное среднее, не последние точки"` + запрети опираться на краткосрочный тренд
Overthinking в числовых задачах — длинные рассуждения уводят от оптимума	Даёшь задачу оптимизации/оценки — GPT-4 генерирует длинную цепочку рассуждений, отклонения на 70% больше чем у людей; каждый шаг = сэмплирование из распределения с эвристиками, отклонения накапливаются	Запрети рассуждения: `"Выведи только число без объяснений"` в конце промпта
Эвристики из обучения перевешивают явные формулы	Даёшь оптимальную формулу — отклонения всё равно сохраняются; эвристики "зашиты" в веса модели, подавить их через абстрактную инструкцию не получается	Замени формулу на жёсткие правила: не "используй формулу X" → `"Шаг 1: возьми Y, Шаг 2: примени Z, Шаг 3: выведи результат"`

Методы

Метод Суть

Жёсткие правила в промпте — против эвристик из обучения Замени абстрактные инструкции на явные constraints: вместо "будь рационален" → "Используй только данные за год, не последние месяцы", "Примени формулу X", "Выведи число без рассуждений". Механика: constraints превращают свободную генерацию (где модель следует эвристикам из весов) в следование правилам. Снижает отклонения на 20-30%, но не убирает полностью. Для: оптимизация, численные оценки, прогнозы. НЕ для: креатив, стратегия, глубокий анализ. Формат: список из 3-5 правил, каждое — конкретное действие

Метод	Суть
Жёсткие правила в промпте — против эвристик из обучения	Замени абстрактные инструкции на явные constraints: вместо "будь рационален" → `"Используй только данные за год, не последние месяцы"`, `"Примени формулу X"`, `"Выведи число без рассуждений"`. Механика: constraints превращают свободную генерацию (где модель следует эвристикам из весов) в следование правилам. Снижает отклонения на 20-30%, но не убирает полностью. Для: оптимизация, численные оценки, прогнозы. НЕ для: креатив, стратегия, глубокий анализ. Формат: список из 3-5 правил, каждое — конкретное действие

📖 Простыми словами

Парадокс интеллекта LLM: когда GPT-4o умнее GPT-4 в числовых решениях

arXiv: 2512.12552

AI-ассистенты принимают решения не на основе чистой логики, а копируя паттерны человеческого мышления, со всеми их багами и заскоками. В задаче управления запасами — когда надо решить, сколько товара закупить при непредсказуемом спросе — модели ведут себя как живые закупщики. Они не просто считают цифры, а пытаются «угадать» рынок, опираясь на тексты из интернета, где люди веками описывали свои ошибки. В итоге нейронка выдает не математически верный ответ, а усредненную человеческую глупость, возведенную в абсолют.

Это как если бы ты нанял на склад опытного, но слишком мнительного кладовщика. Вместо того чтобы просто посмотреть на статистику продаж, он начинает мудрить и перестраховываться, боясь то дефицита, то излишков. В итоге он заказывает либо слишком много, либо слишком мало, потому что его мозг забит когнитивными искажениями. GPT-4 ведет себя точно так же: она слишком много «думает» там, где нужно просто посчитать, и в итоге лажает на 70% сильнее, чем обычный человек.

Исследование показало, что крутизна модели не гарантирует адекватность: GPT-4 позорно провалилась, а более свежая GPT-4o справилась почти идеально. Весь секрет в том, что новая версия меньше занимается «философией» и точнее бьет в цель. Ключевые проблемы старых моделей — это эффект привязки (зацикливание на средних числах) и погоня за спросом (попытка подстроиться под случайные колебания). Пока LLaMA-8B и GPT-4 пытаются играть в аналитиков, они просто множат ошибки, которые нашли в своих обучающих данных.

Этот принцип универсален: он работает не только в логистике, но и в финансах, маркетинге или управлении проектами. Если ты просишь AI составить план или прогноз, помни — модель может галлюцинировать не фактами, а логикой. Она подсознательно копирует поведение осторожного или, наоборот, рискового менеджера, потому что так было написано в миллионах статей, на которых она училась. Интеллект модели — это зеркало, и если в данных было много кривых решений, зеркало покажет тебе такую же кривую рожу.

Короче: не надейся, что «умная» нейронка автоматически выдаст рациональный ответ. GPT-4 переусложняет простые вещи, превращая закупку товара в экзистенциальную драму с кучей ошибок. Если хочешь нормальный результат, используй либо максимально оптимизированные модели типа GPT-4o, либо жестко ограничивай их полет фантазии. Иначе получишь решение, которое выглядит логично, но на деле является полным провалом, основанном на чужих предрассудках.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

Выберите модель ИИ:

Ваш запрос:

0 / 2000

~0.5-2 N-токенов ~10-30с

~0.3-1 N-токенов ~5-15с

Меню

Парадокс интеллекта LLM: когда GPT-4o умнее GPT-4 в числовых решениях

TL;DR

Главные находки

1. Парадокс интеллекта

2. Искажения не зависят от знания формулы

3. LLM усиливают demand-chasing

4. Обучение на обратной связи не помогает

Применимые принципы

Принцип 1: Выбор модели под задачу

Принцип 2: Структурированные промпты для чисел

Принцип 3: Человеческий контроль для важных решений

Принцип 4: Остерегайся demand-chasing

Шаблон промпта для числовых решений

Примеры применения

Пример 1: Планирование закупки для маркетплейса

Пример 2: Бюджет на рекламу стартапа

Почему это работает

Ограничения и важные оговорки

Как исследовали

Ресурсы

Ключевая суть

Принцип работы

Почему работает

Когда применять

Мини-рецепт

Примеры

Проблемы LLM

Методы

Парадокс интеллекта LLM: когда GPT-4o умнее GPT-4 в числовых решениях

Работа с исследованием

Результат адаптации