TL;DR
LLM систематически завышают результаты из-за пяти скрытых биасов: модель подглядывает в будущее через свои веса (look-ahead), учится только на выживших компаниях (survivorship), создаёт убедительные истории из слабых данных (narrative), обучена звучать уверенно вместо честно (objective), и игнорирует реальные затраты (cost). Эти биасы работают не только в финансовых бэктестах — они искажают любой анализ и решения в обычной работе с ChatGPT/Claude.
Исследователи проверили 164 научные работы по LLM в финансах за 2023-2025 годы и обнаружили: только 27% упоминают проблему утечки будущей информации, 1.2% — эффект выжившего. При этом 74% опрошенных практиков говорят, что им не хватает инструментов для диагностики этих проблем. Биасы часто накладываются друг на друга: модель использует знания из будущего + показывает только успешные кейсы + оформляет это убедительной историей + звучит очень уверенно = иллюзия валидности. На бумаге всё выглядит отлично, но в реальности система не работает.
Авторы предлагают Structural Validity Framework — чеклист из пяти проверок перед тем, как доверять выводам LLM: временная изоляция (никакой информации из будущего), динамическая выборка (включая провалы), обоснование каждого утверждения (не просто красивая история), калибровка уверенности (с опцией "не знаю"), учёт реальных затрат и задержек. Это не техника промптинга — это способ мышления при работе с LLM на задачах, где ошибка дорого стоит.
Пять биасов и как их распознать
1. Look-Ahead Bias — подглядывание в будущее
Проблема: Модель знает больше, чем должна была знать в момент события.
Два канала утечки: - Параметрические знания: Модель обучена на данных до 2024 года. Когда ты просишь "проанализируй ситуацию с рублём в феврале 2022", она уже знает что случилось после — санкции, курс, инфляцию. Ответ звучит проницательно, но это не прогноз, а ретроспектива.
- Внешние источники (RAG): Модель находит статью "Как Ozon рос в 2020-2022". Но статья обновлялась в 2023, добавлены данные за весь период. Поисковик ранжирует её по современным сигналам (клики, ссылки 2023-2024). Результат: анализ "как было тогда" основан на информации, переработанной задним числом.
Как распознать:
"Проанализируй перспективы Яндекса в 2020 году"
→ Модель упоминает факторы, которые стали очевидны только после 2021
→ Это look-ahead bias
2. Survivorship Bias — только выжившие в выборке
Проблема: Модель учится и отвечает на основе тех, кто выжил. Провалы, банкротства, закрытые проекты — выпадают из анализа.
Четыре канала искажения: - Генерация вопросов: Новости пишут про активные компании. Про тихо закрывшиеся — молчат. Датасеты собираются из новостей → вопросы про успешных. - Предпочтения модели: Обучалась на текстах про крупные выжившие компании → тяготеет к ним, даже при противоречивых данных. - Распределение данных: Кризисы и провалы — это хвосты распределения. Если их отрезать, мир выглядит стабильнее, чем есть. - Завышенные показатели: Бэктест на "компаниях, торгующихся сейчас" = бэктест на победителях. Реальный портфель включал бы и обанкротившихся.
Как распознать:
"Покажи примеры успешных российских стартапов 2015 года"
→ Модель перечисляет Ozon, Wildberries, СберМаркет
→ Тысячи закрывшихся не упомянуты → искажённая картина успеха
3. Narrative Bias — убедительная, но необоснованная история
Проблема: Модель обучена генерировать связный текст, а не отражать реальную причинность. Она сошьёт красивую историю из разрозненных фактов, даже если связь слабая.
Два канала искажения: - Обработка информации: Модель сглаживает противоречия. Отчёт компании содержит 80% позитива и 20% тревожных сигналов → саммари выдаёт чистую позитивную историю, потому что так звучит связнее.
- Логика рассуждений: Chain-of-Thought (цепочка рассуждений) — это пост-объяснение, а не след реального процесса. Модель сначала "знает" ответ (вероятностно), потом придумывает логику. Эта логика работает на исторических паттернах. Когда рынок меняется — ломается, но звучит убедительно.
Как распознать:
Попроси объяснить рост акции. Модель выдаст: "Компания улучшила логистику → снизились издержки → выросла прибыль → акции вверх"
Проверь: а логистику улучшили ДО роста? Или модель подогнала историю под итог?
4. Objective Bias — уверенность вместо честности
Проблема: Модель обучали быть полезной (отвечать), а не безопасной (признавать незнание). Её наказывали за "не знаю" и награждали за уверенные ответы. Результат: hallucinations выглядят как факты.
Два канала искажения: - Калибровка сломана: Модель не откалибрована на реальную вероятность. Она может сказать "с вероятностью 90%" просто потому, что ответ звучит правдоподобно, а не потому что данных достаточно.
- Alignment мимо цели: RLHF (обучение по человеческим предпочтениям) учит нравиться пользователю, а не соблюдать стандарты безопасности. В финансах это опасно: модель выдаёт спекулятивный совет, потому что он звучит убедительно и нравится, а не потому что обоснован.
Как распознать:
"Стоит ли вкладываться в X?"
→ Модель выдаёт уверенный развёрнутый ответ
→ Спроси: "Насколько ты уверена? Какие данные отсутствуют?"
→ Если не может назвать пробелы — это objective bias
5. Cost Bias — игнорирование реальных затрат
Проблема: В исследованиях оценивают валовую производительность R_gross, предполагая, что запросы бесплатны и мгновенны. В реальности: R_net = R_gross − C_trans − C_model.
Два канала искажения: - Денежные затраты: Сложная система с multi-step reasoning, RAG, tool use может показывать +5% на бумаге. Но если каждый запрос стоит $0.50, а простой baseline даёт +4% за $0.05 → net performance у baseline выше.
- Латентность (задержки): Система генерирует ответ 30 секунд. За это время цена изменилась, сигнал устарел. На бумаге +10%, в реальности −2% из-за slippage.
Как распознать:
Сложный workflow из 5 шагов даёт идеальный результат
→ Посчитай: стоимость токенов × количество запросов
→ Латентность: нужен ответ сейчас, а модель генерирует минуту
→ Net value может быть отрицательным
Примеры применения для обычной работы
Пример 1: Анализ бизнес-идеи (Survivorship Bias)
Задача: Ты оцениваешь идею запуска сервиса доставки еды в своём городе. Просишь ChatGPT проанализировать рынок и примеры.
Проблемный промпт:
Проанализируй успешные кейсы сервисов доставки еды в России.
Что делало их успешными?
Результат: Модель перечислит Яндекс Еда, Delivery Club, может упомянуть СберМаркет. Ты видишь паттерны успеха, но это выжившие. Сотни закрывшихся сервисов (Instamart в первых итерациях, куча локальных) — невидимы. Ты переоцениваешь шансы.
Промпт с защитой от survivorship bias:
Проанализируй рынок доставки еды в России:
1. Перечисли успешные компании И те, что закрылись/были поглощены
2. Сравни их стратегии — что работало у выживших и НЕ работало у закрывшихся
3. Какие риски я не вижу, если смотрю только на успешных?
Покажи ПОЛНУЮ картину, включая провалы.
Результат: Модель вспомнит о поглощённых (Foodfox → Delivery Club), локальных провалах, проблемах unit-экономики. Ты увидишь базовую ставку успеха (сколько реально выживают), а не только топ-3.
Пример 2: Решение о карьерном изменении (Look-Ahead + Objective Bias)
Задача: Ты думаешь перейти в AI/ML в 2022 году. Просишь модель оценить перспективы.
Проблемный промпт:
Стоило ли переходить в AI в марте 2022? Оцени перспективы.
Результат: Модель знает про бум ChatGPT (ноябрь 2022), взрывной рост спроса на AI-специалистов в 2023-2024. Ответ звучит как "очевидно да, отличная идея!" — но это look-ahead bias. В марте 2022 этого знать было нельзя. Плюс модель звучит слишком уверенно (objective bias), хотя на тот момент было много неопределённости (AI-зима, крипто-пузырь).
Промпт с защитой:
Представь: сейчас март 2022. Ты консультант, который НЕ знает что будет после этой даты.
Оцени решение перейти в AI/ML на основе данных ДО марта 2022:
- Какие тренды были видны ТОГДА?
- Какие риски существовали ТОГДА?
- Оцени уровень своей уверенности: высокий/средний/низкий
Если данных недостаточно для уверенного вывода — скажи прямо.
Результат: Модель опишет картину на март 2022: GPT-3 есть, но массового применения нет. DALL-E только появился. Есть хайп, но и скепсис. Uncertainty высокий. Ответ будет выглядеть как "потенциал есть, но это ставка с умеренной вероятностью", а не "100% правильное решение".
Пример 3: Оценка инвестиционной идеи (Narrative + Cost Bias)
Задача: Друг предлагает вложиться в его стартап. Просишь ChatGPT проанализировать бизнес-план.
Проблемный промпт:
Вот бизнес-план стартапа [приложил файл].
Проанализируй перспективы и дай рекомендацию.
Результат: Модель создаст связную историю: "Рынок растёт → продукт закрывает боль → команда опытная → большой потенциал". Звучит убедительно (narrative bias). Но: модель сгладила противоречия, проигнорировала слабые места (не упомянутые явно в плане), не учла реальные затраты на привлечение пользователей (cost bias).
Промпт с защитой:
Проанализируй бизнес-план. Работай как скептичный инвестор:
1. **Проверь логику:** Какие ключевые утверждения в плане? Какие из них подкреплены данными, а какие — предположения?
2. **Ищи противоречия:** Где в плане есть слабые места, неясности, оптимистичные допущения?
3. **Реальные затраты:** Какие издержки могут быть занижены? (CAC, удержание, инфраструктура, время до окупаемости)
4. **Уверенность:** Оцени каждый вывод по шкале "высокая/средняя/низкая уверенность"
НЕ создавай красивую историю — покажи факты и пробелы.
Результат: Модель выдаст структурный анализ: какие цифры в плане обоснованы, а где "предполагаем рост 300% в год" без деталей. Ты увидишь риски, а не только позитивную историю.
Универсальный метазапрос для защиты от биасов
Шаблон промпта:
Ты критический аналитик. Твоя задача — НЕ создавать убедительные истории, а показывать факты + пробелы.
Задача: {твоя задача или вопрос}
Работай по чеклисту:
1. ВРЕМЕННАЯ ИЗОЛЯЦИЯ
- Если задача про прошлое: используй ТОЛЬКО информацию, доступную на тот момент
- Если не уверен, была ли информация доступна — скажи прямо
2. ПОЛНАЯ ВЫБОРКА
- Показывай не только успешные примеры, но и провалы, закрытые проекты
- Назови базовую ставку успеха (сколько % реально работает)
3. ПРОВЕРКА ЛОГИКИ
- Каждое утверждение: на чём основано? (факт / предположение / корреляция)
- Где логика слабая или противоречивая?
4. КАЛИБРОВКА УВЕРЕННОСТИ
- Оцени уровень своей уверенности: высокий/средний/низкий
- Какие данные отсутствуют для более уверенного вывода?
- Если данных нет — НЕ придумывай, напиши "недостаточно информации"
5. РЕАЛЬНЫЕ ЗАТРАТЫ
- Какие расходы, риски, задержки могут быть занижены?
- Что выглядит хорошо "на бумаге", но может сломаться в реальности?
Формат ответа:
- Факты (с источниками/логикой)
- Предположения (чётко помечены)
- Пробелы (что неизвестно)
- Уровень уверенности по каждому пункту
Этот мета-промпт превращает LLM из "убедительного рассказчика" в "критического аналитика". Используй для любых решений, где ошибка дорого стоит: инвестиции, карьера, стратегические выборы.
Почему это работает
LLM обучены на паттернах, а не на критическом мышлении. Базовый режим работы: максимизировать правдоподобие следующего токена. Это значит — создать текст, который звучит убедительно для среднего человека. Но "убедительно" ≠ "правда при ограниченных данных".
Пять биасов — это побочные эффекты обучения:
Look-ahead bias: Модель видела весь исторический ряд сразу. Для неё "2020 год" — это точка в известном континууме, а не граница знания. Она физически не может "забыть" будущее без явной инструкции.
Survivorship bias: Тексты в интернете пишут про живых и успешных больше, чем про закрывшихся. Модель отражает это распределение. Паттерн "успешная компания" встречался чаще → приоритет выше.
Narrative bias: Обучение наказывает за разрыв связности. "История с началом, серединой, концом" получает выше лосс, чем "набор несвязанных фактов". Модель научилась склеивать данные в нарратив, даже если реальная связь слабая.
Objective bias: RLHF обучает на человеческих предпочтениях. Люди предпочитают уверенные ответы размытым. "Не знаю" оценивали ниже, чем уверенное (но неточное). Модель усвоила: избегать неопределённости.
Cost bias: В обучении нет "штрафа за токены" или "штрафа за латентность". Модель оптимизирует качество ответа, не эффективность. Сложное решение = хороший скор, даже если неэкономично.
Явные инструкции переключают режим работы. Когда ты пишешь "используй только информацию до марта 2022" или "оцени уровень уверенности", ты задаёшь новый критерий оценки ответа. Модель продолжает генерировать по паттернам, но теперь паттерн = "критический анализ с маркерами неопределённости", а не "убедительная история".
Структурированные вопросы снижают degrees of freedom. Чем более размыт запрос ("расскажи про X"), тем больше свобода у модели заполнить пробелы догадками. Чеклист из пяти пунктов превращает задачу из "расскажи красиво" в "пройдись по списку и отметь каждый пункт". Это снижает вероятность hallucinations — модель следует структуре, а не вольно фантазирует.
Калибровка через explicit uncertainty. Когда просишь "оцени уверенность", модель вынуждена симулировать мета-знание: "насколько типичен/редок этот паттерн в обучающих данных". Это не идеальная калибровка, но лучше чем ничего. Модель хотя бы сигналит "это частый паттерн" vs "это редкий/неоднозначный случай".
Ограничения
⚠️ Это не техника, а осознанность: Чеклист не даёт магической защиты. Модель всё равно может выдумывать. Это инструмент снижения риска, не гарантия.
⚠️ Требует критического мышления от пользователя: Ты должен сам понимать, где искать слабые места (какие данные могут быть занижены, какие риски скрыты). Модель подсветит, если спросишь правильно. Но если ты сам не понимаешь домен — она не спасёт.
⚠️ Работает для высокоуровневого анализа, не для точных расчётов: Принципы помогают в бизнес-решениях, стратегии, оценке идей. Для финансовых расчётов (оценка компаний, портфели, риск-модели) нужны специализированные инструменты и данные, а не LLM в чате.
⚠️ Не заменяет профессиональную экспертизу: Для серьёзных финансовых решений (крупные инвестиции, M&A, compliance) LLM — это вспомогательный инструмент. Финальное решение требует юристов, аудиторов, отраслевых экспертов.
⚠️ Модель не может быть "честнее чем обучение": Если данных для калибровки в обучающем корпусе не было — модель не станет идеально откалиброванной от хорошего промпта. Это mitigation, не исправление архитектуры.
Как исследовали
Авторы проанализировали 164 научные работы о применении LLM в финансах, опубликованные в топовых конференциях (ICML, NeurIPS, ACL, EMNLP, KDD и других) с 2023 по 2025 год. Количество таких работ выросло с 36 в 2023 до 250 в 2025 — рост в 6.9 раз, что показывает взрывной интерес к теме.
Что проверяли: Для каждой работы отмечали, упоминается ли хотя бы один из пяти биасов. Результаты оказались шокирующими:
- Look-ahead bias (утечка будущей информации) — только в 26.8% работ
- Survivorship bias (тестирование только на выживших) — в 1.2% (!)
- Narrative, Objective, Cost biases — вообще почти не обсуждаются
Это означает, что подавляющее большинство исследований публикуют результаты, которые могут быть завышены из-за этих проблем, но авторы даже не упоминают риск.
Параллельно запустили опрос среди 112 исследователей и практиков. Из 50 завершивших опрос: - 74% сказали, что готовых инструментов для проверки биасов нет или почти нет - 50% назвали отсутствие инструментов главным барьером для борьбы с проблемой
Нашли интересный паттерн: Академики знают названия биасов, но плохо диагностируют механизмы ("как это проявляется в моей системе?"). Индустриальные специалисты видят последствия (модель даёт странные результаты в проде), но не знают как стандартизировать проверки.
Что удивило: Look-ahead bias — это базовая проверка в классическом бэктестинге. В quantitative finance это первое, чему учат. Но в эпоху LLM 26.8% покрытие — это провал. Авторы объясняют: community LLM выросла из NLP, где temporal validity не была критичной. Привыкли думать "accuracy на датасете", а не "валидность информационного множества на момент t". Культура оценки не успела за технологией.
Вывод исследования: Поле развивается быстрее, чем evaluation standards. Работы попадают в топ-конференции и потом в продакшен без базовых проверок. Отсюда Structural Validity Framework — попытка установить минимальный стандарт, который должен пройти любой результат, претендующий на применимость в реальности.
Ресурсы
Evaluating LLMs in Finance Requires Explicit Bias Consideration — позиционная статья команды из University of Oxford, UNIST (Южная Корея), University of Florida, University of Chicago Booth School, BlackRock и других институций.
Авторы: Yaxuan Kong, Hoyoung Lee, Yoontae Hwang, Alejandro Lopez-Lira, Bradford Levy, Dhagash Mehta, Qingsong Wen, Chanyeol Choi, Yongjae Lee, Stefan Zohren.
Материалы доступны: https://github.com/Eleanorkong/Awesome-Financial-LLM-Bias-Mitigation
