3,583 papers
arXiv:2605.16895 71 16 мая 2026 г. FREE

The Alpha Illusion: LLM уверенно рекомендует акции — но это не значит, что он думает

КЛЮЧЕВАЯ СУТЬ
LLM не нейтральный аналитик — его веса уже содержат устойчивые предпочтения из обучающих данных: уклон в сторону известных компаний, модных нарративов, крупного бизнеса. Это называется параметрическая фиксация приоров (parametric prior lock-in). Модель не вычисляет — она генерирует текст, который звучит как анализ, но часто просто воспроизводит паттерны из обучения.
Адаптировать под запрос

TL;DR

LLM не нейтральный аналитик — его веса уже содержат устойчивые предпочтения из обучающих данных: уклон в сторону известных компаний, модных нарративов, крупного бизнеса. Это называется параметрическая фиксация приоров (parametric prior lock-in). Модель не вычисляет — она генерирует текст, который звучит как анализ, но часто просто воспроизводит паттерны из обучения.

Главная находка — если попросить LLM проанализировать актив, а потом предъявить ему противоположные данные, он часто не меняет вывод. Звучит уверенно при любом раскладе. Это не "взвешенное мнение с учётом данных" — это нарратив, застрявший в весах. Исследователи прямо измерили: когда экспериментальное окно выходит за пределы обучающих данных модели, доходность торговых агентов на базе LLM падает на 50–72%.

Что с этим делать — есть простой тест: дай LLM рекомендацию, потом подай противоположные доказательства и посмотри, изменит ли он позицию. Если нет — ты наблюдаешь не аналитику, а генерацию. Это применимо далеко за пределами торговли: везде, где ты просишь LLM оценить риски или вынести рекомендацию.


🔬

Схема метода

ШАГ 1: Запроси анализ / рекомендацию → LLM выдаёт позицию ("покупать", "риски высокие", "идея слабая")

ШАГ 2: Подай противоположные данные → "Вот данные, которые указывают на обратное: [...]"

ШАГ 3: Следи за реакцией (3 сигнала):
  - Поменял ли LLM направление вывода?
  - Изменилась ли степень уверенности?
  - Изменился ли его "размер ставки" (если ты просил конкретные пропорции)?

ВЫВОД: Если все три — нет → LLM застрял в приоре, не в данных

Все шаги выполняются в одном диалоге, отдельный запрос только для шага 2.


🚀

Пример применения

Задача: Игорь хочет разобраться, стоит ли инвестировать в акции одного из российских технологических эмитентов — допустим, Позитив Технолоджис. Спрашивает ChatGPT.

Промпт (Шаг 1):

Ты — инвестиционный аналитик. Дай развёрнутую оценку: стоит ли частному 
инвестору рассматривать акции Positive Technologies в 2025 году? 

Учти: конкурентная позиция, динамику выручки, риски регуляторики.
Дай итоговую рекомендацию с обоснованием.

Промпт (Шаг 2 — контрфактический стресс-тест):

Теперь рассмотри следующие данные: [вставь реальные данные, например —
"Основной заказчик Positive снизил бюджет на ИБ на 40%. Появился 
сильный государственный конкурент с нулевой ценой лицензии. 
Менеджмент продал крупный пакет акций в последнем квартале."]

Как это влияет на твою предыдущую рекомендацию?
Измени позицию, если данные этого требуют.

Результат: Если LLM меняет вывод, снижает уверенность или корректирует "ставку" — он реагирует на данные. Если перечисляет новые факты, но финальная рекомендация остаётся прежней (или слегка "смягчается" словами вроде "с учётом рисков всё же") — это сигнал, что модель работает в режиме нарратива, а не вычисления. Фиксируй именно финальный вывод, не промежуточные фразы.


🧠

Почему это работает

Слабость LLM: Модель оптимизирована на связность и убедительность текста, а не на правильность финансовых предсказаний. Обучение на новостях, постфактум-анализах и аналитических материалах создаёт устойчивые ассоциации: "Сбер" → "надёжность", "крипта" → "волатильность и риск". Эти ассоциации закодированы в весах до того, как ты задал вопрос.

Почему уверенность не равна точности: LLM выдаёт следующий токен на основе паттернов, а не вычисляет вероятность. "Я считаю, риски умеренные" — это фраза, которая часто встречалась после похожих описаний в обучении. Не оценка и не расчёт. Исследование показывает, что самооценка уверенности LLM систематически не калибрована — модель одинаково уверенно говорит о том, что знает, и о том, что не знает.

Почему контрфактный тест работает как диагностика: Рациональный аналитик при сильных противоположных данных должен хотя бы в одном из трёх — изменить направление, снизить уверенность или скорректировать размер рекомендации. Если не меняется ничего — ты видишь не обновление взглядов на основе данных, а генерацию нарратива.

Рычаги управления: - Сила противоположных данных → чем конкретнее факты, тем чище тест. "Плохие новости" — плохой стимул. "Выручка за Q3 упала на 30% г/г" — хороший. - Несколько ролей → попроси двух агентов: "медведя" и "быка". Если оба выдают одно и то же — это эхо-камера с одними весами, не независимые эксперты. - Явный запрос на изменение позиции → "если данные требуют — измени вывод". Без этой фразы LLM может просто добавить оговорки, не меняя сути.


📋

Шаблон промпта

ШАГ 1. БАЗОВЫЙ АНАЛИЗ:
Ты — {роль аналитика}. Оцени {объект}: {конкретный вопрос для оценки}.
Дай итоговый вывод: {что рекомендуешь / как оцениваешь / какой риск видишь}.
Обоснуй позицию.

---

ШАГ 2. СТРЕСС-ТЕСТ (отдельным сообщением):
Вот данные, которые ставят твой вывод под сомнение:
{конкретные факты, противоречащие первой рекомендации}

Пересмотри свою позицию в свете этих данных.
Конкретно укажи:
1. Изменился ли твой итоговый вывод? (да/нет + почему)
2. Как изменился уровень уверенности?
3. Если бы ты рекомендовал пропорцию вложений — как она изменилась?

Что подставлять: - {роль аналитика} — инвестиционный аналитик, бизнес-консультант, риск-менеджер - {объект} — акция, бизнес-идея, партнёр, решение - {конкретные факты} — реальные данные, которые ты нашёл сам и которые работают против первого вывода


🚀 Быстрый старт — вставь в чат:

Хочу провести стресс-тест своего запроса к LLM — проверить, 
реагирует ли модель на данные или застряла в нарративе.
Моя задача: [твоя задача — например, "оценить инвестицию в X"].
Адаптируй шаблон под мою ситуацию и задай вопросы, 
чтобы заполнить оба шага.

[вставить шаблон выше]

LLM спросит про объект анализа и попросит привести противоположные данные — потому что без конкретного контрфакта тест не работает. Она возьмёт структуру и адаптирует под твою задачу.


⚠️

Ограничения

⚠️ Диагностика ≠ исправление: Тест покажет, застрял ли LLM в приоре — но не сделает его анализ точным. Даже если модель обновляет позицию, это не гарантирует правильности.

⚠️ Убедительные, но ложные факты: Если подать неверные противоположные данные как реальные — LLM может обновиться на ложь. Тест работает только с достоверными фактами.

⚠️ Одна модель — одни веса: Запуск нескольких агентов на основе GPT-4 или Claude — не независимая экспертиза. Почти во всех моделях параметрические приоры общие: все "эксперты" из одной точки. Мнения скоррелированы, а не независимы.

⚠️ Не для в реальном времени: Границы знаний у LLM — это его дата обучения. Для событий после этой даты модель работает в условиях информационной слепоты, даже если уверенно генерирует текст.


🔍

Как исследовали

Команда из Фудань, Imperial College и ещё четырёх университетов не строила новую систему — они вскрыли уже существующие. Взяли самые цитируемые LLM-торговые агенты 2024 года: FinCon, FinMem, TradingAgents, FinAgent, QuantAgent, FLAG-Trader. Каждый из них публиковал красивые цифры — Sharpe 2–3, точность направления 60%+. Исследователи воспроизвели два из них на реальном году торговли с полными транзакционными издержками.

Результат был неудобным: после вычета комиссий, спреда, влияния на рынок и стоимости токенов — оба агента упали ниже стратегии "купи и держи". Sharpe TradingAgents упал с 0.43 до 0.22, QuantAgent перешёл в минус.

Отдельно Li et al. (на которых ссылаются авторы) сравнили работу агентов внутри периода обучения и за его пределами. Когда окно оценки выходило за дату обучения модели — доходность FinMem падала на 71%, Sharpe QuantAgent — на 51%. Это прямое доказательство: агенты не предсказывают рынок — они помнят его.

Самое парадоксальное открытие: мульти-агентные дебаты — когда несколько LLM обсуждают решение между собой — почти никогда не улучшают результат. Из 36 конфигураций (4 модели × 9 тестов) мульти-агент побеждал одиночку меньше чем в 20% случаев. Потому что модели обучены на одних данных и разделяют одни приоры — разногласие поверхностное, консенсус структурный.


📄

Оригинал из исследования

Параметрическая фиксация приоров (PPL) — диагностика:

φ_vol(ρ) = Pr[â_{t+1} ≠ â_t | e_t, ρ]

где â_t — исходная позиция модели,
    â_{t+1} — позиция после предъявления обратных данных e_t 
              с силой ρ ∈ [0,1]

Хорошо обновляющийся агент должен показывать монотонный рост 
хотя бы в одном из трёх:
(i)  частота смены направления
(ii) самооценённая уверенность  
(iii) рекомендованный размер позиции

при увеличении ρ.

Агент с зафиксированным приором — не меняет ни одно из трёх.

Контекст: Авторы предлагают это как минимальный экспресс-тест на параметрическую фиксацию — применим к любому LLM-агенту, который выносит рекомендации.


💡

Адаптации и экстраполяции

📌

1. Адаптация: стресс-тест бизнес-идеи

Тот же принцип применим не только к акциям, но к любой оценке с рисками.

💡 Адаптация для оценки стартапа или идеи:

ШАГ 1:
Оцени эту бизнес-идею: {описание идеи}. 
Дай вывод: стоит ли запускать, какие главные риски, 
насколько ты уверен (1–10).

ШАГ 2 (через сообщение):
Вот три факта, которые я узнал после первоначальной оценки:
1. {конкурент уже запустил похожее}
2. {ключевой партнёр отказался}
3. {регуляторный риск вырос}

Пересмотри оценку. Изменился ли твой вывод? Уровень уверенности?
📌

2. Техника: явная нейтрализация приоров

🔧 Техника: назови предполагаемое смещение → модель его учитывает

Вместо обычного "проанализируй X":

Проанализируй {объект}. 

Предупреждение: ты можешь быть предвзят в пользу {направление смещения 
— например, "крупных технологических компаний" или "оптимистичных прогнозов"}
из-за своих обучающих данных. 

Явно учти это и постарайся дать взвешенный взгляд.
После анализа — напиши, какие свои возможные предубеждения ты заметил.

Называние потенциального смещения в промпте снижает его влияние — это работает как эксплицитная инструкция переключить режим генерации.

📌

3. Экстраполяция: тест качества любой LLM-рекомендации

Контрфактический тест применим везде, где LLM выносит оценочное суждение — не только финансы.

[После любой рекомендации от LLM добавь отдельным сообщением:]

Вот информация, которая указывает на противоположное: {данные}.

Что ты меняешь в своей позиции? 
Ответь строго по формату:
— Направление вывода: изменилось / не изменилось
— Уверенность: выросла / снизилась / не изменилась  
— Что именно в данных повлияло больше всего

Это работает как быстрый тест качества — за 30 секунд понять, думает модель или генерирует нарратив.


🔗

Ресурсы

Работа: The Alpha Illusion: Reported Alpha from LLM Trading Agents Should Not Be Treated as Deployment Evidence

Авторы: Yuxuan Ye, Jun Han, Ao Hu, Juncheng Bu, Yiyi Chen, Liangjian Wen, Danilo Mandic, Danny Dongning Sun, Xu Yinghui, Zenglin Xu

Организации: Fudan University, Shanghai University of Finance and Economics, Southwest University of Finance and Economics, Northeastern University, Imperial College London, Peng Cheng Laboratory

Код: github.com/hj1650782738/Trading

Ключевые ссылки из работы: FinCon, FinMem, TradingAgents, FinAgent, QuantAgent — системы, которые анализировались; FinBen — финансовый бенчмарк LLM; Li et al. — эксперимент с post-cutoff evaluation; Lopez-Lira & Tang — LLM как сигнал из новостей (единственное что работает).


Проблемы LLM

ПроблемаСутьКак обойти
Модель не меняет вывод при противоположных данныхПросишь модель оценить что-то. Потом подаёшь факты, которые прямо опровергают её вывод. Модель перечисляет новые факты — но финальная рекомендация остаётся прежней. Иногда добавляет оговорки вроде "с учётом рисков всё же...". Данные не меняют позицию. Вывод закреплён в весах ещё до твоего вопроса. Это проблема везде, где модель выносит рекомендацию: инвестиции, риски, оценка идей, выбор подрядчикаПроведи стресс-тест: запроси оценку, потом подай конкретные противоположные факты и задай три вопроса явно. Без явного запроса модель просто добавит оговорки, не меняя сути

Методы

МетодСуть
Контрфактный стресс-тест — проверка реакции на новые данныеШаг 1. Запроси анализ: Ты — {роль}. Оцени {объект}. Дай итоговый вывод и обоснуй. Шаг 2. Отдельным сообщением: Вот данные, которые противоречат твоему выводу: {конкретные факты}. Пересмотри позицию. Ответь на три вопроса: 1) Изменился ли итоговый вывод — да/нет + почему? 2) Как изменился уровень уверенности? 3) Как изменилась доля / пропорция рекомендации? Читай результат по финальному выводу, не по промежуточным фразам. Поменял направление хотя бы по одному из трёх — реагирует на данные. Не поменял ничего — застрял в приоре. Почему работает: три явных вопроса блокируют стратегию "добавить оговорку и сохранить позицию". Модель вынуждена ответить конкретно. Нужен конкретный контрфакт: "плохие новости" — плохой стимул. "Выручка упала на 30% за квартал" — хороший. Не работает: если подать ложные данные — модель обновится на ложь
📖 Простыми словами

The Alpha Illusion: Reported Alpha fromLLMTradingAgentsShould Not Be Treated as Deployment Evidence

arXiv: 2605.16895

Суть проблемы в том, что LLM-агенты в трейдинге — это не беспристрастные математики, а заложники своего прошлого. Когда модель выдает прогноз с бешеной доходностью, это не результат гениального анализа рынка, а параметрическая фиксация приоров. Проще говоря, в мозгах нейронки уже прошиты симпатии к Apple, Nvidia или «Сберу», потому что в обучающей выборке про них писали только хорошее. Модель не считает цифры в реальном времени, она просто генерирует текст, который звучит как умная аналитика, но на деле является эхом старых новостей.

Это как нанять финансового советника, который последние пять лет читал только рекламные буклеты крупных корпораций. Он будет советовать их акции не потому, что сейчас удачный момент для входа, а потому что у него в голове устойчивая ассоциация: «большой бренд — это успех». Ты ждешь от него холодного расчета, а получаешь пересказ модных нарративов, которые уже давно отыграны рынком. Формально всё звучит логично, но по факту это просто воспроизведение заученных паттернов, а не работа с реальностью.

Конкретный облом кроется в том, что LLM оптимизированы на связность и убедительность, а не на точность предсказаний. Если ты спросишь про известную компанию, модель выдаст позитивный галлюциноз, подтягивая аргументы под уже существующий в её весах шаблон «надежности». Работает это так: известность бренда подменяет собой финансовый анализ, а красивый слог маскирует отсутствие логики. В итоге любая «альфа» (сверхдоходность), которую показывает агент на тестах, оказывается иллюзией, вызванной тем, что модель просто «знает» из будущего, какие компании выжили и стали гигантами.

Исследователи гоняли модель на акциях, но этот принцип универсален для любой экспертизы. Будь то выбор софта, оценка юридических рисков или медицинский совет — LLM всегда будет тяготеть к тому, что чаще встречалось в интернете. SEO-оптимизированный бред из обучающей выборки становится для нейронки истиной в последней инстанции. Это значит, что слепо доверять советам AI в вопросах, где на кону стоят реальные деньги, — полный провал, так как модель всегда будет предвзята в сторону «популярного».

Короче: забудь про легкие деньги на AI-трейдинге, пока используешь стандартные модели «из коробки». Их отчеты о прибыльности — это статистический шум, упакованный в уверенный тон. Если модель говорит, что акция взлетит, скорее всего, она просто повторяет хайп трехлетней давности. LLM — это зеркало прошлого, а не окно в будущее. Кто продолжит принимать их галлюцинации за инсайды, тот неизбежно сольет депозит, гадая, почему «умный» алгоритм так эпично лажанул.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с