TL;DR
LLM не нейтральный аналитик — его веса уже содержат устойчивые предпочтения из обучающих данных: уклон в сторону известных компаний, модных нарративов, крупного бизнеса. Это называется параметрическая фиксация приоров (parametric prior lock-in). Модель не вычисляет — она генерирует текст, который звучит как анализ, но часто просто воспроизводит паттерны из обучения.
Главная находка — если попросить LLM проанализировать актив, а потом предъявить ему противоположные данные, он часто не меняет вывод. Звучит уверенно при любом раскладе. Это не "взвешенное мнение с учётом данных" — это нарратив, застрявший в весах. Исследователи прямо измерили: когда экспериментальное окно выходит за пределы обучающих данных модели, доходность торговых агентов на базе LLM падает на 50–72%.
Что с этим делать — есть простой тест: дай LLM рекомендацию, потом подай противоположные доказательства и посмотри, изменит ли он позицию. Если нет — ты наблюдаешь не аналитику, а генерацию. Это применимо далеко за пределами торговли: везде, где ты просишь LLM оценить риски или вынести рекомендацию.
Схема метода
ШАГ 1: Запроси анализ / рекомендацию → LLM выдаёт позицию ("покупать", "риски высокие", "идея слабая")
ШАГ 2: Подай противоположные данные → "Вот данные, которые указывают на обратное: [...]"
ШАГ 3: Следи за реакцией (3 сигнала):
- Поменял ли LLM направление вывода?
- Изменилась ли степень уверенности?
- Изменился ли его "размер ставки" (если ты просил конкретные пропорции)?
ВЫВОД: Если все три — нет → LLM застрял в приоре, не в данных
Все шаги выполняются в одном диалоге, отдельный запрос только для шага 2.
Пример применения
Задача: Игорь хочет разобраться, стоит ли инвестировать в акции одного из российских технологических эмитентов — допустим, Позитив Технолоджис. Спрашивает ChatGPT.
Промпт (Шаг 1):
Ты — инвестиционный аналитик. Дай развёрнутую оценку: стоит ли частному
инвестору рассматривать акции Positive Technologies в 2025 году?
Учти: конкурентная позиция, динамику выручки, риски регуляторики.
Дай итоговую рекомендацию с обоснованием.
Промпт (Шаг 2 — контрфактический стресс-тест):
Теперь рассмотри следующие данные: [вставь реальные данные, например —
"Основной заказчик Positive снизил бюджет на ИБ на 40%. Появился
сильный государственный конкурент с нулевой ценой лицензии.
Менеджмент продал крупный пакет акций в последнем квартале."]
Как это влияет на твою предыдущую рекомендацию?
Измени позицию, если данные этого требуют.
Результат: Если LLM меняет вывод, снижает уверенность или корректирует "ставку" — он реагирует на данные. Если перечисляет новые факты, но финальная рекомендация остаётся прежней (или слегка "смягчается" словами вроде "с учётом рисков всё же") — это сигнал, что модель работает в режиме нарратива, а не вычисления. Фиксируй именно финальный вывод, не промежуточные фразы.
Почему это работает
Слабость LLM: Модель оптимизирована на связность и убедительность текста, а не на правильность финансовых предсказаний. Обучение на новостях, постфактум-анализах и аналитических материалах создаёт устойчивые ассоциации: "Сбер" → "надёжность", "крипта" → "волатильность и риск". Эти ассоциации закодированы в весах до того, как ты задал вопрос.
Почему уверенность не равна точности: LLM выдаёт следующий токен на основе паттернов, а не вычисляет вероятность. "Я считаю, риски умеренные" — это фраза, которая часто встречалась после похожих описаний в обучении. Не оценка и не расчёт. Исследование показывает, что самооценка уверенности LLM систематически не калибрована — модель одинаково уверенно говорит о том, что знает, и о том, что не знает.
Почему контрфактный тест работает как диагностика: Рациональный аналитик при сильных противоположных данных должен хотя бы в одном из трёх — изменить направление, снизить уверенность или скорректировать размер рекомендации. Если не меняется ничего — ты видишь не обновление взглядов на основе данных, а генерацию нарратива.
Рычаги управления: - Сила противоположных данных → чем конкретнее факты, тем чище тест. "Плохие новости" — плохой стимул. "Выручка за Q3 упала на 30% г/г" — хороший. - Несколько ролей → попроси двух агентов: "медведя" и "быка". Если оба выдают одно и то же — это эхо-камера с одними весами, не независимые эксперты. - Явный запрос на изменение позиции → "если данные требуют — измени вывод". Без этой фразы LLM может просто добавить оговорки, не меняя сути.
Шаблон промпта
ШАГ 1. БАЗОВЫЙ АНАЛИЗ:
Ты — {роль аналитика}. Оцени {объект}: {конкретный вопрос для оценки}.
Дай итоговый вывод: {что рекомендуешь / как оцениваешь / какой риск видишь}.
Обоснуй позицию.
---
ШАГ 2. СТРЕСС-ТЕСТ (отдельным сообщением):
Вот данные, которые ставят твой вывод под сомнение:
{конкретные факты, противоречащие первой рекомендации}
Пересмотри свою позицию в свете этих данных.
Конкретно укажи:
1. Изменился ли твой итоговый вывод? (да/нет + почему)
2. Как изменился уровень уверенности?
3. Если бы ты рекомендовал пропорцию вложений — как она изменилась?
Что подставлять:
- {роль аналитика} — инвестиционный аналитик, бизнес-консультант, риск-менеджер
- {объект} — акция, бизнес-идея, партнёр, решение
- {конкретные факты} — реальные данные, которые ты нашёл сам и которые работают против первого вывода
🚀 Быстрый старт — вставь в чат:
Хочу провести стресс-тест своего запроса к LLM — проверить,
реагирует ли модель на данные или застряла в нарративе.
Моя задача: [твоя задача — например, "оценить инвестицию в X"].
Адаптируй шаблон под мою ситуацию и задай вопросы,
чтобы заполнить оба шага.
[вставить шаблон выше]
LLM спросит про объект анализа и попросит привести противоположные данные — потому что без конкретного контрфакта тест не работает. Она возьмёт структуру и адаптирует под твою задачу.
Ограничения
⚠️ Диагностика ≠ исправление: Тест покажет, застрял ли LLM в приоре — но не сделает его анализ точным. Даже если модель обновляет позицию, это не гарантирует правильности.
⚠️ Убедительные, но ложные факты: Если подать неверные противоположные данные как реальные — LLM может обновиться на ложь. Тест работает только с достоверными фактами.
⚠️ Одна модель — одни веса: Запуск нескольких агентов на основе GPT-4 или Claude — не независимая экспертиза. Почти во всех моделях параметрические приоры общие: все "эксперты" из одной точки. Мнения скоррелированы, а не независимы.
⚠️ Не для в реальном времени: Границы знаний у LLM — это его дата обучения. Для событий после этой даты модель работает в условиях информационной слепоты, даже если уверенно генерирует текст.
Как исследовали
Команда из Фудань, Imperial College и ещё четырёх университетов не строила новую систему — они вскрыли уже существующие. Взяли самые цитируемые LLM-торговые агенты 2024 года: FinCon, FinMem, TradingAgents, FinAgent, QuantAgent, FLAG-Trader. Каждый из них публиковал красивые цифры — Sharpe 2–3, точность направления 60%+. Исследователи воспроизвели два из них на реальном году торговли с полными транзакционными издержками.
Результат был неудобным: после вычета комиссий, спреда, влияния на рынок и стоимости токенов — оба агента упали ниже стратегии "купи и держи". Sharpe TradingAgents упал с 0.43 до 0.22, QuantAgent перешёл в минус.
Отдельно Li et al. (на которых ссылаются авторы) сравнили работу агентов внутри периода обучения и за его пределами. Когда окно оценки выходило за дату обучения модели — доходность FinMem падала на 71%, Sharpe QuantAgent — на 51%. Это прямое доказательство: агенты не предсказывают рынок — они помнят его.
Самое парадоксальное открытие: мульти-агентные дебаты — когда несколько LLM обсуждают решение между собой — почти никогда не улучшают результат. Из 36 конфигураций (4 модели × 9 тестов) мульти-агент побеждал одиночку меньше чем в 20% случаев. Потому что модели обучены на одних данных и разделяют одни приоры — разногласие поверхностное, консенсус структурный.
Оригинал из исследования
Параметрическая фиксация приоров (PPL) — диагностика:
φ_vol(ρ) = Pr[â_{t+1} ≠ â_t | e_t, ρ]
где â_t — исходная позиция модели,
â_{t+1} — позиция после предъявления обратных данных e_t
с силой ρ ∈ [0,1]
Хорошо обновляющийся агент должен показывать монотонный рост
хотя бы в одном из трёх:
(i) частота смены направления
(ii) самооценённая уверенность
(iii) рекомендованный размер позиции
при увеличении ρ.
Агент с зафиксированным приором — не меняет ни одно из трёх.
Контекст: Авторы предлагают это как минимальный экспресс-тест на параметрическую фиксацию — применим к любому LLM-агенту, который выносит рекомендации.
Адаптации и экстраполяции
1. Адаптация: стресс-тест бизнес-идеи
Тот же принцип применим не только к акциям, но к любой оценке с рисками.
💡 Адаптация для оценки стартапа или идеи:
ШАГ 1:
Оцени эту бизнес-идею: {описание идеи}.
Дай вывод: стоит ли запускать, какие главные риски,
насколько ты уверен (1–10).
ШАГ 2 (через сообщение):
Вот три факта, которые я узнал после первоначальной оценки:
1. {конкурент уже запустил похожее}
2. {ключевой партнёр отказался}
3. {регуляторный риск вырос}
Пересмотри оценку. Изменился ли твой вывод? Уровень уверенности?
2. Техника: явная нейтрализация приоров
🔧 Техника: назови предполагаемое смещение → модель его учитывает
Вместо обычного "проанализируй X":
Проанализируй {объект}.
Предупреждение: ты можешь быть предвзят в пользу {направление смещения
— например, "крупных технологических компаний" или "оптимистичных прогнозов"}
из-за своих обучающих данных.
Явно учти это и постарайся дать взвешенный взгляд.
После анализа — напиши, какие свои возможные предубеждения ты заметил.
Называние потенциального смещения в промпте снижает его влияние — это работает как эксплицитная инструкция переключить режим генерации.
3. Экстраполяция: тест качества любой LLM-рекомендации
Контрфактический тест применим везде, где LLM выносит оценочное суждение — не только финансы.
[После любой рекомендации от LLM добавь отдельным сообщением:]
Вот информация, которая указывает на противоположное: {данные}.
Что ты меняешь в своей позиции?
Ответь строго по формату:
— Направление вывода: изменилось / не изменилось
— Уверенность: выросла / снизилась / не изменилась
— Что именно в данных повлияло больше всего
Это работает как быстрый тест качества — за 30 секунд понять, думает модель или генерирует нарратив.
Ресурсы
Работа: The Alpha Illusion: Reported Alpha from LLM Trading Agents Should Not Be Treated as Deployment Evidence
Авторы: Yuxuan Ye, Jun Han, Ao Hu, Juncheng Bu, Yiyi Chen, Liangjian Wen, Danilo Mandic, Danny Dongning Sun, Xu Yinghui, Zenglin Xu
Организации: Fudan University, Shanghai University of Finance and Economics, Southwest University of Finance and Economics, Northeastern University, Imperial College London, Peng Cheng Laboratory
Код: github.com/hj1650782738/Trading
Ключевые ссылки из работы: FinCon, FinMem, TradingAgents, FinAgent, QuantAgent — системы, которые анализировались; FinBen — финансовый бенчмарк LLM; Li et al. — эксперимент с post-cutoff evaluation; Lopez-Lira & Tang — LLM как сигнал из новостей (единственное что работает).
