3,583 papers
arXiv:2510.05533 80 7 окт. 2025 г. FREE

RAG + Multi-Agent Principles: как финансовые LLM-системы работают с фактами и проверкой

КЛЮЧЕВАЯ СУТЬ
LLM в финансах — как аналитик который блестяще пишет отчёты, но путает цифры и выдумывает факты. В трейдинге это катастрофа: одна галлюцинация стоит миллионов, а использование "информации из будущего" при тестировании стратегии даёт ложное ощущение прибыльности. Обзор "The New Quant" (анализ 50+ исследований) систематизирует 4 паттерна, которые превращают ненадёжную модель в проверяемую систему: retrieval-first (сначала факты с датами, потом анализ), tool-verified (числа через калькулятор, не "в уме"), multi-agent debate (роли критикуют друг друга), separation of concerns (каждый этап проверяем отдельно). Фишка: не улучшай модель — структурируй процесс. От "чёрного ящика" (один промпт → ответ) к прозрачному конвейеру с проверяемыми артефактами на каждом этапе.
Адаптировать под запрос

TL;DR

The New Quant — обзор более 50 исследований о применении языковых моделей в финансах. Автор систематизирует методы превращения текстовой информации (новости, отчёты, заявления регуляторов) в торговые сигналы и описывает паттерны, которые повышают точность и проверяемость выводов.

Ключевая проблема: модели галлюцинируют при расчётах, путают временные рамки (используют информацию из будущего при анализе прошлого) и не показывают цепочку рассуждений, что делает их выводы непроверяемыми. В финансах это критично — ошибка в одной цифре может стоить миллионов, а использование данных "из будущего" при тестировании стратегии даёт ложное ощущение прибыльности.

Решение: паттерны надёжной работы — retrieval-first prompting (сначала собери факты с датами, потом анализируй), tool-verified numerics (проверяй расчёты калькулятором), multi-agent debate (несколько точек зрения критикуют друг друга), separation of concerns (отдельно сбор данных, отдельно анализ, отдельно решение). Эти принципы снижают галлюцинации, делают выводы проверяемыми и защищают от temporal leakage (утечки информации из будущего).


📌

Схема ключевых паттернов

Статья описывает не один метод, а систему принципов, которые комбинируются:

ПАТТЕРН 1: Retrieval-First Prompting
Шаг 1: Найди факты с временными метками → список источников с датами
Шаг 2: Проанализируй факты → вывод со ссылками на источники

ПАТТЕРН 2: Tool-Verified Numerics 
Шаг 1: Извлеки числа из текста → сырые данные
Шаг 2: Вычисли через калькулятор → проверенный результат
(не полагайся на "вычисления в уме" модели)

ПАТТЕРН 3: Multi-Agent Debate
Шаг 1: Агент A даёт вывод с обоснованием
Шаг 2: Агент B критикует вывод A
Шаг 3: Агент C проверяет факты обоих → финальный вывод
(всё в одном промпте через роли)

ПАТТЕРН 4: Separation of Concerns
Этап 1: Сбор данных (retrieval)
Этап 2: Анализ (reasoning) 
Этап 3: Решение (action)
(каждый этап — отдельный промпт, результаты передаются дальше)

🚀

Пример применения

⚠️ Применимость: Паттерны работают для задач, где важны фактическая точность, проверяемость выводов и временная корректность (не использовать будущее для анализа прошлого). Не подходят для креативных задач без фактической базы.

Задача: Ты рассматриваешь инвестицию в российский стартап. Нужно проанализировать перспективы на основе последних новостей, финансовых показателей и мнений экспертов, но избежать галлюцинаций и предвзятости.

Промпт:

Анализ инвестиционной возможности: [название стартапа]

ЭТАП 1 - СБОР ФАКТОВ (Retrieval-First):
Найди последние новости, финансовые отчёты и комментарии экспертов за последние 6 месяцев.
Для каждого источника укажи:
- Дату публикации
- Ключевой факт (цитата или число)
- Ссылку на источник

ЭТАП 2 - ЧИСЛЕННАЯ ПРОВЕРКА (Tool-Verified):
Извлеки все финансовые показатели (выручка, прибыль, динамика роста).
Пересчитай ключевые метрики через калькулятор:
- Темп роста выручки (%)
- Рентабельность 
- Burn rate (если доступно)

ЭТАП 3 - МНОГОАГЕНТНАЯ ПРОВЕРКА (Multi-Agent Debate):
Создай 3 роли и проведи дебаты:

ОПТИМИСТ (найди аргументы ЗА):
- Почему стартап перспективен?
- Какие факты подтверждают рост?
- Ссылки на источники с датами

ПЕССИМИСТ (найди аргументы ПРОТИВ): 
- Какие риски?
- Какие факты указывают на проблемы?
- Ссылки на источники с датами

СКЕПТИК (проверка фактов):
- Проверь все цифры из аргументов выше
- Укажи противоречия между источниками
- Отметь, если какие-то данные устарели

ЭТАП 4 - ФИНАЛЬНЫЙ ВЫВОД:
На основе дебатов дай рекомендацию:
- Инвестировать / Не инвестировать / Нужно больше данных
- Уровень уверенности (0-100%)
- Ключевые факторы решения
- Что проверить дополнительно

Результат: Модель выдаст структурированный анализ в 4 блока. Сначала — таблицу фактов с датами и источниками. Потом — пересчитанные метрики с показанными вычислениями. Далее — 3 блока дебатов (аргументы за, против, проверка фактов) с перекрёстными ссылками. В финале — взвешенный вывод с указанием уровня уверенности и списком того, что осталось неясным. Каждый этап явно разделён, факты привязаны к датам, числа пересчитаны, противоречия выявлены.


🧠

Почему это работает

Слабость LLM: Модели "галлюцинируют" факты, плохо считают в уме, путают временные рамки (могут использовать информацию из будущего при анализе прошлого) и не показывают цепочку рассуждений, что делает невозможной проверку выводов.

Сильная сторона LLM: Модели отлично следуют структурированным инструкциям, могут симулировать разные роли (оптимист/пессимист), хорошо извлекают факты из текста и понимают контекст, если он чётко разделён на этапы.

Как паттерны используют сильные стороны:

Retrieval-First борется с галлюцинациями: вместо "придумай ответ" модель сначала собирает факты из реальных источников с датами, потом рассуждает на их основе. Временные метки предотвращают temporal leakage (использование будущей информации).

Tool-Verified Numerics обходит слабость в арифметике: модель не считает "в голове", а извлекает числа, формулирует вычисление и выполняет его через калькулятор (или показывает формулу, которую человек проверит).

Multi-Agent Debate создаёт перекрёстную проверку: когда одна "роль" даёт вывод, другая его критикует, третья проверяет факты. Модель хороша в симуляции разных точек зрения — используй это как встроенный механизм проверки.

Separation of Concerns делает процесс аудируемым: вместо "чёрного ящика" (один промпт → ответ) процесс разбит на этапы с явными артефактами (список фактов, таблица расчётов, дебаты, финальный вывод). Каждый этап можно проверить независимо.

Рычаги управления:

  • Число агентов (2-5): для простых задач хватит 2 (за/против), для сложных добавь проверяющего, эксперта по числам, специалиста по рискам
  • Глубина retrieval: можно ограничить "последние 3 месяца" или расширить до "всей доступной истории"
  • Критерии выхода: "консенсус агентов" vs "голосование большинством" vs "финальное решение человека"
  • Явность промежуточных выводов: добавь "покажи ВСЕ вычисления" или убери для краткости

📋

Шаблон промпта

Задача: {описание решения, которое нужно принять}

ЭТАП 1 - СБОР ФАКТОВ:
Найди информацию по теме за период {временной интервал}.
Для каждого источника:
- Дата публикации
- Ключевой факт
- Ссылка

ЭТАП 2 - ЧИСЛЕННАЯ ПРОВЕРКА (если есть цифры):
Извлеки числа: {какие метрики}
Пересчитай через калькулятор:
- {формула 1}
- {формула 2}

ЭТАП 3 - МНОГОАГЕНТНАЯ ПРОВЕРКА:
РОЛЬ 1 - {название роли}: {что анализирует}
РОЛЬ 2 - {название роли}: {что критикует} 
РОЛЬ 3 - {название роли}: {что проверяет}

Каждая роль:
- Даёт аргументы со ссылками на факты из Этапа 1
- Указывает дату каждого источника
- Отмечает неопределённости

ЭТАП 4 - ФИНАЛЬНЫЙ ВЫВОД:
- Рекомендация: {что делать}
- Уровень уверенности: {0-100%}
- Ключевые факторы
- Что проверить дополнительно

Что подставлять:

  • {описание решения} — конкретная задача (инвестиция, стратегия, выбор)
  • {временной интервал} — период актуальности данных (3 месяца, год)
  • {какие метрики} — показатели для расчёта (рост, доходность, риск)
  • {название роли} — персонажи для дебатов (Оптимист/Пессимист или Юрист/Бухгалтер/Маркетолог — зависит от контекста)

🚀 Быстрый старт — вставь в чат:

Вот шаблон анализа с проверкой фактов и мультиагентными дебатами. Адаптируй под мою задачу: [твоя задача]. 
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит какие роли нужны для твоей задачи (для финансов — Оптимист/Пессимист/Аналитик, для юридической проверки — Юрист за/против/Проверяющий фактов, для продуктовых решений — Пользователь/Бизнес/Техлид). Она возьмёт структуру этапов из шаблона и подставит подходящие роли и метрики под конкретную ситуацию.


⚠️

Ограничения

⚠️ Требует фактической базы: Не работает для креативных задач без проверяемых фактов (написание стихов, генерация идей). Нужны реальные источники данных для Этапа 1.

⚠️ Затратность на токены: Мультиэтапный анализ с несколькими ролями занимает много токенов. Для простых вопросов ("какой курс доллара") это избыточно — используй когда решение критично.

⚠️ Не заменяет экспертизу: Модель имитирует дебаты, но не обладает реальным опытом инвестора, юриста или врача. Финальное решение в критичных ситуациях — за человеком или экспертом.

⚠️ Зависит от доступа к данным: Если модель не имеет доступа к актуальным источникам (нет веб-поиска, устаревшая база знаний), Этап 1 даст неполные или устаревшие факты. Проверяй даты в выдаче.


🔍

Как исследовали

Это обзорная работа (survey), а не эмпирическое исследование. Автор систематизировал более 50 научных статей с 2023 по 2025 год, посвящённых применению LLM в финансах. Работа структурирована вокруг pipeline: от обработки текста (sentiment analysis, information extraction, numerical reasoning) через генерацию торговых сигналов до портфельного управления.

Логика систематизации: Автор разделил методы на 7 категорий задач (sentiment analysis, IE, numerical QA, summarization, multimodal analysis, agentic workflows, governance). Для каждой категории выделил design patterns — повторяющиеся архитектурные решения, которые работают лучше всего.

Ключевые паттерны, которые встречаются в большинстве успешных систем:

  1. Retrieval-First — системы, которые сначала собирают факты, показывают лучшую точность, чем те что генерируют "из головы"
  2. Tool-Verified Numerics — использование калькуляторов и парсеров снижает ошибки в расчётах на 30-50% по сравнению с "reasoning в уме"
  3. Multi-Agent Debate — системы с несколькими критикующими ролями дают меньше false positives при отборе торговых сигналов
  4. Separation of Concerns — разделение этапов (research → backtesting → execution) упрощает аудит и соответствие регуляторным требованиям

Что удивило: Простые техники (добавление "укажи дату источника" или "пересчитай через калькулятор") дают значимый прирост точности. Сложные fine-tuned модели иногда проигрывают промпт-инженерингу на общих моделях с правильной структурой запроса.

Инсайт для практики: Архитектура промпта важнее модели. Retrieval-first + multi-agent debate на GPT-3.5 может обойти специализированную финансовую модель с плохой структурой запроса. Структура workflow > выбор модели.

Почему эти выводы важны: Автор обобщил паттерны, которые работают почти во всех исследованных системах. Это не единичный эксперимент, а мета-анализ. Принципы экстраполируются на любые задачи, где нужны факты + рассуждения + проверяемость.


💡

Адаптации и экстраполяции

💡 Адаптация для юридического анализа:

Те же паттерны применимы при разборе договоров или оценке рисков сделки:

Задача: Проверить договор аренды на скрытые риски

ЭТАП 1 - СБОР ФАКТОВ:
Извлеки из договора:
- Все финансовые обязательства с датами
- Условия расторжения
- Штрафные санкции
- Ссылки на законы (укажи статьи)

ЭТАП 2 - ЧИСЛЕННАЯ ПРОВЕРКА:
Рассчитай:
- Полную стоимость за весь период (арендная плата + коммунальные + депозит)
- Максимальный штраф при досрочном расторжении
- Индексацию платежей (если указана)

ЭТАП 3 - МНОГОАГЕНТНАЯ ПРОВЕРКА:
АРЕНДАТОР (интересы клиента):
- Какие риски для арендатора?
- Где условия невыгодны?

АРЕНДОДАТЕЛЬ (интересы противоположной стороны):
- Какие условия защищают арендодателя?
- Где договор даёт ему преимущества?

ЮРИСТ (проверка законности):
- Есть ли противоречия закону?
- Какие пункты можно оспорить?

ЭТАП 4 - ВЫВОД:
- Подписывать / Требовать изменений / Отказаться
- Список конкретных рисков
- Какие пункты переписать

🔧 Техника: Явные промежуточные выводы → отладка рассуждений

Базовый паттерн Multi-Agent Debate может скрывать логику. Если добавить требование "покажи ВСЕ вычисления и ссылки на источники", получаешь прозрачность:

РОЛЬ 1 - ОПТИМИСТ:
Аргумент: [тезис]
Подтверждение:
 - Источник 1 (дата: XX.XX.XXXX): [цитата]
 - Источник 2 (дата: XX.XX.XXXX): [цитата]
Расчёт (если есть числа):
 Формула: [показать]
 Результат: [показать шаги]

Изменение: вместо "дай аргументы" → "дай аргументы С ЯВНЫМИ ССЫЛКАМИ И РАСЧЁТАМИ"

Эффект: можешь проверить каждый шаг. Если модель ошиблась в расчёте или процитировала несуществующий источник — видно сразу.


💡 Адаптация для медицинских решений:

Паттерны критично важны в медицине, где цена ошибки — здоровье:

Задача: Оценить целесообразность операции на основе анализов и мнений врачей

ЭТАП 1 - СБОР ФАКТОВ:
Собери из медкарты:
- Результаты всех анализов с датами
- Диагнозы и их обоснования
- Мнения консультировавших врачей
- Противопоказания

ЭТАП 2 - ЧИСЛЕННАЯ ПРОВЕРКА:
Проверь все показатели:
- Укладываются ли в норму?
- Динамика (улучшение/ухудшение)?
- Критические значения?

ЭТАП 3 - МНОГОАГЕНТНАЯ ПРОВЕРКА:
ХИРУРГ (за операцию):
- Показания к операции
- Ожидаемый эффект
- Ссылки на анализы

ТЕРАПЕВТ (за консервативное лечение):
- Можно ли обойтись без операции?
- Риски хирургического вмешательства
- Альтернативы

ПАЦИЕНТ (приоритеты пациента):
- Как это влияет на качество жизни?
- Время восстановления
- Долгосрочные последствия

ЭТАП 4 - ВЫВОД:
- Рекомендация (с учётом всех мнений)
- Критичные факторы
- Вопросы к врачу
- Что проверить дополнительно

🔗

Ресурсы

The New Quant: A Survey of Large Language Models in Financial Prediction and Trading Weilong Fu, Columbia University arXiv:2025 (preprint)

Работа ссылается на 50+ исследований, включая:

  • Lopez-Lira & Tang (2023) — Can ChatGPT Forecast Stock Price Movements
  • TradingGPT (Li et al., 2023) — Multi-Agent System for Trading
  • FinQA, FinanceBench — benchmarks для численного reasoning
  • Alpha-GPT (Wang et al., 2023-2024) — Human-in-the-loop alpha mining
  • Sarkar & Vafa (2024) — Lookahead Bias in Pretrained LLMs

📋 Дайджест исследования

Ключевая суть

LLM в финансах — как аналитик который блестяще пишет отчёты, но путает цифры и выдумывает факты. В трейдинге это катастрофа: одна галлюцинация стоит миллионов, а использование "информации из будущего" при тестировании стратегии даёт ложное ощущение прибыльности. Обзор "The New Quant" (анализ 50+ исследований) систематизирует 4 паттерна, которые превращают ненадёжную модель в проверяемую систему: retrieval-first (сначала факты с датами, потом анализ), tool-verified (числа через калькулятор, не "в уме"), multi-agent debate (роли критикуют друг друга), separation of concerns (каждый этап проверяем отдельно). Фишка: не улучшай модель — структурируй процесс. От "чёрного ящика" (один промпт → ответ) к прозрачному конвейеру с проверяемыми артефактами на каждом этапе.

Принцип работы

Каждый паттерн компенсирует конкретную слабость LLM. Retrieval-First борется с галлюцинациями: модель сначала собирает факты из источников с временными метками ("отчёт от 12 марта 2024"), потом рассуждает — так предотвращается temporal leakage (использование будущей информации для анализа прошлого). Tool-Verified Numerics обходит слабость в арифметике: модель не считает "в голове", а извлекает числа и выполняет вычисления через калькулятор или показывает формулу для проверки. Multi-Agent Debate создаёт перекрёстную проверку: роль "Оптимист" даёт вывод, "Пессимист" критикует, "Скептик" проверяет факты обоих — модель хороша в симуляции разных точек зрения, используй это как встроенный механизм проверки. Separation of Concerns делает процесс аудируемым: вместо одного промпта процесс разбит на этапы (сбор фактов → расчёты → дебаты → вывод), каждый можно проверить независимо.

Почему работает

LLM отлично следуют структурированным инструкциям и симулируют роли, но плохи в спонтанном счёте и фактах. Паттерны используют сильные стороны, обходят слабые. Когда модель сначала собирает факты (с датами!), потом рассуждает — она не может "придумать" источник, который не нашла. Когда числа идут через калькулятор — ошибки арифметики исчезают. Когда одна роль критикует другую — противоречия всплывают на поверхность. Результат: выводы становятся проверяемыми — ты видишь на какие источники модель опирается, какие расчёты делает, где роли не согласны друг с другом. В финансах, где ошибка в одной цифре стоит миллионов, это превращает LLM из "интересной игрушки" в рабочий инструмент для критичных решений.

Когда применять

Финансовый анализ (оценка стартапов, инвестиционные решения, анализ отчётности) → конкретно для задач где нужна фактическая точность, проверяемость выводов и временная корректность (не использовать будущее для анализа прошлого). Работает для любой области где решение опирается на факты: юридический анализ (проверка договоров, поиск прецедентов), медицинский анализ (диагностика по симптомам с проверкой источников), стратегический анализ (оценка рисков, конкурентный анализ). НЕ подходит для креативных задач без фактической базы (генерация идей, написание текстов) — там структура избыточна, нужна свобода.

Мини-рецепт

1. Этап сбора фактов (Retrieval-First): Укажи Найди информацию за период [временной интервал]. Для каждого источника: дата публикации, ключевой факт, ссылка. Модель соберёт факты с временными метками — основу для анализа.

2. Этап численной проверки (Tool-Verified): Добавь Извлеки числа: [какие метрики]. Пересчитай через калькулятор: [формулы]. Модель не считает "в уме", а показывает вычисления которые можно проверить.

3. Этап дебатов (Multi-Agent): Создай роли РОЛЬ 1 - [название]: [что анализирует]. РОЛЬ 2 - [название]: [что критикует]. РОЛЬ 3 - [название]: [что проверяет]. Каждая роль даёт аргументы со ссылками на факты из Этапа 1 и указывает дату каждого источника. Роли будут критиковать друг друга, противоречия всплывут.

4. Финальный вывод: Запроси структуру Рекомендация: [что делать]. Уровень уверенности: [0-100%]. Ключевые факторы. Что проверить дополнительно. Получишь взвешенное решение с явным указанием где модель уверена, а где нужны дополнительные данные.

Примеры

[ПЛОХО] : Проанализируй стартап X и скажи стоит ли инвестировать — модель выдаст красивый текст с выдуманными фактами, без источников и проверки.
[ХОРОШО] : ЭТАП 1 - СБОР ФАКТОВ: Найди последние новости, финансовые отчёты и комментарии экспертов за последние 6 месяцев. Для каждого источника укажи: дату публикации, ключевой факт, ссылку. | ЭТАП 2 - ЧИСЛЕННАЯ ПРОВЕРКА: Извлеки финансовые показатели (выручка, прибыль, рост). Пересчитай через калькулятор: темп роста выручки (%), рентабельность, burn rate. | ЭТАП 3 - ДЕБАТЫ: ОПТИМИСТ (найди аргументы ЗА со ссылками на источники с датами), ПЕССИМИСТ (найди аргументы ПРОТИВ со ссылками), СКЕПТИК (проверь цифры из аргументов выше, укажи противоречия). | ЭТАП 4 - ВЫВОД: Инвестировать/Не инвестировать/Нужно больше данных. Уровень уверенности (0-100%). Ключевые факторы решения. Что проверить дополнительно. — получишь структурированный анализ в 4 блока: таблицу фактов с датами, пересчитанные метрики, дебаты с перекрёстными ссылками, взвешенный вывод с указанием неясных мест.
Источник: The New Quant: A Survey of Large Language Models in Financial Prediction and Trading
ArXiv ID: 2510.05533 | Сгенерировано: 2026-01-11 23:53

Концепты не выделены.

📖 Простыми словами

RAG + Multi-Agent Principles: как финансовые LLM-системы работают с фактами и проверкой

arXiv: 2510.05533

LLM в финансах — это не про магическое предсказание курса биткоина, а про превращение хаоса новостей и отчетов в сухие торговые сигналы. Корень в том, что модели научились работать как высокоскоростные аналитики, которые переваривают тысячи страниц текста за секунды. Но есть нюанс: нейронка не «чувствует» рынок, она просто ищет статистические связи между словами. Если в отчете компании мелькает позитивный вайб, модель конвертирует этот лингвистический шум в конкретное действие — купить или продать.

Это как посадить стажера-отличника разбирать почту: он невероятно быстр, но если не дать ему четкую инструкцию, он начнет фантазировать и путать даты. Представь, что ты просишь его проанализировать график за прошлый год, а он случайно подсматривает в завтрашние новости. В трейдинге это называется заглядыванием в будущее, и это верный способ слить депозит в реальности, имея красивые цифры на бумаге. Без жестких рамок модель превращается в уверенного в себе лжеца, который галлюцинирует фактами ради красивого ответа.

Чтобы эта машина не сломалась, исследователи выделили конкретные методы: цепочка рассуждений (Chain-of-Thought), заставляющая модель объяснять логику шага за шагом, и внешние инструменты для расчетов. Нельзя давать LLM считать в уме — она лажает в арифметике. Нужно заставлять её вызывать калькулятор или писать код. Главный рабочий паттерн здесь — проверяемость выводов: каждый торговый сигнал должен быть привязан к конкретной цитате из отчета, а не взят с потолка.

Хотя исследование сфокусировано на акциях и облигациях, принцип универсален для любой сферы, где цена ошибки высока. Эти же методы работают в юриспруденции, медицине или логистике — везде, где важна фактическая точность и нельзя полагаться на творческий полет фантазии алгоритма. Если ты строишь систему, которая должна принимать решения на основе данных, тебе не нужен «креативный» AI, тебе нужен цифровой аудитор, работающий по строгим правилам.

Короче: эпоха, когда нейронки просто «болтали», прошла — наступает эра The New Quant. Главный вывод обзора 50 исследований прост: LLM полезны только тогда, когда их бьют по рукам за галлюцинации и заставляют показывать пруфы. Либо ты внедряешь контроль временных рамок и внешние вычисления, либо твоя модель построит тебе замок из песка, который рассыплется при первой же реальной сделке. Точность важнее интуиции, особенно когда на кону стоят деньги.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с