arXiv:2510.15682 80 17 окт. 2025 г. FREE

Multi-Agent RAG для научных вопросов: декомпозиция + inline цитаты

КЛЮЧЕВАЯ СУТЬ

Обнаружено: стандартный RAG (поиск + генерация ответа) ищет по всему сложному вопросу сразу. Спрашиваешь «Что такое квантовые вычисления и как их применяют в криптографии?» — модель находит статьи где упоминаются оба термина, но не обязательно в нужном контексте. Результат: поверхностный поиск, нет прозрачности откуда взялся каждый факт. SQuAI позволяет получать ответы на сложные научные вопросы с проверяемыми источниками к каждому утверждению — видишь не просто текст, а конкретные цитаты [1][2] из статей. Фишка: вопрос разбивается на независимые подвопросы («Что такое X?» + «Как X применяют?»), для каждого ищутся документы отдельно, потом модель собирает финальный ответ где каждый claim привязан к источнику. Работает на 2.3 млн статей с arXiv — четыре агента вместо одного прохода.

Адаптировать под запрос

⚡

TL;DR

SQuAI — система из четырёх агентов для ответов на научные вопросы на базе 2.3 млн статей с arXiv. Работает так: первый агент разбивает сложный вопрос на подвопросы, второй генерирует черновики ответов для каждого найденного документа, третий фильтрует нерелевантные, четвёртый синтезирует итоговый ответ с точными цитатами к каждому утверждению.

Главная проблема: стандартный RAG обрабатывает вопрос целиком за один проход — это даёт поверхностный поиск для сложных вопросов вроде "Что такое квантовые вычисления и как их применяют в криптографии?". Модель ищет по всему вопросу сразу → находит документы где упоминаются оба термина, но необязательно в нужном контексте → генерирует ответ без проверки что каждый claim действительно подтверждён источником. Плюс нет прозрачности — пользователь не видит откуда взялся каждый факт.

Как SQuAI решает: Разбивает вопрос на независимые части ("Что такое квантовые вычисления?" + "Как квантовые вычисления применяют в криптографии?"), ищет документы для каждой отдельно, оценивает релевантность каждого документа по специальной формуле (не просто "да/нет", а с учётом уверенности модели), и собирает финальный ответ где каждое утверждение помечено ссылкой формата [1][2] с цитатами конкретных предложений из источников.

🔬

Схема метода

ШАГ 1 (Decomposer): Сложный вопрос → список подвопросов
ШАГ 2 (Hybrid Retrieval): Для каждого подвопроса → top-K документов (комбинация BM25 + dense embeddings)
ШАГ 3 (Generator): Для каждого документа → Q-A-E триплет (question-answer-evidence)
ШАГ 4 (Judge): Оценка релевантности каждого Q-A-E → фильтрация нерелевантных (через динамический порог)
ШАГ 5 (Answer Generator): Синтез финального ответа из оставшихся документов → inline цитаты [X] + citation context

Все шаги требуют отдельных запросов к API, это не один промпт. Между шагами передаются структурированные данные.

🚀

Пример применения

Задача: Ты аналитик в венчурном фонде и изучаешь новое направление — квантовые вычисления для защиты данных. Нужен краткий обзор: что это такое, какие есть криптографические применения, насколько это перспективно. Вопрос: "Что такое квантовые вычисления и как их применяют в криптографии?"

Как бы работал SQuAI-подход вручную в Claude/ChatGPT:

Промпт (шаг 1 — декомпозиция):

Вопрос: "Что такое квантовые вычисления и как их применяют в криптографии?"

Разбей этот вопрос на независимые подвопросы, чтобы искать информацию отдельно по каждому аспекту.

Промпт (шаг 2 — поиск, имитируем вручную):

Подвопрос 1: "Что такое квантовые вычисления?"
Найди 3-5 релевантных источников (статьи, обзоры).

Подвопрос 2: "Как квантовые вычисления применяют в криптографии?"
Найди 3-5 релевантных источников.

Промпт (шаг 3 — синтез с цитатами):

У меня есть [перечень источников по обоим подвопросам].

Напиши связный ответ на исходный вопрос. Требования:
- Каждое фактическое утверждение должно сопровождаться цитатой формата [1], [2] и т.д.
- После ответа приведи список цитат с конкретными предложениями из источников, подтверждающими каждое утверждение.
- Если утверждение не подтверждается источниками — не включай его в ответ.

Результат: Модель выдаст ответ вроде: "Квантовые вычисления используют кубиты для выполнения операций на основе квантовой механики [1]. Основное применение в криптографии — взлом классических алгоритмов шифрования через алгоритм Шора [2][3]."

После ответа — список цитат:

[1] Источник X, стр. Y: "Quantum computing leverages qubits to perform..."
[2] Источник Z, стр. W: "Shor's algorithm enables quantum computers to factor..."

🧠

Почему это работает

Проблема 1: Сложный вопрос → размытый поиск. Когда в вопросе несколько независимых аспектов ("что такое X" + "как X применяют"), обычный RAG ищет документы где упоминаются оба термина, но не обязательно в нужном контексте. Результат — релевантность падает.

Решение: Декомпозиция вопроса на подвопросы. Каждый подвопрос фокусируется на одном аспекте → поиск точнее → больше релевантных документов → лучшее покрытие темы.

Проблема 2: LLM галлюцинирует без явного контроля. Модель может сгенерировать правдоподобный, но ошибочный факт, особенно если источники противоречивы или неполны. Без цитат пользователь не может проверить.

Решение: Inline цитаты + citation context. Каждое утверждение явно привязано к источнику → можно проверить → меньше галлюцинаций. Плюс модель вынуждена работать только с тем, что есть в документах, а не домысливать.

Проблема 3: Абстракты vs full-text. Полные тексты научных статей огромные (десятки страниц) → модель теряется в деталях → релевантность контекста падает. Абстракты короче → фокус на главном → меньше шума.

Рычаги управления (если адаптируешь вручную):

Число подвопросов: Сложный вопрос → больше подвопросов (до 5-7), простой → можно без декомпозиции
Число источников на подвопрос: Простая тема (например, определение) →

📋 Дайджест исследования

Ключевая суть

Принцип работы

Не обрабатывай сложный вопрос за один проход — разбивай на подвопросы и синтезируй с цитатами. Процесс из 4 шагов: 1. Декомпозиция: сложный вопрос → список простых подвопросов (каждый про один аспект) 2. Поиск: для каждого подвопроса → top-K документов (комбинация классического поиска + векторные embeddings) 3. Фильтрация: каждый документ оценивается на релевантность → отсекаются нерелевантные ДО генерации 4. Синтез: модель собирает ответ только из оставшихся документов, каждое утверждение помечается цитатой [X] Важно: между шагами передаются структурированные данные. Это не один промпт, а цепочка запросов.

Почему работает

Проблема обычного подхода: вопрос с двумя аспектами («что такое X» + «как X применяют») → модель ищет где упоминаются оба термина → находит статьи где они есть, но в разных контекстах → релевантность проседает. Декомпозиция фокусирует поиск. Каждый подвопрос про один аспект → поиск точнее → больше релевантных документов → лучше покрытие темы. Прикол: разбить на части = найти в 2-3 раза больше полезных источников, чем искать по всему вопросу сразу. Inline цитаты режут галлюцинации. Требование «каждое утверждение = цитата [1]» вынуждает модель работать только с тем что есть в документах. Нет подтверждения в источнике — утверждение не попадает в ответ. Плюс пользователь видит откуда факт → может проверить → доверие к ответу выше.

Когда применять

Аналитика и исследования → конкретно для сложных вопросов с несколькими независимыми аспектами (определение термина + применение + контекст), особенно когда нужна прозрачность источников. Примеры задач: - Венчурный аналитик изучает новое направление (квантовые вычисления + криптография) - Литературный обзор для диссертации (теория + методы + результаты предыдущих работ) - Due diligence стартапа (технология + рынок + конкуренты) НЕ подходит для: простых вопросов с одним аспектом («Что такое квантовый компьютер?») — декомпозиция избыточна, достаточно обычного RAG.

Мини-рецепт

1. Разбей вопрос на подвопросы: Сложный вопрос «Что такое X и как его применяют в Y?» → два независимых: «Что такое X?» + «Как X применяют в Y?». Каждый подвопрос фокусируется на одном аспекте.

2. Найди источники для каждого подвопроса отдельно: Не ищи по всему вопросу сразу. Для «Что такое X?» — статьи с определениями и теорией. Для «Как применяют?» — кейсы и примеры применения.

3. Синтезируй с требованием цитат: Промпт модели:

Напиши ответ на исходный вопрос. ТРЕБОВАНИЕ: каждое фактическое утверждение сопровождается цитатой формата [1], [2]. После ответа — список цитат с конкретными предложениями из источников. Если утверждение не подтверждается — не включай его.

4. Проверь цитаты: Открой источники по номерам [1][2] — убедись что цитата действительно подтверждает утверждение, а не вырвана из контекста.

Примеры

[ПЛОХО] : Расскажи про квантовые вычисления в криптографии — модель ищет по всему вопросу сразу, находит статьи где оба термина упоминаются, но не обязательно в связи друг с другом. Ответ размазанный, нет источников к утверждениям.

[ХОРОШО] : Разбиваешь вопрос:

Подвопрос 1: Что такое квантовые вычисления? Найди 3-5 источников с определениями.

Подвопрос 2: Как квантовые вычисления применяют в криптографии? Найди 3-5 кейсов применения.

Потом синтез:

Напиши связный ответ. Каждое утверждение = цитата [1][2]. Список цитат после ответа с конкретными предложениями из источников.

Результат: модель выдаёт

«Квантовые вычисления используют кубиты для операций на основе квантовой механики [1]. Основное применение в криптографии — взлом классических алгоритмов через алгоритм Шора [2][3]»

+ список источников где [1] [2] [3] — конкретные предложения из статей. Можешь проверить каждое утверждение.

Источник: SQuAI: Scientific Question-Answering with Multi-Agent Retrieval-Augmented Generation

ArXiv ID: 2510.15682 | Сгенерировано: 2026-01-11 23:51

Концепты не выделены.

📖 Простыми словами

Multi-Agent RAG для научных вопросов: декомпозиция + inline цитаты

arXiv: 2510.15682

Обычные нейронки в научных вопросах ведут себя как студенты-прогульщики: они либо галлюцинируют на уверенных щах, либо выдают общие фразы, которые невозможно проверить. Система SQuAI меняет саму механику работы с данными, превращая поиск по 2.3 миллионам статей с arXiv в работу слаженного аналитического отдела. Вместо того чтобы пытаться угадать ответ целиком, нейронка сначала декомпозирует сложный запрос на мелкие детали, а затем заставляет разных агентов перепроверять друг друга на каждом этапе.

Это как если бы ты пришел в огромную библиотеку и вместо одного сонного библиотекаря нанял четверых профи. Первый разбивает твой сумбурный вопрос на четкий план поиска, второй бегает между стеллажами и выписывает факты, третий — самый душный — выкидывает всё, что не относится к делу, а четвертый собирает из этого стройный отчет. Формально работа та же, но результат на порядок точнее, потому что каждый занят своим делом и не пытается объять необъятное.

Внутри системы пашут четыре конкретных метода: Decomposer дробит вопрос на подвопросы, чтобы поиск не мазал мимо цели, а RAG-генератор создает черновики ответов под каждый найденный документ. Самое важное происходит на этапе фильтрации: система безжалостно отсеивает мусор, оставляя только твердые факты. Финальный агент синтезирует ответ, где каждое утверждение подкреплено ссылкой на конкретную статью. Если нейронка говорит, что квантовый алгоритм работает именно так, она буквально тычет пальцем в источник.

Хотя систему гоняли на суровых научных статьях, принцип универсален. Эту же логику многоагентного поиска можно натянуть на юридические документы, медицинские протоколы или огромные корпоративные базы знаний. Везде, где цена ошибки высока, а данных слишком много для одного контекстного окна, многоагентный RAG становится единственным адекватным решением. Это переход от простого поиска по ключевым словам к полноценному интеллектуальному синтезу.

Короче: эпоха, когда мы верили ChatGPT на слово, заканчивается. Будущее за системами вроде SQuAI, которые не просто «болтают», а работают как жесткий фильтр для знаний. 4 специализированных агента и тотальная цитируемость — вот новый стандарт для работы со сложной инфой. Либо ты строишь такие цепочки, либо продолжаешь разгребать галлюцинации и мусор в ответах обычных чат-ботов.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

Выберите модель ИИ:

Ваш запрос:

0 / 2000

~0.5-2 N-токенов ~10-30с

~0.3-1 N-токенов ~5-15с

Меню

Multi-Agent RAG для научных вопросов: декомпозиция + inline цитаты

TL;DR

Схема метода

Пример применения

Почему это работает

Ключевая суть

Принцип работы

Почему работает

Когда применять

Мини-рецепт

Примеры

Multi-Agent RAG для научных вопросов: декомпозиция + inline цитаты

Работа с исследованием

Результат адаптации