3,583 papers
arXiv:2508.03553 68 5 авг. 2025 г. FREE

MultiRAG: Руководствуемая знаниями структура для снижения галлюцинаций в генерации с дополненным поиском из множества источников

КЛЮЧЕВАЯ СУТЬ
Обнаружено: LLM катастрофически теряют точность, когда в контексте появляются противоречия из разных источников — модель просто «усредняет» конфликтующие факты или выдумывает третий вариант. MultiRAG позволяет синтезировать точные ответы из противоречивых данных без галлюцинаций. Механика: заставить модель сначала выявить конфликты, затем применить правила фильтрации, и только потом генерировать ответ — вместо одного запроса со всеми источниками используется chain of prompts с явным разрешением противоречий на промежуточном шаге.
Адаптировать под запрос
📌

Ключевые аспекты исследования:

Исследование решает проблему, когда LLM, получив информацию из нескольких источников (например, из разных статей), начинает путаться и генерировать "галлюцинации" из-за противоречий в этих данных. Авторы предлагают фреймворк MultiRAG, который сначала строит "граф знаний" для связи фактов из разных источников, а затем использует специальный механизм оценки "доверия", чтобы отфильтровать ненадежную и противоречивую информацию.

Ключевой результат: Предварительная обработка и фильтрация информации из множества источников на основе их связности и надежности значительно снижает количество ошибок и галлюцинаций в итоговом ответе LLM.


🔬

Объяснение всей сути метода:

Представьте, что вы — руководитель, которому нужно составить отчет на основе информации от трех разных отделов.

  • Стандартный подход (обычный RAG): Вы просто берете отчеты от всех трех отделов, сваливаете их в одну кучу и просите ассистента быстро написать итоговый документ. Ассистент видит, что в одном отчете указана прибыль $100, в другом — $120, а в третьем — $90. Не зная, кому верить, он может либо выбрать случайное число, либо усреднить, либо вообще выдумать что-то свое. Результат — галлюцинация.

  • Подход MultiRAG: Вы действуете как опытный аналитик.

    1. "Построение графа знаний" (Multi-source Line Graph Construction): Вы не просто читаете отчеты, а берете большой лист бумаги и выписываете ключевые факты из каждого: "Отдел А -> Прибыль $100", "Отдел Б -> Прибыль $120", "Источник данных Отдела А — фин. система", "Источник данных Отдела Б — опрос клиентов". Вы рисуете связи между этими фактами.
    2. "Проверка на доверие" (Multi-level Confidence Computing): Вы смотрите на свой "граф" и видите конфликт по прибыли. Вы применяете правило: "Данные из финансовой системы (Отдел А) имеют наивысший приоритет". Вы мысленно "вычеркиваете" менее надежные данные от Отдела Б.
    3. "Генерация ответа": Теперь вы даете своему ассистенту не всю кучу противоречивых отчетов, а только отфильтрованную, проверенную и согласованную информацию. На ее основе он пишет точный и правдивый итоговый документ.

Суть для пользователя: Нельзя просто "скармливать" LLM множество противоречивых текстов и ожидать качественного синтеза. Эффективный промпт-инжиниринг для таких задач должен имитировать процесс MultiRAG: сначала заставить модель проанализировать и выявить конфликты, затем дать ей критерии для выбора "правды", и только потом просить сгенерировать итоговый ответ.


📌

Анализ практической применимости:

  • Прямая применимость: Нулевая. Пользователь не может запустить MultiRAG в ChatGPT. Это серверная технология.

  • Концептуальная ценность: Очень высокая. Исследование дает пользователю ключевую "ментальную модель": LLM — это не мудрец, а мощный, но наивный синтезатор. Если исходные данные противоречивы, результат будет мусорным. Это учит пользователя относиться к контексту, который он предоставляет LLM, как к базе данных, требующей чистоты и согласованности.

  • Потенциал для адаптации: Огромный. Пользователь может воспроизвести логику MultiRAG с помощью многоэтапного промптинга (Chain of Prompts). Вместо одного большого запроса, задача разбивается на три шага:

    1. Шаг 1 (Анализ и извлечение): Дать LLM все источники и попросить извлечь ключевые факты и, что самое важное, явно указать на все найденные противоречия.
    2. Шаг 2 (Фильтрация и разрешение конфликтов): Дать LLM инструкцию, как разрешить эти конфликты (например, "Приоритет имеет источник №1" или "Используй более свежую дату").
    3. Шаг 3 (Синтез): Попросить LLM сгенерировать финальный ответ, основываясь только на проверенной и согласованной информации из предыдущего шага.

🚀

Практически пример применения:

Представим, что вы маркетолог и хотите проанализировать отзывы на новый продукт, чтобы составить сводку для руководства. У вас есть три источника: выгрузка с сайта, отзывы из соцсетей и расшифровка фокус-группы.

Ты — опытный маркетолог-аналитик. Твоя задача — проанализировать отзывы о нашем новом протеиновом батончике "Энергия+" из трех разных источников и подготовить краткую сводку для руководства.

Действуй строго по шагам.

**Источники:**

<Источник_1: Отзывы с официального сайта>
- "Отличный вкус, но слишком дорогой. Цена 150 рублей за штуку — это перебор."
- "Лучший батончик на рынке! Вкус шоколада просто супер. Покупаю каждую неделю."
- "Состав хороший, но текстура как резина. Неприятно жевать."


<Источник_2: Комментарии из соцсетей>
- "Цена в 120 рублей вполне оправдана за такое качество. #энергияплюс"
- "Не понял восторгов, на вкус как мыло. Больше не куплю."
- "Очень сладкий, хотелось бы поменьше сахара."


<Источник_3: Расшифровка фокус-группы>
- Участник А: "Вкус приятный, но не выдающийся. Я бы оценил на 7/10."
- Участник Б: "Цена в 150 рублей кажется мне завышенной, я бы ожидал около 100-110 рублей."
- Участник В: "Текстура отличная, плотная, сытная. Не крошится."


---

**ШАГ 1: Извлечение фактов и выявление противоречий**

Проанализируй все три источника. Создай таблицу в формате Markdown со следующими колонками: "Аспект" (например, Цена, Вкус, Текстура), "Позитивные мнения", "Негативные мнения", "Источник".

После таблицы создай отдельный раздел **"Найденные противоречия"** и четко перечисли все конфликтующие факты, которые ты нашел (например, разная цена, противоположные мнения о вкусе/текстуре).

**ШАГ 2: Разрешение противоречий**

Теперь я даю тебе критерии для определения "правды". Для нашей сводки мы считаем, что:
1.  **Цена:** Официальный сайт (Источник 1) является самым точным источником.
2.  **Текстура и Вкус:** Мнения из фокус-группы (Источник 3) являются наиболее взвешенными и приоритетными, так как они были получены в контролируемых условиях.

Основываясь на этих правилах, создай итоговую "согласованную" картину мнений.

**ШАГ 3: Генерация итоговой сводки**

Используя **только согласованную информацию из ШАГА 2**, напиши краткую (3-4 предложения) и сбалансированную сводку для руководства об отзывах на продукт.
🧠

Почему это работает:

Этот промпт имитирует фреймворк MultiRAG, разбивая сложную задачу синтеза на управляемые этапы:

  1. Имитация "Knowledge Aggregation": На ШАГЕ 1 мы заставляем LLM не просто читать текст, а структурировать его, извлекая сущности ("Аспект") и их атрибуты ("Мнения"). Требование явно указать "Найденные противоречия" — это прямой аналог выявления конфликтов в графе знаний.
  2. Имитация "Confidence Computing": На ШАГЕ 2 мы выступаем в роли "механизма оценки доверия". Мы даем LLM четкие правила (Приоритет имеет источник №1), по которым он должен отфильтровать "шум" (неверная цена из соцсетей) и выбрать наиболее надежные данные (мнение фокус-группы о вкусе).
  3. Надежная генерация: ШАГ 3 гарантирует, что финальный ответ будет основан не на хаотичной смеси всех мнений, а на предварительно очищенном и верифицированном наборе фактов, что резко снижает риск галлюцинаций и повышает точность сводки.

📌

Другой пример практического применения

Задача: спланировать поездку в Стамбул, используя информацию из блога, официального сайта достопримечательностей и письма друга.

Ты — эксперт по планированию путешествий. Мне нужна помощь в создании реалистичного плана на 1 день в Стамбуле.

Действуй пошагово.

**Источники информации:**

<Источник_А: Блог "Стамбул за 3 дня">
"Начните день с Голубой мечети, вход бесплатный, открыта всегда. Затем идите во дворец Топкапы, он рядом. Билет стоит около 30 евро. Вечером обязательно прокатитесь на пароме по Босфору."


<Источник_Б: Официальный сайт Министерства культуры и туризма Турции (muze.gov.tr)>
- "Дворец Топкапы: часы работы 09:00 - 18:00. Вторник — выходной. Стоимость комплексного билета (Дворец + Гарем) — 1500 TRY."
- "Голубая мечеть (Султанахмет): вход для туристов закрыт во время молитв (5 раз в день). Посещение бесплатное."


<Источник_В: Письмо от друга>
"Привет! Обязательно сходи в Топкапы, но учти, что там огромные очереди, лучше приходить к открытию. Билет стоил где-то 50 долларов, когда я был. И не трать время на Голубую мечеть, внутри все в лесах из-за реставрации, ничего не увидишь."


---

**ШАГ 1: Сбор данных и выявление конфликтов**

Проанализируй все три источника. Извлеки всю полезную информацию по каждой достопримечательности (часы работы, цена, советы).

Затем создай список **"Конфликты и противоречия"**, где четко укажи все расхождения в данных (например, разная цена билета в Топкапы, разные мнения о посещении Голубой мечети, разные часы работы).

**ШАГ 2: Установка приоритетов и разрешение конфликтов**

Для составления плана мы будем доверять источникам в следующем порядке:
1.  **Наивысший приоритет:** Официальный сайт (Источник Б) — для фактов (цены, часы работы, выходные).
2.  **Средний приоритет:** Письмо от друга (Источник В) — для практических советов (очереди, реставрация).
3.  **Низкий приоритет:** Блог (Источник А) — для общей идеи маршрута, но его факты нужно перепроверять.

Основываясь на этих правилах, сформулируй финальный, проверенный набор фактов для планирования.

**ШАГ 3: Создание итогового плана**

Используя **только проверенную информацию из ШАГА 2**, составь почасовой план на один день в Стамбуле, учитывая время на дорогу, очереди и перерывы на обед. Обоснуй, почему ты предлагаешь именно такой маршрут.
🧠

Объяснение механизма почему этот пример работает.

Этот промпт работает по той же логике, что и предыдущий, адаптируя подход MultiRAG к задаче планирования:

  1. Выявление проблем: На ШАГЕ 1 LLM вынужден не просто компилировать информацию, а стать "детективом", который ищет несоответствия. Он обнаружит конфликт в цене билета (30 евро, 1500 TRY, 50 долларов), в часах работы мечети ("всегда" против "закрыта на время молитв") и в целесообразности ее посещения.
  2. Принятие решений на основе правил: ШАГ 2 превращает LLM из простого генератора текста в систему, принимающую решения. Вместо того чтобы смешивать все цены в одну, он следует четкой инструкции: "доверять официальному сайту". Это позволяет отбросить устаревшую или неточную информацию из блога и письма друга.
  3. Генерация надежного результата: В итоге, на ШАГЕ 3 LLM строит план не на основе фантазий или неверных данных, а на основе проверенной информации. Он посоветует прийти в Топкапы к открытию во избежание очередей (совет друга), купить билет за 1500 TRY (официальный сайт) и, возможно, пропустить Голубую мечеть из-за реставрации (совет друга), уточнив время молитв (официальный сайт). Это делает итоговый план практически полезным и реалистичным.
📌

Оценка полезности: 68

📌

Основные критерии оценки

  • A. Релевантность техникам промтинга: Низкая. Исследование описывает архитектуру системы (фреймворк MultiRAG), а не конкретные формулировки промптов для пользователя.
  • B. Улучшение качества диалоговых ответов: Высокая. Основная цель исследования — снижение галлюцинаций и повышение точности ответов при работе с несколькими источниками, что напрямую влияет на качество.
  • C. Прямая практическая применимость: Очень низкая. Пользователь не может реализовать "multi-source line graphs" или "multi-level confidence calculation" в обычном чате. Это метод для разработчиков RAG-систем.
  • D. Концептуальная ценность: Очень высокая. Исследование блестяще подсвечивает фундаментальную проблему LLM: они плохо справляются с противоречивой информацией из нескольких источников. Это знание критически важно для любого пользователя, который пытается использовать LLM для анализа или синтеза данных.
  • E. Новая полезная практика (кластеризация): Работа попадает в кластеры #6 (Контекст и память) и #7 (Надежность и стабильность), так как описывает продвинутый метод RAG для повышения надежности ответов. Также косвенно затрагивает #2 (Поведенческие закономерности LLM), объясняя, почему LLM "галлюцинируют" при работе с противоречивым контекстом.
  • Чек-лист практичности (+15 баллов): Да, исследование раскрывает неочевидные особенности поведения LLM (путаница от множества источников) и предлагает концептуальный способ улучшить consistency ответов.
📌

Цифровая оценка полезности

Оценка 68 отражает огромную концептуальную ценность для продвинутого пользователя, но почти нулевую прямую применимость "из коробки". Это исследование не дает готовых фраз, но вооружает пользователя мощным пониманием того, почему LLM терпят неудачу в сложных задачах синтеза и как можно адаптировать свой подход к промптингу, чтобы имитировать логику MultiRAG.

Аргументы за более высокую оценку (>70): * Концептуальное понимание, которое дает эта статья, может кардинально изменить подход пользователя к работе со сложными запросами. Осознание того, что LLM нужно "помогать" разбираться с противоречиями в источниках, — это переход на новый уровень промпт-инжиниринга. Это знание более ценно, чем знание одной конкретной фразы-триггера.

Аргументы за более низкую оценку (<60): * Статья на 100% ориентирована на разработчиков. Обычный пользователь не имеет инструментов для реализации описанного метода. Разрыв между теорией (как работает MultiRAG) и практикой (что напечатать в чате) слишком велик, и польза сводится к общему знанию, а не к конкретному навыку.


Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с