Исследование представляет систему MARAUS — чат-бота для абитуриентов вьетнамского университета, который использует несколько специализированных LLM-агентов и технологию Retrieval-Augmented Generation (RAG). Вместо того чтобы полагаться на общие знания LLM, система сначала находит релевантную информацию во внутренней базе данных (документы, правила приема), а затем передает ее LLM для генерации точного ответа.
Ключевой результат: Такой подход позволил снизить долю неверных ответов (галлюцинаций) с 15% у стандартной LLM до всего 1.45% и достичь общей точности в 92% на реальных вопросах пользователей.
Суть метода, описанного в исследовании, можно свести к двум ключевым принципам, которые может применить любой пользователь: «Разделяй и властвуй» и «Не доверяй, а предоставляй».
«Разделяй и властвуй» (симуляция Multi-Agent системы): Вместо того чтобы давать LLM одну большую и сложную задачу, система MARAUS разбивает ее на подзадачи и направляет к разным "специалистам" (агентам). Например, один агент ищет информацию, другой — выполняет расчеты, третий — дает рекомендации. Для обычного пользователя это означает, что сложный запрос нужно декомпозировать на несколько последовательных, более простых промптов. Вы не просите "спланируй мне всю поездку", а разбиваете это на шаги: "проанализируй варианты перелета", "рассчитай бюджет", "составь расписание".
«Не доверяй, а предоставляй» (симуляция RAG): Исследование доказывает, что LLM склонны выдумывать факты, если у них нет точных данных. Система MARAUS не полагается на встроенные знания модели. Она сначала ищет нужную информацию в своей базе знаний (правила приема, проходные баллы), а затем вставляет этот текст в промпт как контекст для генерации ответа. Для пользователя это означает: чтобы получить точный ответ о чем-либо (например, анализ документа, суммаризация статьи, ответ на основе правил компании), нужно сначала предоставить этот документ/статью/правила прямо в тексте промпта.
Методика для пользователя: Для решения сложной задачи, требующей точности, сначала найдите всю необходимую фактическую информацию. Затем структурируйте свой промпт так, чтобы сначала предоставить LLM весь этот контекст, а потом дать четкую пошаговую инструкцию, что с этим контекстом нужно сделать, разбив задачу на логические этапы.
Прямая применимость: Низкая, если говорить о создании аналогичной автоматизированной системы. Однако, принципы можно применять вручную в любом чате с LLM. Пользователь может самостоятельно находить информацию и вставлять ее в промпт (ручной RAG), а также разбивать свой запрос на несколько последовательных шагов (ручная декомпозиция).
Концептуальная ценность: Очень высокая. Исследование формирует у пользователя правильную "ментальную модель" работы с LLM для фактических задач:
- LLM — это не база знаний, а процессор языка. Нельзя доверять его памяти, особенно в специфических областях.
- Качество ответа напрямую зависит от качества предоставленного контекста. "Мусор на входе — мусор на выходе".
- Декомпозиция снижает когнитивную нагрузку на модель, позволяя ей решать сложные задачи более надежно и последовательно.
Потенциал для адаптации: Огромный. Метод адаптируется путем симуляции. Вместо автоматического "координатора агентов" выступает сам пользователь, который последовательно дает LLM разные роли и задачи. Вместо автоматического "ретривера" пользователь сам копирует и вставляет релевантный текст в окно чата. Это превращает сложную инженерную концепцию в простую и эффективную методику промптинга.
Представим, что вы хотите спланировать бюджетную поездку на выходные, используя информацию с сайтов, которую вы нашли.
Ты — мой личный ассистент по планированию путешествий. Твоя задача — помочь мне составить бюджетный план поездки в Санкт-Петербург на основе предоставленной информации. Действуй строго по шагам.
**КОНТЕКСТ ДЛЯ АНАЛИЗА:**
**Билеты на поезд "Сапсан":**
- Москва - Санкт-Петербург, 15 ноября, утро: 3500 руб.
- Санкт-Петербург - Москва, 17 ноября, вечер: 4200 руб.
**Варианты проживания (цена за 2 ночи):**
- Отель "Невский Бриз": 8000 руб, завтрак включен.
- Апартаменты на Рубинштейна: 6500 руб, без завтрака.
- Хостел "Друзья": 3000 руб, общая комната.
**Примерные расходы на день:**
- Еда: 1500 руб/день (если без завтрака в отеле), 1000 руб/день (если с завтраком).
- Транспорт (метро/автобус): 300 руб/день.
- Развлечения (музеи, прогулки): 1200 руб/день.
**ЗАДАЧА (выполни по шагам):**
**Шаг 1: Агент-аналитик.**
Проанализируй предоставленный ``. Извлеки все возможные варианты расходов (транспорт, проживание, суточные траты) и представь их в виде списка.
**Шаг 2: Агент-калькулятор.**
Рассчитай полную стоимость поездки для **ТРЕХ** вариантов проживания: Отель, Апартаменты и Хостел. Учти все сопутствующие расходы (еда, транспорт, развлечения) на 2 полных дня.
**Шаг 3: Агент-рекомендатор.**
На основе расчетов из Шага 2, представь итоговую таблицу с тремя вариантами поездки. Для каждого варианта укажи: "Название", "Общая стоимость", "Уровень комфорта (кратко)". Посоветуй самый сбалансированный вариант по цене и комфорту.
Этот промпт работает, потому что он симулирует принципы из исследования MARAUS:
- Ручной RAG: Вместо того чтобы спрашивать "Сколько стоит съездить в Питер?", мы предоставляем точный и ограниченный контекст внутри тегов
. Это заставляет LLM работать только с нашими данными, что полностью исключает галлюцинации о ценах и вариантах. - Декомпозиция задачи (симуляция агентов): Запрос разбит на три четких шага с присвоением ролей ("Агент-аналитик", "Агент-калькулятор"). Это направляет "внимание" модели, заставляя ее сначала извлечь данные, потом посчитать и только в конце сделать выводы. Такой подход предотвращает пропуск шагов и смешивание информации, что часто случается при общем запросе "посчитай мне всё".
Представим, что владелец небольшого интернет-магазина хочет проанализировать отзывы клиентов.
Ты — опытный аналитик клиентского опыта. Твоя цель — структурировать и проанализировать отзывы о нашем продукте "Умный чайник" и дать рекомендации по улучшению. Работай строго на основе предоставленных данных.
**КОНТЕКСТ (ОТЗЫВЫ КЛИЕНТОВ):**
1. **Анна:** "Чайник просто супер! Кипятит воду моментально, и приложение на телефоне очень удобное. Единственный минус — шнур коротковат, пришлось использовать удлинитель."
2. **Виктор:** "Купил вчера. Дизайн отличный, вписался в кухню. Но не могу подключиться к Wi-Fi, инструкция непонятная. Расстроен."
3. **Ольга:** "Пользуюсь уже месяц. Функция поддержания температуры — это гениально! Но цена, конечно, кусается. Думаю, она завышена."
4. **Иван:** "Все хорошо, но приложение иногда вылетает на моем Android. Приходится перезапускать. В остальном — отличный девайс."
**ЗАДАЧА (выполни по шагам):**
**Шаг 1: Агент-классификатор.**
Прочитай все отзывы в ``. Для каждого отзыва определи и выпиши основные положительные моменты (Плюсы) и отрицательные моменты (Минусы).
**Шаг 2: Агент-синтезатор.**
Сгруппируй все упомянутые минусы по категориям (например: "Программное обеспечение", "Конструкция", "Цена", "Документация"). Подсчитай, сколько раз упоминалась каждая категория проблем.
**Шаг 3: Агент-стратег.**
На основе анализа из Шага 2, напиши 3 конкретных и выполнимых рекомендации для команды продукта, чтобы улучшить "Умный чайник". Начинай с самой часто упоминаемой проблемы.
Этот промпт эффективен по тем же причинам, что и предыдущий, но в другом контексте:
- Надежность через RAG: Промпт "заземляет" LLM на конкретных отзывах из блока
. Модель не будет выдумывать несуществующие проблемы или хвалить продукт за то, чего нет в отзывах. Анализ будет строго фактическим. - Глубина анализа через декомпозицию: Задача разбита на логическую цепочку: Классификация -> Синтез -> Стратегия. Это заставляет модель сначала обработать сырые данные (Шаг 1), затем структурировать их (Шаг 2) и только после этого делать выводы и давать рекомендации (Шаг 3). Без такой структуры LLM, скорее всего, выдал бы поверхностный общий пересказ отзывов, упустив важные детали и не сгруппировав проблемы по частоте.
Основные критерии оценки
- A. Релевантность техникам промтинга: Низкая. Исследование описывает архитектуру системы, а не конкретные формулировки промптов для пользователя. Однако оно раскрывает структуру промпта, который система отправляет в LLM, что дает пищу для размышлений.
- B. Улучшение качества диалоговых ответов: Высокая. Вся суть исследования — показать, как их система MARAUS драматически повышает точность (до 92%) и снижает галлюцинации (с 15% до 1.45%).
- C. Прямая практическая применимость: Низкая. Пользователь не может самостоятельно создать мультиагентную RAG-систему. Однако ключевые принципы (предоставление контекста и декомпозиция задачи) можно адаптировать для ручного использования.
- D. Концептуальная ценность: Очень высокая. Исследование наглядно демонстрирует фундаментальные ограничения LLM (ненадёжность в задачах, требующих фактов) и доказывает эффективность двух ключевых стратегий для их преодоления: Retrieval-Augmented Generation (RAG) и декомпозиции задач (Multi-Agent).
- E. Новая полезная практика (кластеры): Работа явно попадает в кластеры #6 (Контекст и память) и #7 (Надежность и стабильность), так как RAG является основной техникой для работы с внешним контекстом с целью снижения галлюцинаций. Также она косвенно затрагивает кластер #5 (Извлечение и структурирование) через "агента по расчету баллов".
- Чек-лист практичности (+15 баллов): Да, исследование показывает, как структурировать сложные запросы (через декомпозицию), раскрывает неочевидные особенности LLM (высокий уровень галлюцинаций на специфических задачах) и предлагает способы улучшить точность. Бонус в 15 баллов применен.
Цифровая оценка полезности
Базовая оценка исследования для обычного пользователя была бы в районе 55-60 баллов из-за высокой технической сложности и отсутствия прямых инструкций по написанию промптов. Однако его концептуальная ценность огромна. Оно на реальном примере доказывает, почему нельзя просто "спросить у ChatGPT" о чем-то важном и фактическом, и какие два принципа лежат в основе получения надежных ответов. Применение бонуса в 15 баллов за практические концепции поднимает оценку до 72.
Контраргументы (почему оценка могла быть ниже): * Исследование описывает сложную инженерную систему (Multi-Agent RAG). 99% пользователей никогда не будут ее создавать. Прямая польза в виде готовых фраз для промптов практически нулевая. * Все выводы сделаны на узкоспециализированной задаче (приемная комиссия во вьетнамском вузе), что может вызывать сомнения в универсальности подходов.
Контраргументы (почему оценка могла быть выше): * Это одно из немногих исследований, которое предоставляет количественные доказательства эффективности RAG и декомпозиции в реальном мире, а не на синтетических тестах. Это фундаментальное знание для любого, кто хочет получать от LLM надежные результаты. * Принципы, лежащие в основе системы, полностью переносимы на ручное промптирование и являются, по сути, "золотым стандартом" для решения сложных задач с помощью LLM. Понимание этих принципов важнее, чем заучивание отдельных фраз.
