3,583 papers
arXiv:2507.11272 72 15 июля 2025 г. FREE

15% галлюцинаций у стандартной LLM — 1.

КЛЮЧЕВАЯ СУТЬ
15% галлюцинаций у стандартной LLM — 1.45% после одного изменения в подходе. Никакого дообучения, никакого программирования. Метод позволяет получать точные ответы на фактические вопросы — даже когда у модели нет нужных данных в памяти. Фишка: перестань спрашивать модель что она знает — скопируй нужный документ прямо в промпт. LLM не база знаний, а процессор языка. Дашь ей реальный текст — будет читать. Не дашь — будет выдумывать с умным видом. Плюс раздели задачу на шаги с разными ролями: каждый шаг решает одно, а не всё сразу.
Адаптировать под запрос

Исследование представляет систему MARAUS — чат-бота для абитуриентов вьетнамского университета, который использует несколько специализированных LLM-агентов и технологию Retrieval-Augmented Generation (RAG). Вместо того чтобы полагаться на общие знания LLM, система сначала находит релевантную информацию во внутренней базе данных (документы, правила приема), а затем передает ее LLM для генерации точного ответа.

Ключевой результат: Такой подход позволил снизить долю неверных ответов (галлюцинаций) с 15% у стандартной LLM до всего 1.45% и достичь общей точности в 92% на реальных вопросах пользователей.

Суть метода, описанного в исследовании, можно свести к двум ключевым принципам, которые может применить любой пользователь: «Разделяй и властвуй» и «Не доверяй, а предоставляй».

  1. «Разделяй и властвуй» (симуляция Multi-Agent системы): Вместо того чтобы давать LLM одну большую и сложную задачу, система MARAUS разбивает ее на подзадачи и направляет к разным "специалистам" (агентам). Например, один агент ищет информацию, другой — выполняет расчеты, третий — дает рекомендации. Для обычного пользователя это означает, что сложный запрос нужно декомпозировать на несколько последовательных, более простых промптов. Вы не просите "спланируй мне всю поездку", а разбиваете это на шаги: "проанализируй варианты перелета", "рассчитай бюджет", "составь расписание".

  2. «Не доверяй, а предоставляй» (симуляция RAG): Исследование доказывает, что LLM склонны выдумывать факты, если у них нет точных данных. Система MARAUS не полагается на встроенные знания модели. Она сначала ищет нужную информацию в своей базе знаний (правила приема, проходные баллы), а затем вставляет этот текст в промпт как контекст для генерации ответа. Для пользователя это означает: чтобы получить точный ответ о чем-либо (например, анализ документа, суммаризация статьи, ответ на основе правил компании), нужно сначала предоставить этот документ/статью/правила прямо в тексте промпта.

Методика для пользователя: Для решения сложной задачи, требующей точности, сначала найдите всю необходимую фактическую информацию. Затем структурируйте свой промпт так, чтобы сначала предоставить LLM весь этот контекст, а потом дать четкую пошаговую инструкцию, что с этим контекстом нужно сделать, разбив задачу на логические этапы.

  • Прямая применимость: Низкая, если говорить о создании аналогичной автоматизированной системы. Однако, принципы можно применять вручную в любом чате с LLM. Пользователь может самостоятельно находить информацию и вставлять ее в промпт (ручной RAG), а также разбивать свой запрос на несколько последовательных шагов (ручная декомпозиция).

  • Концептуальная ценность: Очень высокая. Исследование формирует у пользователя правильную "ментальную модель" работы с LLM для фактических задач:

    1. LLM — это не база знаний, а процессор языка. Нельзя доверять его памяти, особенно в специфических областях.
    2. Качество ответа напрямую зависит от качества предоставленного контекста. "Мусор на входе — мусор на выходе".
    3. Декомпозиция снижает когнитивную нагрузку на модель, позволяя ей решать сложные задачи более надежно и последовательно.
  • Потенциал для адаптации: Огромный. Метод адаптируется путем симуляции. Вместо автоматического "координатора агентов" выступает сам пользователь, который последовательно дает LLM разные роли и задачи. Вместо автоматического "ретривера" пользователь сам копирует и вставляет релевантный текст в окно чата. Это превращает сложную инженерную концепцию в простую и эффективную методику промптинга.

Представим, что вы хотите спланировать бюджетную поездку на выходные, используя информацию с сайтов, которую вы нашли.

Ты — мой личный ассистент по планированию путешествий. Твоя задача — помочь мне составить бюджетный план поездки в Санкт-Петербург на основе предоставленной информации. Действуй строго по шагам.

**КОНТЕКСТ ДЛЯ АНАЛИЗА:**

**Билеты на поезд "Сапсан":**
- Москва - Санкт-Петербург, 15 ноября, утро: 3500 руб.
- Санкт-Петербург - Москва, 17 ноября, вечер: 4200 руб.

**Варианты проживания (цена за 2 ночи):**
- Отель "Невский Бриз": 8000 руб, завтрак включен.
- Апартаменты на Рубинштейна: 6500 руб, без завтрака.
- Хостел "Друзья": 3000 руб, общая комната.

**Примерные расходы на день:**
- Еда: 1500 руб/день (если без завтрака в отеле), 1000 руб/день (если с завтраком).
- Транспорт (метро/автобус): 300 руб/день.
- Развлечения (музеи, прогулки): 1200 руб/день.


**ЗАДАЧА (выполни по шагам):**

**Шаг 1: Агент-аналитик.**
Проанализируй предоставленный ``. Извлеки все возможные варианты расходов (транспорт, проживание, суточные траты) и представь их в виде списка.

**Шаг 2: Агент-калькулятор.**
Рассчитай полную стоимость поездки для **ТРЕХ** вариантов проживания: Отель, Апартаменты и Хостел. Учти все сопутствующие расходы (еда, транспорт, развлечения) на 2 полных дня.

**Шаг 3: Агент-рекомендатор.**
На основе расчетов из Шага 2, представь итоговую таблицу с тремя вариантами поездки. Для каждого варианта укажи: "Название", "Общая стоимость", "Уровень комфорта (кратко)". Посоветуй самый сбалансированный вариант по цене и комфорту.

Этот промпт работает, потому что он симулирует принципы из исследования MARAUS:

  1. Ручной RAG: Вместо того чтобы спрашивать "Сколько стоит съездить в Питер?", мы предоставляем точный и ограниченный контекст внутри тегов . Это заставляет LLM работать только с нашими данными, что полностью исключает галлюцинации о ценах и вариантах.
  2. Декомпозиция задачи (симуляция агентов): Запрос разбит на три четких шага с присвоением ролей ("Агент-аналитик", "Агент-калькулятор"). Это направляет "внимание" модели, заставляя ее сначала извлечь данные, потом посчитать и только в конце сделать выводы. Такой подход предотвращает пропуск шагов и смешивание информации, что часто случается при общем запросе "посчитай мне всё".

Представим, что владелец небольшого интернет-магазина хочет проанализировать отзывы клиентов.

Ты — опытный аналитик клиентского опыта. Твоя цель — структурировать и проанализировать отзывы о нашем продукте "Умный чайник" и дать рекомендации по улучшению. Работай строго на основе предоставленных данных.

**КОНТЕКСТ (ОТЗЫВЫ КЛИЕНТОВ):**

1.  **Анна:** "Чайник просто супер! Кипятит воду моментально, и приложение на телефоне очень удобное. Единственный минус — шнур коротковат, пришлось использовать удлинитель."
2.  **Виктор:** "Купил вчера. Дизайн отличный, вписался в кухню. Но не могу подключиться к Wi-Fi, инструкция непонятная. Расстроен."
3.  **Ольга:** "Пользуюсь уже месяц. Функция поддержания температуры — это гениально! Но цена, конечно, кусается. Думаю, она завышена."
4.  **Иван:** "Все хорошо, но приложение иногда вылетает на моем Android. Приходится перезапускать. В остальном — отличный девайс."


**ЗАДАЧА (выполни по шагам):**

**Шаг 1: Агент-классификатор.**
Прочитай все отзывы в ``. Для каждого отзыва определи и выпиши основные положительные моменты (Плюсы) и отрицательные моменты (Минусы).

**Шаг 2: Агент-синтезатор.**
Сгруппируй все упомянутые минусы по категориям (например: "Программное обеспечение", "Конструкция", "Цена", "Документация"). Подсчитай, сколько раз упоминалась каждая категория проблем.

**Шаг 3: Агент-стратег.**
На основе анализа из Шага 2, напиши 3 конкретных и выполнимых рекомендации для команды продукта, чтобы улучшить "Умный чайник". Начинай с самой часто упоминаемой проблемы.

Этот промпт эффективен по тем же причинам, что и предыдущий, но в другом контексте:

  1. Надежность через RAG: Промпт "заземляет" LLM на конкретных отзывах из блока . Модель не будет выдумывать несуществующие проблемы или хвалить продукт за то, чего нет в отзывах. Анализ будет строго фактическим.
  2. Глубина анализа через декомпозицию: Задача разбита на логическую цепочку: Классификация -> Синтез -> Стратегия. Это заставляет модель сначала обработать сырые данные (Шаг 1), затем структурировать их (Шаг 2) и только после этого делать выводы и давать рекомендации (Шаг 3). Без такой структуры LLM, скорее всего, выдал бы поверхностный общий пересказ отзывов, упустив важные детали и не сгруппировав проблемы по частоте.
📌

Основные критерии оценки

  • A. Релевантность техникам промтинга: Низкая. Исследование описывает архитектуру системы, а не конкретные формулировки промптов для пользователя. Однако оно раскрывает структуру промпта, который система отправляет в LLM, что дает пищу для размышлений.
  • B. Улучшение качества диалоговых ответов: Высокая. Вся суть исследования — показать, как их система MARAUS драматически повышает точность (до 92%) и снижает галлюцинации (с 15% до 1.45%).
  • C. Прямая практическая применимость: Низкая. Пользователь не может самостоятельно создать мультиагентную RAG-систему. Однако ключевые принципы (предоставление контекста и декомпозиция задачи) можно адаптировать для ручного использования.
  • D. Концептуальная ценность: Очень высокая. Исследование наглядно демонстрирует фундаментальные ограничения LLM (ненадёжность в задачах, требующих фактов) и доказывает эффективность двух ключевых стратегий для их преодоления: Retrieval-Augmented Generation (RAG) и декомпозиции задач (Multi-Agent).
  • E. Новая полезная практика (кластеры): Работа явно попадает в кластеры #6 (Контекст и память) и #7 (Надежность и стабильность), так как RAG является основной техникой для работы с внешним контекстом с целью снижения галлюцинаций. Также она косвенно затрагивает кластер #5 (Извлечение и структурирование) через "агента по расчету баллов".
  • Чек-лист практичности (+15 баллов): Да, исследование показывает, как структурировать сложные запросы (через декомпозицию), раскрывает неочевидные особенности LLM (высокий уровень галлюцинаций на специфических задачах) и предлагает способы улучшить точность. Бонус в 15 баллов применен.
📌

Цифровая оценка полезности

Базовая оценка исследования для обычного пользователя была бы в районе 55-60 баллов из-за высокой технической сложности и отсутствия прямых инструкций по написанию промптов. Однако его концептуальная ценность огромна. Оно на реальном примере доказывает, почему нельзя просто "спросить у ChatGPT" о чем-то важном и фактическом, и какие два принципа лежат в основе получения надежных ответов. Применение бонуса в 15 баллов за практические концепции поднимает оценку до 72.

Контраргументы (почему оценка могла быть ниже): * Исследование описывает сложную инженерную систему (Multi-Agent RAG). 99% пользователей никогда не будут ее создавать. Прямая польза в виде готовых фраз для промптов практически нулевая. * Все выводы сделаны на узкоспециализированной задаче (приемная комиссия во вьетнамском вузе), что может вызывать сомнения в универсальности подходов.

Контраргументы (почему оценка могла быть выше): * Это одно из немногих исследований, которое предоставляет количественные доказательства эффективности RAG и декомпозиции в реальном мире, а не на синтетических тестах. Это фундаментальное знание для любого, кто хочет получать от LLM надежные результаты. * Принципы, лежащие в основе системы, полностью переносимы на ручное промптирование и являются, по сути, "золотым стандартом" для решения сложных задач с помощью LLM. Понимание этих принципов важнее, чем заучивание отдельных фраз.


📋 Дайджест исследования

Ключевая суть

15% галлюцинаций у стандартной LLM — 1.45% после одного изменения в подходе. Никакого дообучения, никакого программирования. Метод позволяет получать точные ответы на фактические вопросы — даже когда у модели нет нужных данных в памяти. Фишка: перестань спрашивать модель что она знает — скопируй нужный документ прямо в промпт. LLM не база знаний, а процессор языка. Дашь ей реальный текст — будет читать. Не дашь — будет выдумывать с умным видом. Плюс раздели задачу на шаги с разными ролями: каждый шаг решает одно, а не всё сразу.

Принцип работы

LLM — не Гугл с ответами на все вопросы. Это продвинутый редактор текста. Дашь плохой исходник — получишь мусор, но поданный уверенно. Два правила. Первое: найди факты сам, потом дай модели. Не 'что ты знаешь о правилах приёма?' — а 'вот правила приёма, проверь меня по ним'. Второе: не проси сделать всё разом. 'Спланируй поездку' — плохо. 'Шаг 1: извлеки варианты. Шаг 2: посчитай. Шаг 3: порекомендуй' — хорошо. Каждый шаг — одна роль, одна задача.

Почему работает

Модель выдумывает не потому что глупая. Она обязана отвечать — такова её природа. Спросишь про проходные баллы — скажет что-нибудь правдоподобное. Правда или нет — неважно, главное звучит убедительно. Когда вставляешь реальный документ в промпт — модель переключается с режима 'угадывания' на режим 'чтения'. Это буквально другой режим работы. Декомпозиция на шаги снижает нагрузку: модель не держит в голове 10 задач одновременно, а решает одну. Отсюда результат — точность 92% на реальных вопросах пользователей против стандартных ~70%.

Когда применять

Фактические задачи → анализ документов, ответы по конкретным данным компании, расчёты по известным правилам, проверка соответствия требованиям. Особенно хорошо когда есть конкретные цифры, условия, регламенты — всё, что можно скопировать и вставить. НЕ подходит для: брейнсторминга, творческих задач, случаев когда широта знаний модели — ценность, а не риск. Здесь ограничение контекстом только навредит.

Мини-рецепт

1. Найди факты сам: не надейся что LLM знает нужные данные — скопируй документ, страницу сайта, правила, отзывы, таблицу.
2. Оберни в контекст: вставь текст в промпт через блок КОНТЕКСТ: или теги ... — это визуально отделяет данные от задания.
3. Раздели задачу на последовательные шаги: опиши что нужно делать по порядку — сначала извлечь, потом посчитать, потом рекомендовать. Не смешивай шаги.
4. Дай ролевое название каждому шагу: 'Шаг 1 (Аналитик)', 'Шаг 2 (Калькулятор)', 'Шаг 3 (Стратег)'. Модель точнее следует роли, когда она названа явно.

Примеры

[ПЛОХО] : Какие условия поступления на менеджмент в 2025 году и подхожу ли я с баллами 85, 90 и 78?
[ХОРОШО] : КОНТЕКСТ: [сюда вставь скопированный текст с официальной страницы условий поступления] Шаг 1 (Аналитик): Извлеки все требования к поступающим из контекста выше. Только то, что там написано. Шаг 2 (Проверка): Мои баллы — математика 85, русский 90, обществознание 78. Соответствую ли я минимальным требованиям по каждому пункту? Шаг 3 (Рекомендация): Что мне нужно улучшить или на что обратить внимание при подаче документов?
Источник: An Empirical Study of Multi-Agent RAG for Real-World University Admissions Counseling
ArXiv ID: 2507.11272 | Сгенерировано: 2026-03-02 16:54

Концепты не выделены.

📖 Простыми словами

Эмпирическое исследование многоагентной RAG для консультирования по приему в университеты в реальных условиях

arXiv: 2507.11272

Суть в том, что обычный поиск по документам (RAG) часто захлебывается, когда вопрос становится сложным и многослойным. Вместо того чтобы просто выдергивать куски текста, система MARAUS превращает процесс в консилиум спецов. Один агент планирует маршрут, второй проверяет факты, третий критикует слабые места. Это работает на уровне разделения когнитивной нагрузки: LLM перестает пытаться быть «мастером на все руки» в одном окне и начинает делегировать задачи узким профилям, что на корню рубит галлюцинации.

Это как если бы ты пришел в МФЦ, где сидит один замученный сотрудник, который пытается одновременно оформить паспорт, выдать справку о несудимости и объяснить правила парковки. Он неизбежно начнет тупить и путать данные. Мультиагентный подход — это когда тебя ведут по разным окошкам, где каждый профи знает свою зону ответственности от и до. Формально времени тратится больше, но на выходе ты получаешь чистый результат, а не набор случайных фактов, перемешанных в кашу.

Что реально тащит эту систему: иерархическое планирование (сначала строим скелет ответа, потом мясо), динамический поиск (агенты сами решают, когда им не хватает данных) и перекрестная проверка. В исследовании на вопросах о поступлении в вузы это дало прирост точности на 25% по сравнению с обычными чат-ботами. Если стандартный RAG просто выдает цитату из брошюры, то MARAUS сопоставляет дедлайны, требования к языку и наличие общежитий, проверяя, не противоречат ли эти данные друг другу.

Тестировали всё это на адских вопросах про университетское консультирование, но принцип универсален. Эта схема идеально ложится на любую сферу, где цена ошибки высока, а данных — гора: от юридического аудита и медицинских протоколов до сложного финансового планирования. Везде, где нужно не просто «найти текст», а синтезировать решение из пяти разных источников, мультиагентная структура съедает классический поиск на завтрак. SEO-оптимизация контента уходит в прошлое, на смену приходит архитектура смыслов.

Короче: если твоя задача сложнее, чем «найди рецепт борща», забудь про одиночные промпты. Будущее за сетями специализированных агентов, которые умеют спорить друг с другом и проверять источники. Это дороже в плане токенов, зато на выходе ты получаешь не уверенный бред нейронки, а выверенный ответ. MARAUS доказал: один в поле не воин, даже если этот один — самая мощная языковая модель в мире.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с