3,583 papers
arXiv:2506.07116 95 1 июня 2025 г. FREE

BRIGHT Обновление BRIHT ориентированного эталона с MARCUS многоагентным набором инструментов для очистки RAG.

КЛЮЧЕВАЯ СУТЬ
Не заставляйте LLM работать с ГРЯЗНЫМИ ДАННЫМИ. Перед анализом любого длинного текста его нужно очистить от мусора и разделить по смыслу. Стандартное копирование с веб-страниц создает "шум" (меню, реклама, разорванные куски), что сильно ухудшает способность модели к рассуждению.
Адаптировать под запрос
📌

1. Ключевые аспекты исследования:

Исследование показывает, что стандартные методы копирования текста с веб-страниц создают "шум" (меню, реклама) и разрывают текст на нелогичные куски, что сильно ухудшает способность LLM к рассуждению и поиску ответов. Авторы создали систему MARCUS, которая с помощью других LLM автоматически очищает текст от "мусора" и склеивает его в семантически целостные блоки.

Ключевой результат: Качественная предварительная очистка и структурирование исходного текста важнее, чем многие другие ухищрения, и может повысить точность ответов на 20-30% и более.

🔬

2. Объяснение всей сути метода:

Суть метода MARCUS для обычного пользователя сводится к простому, но мощному принципу:не заставляйте LLM работать с грязными данными. Прежде чем задать вопрос по длинному тексту (статье, отчету, пользовательскому соглашению), этот текст нужно подготовить.

Подготовка состоит из двух этапов, которые можно выполнить как вручную, так и с помощью самой LLM:

  1. Очистка (Clean): Этот этап аналогичен работе агентов SafeClean и FastClean. Ваша задача — убрать из текста все, что не является его основной сутью.

    • Что удалять: Навигационные меню, "хлебные крошки", рекламные баннеры, ссылки "Связаться с нами", колонтитулы, кнопки "Поделиться", комментарии пользователей и прочий интерфейсный "мусор".
    • Что оставлять: Заголовки, основной текст, списки, цитаты, данные в таблицах.
  2. Семантическое разделение (Split): Этот этап выполняет агент Splitter. Вместо того чтобы делить текст на куски по 3000 символов, его нужно делить по смыслу.

    • Как делать: Читайте текст и ставьте разделитель (например, --- или [СЛЕДУЮЩИЙ БЛОК]) там, где явно меняется тема. Например, раздел "Введение" — это один блок, "История вопроса" — второй, "Результаты эксперимента" — третий.
    • Цель: Каждый блок должен быть самодостаточным и логически завершенным. Это помогает LLM лучше сфокусировать свое "внимание" внутри одного смыслового фрагмента.

В итоге, вместо того чтобы "скармливать" LLM хаотичный текст, вы даете ей четко структурированный и очищенный документ, что кардинально повышает качество анализа.

📌

3. Анализ практической применимости:

*Прямая применимость:Пользователь может открыть скопированный с сайта текст в любом редакторе и вручную удалить лишние строки. Более продвинутый способ — использовать саму LLM как инструмент очистки, дав ей промпт, основанный на шаблонах из исследования (см. пример ниже). Это превращает двухэтапную задачу в один промпт.

  • Концептуальная ценность: Главный инсайт — LLM не человек, она не умеет интуитивно игнорировать мусор. Любой лишний текст (токен) в контексте является для нее таким же сигналом, как и полезная информация. Это учит пользователя относиться к контексту, который он предоставляет, как к самому важному элементу промпта.

  • Потенциал для адаптации: Метод легко адаптируется для любой задачи, где нужно анализировать текст. Суммирование статей, ответы на вопросы по договору, извлечение данных из отчета — во всех случаях предварительная очистка и структурирование контекста по методологии MARCUS даст значительный прирост качества. Механизм адаптации — это применение двух шагов (Clean и Split) к любому вашему исходному тексту перед основной задачей.


🚀

4. Практически пример применения:

Представим, что вы хотите написать пост для своего блога о последних трендах в дизайне интерьеров, основываясь на длинной и "замусоренной" статье с профильного сайта.

**Роль:** Ты — ИИ-ассистент, эксперт по обработке и структурированию информации.
**Задача:** Подготовить текст статьи для дальнейшего анализа. Тебе нужно очистить его от всего лишнего и разбить на логические, семантически связанные блоки.

**Инструкции по обработке (Метод MARCUS):**

1. **Очистка:** Полностью удали из текста любой "шум":

- Навигационные меню, ссылки (e.g., "Главная", "Портфолио", "Контакты").
- Рекламные вставки и призывы к действию.
- Информацию об авторе, дату публикации, кнопки "Поделиться".
- Комментарии и раздел "похожие статьи".
- Оставь только заголовки и основной текст статьи.
2. **Семантическое разделение:**

- Раздели очищенный текст на логические блоки. Новый блок должен начинаться только тогда, когда в тексте происходит явная смена темы (например, переход от обсуждения цветовых палитр к материалам отделки).
- Каждый блок должен быть максимально длинным, но при этом семантически целостным.
- Озаглавь каждый блок: "Блок A:", "Блок B:", "Блок C:" и так далее.

**Исходный текст для обработки:**
<СЮДА ВСТАВИТЬ СКОПИРОВАННЫЙ ТЕКСТ СТАТЬИ СО ВСЕМ МУСОРОМ>

🧠

5. Почему это работает:

Этот промпт работает за счет применения ключевых принципов из исследования MARCUS:

  • Декомпозиция задачи: Мы не просим модель сразу написать пост. Сначала мы заставляем ее выступить в роли "чистильщика" данных. Это снижает когнитивную нагрузку на LLM.
  • Устранение шума: Инструкция Очистка заставляет модель отфильтровать нерелевантные токены, которые могли бы сбить ее с толку или увести рассуждения в сторону (например, она могла бы начать анализировать текст из рекламного баннера).
  • Создание семантической когерентности: Инструкция Семантическое разделение заставляет модель сгруппировать информацию по смыслу. Когда на следующем шаге вы попросите сделать выводы по "Блоку Б", модель будет работать с целостным, сфокусированным фрагментом контекста, что резко повышает точность и релевантность ответа. Это прямое воплощение работы агента Splitter.

📌

6. Другой пример практического применения

Задача: Быстро понять основные условия возврата товара из длинного и запутанного раздела "Условия использования" на сайте интернет-магазина.

**Роль:** Ты — внимательный юридический ассистент, который помогает обычным людям понять сложные тексты.
**Задача:** Проанализировать текст правил возврата товара, извлечь из него только самую суть и представить в понятном виде.

**Инструкции по обработке (Метод MARCUS):**

1. **Очистка:** Проигнорируй и не включай в ответ:

- Общие юридические формулировки и преамбулы.
- Ссылки на другие разделы сайта.
- Любую информацию, не относящуюся напрямую к процессу и условиям возврата.
2. **Семантическое извлечение и структурирование:**

- Найди в тексте информацию, отвечающую на конкретные вопросы ниже.
- Сгруппируй ответы по этим темам. Если информации по какому-то пункту нет, так и напиши.

**Ключевые темы для извлечения:**
- **Сроки возврата:** Сколько дней есть у покупателя на возврат?
- **Состояние товара:** Каким должен быть товар для возврата (упаковка, использование)?
- **Необходимые документы:** Что нужно предоставить (чек, заявление)?
- **Процесс возврата:** Куда обращаться (магазин, почта)?
- **Возврат денег:** Как и когда возвращаются деньги?
- **Исключения:** Какие товары вернуть нельзя?

**Исходный текст правил:**
<СЮДА ВСТАВИТЬ ПОЛНЫЙ ТЕКСТ РАЗДЕЛА "УСЛОВИЯ ВОЗВРАТА">

🧠

7. Объяснение механизма почему этот пример работает.

Этот пример является более сфокусированной адаптацией метода MARCUS:

  • Очистка через игнорирование: Вместо физического удаления "шума", мы даем модели инструкцию его игнорировать, фокусируясь только на релевантной информации. Это выполняет ту же функцию, что и агент FastClean, — отсекает все лишнее.
  • Семантическое разделение через извлечение: Вместо того чтобы просто делить текст на блоки, мы задаем структуру этих блоков заранее (Ключевые темы для извлечения). Это заставляет модель не просто делить текст по смыслу, а активно искать и группировать конкретные семантические единицы (условия о сроках, о документах и т.д.).
  • Повышение надежности: Такой подход снижает вероятность того, что LLM "пропустит" важное условие или неправильно его интерпретирует, так как ее "внимание" направлено на поиск конкретных ответов. Это напрямую решает проблему "фрагментации семантических единиц", о которой говорится в исследовании.

📌

Основные критерии оценки

  • A. Релевантность техникам промтинга: Да. Исследование предоставляет готовые шаблоны промптов для очистки и семантической сегментации текста (Приложение А), что является прямой техникой промптинга.
  • B. Улучшение качества диалоговых ответов: Да. Основной результат исследования — значительное улучшение качества ответов в RAG-системах после обработки данных, что напрямую транслируется в более точные и релевантные ответы чат-ботов.
  • C. Прямая практическая применимость: Да. Пользователь может взять принципы и даже готовые промпты из исследования и применить их для предварительной обработки текстов, которые он подает в LLM. Это не требует программирования.
  • D. Концептуальная ценность: Очень высокая. Исследование наглядно доказывает фундаментальный принцип: "мусор на входе — мусор на выходе". Оно формирует у пользователя "ментальную модель", согласно которой качество и структура подаваемого в LLM контекста не менее важны, чем сам вопрос.
  • E. Новая полезная практика (кластеризация): Работа идеально попадает в несколько кластеров:
    • Кластер 3 (Оптимизация структуры промптов): Удаление "шума" (меню, реклама) и форматирование — это и есть оптимизация.
    • Кластер 6 (Контекст и память): Исследование полностью посвящено тому, как правильно готовить контекст (длинные тексты) для подачи в модель, чтобы она его лучше "запомнила" и использовала.
    • Кластер 7 (Надежность и стабильность): Очистка входных данных снижает риск того, что модель "споткнется" о нерелевантную информацию и начнет галлюцинировать.
  • Чек-лист практичности (+15 баллов): Да, работа дает готовые фразы, показывает, как структурировать сложные запросы (через подготовку контекста), и раскрывает неочевидные особенности поведения LLM (чувствительность к "шуму" и фрагментации).
📌

2 Цифровая оценка полезности

Исследование получает 95 баллов (80 базовых + 15 за практичность), так как оно раскрывает фундаментальный и чрезвычайно практичный аспект работы с LLM, который часто упускается из виду: подготовку контекста. Выводы можно применять немедленно для повышения качества ответов при работе с любыми документами.

Аргументы за оценку:

* Прямое действие: Пользователь может скопировать промпты из Приложения А и использовать их, чтобы с помощью одной LLM (например, GPT-4) подготовить текст для анализа другой LLM или в следующем шаге диалога.
* Концептуальный прорыв для пользователя: Объясняет, почему простой копипаст статьи с сайта и вопрос "сделай саммари" часто дают плохой результат. Причина — в "мусоре" (меню, ссылки, реклама) и нелогичных разрывах текста.
* Универсальность: Принцип "очищай и семантически разделяй" работает для любых моделей и любых задач, связанных с анализом предоставленного текста (RAG).

Контраргументы (почему оценка могла быть ниже):

* Требует дополнительного шага: Метод не является "однострочной магией", которую можно добавить в конец промпта. Он требует от пользователя выполнения предварительной работы — обработки исходного текста. Это может показаться сложным для совсем новичков.
* Академический фокус: Статья написана для исследователей и посвящена созданию бенчмарка. Пользователю нужно "вытащить" практическую пользу из академического контекста, что не всегда очевидно.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с