3,583 papers
arXiv:2506.06015 87 1 июня 2025 г. FREE

О достоинствах обогащения корпусов на основе LLM

КЛЮЧЕВАЯ СУТЬ
Вместо попыток улучшить запросы к LLM, УЛУЧШАЕМ САМИ ДОКУМЕНТЫ заранее. Берем существующие тексты и переписываем их так, чтобы они стали идеальными ответами на конкретные вопросы. LLM создает из исходных документов ЦЕЛЕВЫЕ ВЫЖИМКИ, которые точно попадают в цель при поиске. Главный принцип: опираться только на факты из источников, ничего не придумывать.
Адаптировать под запрос
📌

1. Ключевые аспекты исследования:

Исследование предлагает использовать большие языковые модели (LLM) для улучшения существующих баз знаний (корпусов документов), чтобы поисковые системы и RAG-агенты работали эффективнее. Для этого LLM с помощью специальных промптов переписывает имеющиеся документы или создает новые, концентрированные выжимки из нескольких источников, делая их более "находимыми" для релевантных запросов.

Ключевой результат: Предварительная обработка документов с помощью LLM для повышения их релевантности конкретным запросам значительно улучшает точность и качество ответов в системах, основанных на поиске (RAG).

🔬

2. Объяснение всей сути метода:

Суть метода заключается в проактивной подготовке информации для LLM, а не в пассивном ожидании, что она сама найдет нужные данные.

Представьте, что у вас есть огромная библиотека (корпус документов), и вы отправляете в нее помощника (RAG-систему) с заданием "принеси информацию о X". Помощник может не найти нужную книгу, если ваш запрос "X" сформулирован не так, как заголовок или текст в этой книге. Это называется "проблемой словарного несоответствия".

Исследование предлагает решение: вместо того чтобы менять запросы, давайте "улучшим" сами книги в библиотеке. Мы можем поручить LLM сделать три вещи:

  1. Переписать документ (Document Modification, DM): Взять существующий документ и переписать его так, чтобы он стал идеальным ответом на конкретный запрос. Промпт: "Перепиши этот документ так, чтобы он лучше отвечал на запрос <запрос>".
  2. Сделать целевую выжимку (Query-Biased Summary, 2DS/3DS): Взять два или три документа по теме, извлечь из них только ту информацию, которая относится к запросу, и создать из этого новый, сверхрелевантный и концентрированный документ. Промпт: "Проанализируй <документ 1> и <документ 2>. Создай краткое саммари, сфокусированное исключительно на аспектах, связанных с <запрос>".
  3. Опираться на факты: Важнейшая часть метода — инструкция "не добавлять знания, которых нет в предоставленных документах". Это обеспечивает "верность источнику" (faithfulness) и резко снижает риск галлюцинаций.

В итоге, когда пользователь задаст свой вопрос, RAG-система с гораздо большей вероятностью найдет эти заранее подготовленные, "идеальные" документы и даст на их основе более точный и полный ответ.

📌

3. Анализ практической применимости:

*Прямая применимость:Пользователь может взять шаблоны промптов из исследования (особенно для методов DM и 2DS) и использовать их для своих задач. Например, чтобы получить краткую выжимку из длинной статьи, сфокусированную на конкретном аспекте, или переформулировать собственный текст, чтобы сделать его более ясным и понятным для определенной аудитории. Это отличный инструмент для анализа и синтеза информации.

  • Концептуальная ценность: Исследование дает пользователю две мощные идеи:

    1. LLM как инструмент подготовки контекста: Вместо того чтобы сразу задавать сложный вопрос по большому документу, можно сначала попросить LLM подготовить из этого документа идеальный контекст с помощью промпта из исследования, а уже потом задавать вопросы к этому новому, концентрированному тексту.
    2. Управление "верностью" (faithfulness): Пользователь учится, что для получения фактических, а не выдуманных ответов, нужно явно указывать модели опираться только на предоставленный текст и ничего не додумывать.
  • Потенциал для адаптации: Механизм адаптации прост. Вместо "обогащения корпуса" (задача разработчика), пользователь применяет те же промпты для "обогащения контекста" в рамках одного диалога.

    • Шаг 1: Вы предоставляете LLM один или несколько своих документов (статью, отчет, email).
    • Шаг 2: Вы используете промпт из исследования, чтобы LLM создала из них целевую выжимку: "Сделай саммари следующих текстов, фокусируясь на <ваша цель>".
    • Шаг 3: Вы работаете уже с этим новым, коротким и релевантным текстом, задавая по нему уточняющие вопросы.

🚀

4. Практически пример применения:

# РОЛЬ: Ты — опытный маркетолог-аналитик.

# ЗАДАЧА:

Твоя задача — провести абстрактивную суммаризацию двух фрагментов отзывов от клиентов. Тебе нужно создать единый, краткий и структурированный отчет (в виде буллетов), который освещает **только проблемы и предложения, связанные с процессом регистрации и первого входа в приложение (онбординг)**.

# ОГРАНИЧЕНИЯ:

- Используй ИСКЛЮЧИТЕЛЬНО информацию из предоставленных ниже документов.
- Не добавляй никаких знаний, которых нет в текстах.
- Отчет должен быть написан в деловом стиле, быть четким и лаконичным.

# ЗАПРОС ДЛЯ СУММАРИЗАЦИИ:

"Ключевые проблемы и узкие места в процессе онбординга новых пользователей".

# ДОКУМЕНТ 1 (Отзыв от пользователя Анны):

"В целом, приложение неплохое, много функций. Но регистрация — это был какой-то кошмар. Я трижды вводила пароль, а он говорил, что он не подходит, хотя все требования я соблюла. Потом оказалось, что нужно было подтверждение по почте, но письмо упало в спам, и я ждала его полчаса. Никакой подсказки об этом не было. Зато после регистрации мне понравился финансовый планировщик, очень удобно."

# ДОКУМЕНТ 2 (Отзыв от пользователя Виктора):

## "Начал пользоваться вашим сервисом. Сама идея отличная, но первый опыт был смазан. Форма регистрации слишком длинная, запрашивает кучу ненужных данных сразу. Почему я должен указывать свой рабочий адрес для домашнего таск-трекера? После того как я все заполнил, меня просто выкинуло на главный экран без какого-либо обучения или подсказок. Я минут пять искал, как создать первую задачу. Хотелось бы видеть какой-то краткий туториал или всплывающие подсказки для новичков."

🧠

5. Почему это работает:

Этот промпт эффективен, потому что он в точности реализует метод "query-biased summary" (2DS) из исследования, используя следующие механики:

  1. Фокусировка через запрос (Query-Biased): Конструкция ЗАПРОС ДЛЯ СУММАРИЗАЦИИ: "Ключевые проблемы... в процессе онбординга" действует как мощный фильтр. Она заставляет LLM игнорировать нерелевантную информацию (например, похвалу финансового планировщика от Анны) и концентрироваться только на данных, касающихся регистрации и первого опыта.
  2. Опора на источники (Grounding): Явное указание Используй ИСКЛЮЧИТЕЛЬНО информацию из предоставленных ниже документов и Не добавляй никаких знаний — это прямое применение принципа "faithfulness" из статьи. Это заставляет модель работать в режиме "синтезатора фактов", а не "креативного писателя", что кардинально снижает риск галлюцинаций и выдумок.
  3. Синтез из нескольких источников: Предоставляя два разных документа, мы заставляем модель не просто пересказывать один из них, а находить общие темы и объединять разрозненные факты (проблемы с паролем, письмо в спаме, длинная форма, отсутствие обучения) в единый, структурированный отчет.

📌

6. Другой пример практического применения

# РОЛЬ: Ты — ассистент по планированию путешествий.

# ЗАДАЧА:

Твоя задача — переписать и объединить информацию из двух статей в короткую и практичную заметку для туриста. Заметка должна помочь спланировать один день в Риме, совмещая **исторические достопримечательности и аутентичную уличную еду**.

# ОГРАНИЧЕНИЯ:

- Опирайся только на факты из предоставленных текстов. Не придумывай новые места или блюда.
- Заметка должна быть в формате простого пошагового плана (утро, день, вечер).
- Стиль — дружелюбный и полезный.

# ЗАПРОС ДЛЯ ПЕРЕФОРМУЛИРОВАНИЯ:

"Идеальный день в Риме: история и стрит-фуд".

# ДОКУМЕНТ 1 (Фрагмент статьи "Древний Рим за 48 часов"):

"...Обязательно начните свой день с Колизея, чтобы избежать толп. Билеты лучше покупать онлайн заранее. Рядом находится Римский Форум, на его осмотр уйдет не менее 2-3 часов. Это сердце древней империи, где когда-то принимались судьбоносные решения. Вечером можно прогуляться до Пантеона — храма всех богов, который поражает своим куполом с единственным отверстием..."

# ДОКУМЕНТ 2 (Фрагмент блога "Гастрономический Трастевере"):

## "...Забудьте о туристических ресторанах. Настоящий вкус Рима — на его улочках. В районе Кампо-деи-Фиори по утрам работает рынок, где можно попробовать свежие фрукты. Но главное сокровище — это supplì (суппли), рисовые шарики с моцареллой, которые продают в маленьких лавочках. А в районе Трастевере ищите ларьки с trapizzino — это треугольный кармашек из пиццы с разнообразными начинками, например, с курицей по-каччаторе. Идеальный обед на ходу..."

🧠

7. Объяснение механизма почему этот пример работает.

Этот пример иллюстрирует, как методы из исследования помогают в решении творческих задач по синтезу информации:

  1. Тематический синтез: ЗАПРОС: "Идеальный день в Риме: история и стрит-фуд" заставляет модель не просто пересказать два текста, а создать новую сущность — маршрут, который логически объединяет две разные темы (история из документа 1 и еда из документа 2).
  2. Контекстуальная релевантность: Модель понимает, что "Колизей" и "Форум" — это утренние/дневные активности, а "прогуляться до Пантеона" — вечерняя. Она также понимает, что "суппли" и "трапиццино" — это обеденные опции. Это позволяет ей не просто перечислить факты, а встроить их в логичную временную структуру (утро, день, вечер), как того требует задание.
  3. Повышение "находимости" для пользователя: Итоговый текст гораздо полезнее для туриста, чем две отдельные статьи. Он является "обогащенным" документом, который идеально отвечает на сложный запрос "как совместить историю и еду в Риме". Это микро-версия того, как "обогащение корпуса" из исследования работает в макро-масштабе.

📌

Основные критерии оценки

  • Релевантность техникам промтинга: Да, исследование предоставляет конкретные, готовые к использованию шаблоны промптов для перефразирования и суммаризации текста с привязкой к запросу (методы DM, 2DS, 3DS).
  • Улучшение качества диалоговых ответов: Косвенно. Основная цель — улучшить качество поиска в RAG-системах, что, в свою очередь, ведет к более точным и релевантным ответам. Это не прямое улучшение диалога, а улучшение "сырья" для него.
  • Прямая практическая применимость: Высокая, но требует адаптации. Пользователь не может "обогатить корпус" для ChatGPT, но может использовать предложенные промпты для предварительной обработки своих документов, создания целевых саммари и переформулирования текстов для лучшего понимания моделью.
  • Концептуальная ценность: Очень высокая. Вводит важнейшее понятие "retrievability" (находимость) и "faithfulness" (верность источнику). Помогает понять, что LLM можно использовать не только как "ответчик", но и как "оптимизатор контента" для других систем (или даже для себя в будущем).
  • Новая полезная практика: Работа попадает сразу в несколько кластеров:
    • Кластер 1 (Техники формулирования): Прямо предлагает шаблоны для query-biased summarization.
    • Кластер 5 (Извлечение и структурирование): Методы 2DS и 3DS — это, по сути, продвинутое извлечение и структурирование информации из нескольких источников.
    • Кластер 6 (Контекст и память): Вся работа посвящена подготовке лучшего контекста для RAG-систем.
    • Кластер 7 (Надежность и стабильность): Концепция "faithfulness" и промпты, которые ее повышают (за счет опоры на исходные документы), напрямую работают на снижение галлюцинаций.
  • Чек-лист практичности (+15 баллов): Да, исследование дает готовые конструкции, показывает, как структурировать сложные запросы (объединение нескольких документов), раскрывает неочевидные особенности LLM (способность оптимизировать текст для поиска) и предлагает способы улучшить точность (через "faithfulness").
📌

2 Цифровая оценка полезности

Обоснование оценки (87/100): Оценка очень высокая, так как исследование предоставляет не просто теоретические выкладки, а конкретные, воспроизводимые шаблоны промптов (Fig. 2, 3), которые можно сразу же адаптировать для своих задач. Ключевая ценность — в демонстрации техники "суммаризации с привязкой к запросу" (query-biased summarization). Это мощный инструмент для любого пользователя, работающего с большими объемами текста.

Исследование дает глубокое концептуальное понимание: вместо того чтобы пытаться угадать, как LLM "подумает", можно заранее подготовить для нее информацию в "удобоваримом" виде. Это сдвиг от реактивного подхода ("задал вопрос — получил ответ") к проактивному ("подготовил контекст — получил качественный ответ").

Контраргументы:

  • Почему оценка могла бы быть ниже? Основной сценарий исследования — "обогащение корпуса" (corpus enrichment) — это задача для разработчиков RAG-систем, а не для рядового пользователя. Прямая польза требует от пользователя шага адаптации: понять, что он не может изменить базу данных ChatGPT, но может применить эти же техники к своим документам в рамках одного диалога. Эта неочевидность снижает оценку со 100 до 87.
  • Почему оценка могла бы быть выше? Предложенные промпты для перефразирования и суммаризации из нескольких источников настолько универсальны и эффективны, что их можно считать фундаментальными техниками промт-инжиниринга. Для продвинутого пользователя, который часто работает с анализом текстов, это исследование может быть оценено на 95+, так как оно дает готовый и надежный рабочий инструмент.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с