3,583 papers
arXiv:2508.17862 65 25 авг. 2025 г. FREE

Метод генерации с использованием больших моделей и обратной связи по поиску для улучшения памяти

КЛЮЧЕВАЯ СУТЬ
Обнаружено: LLM катастрофически проваливают сложные вопросы, потому что пытаются найти всю информацию за один раз — отсюда неполные ответы и галлюцинации. RFM-RAG позволяет получать точные ответы на многоступенчатые вопросы (типа «Кто мать режиссера фильма X?»), которые требуют сбора информации из разных источников. Система работает как детектив: делает запрос → складывает факты в «папку дела» → анализирует чего не хватает → делает новый, целевой запрос. Результат: динамический пул доказательств накапливает контекст итеративно, вместо провальной попытки найти всё сразу.
Адаптировать под запрос
📌

Ключевые аспекты исследования:

Исследование показывает, что стандартные RAG-системы (которые ищут информацию для ответа) часто ошибаются в сложных вопросах, потому что ищут информацию только один раз. Авторы предлагают метод RFM-RAG, который работает как детектив: он итеративно ищет информацию, складывает найденные "улики" в общую "папку дела" (динамический пул доказательств), анализирует, чего не хватает для ответа, и делает новые, более точные запросы, пока картина не станет полной.

Ключевой результат: Итеративный сбор и анализ информации с постоянной оценкой ее достаточности дает значительно более точные ответы на сложные вопросы, чем однократный поиск.


🔬

Объяснение всей сути метода:

Суть метода RFM-RAG в том, чтобы превратить одноразовый поиск информации в управляемый, многошаговый процесс. Вместо того чтобы задать вопрос и надеяться, что LLM найдет все нужные факты за один раз, система делает следующее:

  1. Начальный поиск: Получает первоначальный вопрос от пользователя и делает первый, самый общий, поиск информации.
  2. Создание "Памяти" (Evidence Pool): Всю найденную релевантную информацию система не просто скармливает LLM, а складывает в специальное хранилище — "пул доказательств". Это как рабочая область или доска с фактами у следователя.
  3. Анализ пробелов и Оценка: Специальный компонент (R-Feedback Model) "смотрит" на собранные факты и на исходный вопрос и решает: "Достаточно ли этой информации для полного ответа?". Одновременно система анализирует, какие важные сущности из вопроса еще не раскрыты в "пуле доказательств".
  4. Формирование нового запроса: Если информации недостаточно, система генерирует новый, очень конкретный поисковый запрос, нацеленный именно на закрытие "пробела в знаниях". Например, если в вопросе "Кто мать режиссера фильма X?", а система нашла только имя режиссера, новый запрос будет "мать [имя режиссера]".
  5. Повторение цикла: Система возвращается к шагу 1 с новым, уточненным запросом, добавляет найденное в "пул доказательств" и снова анализирует полноту.
  6. Финальный ответ: Когда система решает, что информации достаточно, она передает LLM исходный вопрос и весь накопленный "пул доказательств" для генерации исчерпывающего ответа.

Для обычного пользователя это означает, что нельзя ожидать от LLM решения сложной задачи в один шаг. Вместо этого нужно вручную симулировать этот процесс: задавать последовательность уточняющих вопросов, накапливая контекст в диалоге, и только в конце просить модель синтезировать финальный ответ.


📌

Анализ практической применимости:

  • Прямая применимость: Нулевая. Пользователь в интерфейсе ChatGPT не может запустить итеративный RAG с фидбэк-моделью. Это чисто системная архитектура.

  • Концептуальная ценность: Очень высокая. Исследование дает пользователю ключевую идею: "Думай как система". Оно объясняет, что для сложных задач (например, "составь план путешествия по Японии на 2 недели для семьи с детьми с бюджетом $5000, избегая туристических ловушек") один промпт обречен на провал. Нужно разбить задачу на подзадачи и решать их итеративно, используя чат как "динамический пул доказательств".

  • Потенциал для адаптации: Высокий. Пользователь может легко адаптировать этот подход, выступая в роли "R-Feedback Model" и генератора новых запросов.

    • Механизм адаптации:
      1. Шаг 1 (Decomposition): Разбейте свой сложный вопрос на серию более простых под-вопросов.
      2. Шаг 2 (Iterative Querying): Задайте первый, самый общий вопрос.
      3. Шаг 3 (Manual Feedback): Прочитайте ответ и определите, какой информации не хватает для полной картины (это и есть "обнаружение пробелов в знаниях").
      4. Шаг 4 (Refined Query): Сформулируйте следующий промпт так, чтобы он целенаправленно закрывал этот пробел.
      5. Шаг 5 (Synthesis): Когда вы собрали все необходимые "улики" в окне чата, дайте финальную команду: "Отлично, теперь на основе всего нашего диалога, пожалуйста, составь итоговый [документ/план/ответ]".

🚀

Практически пример применения:

### Роль и Цель

**Ты:** Опытный маркетолог-стратег.
**Моя цель:** Разработать базовую SMM-стратегию для продвижения нового онлайн-курса по фотографии для начинающих.

---
### Шаг 1: Сбор общей информации (Первая итерация)

Мой курс рассчитан на абсолютных новичков, которые хотят научиться делать красивые фото на свой смартфон.

**Твоя задача:** Предложи 3-4 основные социальные сети, которые лучше всего подойдут для продвижения такого курса, и кратко объясни, почему. Не нужно углубляться в детали, просто назови платформы и их ключевые преимущества для моей задачи.

> *[Пользователь ждет ответа LLM, который, скорее всего, предложит Instagram, TikTok, возможно, Facebook или Pinterest]*

---
### Шаг 2: Анализ пробелов и уточняющий запрос (Вторая итерация)

*Предположим, LLM предложил Instagram и TikTok.*

Отлично, Instagram и TikTok звучат логично. Но в твоем ответе не хватает конкретики по контенту. Это мой "пробел в знаниях".

**Твоя задача:** Для каждой из этих двух платформ (Instagram и TikTok) предложи по 3 конкретных формата контента, которые помогут продемонстрировать ценность курса и вовлечь аудиторию. Например: "короткие видео 'до/после'", "разбор ошибок подписчиков" и т.д.

> *[Пользователь снова ждет ответа, получая уже более детальную информацию]*

---
### Шаг 3: Финальный синтез (Итоговая генерация)

Прекрасно. Мы определили платформы (Instagram, TikTok) и форматы контента для них.

**Твоя финальная задача:** Теперь, основываясь на **всей нашей предыдущей переписке**, составь структурированный контент-план на первую неделю продвижения. Представь его в виде таблицы с колонками: `День`, `Платформа`, `Формат контента`, `Тема/Идея поста`.
🧠

Почему это работает:

Этот промпт работает, потому что он вручную симулирует метод RFM-RAG, где пользователь выполняет роль "R-Feedback Model":

  1. Итеративный подход: Вместо одного гигантского промпта "Напиши SMM-стратегию" мы используем три последовательных шага. Это снижает когнитивную нагрузку на модель и позволяет ей фокусироваться на конкретной подзадаче на каждом этапе.
  2. Создание "Evidence Pool": Контекст диалога (ответы на Шаге 1 и Шаге 2) становится тем самым "пулом доказательств". К Шагу 3 у модели уже есть вся необходимая информация для генерации качественного финального ответа.
  3. Обнаружение "пробелов в знаниях": Во втором промпте пользователь явно указывает, чего не хватило в первом ответе ("...в твоем ответе не хватает конкретики по контенту"). Это прямая аналогия с механизмом обнаружения пробелов в исследовании.
  4. Целевой запрос: Второй промпт не повторяет первый, а целенаправленно "бьет" в обнаруженный пробел, запрашивая конкретные форматы контента.
  5. Финальный синтез: Последний промпт прямо указывает модели использовать весь предыдущий диалог для создания итогового артефакта (контент-плана), что является аналогом генерации ответа на основе полного "пула доказательств".

📌

Другой пример практического применения

### Роль и Цель

**Ты:** Опытный диетолог и фитнес-консультант.
**Моя цель:** Составить персонализированный план питания на 3 дня для снижения веса.

---
### Шаг 1: Сбор базовой информации (Первая итерация)

Я хочу составить план питания. Мои данные: мужчина, 35 лет, 95 кг, 180 см, офисная работа (низкая активность). Есть аллергия на арахис.

**Твоя задача:** Рассчитай мою примерную суточную норму калорий для плавного похудения (дефицит около 15-20%) и предложи базовое распределение БЖУ (белки, жиры, углеводы) в процентах.

> *[Пользователь ждет ответа с конкретными цифрами, например, 2000 ккал и распределение 40/30/30]*

---
### Шаг 2: Анализ пробелов и уточняющий запрос (Вторая итерация)

Спасибо, с калориями и БЖУ понятно. Теперь нужно наполнить этот рацион продуктами. Мой "пробел в знаниях" — это конкретные блюда, которые я могу готовить. Я не люблю тратить на готовку больше 30 минут.

**Твоя задача:** Исходя из рассчитанной нормы калорий и БЖУ, предложи по 3-4 варианта **быстрых** (до 30 мин) блюд для завтрака, обеда и ужина. Учитывай мою аллергию на арахис.

> *[Пользователь получает список конкретных, быстрых в приготовлении блюд]*

---
### Шаг 3: Финальный синтез (Итоговая генерация)

Отлично, у нас есть норма калорий, БЖУ и список подходящих блюд.

**Твоя финальная задача:** Теперь, используя **всю информацию из нашего диалога**, составь подробный план питания на 3 дня в виде таблицы. Колонки: `День`, `Прием пищи`, `Название блюда`, `Примерный вес порции (г)`, `Примерные КБЖУ`. Убедись, что итоговый дневной калораж соответствует норме, которую ты рассчитал в первом шаге.
🧠

Объяснение механизма почему этот пример работает.

Этот пример работает по тому же принципу ручной симуляции RFM-RAG, что и предыдущий:

  1. Декомпозиция сложной задачи: Задача "создай план питания" разбивается на логические подзадачи: а) расчет потребностей, б) подбор блюд, в) составление расписания.
  2. Итеративное накопление контекста ("Evidence Pool"): Первый промпт создает основу — калораж и БЖУ. Второй промпт добавляет в "пул доказательств" конкретные блюда, соответствующие ограничениям (быстро, без арахиса).
  3. Пользователь как "Feedback Model": На втором шаге пользователь явно указывает на пробел ("...нужно наполнить этот рацион продуктами") и вводит новое ограничение (быстрота готовки), направляя следующий шаг "поиска".
  4. Синтез на основе полного контекста: Финальный промпт заставляет модель не просто сгенерировать что-то новое, а собрать воедино все ранее согласованные части: калораж из шага 1 и блюда из шага 2. Это гарантирует, что итоговый план будет персонализированным, релевантным и будет соответствовать всем заданным условиям, что значительно повышает его качество и полезность.
📌

Оценка полезности: 65

📌

Основные критерии оценки

  • A. Релевантность техникам промтинга: Низкая. Исследование описывает архитектуру системы, а не техники формулирования промптов для конечного пользователя. Промпты, которые приводятся в пример (Fig. 3, 4), используются внутри системы для автоматической обработки данных, а не пользователем.
  • B. Улучшение качества диалоговых ответов: Высокая. Весь метод направлен на повышение точности и полноты ответов в сложных вопросах, требующих многоэтапного поиска информации.
  • C. Прямая практическая применимость: Очень низкая. Пользователь не может реализовать этот метод в обычном чат-боте (ChatGPT, Claude). Метод требует создания сложной системы с несколькими компонентами: ретривер, динамический "пул доказательств" (память), отдельная модель для оценки полноты информации (R-Feedback Model) и итерационные циклы. Это архитектура для разработчиков, а не прием для пользователей.
  • D. Концептуальная ценность: Высокая. Исследование блестяще иллюстрирует, почему LLM "из коробки" проваливают сложные вопросы. Оно вводит ментальную модель "итеративного сбора доказательств": вместо одного большого запроса нужно последовательно собирать информацию, выявлять "пробелы в знаниях" и целенаправленно их закрывать. Это очень полезная концепция для любого пользователя.
  • E. Новая полезная практика (кластер): Работа явно попадает в кластеры №6 (Контекст и память) и №7 (Надежность и стабильность). Она предлагает продвинутую стратегию работы с контекстом (динамический пул доказательств) для повышения надежности ответов.
  • Чек-лист практичности (+15 баллов): Да, исследование концептуально показывает, как структурировать сложные запросы (через декомпозицию и итерации) и раскрывает неочевидные особенности поведения LLM (провал одноэтапного RAG). Поэтому добавляем 15 баллов к базовой оценке.
📌

Цифровая оценка полезности

Базовая оценка (40-50) + Бонус за концептуальную ценность и адаптивность (15) = 65.

Оценка 65 ("Интересно, попробую адаптировать") отражает двойственность исследования. С одной стороны, его невозможно применить напрямую. С другой — оно дает мощную концептуальную базу, которую продвинутый пользователь может сымитировать вручную в диалоге с LLM, значительно улучшив качество ответов на сложные вопросы.

Аргументы за более высокую оценку (>70): * Концепция "обнаружения пробелов в знаниях" и их итеративного заполнения — это, по сути, одна из самых мощных мета-стратегий промпт-инжиниринга. Для опытного пользователя, который понимает, как это симулировать вручную, ценность исследования огромна.

Контраргументы (за более низкую оценку <60): * Для "обычного пользователя" статья почти непроходима из-за технического жаргона (cross-encoders, BM25, R-Feedback Model). Практические выводы требуют серьезной "переводческой" работы с академического языка на язык пользовательских практик. Прямой пользы "здесь и сейчас" — ноль.


Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с