3,583 papers
arXiv:2505.18105 65 1 мая 2025 г. FREE

ManuSearch - Демократизация глубокого поиска в больших языковых моделях с помощью прозрачной и открытой многопользовательской системы.

КЛЮЧЕВАЯ СУТЬ
Декомпозиция сложной задачи на простые и последовательный поиск информации по каждой из них значительно повышает точность и полноту ответов LLM, превосходя даже продвинутые коммерческие поисковые системы.
Адаптировать под запрос
📌

1. Ключевые аспекты исследования:

Исследование представляет ManuSearch — систему из трех взаимодействующих LLM-агентов (Планировщик, Интернет-поисковик, Чтец веб-страниц), которая решает сложные вопросы. Вместо того чтобы отвечать на сложный вопрос сразу, система сначала разбивает его на последовательность более простых под-вопросов, ищет ответы на них в интернете, извлекает ключевую информацию и только потом синтезирует финальный развернутый ответ.

Ключевой результат: Декомпозиция сложной задачи на простые и последовательный поиск информации по каждой из них значительно повышает точность и полноту ответов LLM, превосходя даже продвинутые коммерческие поисковые системы.

🔬

2. Объяснение всей сути метода:

Суть метода для обычного пользователя заключается в том, чтобы перестать задавать LLM один большой и сложный вопрос, а вместо этого выступить в роли "менеджера" для модели, вручную имитируя работу агентов из ManuSearch.

Практическая методика, основанная на этом исследовании, выглядит так:

  1. Станьте "Планировщиком": Возьмите свою сложную задачу (например, "спланируй мне 10-дневный отпуск в Италии с бюджетом 2000 евро") и не задавайте ее в лоб. Вместо этого попросите LLM разбить ее на логические шаги. Или сделайте это сами.

    • Пример шагов: 1. Определить основные города для посещения. 2. Рассчитать примерную стоимость перелетов и жилья. 3. Найти варианты недорогих развлечений. 4. Составить маршрут по дням.
  2. Станьте "Поисковиком": Последовательно "прогоняйте" каждый шаг-подзадачу через LLM. Задавайте простые, конкретные вопросы по каждому пункту плана.

    • Пример запросов: "Какие 3 города в Италии лучше всего подходят для первого 10-дневного визита с фокусом на историю и еду?", "Сколько в среднем стоит отель 3* и ужин на двоих в Риме и Флоренции?", "Какие бесплатные музеи или достопримечательности есть в этих городах?".
  3. Станьте "Синтезатором": Когда вы собрали ответы на все под-вопросы, объедините их в одном промпте и попросите LLM собрать из этой информации финальный, связный и структурированный ответ.

    • Пример финального запроса: "На основе следующей информации [вставляете ответы на предыдущие вопросы], составь детальный 10-дневный план поездки в Италию..."

Этот подход превращает диалог с LLM из одного вопроса-ответа в управляемый проект, где вы ведете модель к нужному результату шаг за шагом, резко снижая риск получения поверхностного или нерелевантного ответа.

📌

3. Анализ практической применимости:

*Прямая применимость:Низкая. Пользователь не может создать трех агентов в ChatGPT. Однако он может вручную имитировать их работу, что требует дисциплины, но дает отличные результаты.

  • Концептуальная ценность: Очень высокая. Исследование дает ключевую идею: LLM лучше решает не одну большую задачу, а серию маленьких. Это фундаментальное понимание того, как обходить ограничения моделей в области сложного планирования и рассуждений. Пользователь начинает думать не "что спросить?", а "как разбить свой вопрос на правильные части?".
  • Потенциал для адаптации: Огромный. Механизм адаптации прост: пользователь становится "внешним планировщиком" для LLM. Он использует чат не для одного запроса, а для целой сессии, где первые сообщения — это планирование и декомпозиция, средние — сбор данных по частям, а последнее — синтез итогового ответа. Этот подход универсален для любой сложной задачи: от написания бизнес-плана до планирования ремонта.

🚀

4. Практически пример применения:

Ты — опытный маркетолог и контент-стратег. Твоя задача — помочь мне разработать контент-план для блога небольшой кофейни "Арома" на один месяц.
**Наша цель:** Привлечь в кофейню больше местных жителей и студентов из ближайшего университета.

**Ключевая методология:** Мы не будем делать всё сразу. Пожалуйста, следуй этому плану и отвечай на вопросы по шагам. Я буду задавать их последовательно.

**Шаг 1: Анализ целевой аудитории.**
Опиши в 2-3 абзацах ключевые интересы и "боли" двух сегментов нашей аудитории:
1. Местные жители (30-45 лет, работают рядом, ценят уют и качественный кофе).
2. Студенты (18-22 года, ищут место для учебы, скидки и быстрый Wi-Fi).

**Шаг 2: Генерация рубрик.**
Предложи 4-5 ключевых рубрик для нашего блога, которые будут интересны ОБОИМ сегментам аудитории. Например, "Секреты бариста", "Акции недели" и т.д.

**Шаг 3: Создание контент-плана.**
На основе предложенных рубрик, создай таблицу с контент-планом на 4 недели (по 3 поста в неделю). В таблице должны быть колонки: "Неделя", "День", "Рубрика", "Тема поста", "Призыв к действию (CTA)".

**Шаг 4: Написание примера поста.**
Выбери одну тему из контент-плана и напиши для нее короткий, вовлекающий пост для соцсетей (примерно 1000 символов).

**Начинаем. Пожалуйста, выполни только Шаг 1.**

🧠

5. Почему это работает:

Этот промпт работает за счет явной и управляемой декомпозиции.

  1. Снижение когнитивной нагрузки на LLM: Вместо того чтобы пытаться удержать в контексте сразу все требования (аудитория, рубрики, план, пост), модель получает простую и четкую задачу на первом шаге. Это позволяет ей сгенерировать более глубокий и качественный анализ аудитории.
  2. Управляемый процесс: Пользователь, а не LLM, контролирует ход рассуждений. После каждого шага можно скорректировать результат (например, "Спасибо, по аудитории все верно. Теперь переходим к Шагу 2"). Это имитирует итеративную работу агентов из ManuSearch.
  3. Накопление качественного контекста: Ответ с Шага 1 становится качественным контекстом для Шага 2. Ответ с Шага 2 становится контекстом для Шага 3. Это создает "снежный ком" релевантной информации, что приводит к гораздо более продуманному и логичному финальному результату (контент-плану).

📌

6. Другой пример практического применения

Ты — опытный диетолог и фитнес-консультант. Помоги мне составить персонализированный план питания на неделю для снижения веса.
**Мои данные:**
- Пол: Мужской
- Возраст: 35 лет
- Вес: 95 кг, Рост: 180 см
- Цель: Снизить вес на 5-7 кг.
- Предпочтения: Люблю курицу, рыбу, овощи. Не люблю гречку и жирную свинину.
- Ограничения: Аллергии нет, но есть легкая непереносимость лактозы.

**Методология "Шаг за Шагом":**
Мы будем действовать последовательно, чтобы создать наилучший план.

1. **Шаг 1: Расчет базовых показателей.** Рассчитай мою дневную норму калорий для похудения (с учетом дефицита в 15-20%), а также необходимое соотношение белков, жиров и углеводов (БЖУ).
2. **Шаг 2: Формирование "конструктора" блюд.** Предложи по 5-7 простых вариантов для завтрака, обеда и ужина, которые соответствуют рассчитанным БЖУ и моим пищевым предпочтениям.
3. **Шаг 3: Составление плана на неделю.** Используя блюда из "конструктора", составь подробный план питания на 7 дней в виде таблицы. Колонки: "День недели", "Завтрак", "Обед", "Ужин", "Перекус (опционально)".

**Начинаем. Пожалуйста, выполни только Шаг 1.**

🧠

7. Объяснение механизма почему этот пример работает.

Этот промпт эффективен, потому что он превращает сложную, многофакторную задачу в линейный и проверяемый процесс, полностью имитируя логику ManuSearch.

  1. Фундамент из данных (Шаг 1): Запрос немедленно заставляет LLM выполнить ключевое вычисление (калории и БЖУ). Этот точный, основанный на данных результат становится неоспоримой основой для всех последующих шагов. Без этой декомпозиции модель могла бы выдать общие, усредненные рекомендации.
  2. Вариативность и гибкость (Шаг 2): Вместо того чтобы сразу генерировать жесткий план, промпт запрашивает "конструктор" блюд. Это позволяет пользователю на промежуточном этапе проверить, нравятся ли ему предложенные варианты, и при необходимости скорректировать их.
  3. Структурированный синтез (Шаг 3): Финальный шаг — это чисто механическая работа по сборке плана из уже одобренных "кирпичиков". Модели не нужно ничего выдумывать, только скомпоновать данные. Это гарантирует, что итоговый план будет и персонализированным (основан на данных из Шага 1), и соответствующим вкусам пользователя (основан на "конструкторе" из Шага 2).

📌

Основные критерии оценки

  • 0. Предварительный фильтр: Исследование полностью сфокусировано на обработке и генерации текста. Оно не касается аудио/видео контента и проходит фильтр.
  • A. Релевантность техникам промтинга: Низкая. Исследование описывает архитектуру системы, а не конкретные фразы или паттерны для пользователя. Оно показывает, какие вопросы система задает сама себе, но не учит пользователя, как их формулировать.
  • B. Улучшение качества диалоговых ответов: Косвенное. Концепции из исследования (декомпозиция задачи) могут помочь пользователю получать более качественные ответы, но требуют от него самостоятельной адаптации и осмысления.
  • C. Прямая практическая применимость: Очень низкая. Пользователь не может воспроизвести multi-agent фреймворк в обычном чате с LLM. Метод не предназначен для прямого использования конечным пользователем без специальных инструментов.
  • D. Концептуальная ценность: Высокая. Исследование блестяще иллюстрирует мощную ментальную модель: декомпозиция сложной задачи на простые подзадачи. Это помогает понять, почему LLM "захлебываются" на сложных запросах и как помочь модели, разбив проблему на части.
  • E. Новая полезная практика (кластеризация):
    • Кластер 1 (Техники формулирования): Концептуально работа предлагает продвинутый вариант Chain-of-Thought, где шаги — это отдельные поисковые запросы.
    • Кластер 6 (Контекст и память): Вся суть работы в продвинутом варианте RAG (Retrieval-Augmented Generation), где модель сама формирует запросы для поиска нужного контекста.
    • Кластер 7 (Надежность и стабильность): Система нацелена на снижение галлюцинаций путем верификации информации через веб-поиск, что очень ценно.
  • Чек-лист практичности (+15 баллов): Работа косвенно, но убедительно показывает, как структурировать сложные запросы (через декомпозицию) и предлагает способы улучшить точность ответов (через поиск и проверку). За это к базовой оценке добавляется 15 баллов.
📌

2 Цифровая оценка полезности

Изначально исследование заслуживает оценки в районе 50 баллов, так как оно больше про архитектуру систем, чем про пользовательский промтинг. Однако его концептуальная ценность чрезвычайно высока. Оно дает пользователю не готовый "рецепт", а "ментальную модель" для решения сложных задач. Идея разбить один большой запрос на серию маленьких — это фундаментальный принцип, который можно применять вручную. За эту мощную идею и ее адаптивность добавляется 15 баллов.

Контраргументы к оценке:

* Почему оценка могла быть выше (75+)? Для продвинутого пользователя, который готов выступать в роли "человека-оркестра" и вручную имитировать работу агентов (сначала задавать LLM вопросы для планирования, потом для поиска, потом для синтеза), это исследование — золотая жила. Оно дает четкий план действий для решения любой сложной информационной задачи.
* Почему оценка могла быть ниже (30-40)? Для начинающего пользователя, который ищет готовые фразы типа "думай шаг за шагом", исследование бесполезно. Оно не содержит ни одной прямой инструкции для промпта. Требуется значительный уровень абстракции, чтобы извлечь из архитектуры системы полезную для себя практику.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с