3,583 papers
arXiv:2509.25586 68 29 сент. 2025 г. FREE

ATLAS: Многоагентное сотрудничество с учетом ограничений для планирования путешествий в реальных условиях

КЛЮЧЕВАЯ СУТЬ
Обнаружено: LLM катастрофически теряют до 90% эффективности при попытке одновременно генерировать решение И проверять его на соответствие множеству строгих правил — отсюда вечные проблемы с соблюдением бюджета, дат и других ограничений в сложных задачах. ATLAS позволяет получать корректные решения сложных задач (планирование, стратегии, контент) путем разделения процесса на независимые роли. Вместо одного промпта "сделай все" используется цикл из трех ролей: Planner генерирует черновик без оглядки на ограничения, Checker строго проверяет его по чек-листу правил, Searcher находит недостающую информацию. Успешность выполнения задач выросла с 23% до 44% — почти вдвое.
Адаптировать под запрос

Исследование показывает, что большие языковые модели (LLM) плохо справляются с задачами, где нужно учесть множество строгих правил (ограничений), например, при планировании путешествия с учетом бюджета, дат и предпочтений. Вместо одного LLM-агента авторы предлагают "команду" из нескольких специализированных агентов: один генерирует план (Planner), другой его критикует и проверяет на соответствие правилам (Checker), а третий ищет недостающую информацию (Searcher).

Ключевой результат: Такой командный подход, где план итеративно создается и проверяется, значительно повышает качество и корректность итогового результата по сравнению с попыткой решить задачу одним махом.

Суть метода ATLAS в том, чтобы не доверять LLM решение сложной задачи "в один проход". Вместо этого процесс разбивается на логические, последовательные шаги, которые пользователь может симулировать в обычном чате. Это стратегия "Генерируй, затем Проверяй".

Методика для практического применения:

  1. Формулирование Ограничений (роль "Constraint Manager"):

    • Прежде чем просить LLM что-то сделать, четко и структурированно выпишите все важные правила, лимиты и условия. Используйте списки, теги или просто нумерованные пункты. Это ваш "чек-лист".
    • Пример: Бюджет: <$1000, Даты: 10-15 июля, Обязательно: номер с видом на море, Запрещено: отели с рейтингом <4.5.
  2. Генерация Черновика (роль "Planner"):

    • На первом шаге дайте LLM творческую свободу. Попросите его сгенерировать черновой вариант решения, не перегружая его всеми ограничениями сразу.
    • Промпт: "Выступи в роли креативного планировщика путешествий. Набросай интересный план поездки в Сочи на 5 дней."
  3. Критика и Проверка (роль "Checker"):

    • Скопируйте полученный черновик и в новом промпте попросите LLM выступить в роли "строгого критика" или "аудитора".
    • Предоставьте ему черновик и ваш заранее подготовленный чек-лист ограничений.
    • Промпт: "Вот черновой план поездки. А вот мои строгие требования: [список ограничений]. Выступи в роли дотошного аудитора. Проверь план по каждому пункту и укажи на все несоответствия. Предложи конкретные исправления."
  4. Итеративное Улучшение (цикл "Planner-Checker"):

    • Если найдены ошибки, вернитесь к роли "Планировщика" и попросите его исправить план на основе полученной критики. Повторяйте шаги 2 и 3, пока результат вас не устроит.
  5. Поиск Недостающей Информации (роль "Search Advisor"):

    • Если в ходе проверки выясняется, что информации не хватает (например, "не удалось найти отель с видом на море в рамках бюджета"), сделайте паузу в планировании. Попросите LLM найти нужные данные: "Найди 5 отелей в Сочи с видом на море и ценой до 15000 руб/ночь". Затем используйте эту информацию для следующей итерации планирования.

Этот подход превращает пользователя из пассивного просителя в активного менеджера процесса, который управляет LLM для достижения надежного результата.

  • Прямая применимость: Низкая, если пытаться воссоздать систему "один в один". Однако, если рассматривать метод как стратегию ведения диалога, то применимость становится высокой. Пользователь может вручную переключать "роли" LLM от промпта к промпту, симулируя работу агентов ATLAS.

  • Концептуальная ценность: Огромная. Исследование дает пользователю ключевое понимание: LLM — это не гений-однозадачник, а мощный, но забывчивый исполнитель, которого нужно контролировать. Концепция "Generate-then-Verify" (Сгенерируй-потом-проверь) — это фундаментальный принцип промт-инжиниринга для сложных задач. Она учит не доверять первому ответу и разбивать сложную работу на подзадачи.

  • Потенциал для адаптации: Очень высокий. Механизм адаптации заключается в симуляции мультиагентной системы через последовательность промптов в одном чате. Пользователь выступает в роли "оркестратора":

    1. Промпт 1 (Планировщик): "Сделай X".
    2. Промпт 2 (Проверяющий): "Вот результат X и вот правила Y. Проверь X на соответствие Y".
    3. Промпт 3 (Исправление): "Вот критика. Исправь X с ее учетом". Этот цикл можно применять к любой задаче: от написания кода и создания бизнес-планов до разработки меню для вечеринки.
### Шаг 1: Генерация черновика (Роль: Креативный организатор)

**Твой промпт:**

Ты — креативный организатор мероприятий. Твоя задача — придумать черновой план празднования дня рождения для мальчика, которому исполняется 12 лет.

**Исходные данные:**
*   **Тема:** "Школа шпионов"
*   **Количество гостей:** 6 детей
*   **Примерная длительность:** 3-4 часа

Предложи программу мероприятия, включая основные активности, идеи для меню и примерный тайминг. На этом этапе не думай о бюджете и других ограничениях, просто дай волю фантазии.

---

### Шаг 2: Проверка и критика (Роль: Строгий аудитор)

**(После того как LLM выдал черновой план, вы отправляете следующий промпт)**

**Твой промпт:**

Отлично, теперь смени роль. Ты — строгий и очень внимательный к деталям аудитор. Твоя задача — проверить предложенный план на соответствие жестким ограничениям.

**Вот план, который нужно проверить:**
<... сюда вы копируете ответ LLM из Шага 1 ...>

**А вот строгие ограничения, которые нужно учесть:**
1.  **Бюджет:** Общий бюджет на все — не более 15 000 рублей.
2.  **Локация:** Все должно проходить в загородном доме, использование выездных аниматоров или квест-румов исключено.
3.  **Еда:** У одного из детей сильная аллергия на орехи. В меню не должно быть никаких орехов или их следов.
4.  **Безопасность:** Все активности должны быть абсолютно безопасны для детей 12 лет. Никакого огня, острых предметов или рискованных трюков.

**Твоя задача:**
Проанализируй план по каждому из четырех пунктов ограничений. Укажи на все потенциальные проблемы и несоответствия. Предложи конкретные, реалистичные альтернативы для каждого проблемного пункта. Ответ представь в виде таблицы: "Пункт плана" | "Проблема/Несоответствие" | "Рекомендация по исправлению".

Этот подход работает за счет декомпозиции когнитивной нагрузки для LLM, что является прямой адаптацией идей из исследования ATLAS:

  1. Разделение ролей (Planner vs Checker): В первом промпте LLM не нужно одновременно быть креативным и следить за ограничениями. Это позволяет ей сгенерировать более богатый и интересный черновик. Во втором промпте модель полностью фокусируется на аналитической задаче — проверке по чек-листу, что она делает гораздо надежнее.
  2. Явное управление ограничениями (Constraint Manager): Вместо того чтобы вплетать ограничения в общий текст, мы выносим их в отдельный, структурированный блок. Это помогает LLM-"аудитору" не упустить ни одной детали.
  3. Итеративная критика (Critique Loop): Пользователь получает не просто "неправильный" ответ, а структурированный отчет об ошибках с предложениями по их исправлению. Это позволяет на следующем шаге дать LLM очень конкретную задачу по доработке плана, повышая шансы на успех.
### Шаг 1: Генерация черновика (Роль: Контент-маркетолог)

**Твой промпт:**

Ты — опытный контент-маркетолог. Разработай черновой контент-план для блога небольшой кофейни.

**Задача:**
*   Придумать 5 тем для постов в блог на следующий месяц.

На этом этапе просто набросай идеи: заголовки и по 2-3 тезиса для каждой статьи. Цель — привлечь внимание и показать экспертность.

---

### Шаг 2: Проверка и критика (Роль: Главный редактор)

**(После получения чернового плана, отправляем следующий промпт)**

**Твой промпт:**

Спасибо. Теперь ты — главный редактор этого блога. Твоя главная забота — наша аудитория и бизнес-цели.

**Вот контент-план для проверки:**
<... сюда вы копируете ответ LLM из Шага 1 ...>

**А вот наши редакционные гайдлайны (ограничения):**
1.  **Целевая аудитория:** Новички, которые только начинают разбираться в кофе. Нужно избегать сложного профессионального сленга (например, "экстракция", "кремá").
2.  **Бизнес-цель:** Каждый пост должен косвенно мотивировать читателя зайти в нашу кофейню.
3.  **Формат:** Посты должны быть практическими и короткими (до 3000 знаков).
4.  **Тон голоса:** Дружелюбный, простой, гостеприимный.

**Твоя задача:**
Оцени предложенные темы с точки зрения этих четырех гайдлайнов. Для каждой темы укажи, соответствует ли она требованиям. Если нет — объясни, почему, и предложи, как можно переформулировать тему или тезисы, чтобы они соответствовали нашей стратегии.

Этот пример работает по тому же принципу разделения творческой и аналитической функций, что и в исследовании ATLAS.

  1. Снижение сложности: Вместо одного сложного промпта "Придумай 5 тем для новичков, которые будут мотивировать их прийти к нам, будут короткими и написаны простым языком", мы используем два более простых. Первый промпт ("просто придумай темы") снимает с LLM все ограничения, позволяя ей сгенерировать широкий спектр идей.
  2. Фокусированная проверка: Второй промпт ставит LLM в роль "редактора" и дает ей четкий набор критериев (гайдлайны). Модель не генерирует новое, а анализирует существующее, что является для нее более простой и надежной операцией. Она последовательно "прогоняет" каждую идею через фильтры "аудитория", "бизнес-цель", "формат" и "тон".
  3. Практический результат: Пользователь получает не просто список тем, а отредактированный и стратегически выверенный контент-план. Этот итеративный процесс, симулирующий работу агентов "Planner" и "Checker", позволяет получить результат гораздо более высокого качества, чем при попытке решить задачу одним запросом.
📌

Основные критерии оценки

  • A. Релевантность техникам промтинга: Низкая. Исследование описывает архитектуру мультиагентной системы (Planner, Checker, Searcher), а не конкретные формулировки промптов.
  • B. Улучшение качества ответов: Высокое. Метод значительно повышает успешность выполнения сложных задач (планирование путешествий), почти удваивая итоговый процент успешных планов (с 23.3% до 44.4%).
  • C. Прямая практическая применимость: Низкая. Пользователь не может развернуть систему ATLAS в обычном чате. Требуется специальная среда, код и API-инструменты.
  • D. Концептуальная ценность: Очень высокая. Исследование блестяще иллюстрирует фундаментальную слабость LLM — неспособность одновременно удерживать и удовлетворять множество сложных ограничений. Оно предлагает мощную ментальную модель "Разделяй и властвуй": генерируй, а затем проверяй.
  • E. Новая полезная практика: Работа попадает в кластеры #2 (Поведенческие закономерности LLM), #6 (Контекст и память) и #7 (Надежность и стабильность). Она демонстрирует, как LLM терпят неудачу при сложных ограничениях, и предлагает системный подход к повышению надежности через итеративную проверку и поиск недостающей информации.
  • Чек-лист практичности (+15 баллов): Да, исследование показывает, как структурировать сложные запросы (разбивая их на генерацию и проверку) и предлагает способ улучшить точность и надежность ответов.
📌

Цифровая оценка полезности

Оценка 68 отражает баланс между очень высокой концептуальной ценностью и низкой прямой применимостью. Исследование не дает готовых промптов, но вооружает пользователя мощной стратегией для решения сложных задач.

Аргументы за оценку: * Концептуальный прорыв для пользователя: Главный вывод — не заставляйте LLM делать все сразу. Разделение задачи на "креативного планировщика" и "дотошного критика" — это практическая стратегия, которую можно симулировать в диалоге. * Объяснение неудач: Работа объясняет, почему LLM часто "забывают" про бюджет, даты или другие важные детали в сложных запросах. Это помогает пользователю понять ограничения инструмента. * Адаптируемость: Идею "Planner-Checker" можно легко адаптировать для любых сложных задач: написание бизнес-плана, разработка контент-стратегии, планирование мероприятий.

Контраргументы (почему оценка могла быть выше или ниже): * Почему могла быть выше (>75): Для продвинутого пользователя, который готов вести длинный диалог с LLM и вручную "оркестрировать" процесс, это исследование — золотая жила. Оно дает четкий алгоритм действий для задач, где стандартные промпты не справляются. * Почему могла быть ниже (<50): Для новичка, который хочет получить результат одним промптом, исследование бесполезно. Термины "мультиагентная система", "CSP", "interleaved search" могут отпугнуть и покажутся слишком академичными. Прямого "копипаст" решения здесь нет.


Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с