3,583 papers
arXiv:2509.21834 68 26 сент. 2025 г. FREE

RobustFlow: К надежной генерации агентных рабочих процессов

КЛЮЧЕВАЯ СУТЬ
Обнаружено: LLM катастрофически нестабильны в задачах планирования — один и тот же запрос, перефразированный разными словами, генерирует совершенно разные воркфлоу (даже при temperature=0). RobustFlow позволяет создавать предсказуемых агентов, которые выдают одинаковый план для семантически идентичных задач. Метод учит модель распознавать кластеры синонимичных запросов и привязывать к каждому кластеру единый канонический воркфлоу, отсекая структурно разные варианты через обучение на предпочтениях — стабильность планирования вырастает в разы.
Адаптировать под запрос

Исследование доказывает, что современные LLM-агенты крайне нестабильны: они генерируют совершенно разные планы действий (воркфлоу) для семантически одинаковых задач, если их просто перефразировать. Для решения этой проблемы авторы предлагают метод обучения RobustFlow, который учит модель создавать один и тот же "каноничный" воркфлоу для целого кластера синонимичных запросов.

Ключевой результат: RobustFlow значительно повышает надежность и предсказуемость LLM-агентов, делая их менее чувствительными к стилю и формулировкам пользовательского запроса.

Представьте, что вы просите LLM составить план. Один раз вы говорите: "Составь маркетинговый план для запуска нового фитнес-приложения". В другой раз: "Разработай стратегию продвижения для нового приложения для тренировок". Для человека это одна и та же задача. Но для LLM это два разных набора токенов, которые могут запустить две совершенно разные цепочки рассуждений и привести к двум разным планам. Это и есть проблема "хрупкости" (brittleness), которую решает исследование.

Суть метода RobustFlow в том, чтобы научить модель "узнавать" семантически одинаковые запросы и выдавать на них стандартизированный, стабильный результат. Это достигается в несколько шагов:

  1. Создание синонимичных запросов: Берется одна исходная задача (например, "написать функцию для сортировки массива") и с помощью другой LLM генерируется множество ее вариаций: перефразированных, с добавлением уточнений, с "шумом" (опечатками, сленгом). Получается "семантический кластер" запросов.

  2. Генерация множества планов: Модель просят сгенерировать воркфлоу (план действий) для каждого запроса из этого кластера. В результате получается набор разных, часто несовместимых планов.

  3. Выбор "победителя": Среди всех сгенерированных планов находится самый частый и эффективный. Он объявляется "хорошим" (chosen workflow). Все остальные, структурно отличающиеся планы, считаются "плохими" (rejected workflow).

  4. Обучение на предпочтениях: Модель дообучают с помощью специальной техники (Self-consistency Preference Optimization), говоря ей: "Для всех этих похожих запросов вот этот план — правильный, а вот те — неправильные. Научись всегда генерировать правильный".

В итоге модель перестает реагировать на поверхностные изменения в промпте и учится генерировать единый, каноничный план для всей группы схожих по смыслу задач, что делает ее работу гораздо более надежной.

  • Прямая применимость: Нулевая. Пользователь не может запустить RobustFlow в обычном чате. Это сложный фреймворк для дообучения моделей, требующий вычислительных ресурсов и экспертизы в ML.

  • Концептуальная ценность: Очень высокая. Исследование дает пользователю критически важное понимание:

    • LLM не "понимает" смысл, а следует паттернам. Небольшое изменение формулировки может полностью сломать работающий промпт.
    • Надежность — это проблема. Нельзя ожидать от LLM стабильных результатов "из коробки" на сложных задачах, требующих планирования.
    • Тестирование промпта на синонимах — хорошая практика. Если вы хотите убедиться в надежности своего промпта, попробуйте его слегка перефразировать и посмотрите, не "поплывет" ли результат.
  • Потенциал для адаптации: Хотя сам метод применить нельзя, его основную идею можно адаптировать на уровне промпт-инжиниринга. Если модель нестабильна, потому что у нее слишком много свободы в выборе структуры ответа, то эту свободу нужно ограничить. Пользователь может заранее определить "каноничный воркфлоу" прямо в промпте, заставляя модель следовать ему. Вместо того чтобы просить модель придумать план, вы даете ей готовый шаблон плана и просите его заполнить.

Предположим, вы хотите, чтобы LLM разработала для вас контент-план для блога о здоровом питании. Вместо того чтобы давать ей свободу, вы можете применить идею "каноничного воркфлоу" из статьи.

# РОЛЬ
Ты — опытный SMM-стратег и эксперт по созданию агентных воркфлоу.

# ЗАДАЧА
Создай детальный и структурированный контент-план на одну неделю для блога о здоровом питании. Твоя задача — не просто накидать идеи, а заполнить предопределенный воркфлоу, где каждый шаг — это отдельный "агент", отвечающий за свою часть работы.

# СТРУКТУРА ВОРКФЛОУ (WORKFLOW STRUCTURE)
Ты должен строго следовать этой структуре и заполнить каждый блок.


    
        **1. Агент исследования тем:**
        - Проанализируй текущие тренды в здоровом питании.
        - Определи 3-4 ключевые темы на неделю (например: детокс, белковые завтраки, полезные перекусы).
    

    
        **2. Агент выбора форматов:**
        - Для каждой темы предложи 2 формата контента (например: пост-рецепт, короткое видео, инфографика, статья-разбор).
    

    
        **3. Агент генерации контента (по дням):**
        - **Понедельник:** [Тема, Формат, Краткое описание поста/сценария]
        - **Среда:** [Тема, Формат, Краткое описание поста/сценария]
        - **Пятница:** [Тема, Формат, Краткое описание поста/сценария]
    

    
        **4. Агент вовлечения:**
        - Для каждого поста предложи один интерактивный элемент (опрос, вопрос к аудитории, призыв к действию).
    


# ИНСТРУКЦИИ
- Заполни информацию внутри каждого XML-тега (`` ... ``).
- Не меняй структуру воркфлоу.
- Ответ должен быть полным и содержать все 4 шага-агента.

Этот промпт работает, потому что он решает проблему "хрупкости", описанную в исследовании, на стороне пользователя.

  1. Устранение неоднозначности: Вместо открытого запроса "сделай контент-план", который модель может интерпретировать десятками способов, мы даем ей жесткий, предопределенный "каноничный воркфлоу".
  2. Декомпозиция задачи: Использование тегов <agent_...> разбивает сложную задачу на последовательность простых, предсказуемых шагов. Модель не должна сама придумывать структуру плана, ее задача — лишь заполнить готовые блоки.
  3. Принуждение к структуре: XML-теги и четкие инструкции заставляют модель генерировать ответ в строго заданном формате. Это резко снижает вариативность и повышает стабильность. Если вы немного измените формулировку в блоке #ЗАДАЧА, общая структура ответа, скорее всего, останется неизменной, так как она зафиксирована в <workflow>.

По сути, мы вручную создаем тот самый "стабильный воркфлоу", которому RobustFlow учит модель на этапе тренировки.

Задача: спланировать самостоятельное путешествие.

# РОЛЬ
Ты — ИИ-ассистент для планирования путешествий, работающий по принципу агентного воркфлоу.

# ЗАДАЧА
Разработай детальный пошаговый план 3-дневной поездки в Санкт-Петербург для туриста, который в городе впервые. Заполни предоставленный ниже шаблон воркфлоу.

# ШАБЛОН ВОРКФЛОУ (WORKFLOW TEMPLATE)
Следуй этому шаблону без изменений.

### День 1: Классический Петербург

*   **Agent_MorningPlan:**
    *   **Локация:** [Название главной локации на утро, например, Эрмитаж]
    *   **Логистика:** [Как добраться, где купить билеты]
    *   **Совет:** [Один практический совет]
*   **Agent_AfternoonPlan:**
    *   **Локация:** [Название главной локации на день]
    *   **Логистика:** [Как добраться]
    *   **Совет:** [Один практический совет]
*   **Agent_EveningPlan:**
    *   **Локация:** [Название главной локации на вечер]
    *   **Логистика:** [Где поужинать, как вернуться]
    *   **Совет:** [Один практический совет]

### День 2: Имперское величие и вода

*   **Agent_MorningPlan:**
    *   **Локация:** [Название]
    *   **Логистика:** [Описание]
    *   **Совет:** [Описание]
*   **Agent_AfternoonPlan:**
    *   **Локация:** [Название]
    *   **Логистика:** [Описание]
    *   **Совет:** [Описание]
*   **Agent_EveningPlan:**
    *   **Локация:** [Название]
    *   **Логистика:** [Описание]
    *   **Совет:** [Описание]

### День 3: Современность и неформальные места

*   **Agent_MorningPlan:**
    *   **Локация:** [Название]
    *   **Логистика:** [Описание]
    *   **Совет:** [Описание]
*   **Agent_AfternoonPlan:**
    *   **Локация:** [Название]
    *   **Логистика:** [Описание]
    *   **Совет:** [Описание]
*   **Agent_EveningPlan:**
    *   **Локация:** [Название]
    *   **Логистика:** [Описание]
    *   **Совет:** [Описание]

Механизм аналогичен предыдущему примеру и напрямую следует из выводов исследования RobustFlow.

  1. Навязывание "каноничной" структуры: Промпт не спрашивает "что мне делать 3 дня в Питере?", а говорит: "Вот структура плана на 3 дня, заполни ее". Это устраняет основную причину нестабильности — свободу модели в выборе структуры ответа.
  2. Снижение когнитивной нагрузки: Модели не нужно держать в голове всю сложную задачу "спланировать поездку". Она последовательно решает маленькие подзадачи: "что делать утром в первый день?", "как туда добраться?". Это повышает точность и релевантность каждого отдельного блока.
  3. Предсказуемость результата: Используя такой шаблон, пользователь гарантированно получит ответ в удобном для него формате. Даже если он перефразирует задачу (например, "подготовь маршрут" вместо "разработай план"), модель все равно будет вынуждена "вписать" свой ответ в предложенный воркфлоу, что делает результат робастным, то есть устойчивым к изменениям в запросе.
📌

Основные критерии оценки

  • A. Релевантность техникам промтинга: Низкая. Исследование описывает фреймворк для обучения модели (RobustFlow), а не конкретные фразы или паттерны для промптов, которые может использовать конечный пользователь.
  • B. Улучшение качества диалоговых ответов: Высокая (косвенно). Цель исследования — повысить стабильность и надежность генерируемых LLM планов (воркфлоу). Более надежный план ведет к более качественному и предсказуемому конечному результату.
  • C. Прямая практическая применимость: Очень низкая. Пользователь не может применить метод RobustFlow без дообучения модели, доступа к коду и специализированным датасетам. Это инструмент для разработчиков LLM, а не для пользователей.
  • D. Концептуальная ценность: Очень высокая. Исследование блестяще вскрывает и количественно измеряет фундаментальную проблему LLM — "хрупкость" (brittleness) по отношению к перефразированию. Оно дает пользователю глубокое понимание, почему незначительные изменения в промпте могут приводить к кардинально разным результатам, даже при temperature=0. Это знание критически важно для формирования правильной "ментальной модели" работы с LLM.
  • E. Новая полезная практика (кластеризация): Работа явно попадает в кластеры #2 (Поведенческие закономерности LLM) и #7 (Надежность и стабильность). Она формализует и измеряет проблему нестабильности ответов при семантически идентичных, но синтаксически разных запросах.
  • Чек-лист практичности (+15 баллов): Да, исследование раскрывает неочевидные особенности поведения LLM (хрупкость к переформулировкам) и предлагает способ повысить consistency (хоть и на уровне обучения). Это дает +15 баллов к базовой оценке.
📌

Цифровая оценка полезности

Оценка 68 отражает баланс между очень низкой прямой практической применимостью и чрезвычайно высокой концептуальной ценностью.

Аргументы за оценку: * Исследование дает пользователю не "рыбу", а "удочку" в виде знания: оно объясняет, почему LLM ведут себя непредсказуемо. * Понимание концепции "хрупкости" помогает пользователю отлаживать свои промпты: если промпт перестал работать после мелкой правки, пользователь будет знать, что проблема может быть именно в изменении формулировки, а не в логике запроса. * Оно учит пользователя не доверять слепо семантическому "пониманию" модели и подталкивает к созданию более строгих и структурированных запросов для снижения неоднозначности.

Контраргументы (почему оценка могла быть иной): * Выше (>75): Если бы из исследования можно было извлечь хотя бы один прямой совет по формулировке промпта (например, "используйте активный залог вместо пассивного для большей стабильности"), оценка была бы значительно выше. Но таких советов нет. * Ниже (<50): Если оценивать исключительно по критерию "что я могу скопировать в свой промпт прямо сейчас?", то оценка была бы очень низкой (30-40). Исследование не дает готовых инструментов, а лишь описывает проблему и решение для разработчиков моделей.

Итоговая оценка 68 — это признание огромной важности концептуального понимания для продвинутого промпт-инжиниринга, даже при отсутствии прямых инструкций.


Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с