3,583 papers
arXiv:2606.05670 76 4 июня 2026 г. FREE

Workflow-matching: один агент часто побеждает — но есть три исключения

КЛЮЧЕВАЯ СУТЬ
Добавляешь роли — аналитик, критик, финансист — и ждёшь магии. Честный эксперимент: одна модель, одни задачи, одинаковые инструменты у всех систем. Итог — 5 из 6 мультиагентных систем проиграли одиночному агенту. Метод workflow-matching позволяет выбрать структуру запроса под тип задачи — не переплачивая в 3-4 раза по токенам за иллюзию сложности. Фишка: проблема не в числе агентов, а в том, что каждая роль пересказывает задачу следующей в сжатом виде — к финальному агенту условия доходят с дырками.
Адаптировать под запрос

TL;DR

Больше ролей в промпте ≠ лучший результат. Многие добавляют к запросу "ты — аналитик, ты — критик, ты — финансист" и ждут магии. Исследование проверило 6 мультиагентных систем в честных условиях — у всех одинаковые инструменты, одна модель, одни задачи. Результат: 5 из 6 проиграли одиночному агенту.

Боль конкретная: запускаешь дебаты агентов, добавляешь роли, усложняешь промпт — а результат или хуже, или такой же, но дороже в 3–4 раза по токенам. Причина — при передаче задачи между агентами контекст сжимается, часть условий теряется, и финальный ответ приходит с "дырками" в требованиях.

Но есть три рабочие зоны, где мультиагентность реально помогает. Ключ не в числе агентов, а в типе координации, который совпадает с типом ошибки задачи. Знать эту карту — значит выбирать правильную структуру и не тратить токены впустую.


🔬

Схема метода

Карта выбора структуры промпта под задачу:

ОПРЕДЕЛИ ТИП ЗАДАЧИ:
  → Есть проверяемый правильный ответ (код, математика, факт)?
      СТРУКТУРА: Дебаты — несколько независимых решений + проверка

  → Нужно соблюсти список конкретных требований/инструкций?
      СТРУКТУРА: Мультисудья — несколько независимых проверщиков

  → Нужен лучший из возможных вариантов (текст, идея, стратегия)?
      СТРУКТУРА: Эволюция — несколько попыток с разным углом, отбор лучшей

  → Всё остальное?
      СТРУКТУРА: Один хорошо настроенный агент — быстрее и точнее
ДЛЯ СЛОЖНЫХ МНОГОШАГОВЫХ ЗАДАЧ — добавь шаг:
  ПОСЛЕ КАЖДОГО ЭТАПА: явно зафиксируй промежуточный результат
  ПЕРЕД ФИНАЛОМ: пройди верификацию всех исходных условий

Все шаги выполняются в одном чате — разными запросами или одним структурированным промптом.


🚀

Пример применения

Задача: Ты написал оферту для B2B-клиента на интеграцию CRM. Клиент дал 7 конкретных требований: сроки, стоимость, формат оплаты, гарантии, SLA, условия расторжения, ответственность сторон. Нужно убедиться, что всё учтено.

Это задача типа "соблюсти список требований" → мультисудья.

Промпт:

Вот оферта: [текст оферты]

Вот требования клиента:
1. Срок внедрения — не более 45 дней
2. Стоимость — фиксированная, без скрытых платежей
3. Оплата — 50% предоплата, 50% после сдачи
4. Гарантия — 6 месяцев на доработки
5. SLA — ответ на критичные баги в течение 4 часов
6. Условия расторжения — возможность выхода с 14 дней уведомления
7. Ответственность — ограничена суммой договора

Проверь оферту три раза подряд как три разных проверщика:

ПРОВЕРЩИК А — юрист: ищет юридические риски и пробелы в формулировках
ПРОВЕРЩИК Б — менеджер клиента: смотрит глазами контрагента, что может не устроить
ПРОВЕРЩИК В — проектный менеджер: проверяет реализуемость каждого пункта на практике

Каждый проверщик:
- Проходит по всем 7 требованиям
- Отмечает: ✅ выполнено чётко / ⚠️ есть размытость / ❌ не отражено или противоречит
- Даёт одно главное замечание

В конце — сводный список: что исправить до отправки клиенту.

Результат: Модель пройдёт по оферте три раза с разных позиций, отметит несоответствия и противоречия, которые легко упустить с одной точки зрения. Получишь структурированный список правок с объяснением, почему каждый пункт важен. Особенно полезно, когда юрист ловит формулировки, которые менеджер принял бы как норму.


🧠

Почему это работает

LLM теряет требования при передаче. Когда в промпте три роли передают задачу друг другу, каждая "рука" пересказывает предыдущей сжатую версию. К финальному агенту доходит не всё — особенно мелкие, но критичные условия. Именно поэтому 5 из 6 мультиагентных систем в исследовании проиграли одиночному агенту: не потому что плохи, а потому что информация деградирует по цепочке.

Три рабочие зоны — три разных механизма совпадения. Дебаты работают там, где результат можно проверить объективно — несколько решений легко сравнить (код запустил / не запустил, ответ верный / нет). Мультисудья работает там, где нужно покрыть список условий — разные "глаза" замечают разные пропуски. Эволюционный перебор работает там, где нет объективного критерия, но есть разброс качества — попробовал несколько углов, выбрал лучший.

Рычаги управления:

  • Число проверщиков → 2 для быстрой задачи, 3–4 для критичных документов
  • Роли проверщиков → чем конкретнее (не "эксперт", а "менеджер клиента из Сбера") → острее взгляд
  • Явная фиксация промежуточного результата → добавь "запиши выводы перед следующим шагом" → контекст не теряется
  • Верификационный шаг в конце → "проверь, что все 7 требований отражены" → закрывает дыры финального ответа

📋

Шаблон промпта

Шаблон — Мультисудья (для проверки соответствия требованиям):

Вот {материал для проверки}: [текст]

Вот {список требований/критериев}:
1. {требование 1}
2. {требование 2}
...N. {требование N}

Проверь {материал} как {число_судей} независимых эксперта:

СУДЬЯ 1 — {роль 1, конкретная}: {что ищет}
СУДЬЯ 2 — {роль 2, конкретная}: {что ищет}
СУДЬЯ 3 — {роль 3, конкретная}: {что ищет}

Каждый судья:
- Проходит по всем {N} требованиям
- Ставит: ✅ выполнено / ⚠️ размыто / ❌ отсутствует
- Формулирует одно главное замечание

ИТОГ: сводный список правок по приоритету.

Плейсхолдеры: - {материал} — текст оферты, план проекта, ТЗ, статья, скрипт - {список требований} — конкретные критерии клиента, стандарты, чеклист - {число_судей} — 2–4, зависит от сложности задачи - {роль 1, 2, 3} — конкретные персонажи с понятной позицией: юрист, заказчик из Газпрома, пользователь без технического бэкграунда

Шаблон — Дебаты (для верифицируемых задач: код, расчёты, факты):

Задача: {задача с проверяемым ответом}

Реши задачу тремя независимыми способами.
После каждого решения запиши промежуточный вывод.

РЕШЕНИЕ А: {подход 1 — прямой}
РЕШЕНИЕ Б: {подход 2 — альтернативный}
РЕШЕНИЕ В: {подход 3 — через проверку}

Сравни три решения. 
Если все три совпадают — это финальный ответ.
Если расходятся — найди ошибку и реши ещё раз.

🚀 Быстрый старт — вставь в чат:

Вот шаблон мультисудьи для проверки документа. Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит что проверяем, какие требования, какие роли судей — потому что без этого не выбрать правильные позиции для проверки. Она возьмёт паттерн и адаптирует под задачу.


⚠️

Ограничения

⚠️ Деградация контекста в длинных цепочках: Чем длиннее цепочка передачи между ролями, тем выше риск потери условий. Для задач с 10+ требованиями лучше разбить на несколько отдельных проверок, чем гнать через одну длинную.

⚠️ Мультисудья не помогает при субъективных задачах: Если нет чёткого списка критериев ("напиши красиво"), разные роли дадут противоречивые мнения без возможности свести их в решение.

⚠️ Лишние роли добавляют токены, не точность: Три судьи на задачу "переведи параграф" — это перерасход без выигрыша. Метод окупается только там, где разные углы зрения реально находят разные проблемы.

⚠️ Дебаты не работают без верифицируемого критерия: Если нельзя проверить "правильно / нет", несколько решений просто дадут несколько мнений — не консенсус.


🔍

Как исследовали

Идея была простой: взяли 6 популярных мультиагентных систем — LLM-Debate, AutoGen, CAMEL, EvoAgent, Jarvis, ChatEval — и проверили их в честных условиях. Все системы работали с одной моделью (GPT-4.1), одинаковыми инструментами, одними задачами. До этого большинство сравнений были нечестными: разные модели, разные инструменты, разные форматы ответа — не удивительно, что "победители" побеждали.

Тестировали на 10 бенчмарках: математика, код, рассуждения, следование инструкциям, поиск информации. Всего — тысячи задач. Для каждой системы записывали не только правильность ответа, но и сколько токенов потратили, сколько времени заняло, что происходило внутри — какие шаги система теряла.

Любопытная находка: ChatEval справился лучше всех в задачах на следование инструкциям (IFEval), но полностью провалился на математике AIME — 3.33% против 46.67% у одиночного агента. Одна и та же система, разные задачи — диаметрально противоположные результаты. Это подтвердило гипотезу: дело не в числе агентов, а в совпадении структуры с типом задачи.

Отдельно был проведён тест системы в стиле Claude Code на сложных задачах GAIA, где нужны десятки шагов, работа с файлами, восстановление после ошибок. Там разрыв оказался огромным — плюс 42 процентных пункта на самых сложных задачах. Но исследователи честно написали: мы не знаем что именно там сработало, потому что система была "чёрным ящиком" с множеством механизмов одновременно.


💡

Адаптации и экстраполяции

🔧 Техника: Явная фиксация состояния между шагами → предотвращение потери контекста

Один из ключевых инсайтов — сложные задачи разрушаются, когда промежуточный результат передаётся без фиксации. Контрмеры:

После каждого этапа пиши:
СОСТОЯНИЕ: [перечисли что выяснено, что решено, что ещё открыто]
ТРЕБОВАНИЯ ПОД КОНТРОЛЕМ: [пройди по исходному списку и отметь статус каждого]

Переходи к следующему шагу только после этого.

Это особенно важно для: - Многоэтапного анализа (юридический, финансовый, технический) - Переговорных сценариев с длинной историей условий - Задач типа "реши задачу в несколько этапов, не потеряй условие"

🔧 Техника: Конкретные персонажи вместо абстрактных ролей → острее критика

Вместо:

ЭКСПЕРТ 1: проверь с позиции бизнеса

Попробуй:

СУДЬЯ 1 — Михаил, директор по продажам федеральной розничной сети. 
Его интересует: выполнимость обещаний, риски срыва сроков, что можно предъявить суду.

Конкретный персонаж с понятной позицией выдаёт более острую и специфичную критику, чем абстрактная роль.


🔗

Ресурсы

Do More Agents Help? Controlled and Protocol-Aligned Evaluation of LLM Agent Workflows — препринт, статус "under review"

Авторы: Yuhang Fu, Ruishan Fang, Jiaqi Shao, Huiyu Zheng, Zhengtao Zhu, Bing Luo, Tao Lin

Аффилиации: Beijing University of Posts and Telecommunications, Westlake University, Zhejiang University, Duke Kunshan University, HKUST, Zhejiang University of Technology

Ключевые отсылки из статьи: AutoGen (Wu et al., 2023), LLM-Debate (Du et al., 2023), EvoAgent (Yuan et al., 2024), CAMEL (Li et al., 2023), GAIA benchmark (Mialon et al., 2023)


📋 Дайджест исследования

Ключевая суть

Добавляешь роли — аналитик, критик, финансист — и ждёшь магии. Честный эксперимент: одна модель, одни задачи, одинаковые инструменты у всех систем. Итог — 5 из 6 мультиагентных систем проиграли одиночному агенту. Метод workflow-matching позволяет выбрать структуру запроса под тип задачи — не переплачивая в 3-4 раза по токенам за иллюзию сложности. Фишка: проблема не в числе агентов, а в том, что каждая роль пересказывает задачу следующей в сжатом виде — к финальному агенту условия доходят с дырками.

Принцип работы

Это карта из четырёх развилок. Есть проверяемый правильный ответ — код, математика, факт? Структура: дебаты — несколько независимых решений, потом сравнение. Нужно покрыть список конкретных требований? Структура: мультисудья — несколько проверщиков с разными ролями, каждый видит исходник, а не пересказ предыдущего. Нужен лучший вариант из возможных — текст, стратегия, идея? Структура: эволюция — несколько попыток с разными углами, выбор лучшей. Всё остальное — один хорошо настроенный агент. Быстрее, дешевле, точнее. Частая ошибка — запустить дебаты из трёх ролей на задачу «переведи параграф»: платишь в четыре раза дороже, получаешь то же самое.

Почему работает

Когда агент-критик передаёт задачу агенту-финалисту, он пересказывает сжатую версию. Мелкие, но критичные условия не доходят. Именно поэтому стандартные мультиагентные схемы проигрывают — информация портится по цепочке, а не улучшается. Три рабочие зоны обходят эту проблему структурно. В дебатах несколько решений сравниваются напрямую — без пересказа. В мультисудье каждый проверщик работает с оригиналом, а не с выжимкой предыдущего. В эволюции разные углы атаки на задачу дают разброс качества — выбираешь лучший вариант без потери контекста. Во всех трёх случаях координация совпадает с типом ошибки, которую задача порождает.

Когда применять

Проверка документов с конкретным списком условий → мультисудья: оферты, договоры, технические задания — особенно когда пропущенный пункт стоит денег. Код, расчёты, факты → дебаты: когда есть объективный критерий — правильно или нет. Генерация лучшего варианта → эволюция: тексты, идеи, стратегии, где нет единственно верного ответа, но есть разброс качества. НЕ подходит: для простых однозначных задач — один агент быстрее и дешевле. Мультисудья ломается без чёткого списка критериев: если задача субъективная («напиши красиво»), разные судьи дадут мнения без возможности свести их в решение.

Мини-рецепт

1. Определи тип задачи: есть проверяемый ответ, список требований или нужен лучший вариант? От этого зависит структура.

2. Если мультисудья — выпиши все требования числом, без сокращений. Это якорь: судьи будут проверять именно по нему.

3. Назначь конкретные роли — не «эксперт», а «юрист, который ищет юридические риски» или «менеджер клиента из производственной компании». Чем конкретнее роль, тем острее взгляд.

4. Дай каждому судье полный исходник, не пересказ. Попроси отметить по каждому пункту: выполнено, размыто или отсутствует.

5. Добавь финальный шаг: сводный список правок по приоритету — без него получишь три набора мнений, а не решение.

Примеры

[ПЛОХО] : Проверь мою оферту, всё ли там нормально
[ХОРОШО] : Вот оферта: [текст]. Требования клиента: 1) срок — 45 дней 2) фиксированная цена без скрытых платежей 3) оплата 50% до и 50% после 4) гарантия 6 месяцев на доработки. Проверь оферту как три независимых эксперта: СУДЬЯ 1 — юрист: ищет юридические риски и размытые формулировки СУДЬЯ 2 — менеджер клиента: смотрит, что может не устроить контрагента СУДЬЯ 3 — проектный менеджер: проверяет реализуемость каждого пункта на практике Каждый ставит по всем 4 требованиям: выполнено / есть размытость / не отражено. Одно главное замечание от каждого. В конце — сводный список правок. Результат: три прохода с разных позиций поймают то, что с одной точки зрения легко пропустить. Юрист заметит формулировку, которую менеджер принял бы как норму.
Источник: Do More Agents Help? Controlled and Protocol-Aligned Evaluation of LLM Agent Workflows
ArXiv ID: 2606.05670 | Сгенерировано: 2026-06-05 10:07

Проблемы LLM

ПроблемаСутьКак обойти
Условия задачи теряются при передаче между ролямиВ промпте три роли: аналитик критик итог. Каждая роль пересказывает следующей сжатую версию контекста. К финальному ответу доходит не всё. Мелкие, но критичные требования выпадают. Задача "с дырками" — самая частая причина плохих результатов от сложных цепочек ролейПосле каждого шага явно фиксируй промежуточный вывод: "запиши итог перед следующим шагом". Перед финальным ответом добавь верификацию: "проверь, что все N требований учтены"

Методы

МетодСуть
Мультисудья — для проверки соответствия требованиямЕсть список конкретных критериев (требования клиента, чеклист, стандарты)? Попроси модель пройти по этому списку несколько раз — каждый раз с другой позиции. СУДЬЯ 1 — юрист: ищет правовые риски. СУДЬЯ 2 — менеджер клиента: смотрит глазами контрагента. СУДЬЯ 3 — исполнитель: проверяет реализуемость. Каждый судья: отмечает ✅ / ⚠️ / ❌ по каждому пункту. Итог — сводный список правок. Почему работает: разные позиции замечают разные пропуски в одном документе. Когда не работает: нет чёткого списка критериев — разные мнения просто не сводятся в решение
Дебаты — для задач с проверяемым ответомКод, расчёт, факт — что-то можно проверить объективно. Попроси модель решить задачу тремя независимыми способами. После каждого: записать промежуточный вывод. В финале: сравнить три решения. Совпали — это ответ. Расходятся — найди ошибку и реши снова. Почему работает: есть объективный критерий "правильно / нет". Несколько решений легко сравнить и проверить. Когда не работает: нет объективного критерия — несколько решений дадут несколько мнений, не консенсус
📖 Простыми словами

Do MoreAgentsHelp? Controlled and Protocol-Aligned Evaluation ofLLMAgentWorkflows

arXiv: 2606.05670

Мультиагентные системы сейчас продают как панацею: мол, создай в одном чате «отдел маркетинга» из пяти ролей, и они сами все порешают. На деле это работает ровно наоборот из-за деградации контекста. Когда ты заставляешь модель играть в испорченный телефон, передавая задачу от «аналитика» к «критику», каждое звено неизбежно теряет куски данных. LLM не умеет удерживать в голове абсолютно всё при передаче эстафеты — к финишу доходит лишь сжатый пересказ, в котором потерялись те самые критические детали, ради которых все и затевалось.

Это как если бы ты нанял пять посредников, чтобы передать записку соседу через стенку. Каждый из них немного приукрасит или чуть-чуть сократит текст, чтобы казаться умнее, и в итоге сосед получит не инструкцию к действию, а невнятный набор лозунгов. В исследовании 5 из 6 мультиагентных систем с треском проиграли обычному одиночному агенту. Оказалось, что одна голова, которая видит весь текст целиком, соображает гораздо лучше, чем толпа виртуальных «экспертов», которые только и делают, что перекидывают друг другу обрывки мыслей.

В работе проверили популярные методы вроде Multi-Agent Debate и Role-Playing, где модели должны спорить или входить в образ. Выяснилось, что вся эта мишура с назначением ролей — белый шум, который только отвлекает нейронку от сути. Реально работает только прямой доступ к инструментам и четкая структура задачи в рамках одного окна. Если у тебя есть семь жестких требований в контракте, один агент проверит их точнее, чем консилиум из «юриста» и «финансиста», потому что он не тратит ресурсы на отыгрыш роли.

Принцип универсален: будь то написание кода, проверка юридических договоров или планирование отпуска — усложнение структуры убивает результат. Исследователи гоняли модели на разных бенчмарках, и везде один и тот же итог: чем длиннее цепочка передач, тем выше шанс, что модель «галлюцинирует» или просто забьет на важный нюанс. Больше агентов — больше хаоса, и никакие красивые промпты про «команду мечты» это не исправят.

Короче, хватит плодить сущности и строить виртуальные корпорации там, где справится один вменяемый запрос. Одиночный агент эффективнее в 80% случаев, потому что он не страдает потерей памяти при пересказе. Если хочешь качества — дай модели все вводные сразу и не заставляй её играть в ролевые игры. Иначе на выходе получишь красивую пустышку вместо решения проблемы, а потом будешь гадать, почему нейронка внезапно «поглупела».

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с