TL;DR
Orchestrator Multi-Agent — архитектура, где один агент-координатор управляет несколькими экспертами-специалистами. Координатор читает задачу, решает каких экспертов привлечь, запускает их параллельно, собирает ответы и выдает итоговое решение. Каждый эксперт отвечает за свою узкую область и дает структурированный ответ с обоснованием.
Одна LLM плохо справляется когда нужно проверить много разных аспектов одновременно. Например: оценить бизнес-идею по финансам, маркетингу, юридике, рискам. Или диагностировать болезнь по 7 группам симптомов. LLM пытается охватить всё сразу → упускает детали, путается в критериях, дает поверхностный анализ. Исследование на медицинской диагностике показало: детальные инструкции (GPrompt) помогают, но недостаточно — нужна структурная декомпозиция задачи.
Метод работает в 4 шага: (1) координатор читает задачу и выбирает нужных экспертов, (2) каждый эксперт независимо анализирует свою область, (3) если координатор кого-то пропустил — система автоматически вызывает недостающих, (4) все ответы собираются в финальное решение с полной трассировкой рассуждений.
Схема метода
ШАГ 1: Координатор
Читает задачу → решает кого вызвать → выдает JSON:
{
"next": ["эксперт1", "эксперт2"],
"why": "краткое обоснование",
"evidence": ["цитата из задачи"]
}
ШАГ 2: Параллельное выполнение
Каждый эксперт независимо анализирует → выдает:
- Да/Нет по своему критерию
- Обоснование с доказательствами
ШАГ 3: Проверка покрытия (автоматическая)
Система проверяет: все ли нужные эксперты ответили
Если нет → вызывает недостающих
ШАГ 4: Агрегация
Собирает все ответы → итоговое решение
Все шаги можно выполнить в одном промпте через структурированные инструкции, или реализовать через несколько запросов для сложных задач.
Пример применения
Задача: Оценить идею сервиса доставки готовых обедов в российские офисы (200+ человек). Учредитель вложил 3 млн ₽, планирует окупиться за 9 месяцев, целевая аудитория — IT-компании Москвы и Питера.
Промпт:
Ты — система экспертной оценки бизнес-идеи.
Структура работы:
1. Координатор читает идею и решает каких экспертов вызвать
2. Каждый эксперт дает структурированный ответ
3. Финальное решение на основе всех мнений
Эксперты:
- Финансист (unit-экономика, окупаемость, риски)
- Маркетолог (рынок, конкуренция, спрос)
- Операционист (логистика, масштабирование)
- Юрист (лицензии, договоры, налоги)
- Эксперт по рискам (что может сломаться)
Идея для оценки:
Сервис доставки готовых обедов в офисы 200+ человек. Целевая аудитория — IT-компании Москва/Питер. Вложения 3 млн ₽, план окупить за 9 месяцев. Меню от локальных кафе, доставка с 12:00 до 14:00, заказ накануне через бот в Telegram.
ЭТАП 1 — КООРДИНАТОР:
Реши каких экспертов вызвать. Формат:
{
"next": ["эксперт1", "эксперт2", ...],
"why": "почему именно они",
"evidence": ["ключевые моменты из описания"]
}
ЭТАП 2 — ЭКСПЕРТЫ:
Каждый названный эксперт отвечает:
- Критическая оценка (Да/Нет — стоит запускать в текущем виде)
- Почему (3-5 пунктов с конкретными цифрами/фактами)
- Что изменить (1-2 главных рекомендации)
ЭТАП 3 — ФИНАЛ:
На основе всех ответов дай:
- Идти/Не идти/Доработать
- Топ-3 критичных момента
- Первый шаг для валидации
Результат:
Координатор вызовет всех 5 экспертов (идея затрагивает все области). Каждый даст структурированный ответ: финансист посчитает unit-экономику и скажет реально ли окупиться за 9 месяцев при средних ценах, маркетолог оценит объем рынка и конкуренцию с Яндекс.Еда/DeliveryClub для корпоративных клиентов, операционист укажет на сложность холодовой цепи и логистики пиковых часов, юрист напомнит про лицензии на общепит и договоры с кафе-партнерами, эксперт по рискам выявит зависимость от погоды/сезонности и риск потери ключевого партнера-кухни.
В финале получишь консолидированный вердикт с конкретными цифрами и рекомендациями — например "Доработать: unit-экономика не сходится при текущих ценах, нужно 400 обедов/день для окупаемости, но целевой рынок дает только 200-250".
Почему это работает
Слабость LLM: Когда задача требует проверки по множеству разных критериев, одна LLM пытается удержать всё в "голове" одновременно. Результат — поверхностный анализ: часть критериев упущена, обоснования размыты, нет глубины в каждой области. Это проявляется особенно сильно в меньших моделях (8B-20B параметров).
Сильная сторона LLM: Отлично справляется с узкоспециализированными задачами когда дана четкая область и конкретные критерии оценки. Плюс хорошо следует структурированным инструкциям (JSON, роли, пошаговые процедуры).
Решение: Метод разбивает сложную задачу на независимые подзадачи и назначает каждой своего эксперта. Координатор работает как умный маршрутизатор — не вызывает всех подряд, а выбирает релевантных. Каждый эксперт получает фокус на своей области → глубже анализирует → дает структурированный ответ с доказательствами. Итог: сумма специализированных ответов точнее чем один общий.
Рычаги управления:
Число экспертов: 3-5 для простых задач (быстрее, дешевле), 7-10 для комплексных (полнее охват). Уменьшай если видишь дублирование работы между экспертами.
Степень детализации инструкций экспертам: Минимальная (QPrompt) = "Есть ли финансовые риски? Ответь да/нет", Максимальная (GPrompt) = чек-лист из 10 пунктов с определениями и примерами. GPrompt работает лучше но требует подготовки критериев.
Роль координатора: Может быть строгим (вызывает только явно релевантных) или осторожным (вызывает всех при малейшем сомнении). Строгий = экономия токенов, осторожный = меньше пропущенных аспектов.
Формат вывода: JSON для автоматизации vs текст для читаемости. Для ручной работы в чате достаточно структурированного текста с заголовками.
Шаблон промпта
Ты — система экспертной оценки по принципу Orchestrator Multi-Agent.
Задача для анализа: {описание_задачи}
Список экспертов и их зоны ответственности:
- {эксперт_1}: {область_компетенции_1}
- {эксперт_2}: {область_компетенции_2}
- {эксперт_3}: {область_компетенции_3}
[добавь нужных экспертов]
ЭТАП 1 — КООРДИНАТОР:
Прочитай задачу. Реши каких экспертов вызвать (не обязательно всех).
Формат ответа:
{
"next": ["эксперт_1", "эксперт_3"],
"why": "обоснование выбора за 1-2 предложения",
"evidence": ["ключевые фразы из задачи, которые указывают на нужность этих экспертов"]
}
ЭТАП 2 — ЭКСПЕРТЫ:
Каждый названный эксперт отвечает по своей зоне:
[Имя эксперта]
- Оценка: {критерий_оценки — например "Да/Нет", "Есть риск/Нет риска", "Критично/Некритично"}
- Обоснование: {3-5 конкретных пунктов с фактами/цифрами/примерами из задачи}
- Рекомендация: {1-2 главных действия}
ЭТАП 3 — ФИНАЛ:
Собери все ответы экспертов. Выдай:
- Итоговое решение: {формат_решения}
- Ключевые факторы: {топ-3 момента которые определили решение}
- Следующий шаг: {конкретное действие}
Что подставлять:
{описание_задачи}— конкретная ситуация для анализа (бизнес-идея, медицинский случай, карьерное решение, оценка риска и т.д.){эксперт_N}и{область_компетенции_N}— роли и их зоны ответственности. Например: "Финансист: unit-экономика и окупаемость" или "Юрист: договоры и регуляторные риски"{критерий_оценки}— что именно должен определить эксперт (бинарный ответ, оценка по шкале, наличие проблемы){формат_решения}— как должен выглядеть финальный вердикт (Да/Нет, Идти/Не идти/Доработать, оценка 1-10 и т.д.)
🚀 Быстрый старт
Если шаблон кажется сложным — не заполняй вручную. Вставь в чат:
Вот шаблон Orchestrator Multi-Agent. Адаптируй под мою задачу: [твоя задача].
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит: - Какая задача для анализа (чтобы понять контекст) - Какие области нужно проверить (чтобы создать экспертов) - В каком формате нужен финальный ответ (чтобы настроить вывод)
Она возьмёт структуру "координатор → эксперты → агрегация" из шаблона и заполнит под твой кейс. Получишь готовый промпт для запуска.
Ограничения
⚠️ Избыточность для простых задач: Если задача проверяется по 1-2 критериям — мультиагентная система только усложняет. Один прямой промпт будет быстрее и точнее. Метод нужен когда 4+ разных аспекта и каждый требует специализированной проверки.
⚠️ Качество зависит от инструкций экспертам: Если дать экспертам размытые критерии (QPrompt: "есть ли риски?") — ответы будут поверхностными. GPrompt (детальные чек-листы, определения, примеры) работает значительно лучше, но требует подготовки. Исследование показало: на меньших моделях (8B-14B) разница между QPrompt и GPrompt критична.
⚠️ Токены и стоимость: Каждый эксперт — отдельный вызов LLM с полным контекстом задачи. 5 экспертов = 5x токенов. Для экономии: (1) координатор отсекает нерелевантных, (2) давай экспертам только их часть контекста, не весь текст задачи.
⚠️ Конфликты между экспертами: Когда эксперты дают противоречивые оценки, нужен механизм разрешения. Простое решение — финальный агент взвешивает мнения по важности. Сложное — раунд дискуссии между экспертами (но это уже другая архитектура).
Оригинал из исследования
Контекст: Исследование применяло метод для диагностики вторичной головной боли — когда врач в первичном звене должен выявить 7 "красных флагов" (признаков опасности) из текстового описания симптомов пациента.
Архитектура: - Координатор: читает описание случая → решает какие из 7 агентов-специалистов вызвать (не все флаги проверяются в каждом случае) - 7 экспертов-специалистов: thunderclap (внезапная острая боль), meningismus (менингеальные симптомы), papilledema (отек зрительного нерва), temporal arteritis (височный артериит), systemic illness (системное заболевание), focal deficits (очаговые неврологические нарушения), first/worst headache (худшая головная боль в жизни у пациента 40+) - Агрегатор: собирает ответы всех экспертов → финальное решение "нужна срочная консультация специалиста или нет"
Ключевые находки: - GPrompt vs QPrompt: Детальные инструкции с медицинскими критериями (GPrompt) дали прирост точности, но только в связке с мультиагентной архитектурой. Одна LLM с GPrompt не показала преимущества над простым QPrompt. - Эффект размера модели: Мультиагентная архитектура дала наибольший прирост на средних моделях (8B-20B параметров). Qwen-8B: с 0.557 (Single QPrompt) до 0.594 (Multi-agent GPrompt). Большие модели (30B) и так работают хорошо, но тоже выигрывают от декомпозиции. - Robustness strategies: Система включает 7 защитных механизмов от сбоев (ручной fan-out если координатор пропустил агента, парсинг кривого JSON, изоляция ошибок одного агента от других) — критично для меньших моделей которые чаще генерят невалидный вывод.
Промпты из исследования:
QPrompt (минимальный):
Does this patient have a thunderclap headache? Answer YES or NO and explain briefly.
GPrompt (с медицинскими критериями):
Is there a thunderclap headache in this note? Answer with Yes or No and explain why.
Definition: Thunderclap headache is a sudden-onset severe headache that reaches maximal severity within one hour.
Look for these indicators:
- "Thunderclap"
- "Thunderclap headache"
- "TCH" (abbreviation for thunderclap headache)
- "sudden onset of headache"
- "new sudden-onset severe headache"
- "worst headache ever experienced"
- "first or worst headache of patient's life"
Answer YES if the headache has sudden onset and reaches peak intensity quickly (within 1 hour).
Техническая реализация: LangGraph (фреймворк для графовых мультиагентных систем), state management (отслеживание какие агенты вызваны/завершены), JSON structured output от координатора, параллельное выполнение экспертов.
Ресурсы
Orchestrator Multi-Agent Clinical Decision Support System for Secondary Headache Diagnosis in Primary Care — Xizhi Wu, Nelly Estefanie Garduno-Rapp, Justin F. Rousseau, Mounika Thakkallapally, Hang Zhang, Yuelyu Ji, Shyam Visweswaran, Yifan Peng, Yanshan Wang. University of Pittsburgh, UT Southwestern Medical Center, Weill Cornell Medicine.
Фреймворк: LangGraph (https://www.langchain.com/langgraph)
