TL;DR
Исследование показывает, что многоагентные системы (MAS) — когда несколько LLM решают задачу вместе — проигрывают одиночному агенту в 43% случаев. Работу систем измеряли через энтропию (неопределённость в ответах модели): чем она ниже и стабильнее, тем выше шанс на правильное решение. Проверили 4 архитектуры взаимодействия агентов (последовательная, централизованная, дебаты, гибридная) на 6 задачах — от школьной математики до олимпиадной, кода и знаний.
Главная находка: MAS проваливаются из-за рассогласования агентов в первом раунде. Если агенты расходятся в начале (высокая вариативность неопределённости между ними), дальше только хуже — траектории рассуждений становятся несовместимыми. Базовая неопределённость модели тоже критична: если модель сама по себе неуверенна (энтропия >100), добавление агентов только размножает ошибки. Простые задачи требуют быстрой сходимости к уверенному ответу, средние — умеренного исследования с контролируемой неопределённостью, сложные — баланса между изучением и консенсусом.
На основе анализа 245 признаков энтропии (на уровне токенов, агентов, раундов) создали Entropy Judger — алгоритм, который выбирает лучший ответ из нескольких попыток MAS по паттернам неопределённости. Он стабильно улучшает точность во всех конфигурациях.
Почему это важно
Контринтуитивный результат о пределах MAS. Общепринято, что больше агентов = лучше результат. Исследование ломает этот стереотип количественно: в 43.3% случаев один агент точнее, чем группа. Проблема не в идее MAS, а в том, когда и как её применять.
Три практических принципа:
1. Certainty Preference (Предпочтение определённости): Снижение неопределённости на любом этапе критично для правильного решения. Чем стабильнее и увереннее модель, тем выше точность.
2. Base Uncertainty (Базовая неопределённость): Если базовая модель сама неуверенна (высокая энтропия), MAS только усиливает проблему. Модель с низкой базовой энтропией — обязательное условие для эффективной многоагентной системы.
3. Task Awareness (Осознание задачи): Разные задачи требуют разных паттернов неопределённости: - Простые (школьная математика): нужна быстрая сходимость к стабильному ответу (низкая энтропия) - Средние (сложная математика): полезна умеренная неопределённость для исследования, но без разброда - Сложные (олимпиадная математика): требуют баланса — достаточно исследовать, но не терять консенсус
Рычаг для диагностики MAS: Если агенты сильно расходятся в первом раунде (высокая вариативность неопределённости) — система обречена. Лучше перезапустить с другой формулировкой, чем продолжать.
Что можно применить
Это исследование-инсайт, а не готовая техника. Выводы помогают понять когда использовать несколько агентов, а когда достаточно одного.
Принцип 1: Один агент может быть лучше
Когда НЕ нужны несколько агентов: - Задача простая и однозначная - Базовая модель уже хорошо справляется - Нужна скорость и экономия токенов
Когда НУЖНЫ несколько агентов: - Задача многогранная (нужны разные точки зрения) - Базовая модель слишком уверенна в неправильном (нужна критика) - Задача средней сложности (помогает умеренное исследование)
Принцип 2: Снижай неопределённость промптом
Ясные инструкции = меньше энтропии = выше точность. Практически:
- ✅ Конкретные форматы вывода ("ответ числом", "только да/нет")
- ✅ Пошаговые инструкции вместо общих ("сначала выпиши известное, затем...")
- ✅ Примеры желаемого вывода (few-shot)
- ❌ Размытые формулировки ("проанализируй", "подумай над этим")
Принцип 3: Первый раунд решает всё
Если симулируешь несколько агентов в одном чате или используешь разные чаты:
Проверь первые ответы агентов. Если они принципиально расходятся (разные подходы, противоречащие выводы) — переформулируй задачу, не жди что "разберутся дальше".
Хорошо: Агенты предлагают разные решения, но работают в одной логике Плохо: Один считает задачу про геометрию, другой про алгебру, третий вообще не понял
Примеры применения
Пример 1: Когда один агент лучше
Задача: Нужно быстро посчитать, сколько стоит месячная подписка на 10 сервисов для команды.
❌ Плохо — MAS: Создать 3 агента: один считает базовую стоимость, второй — скидки, третий — итог. → Простая задача, один агент справится быстрее и точнее.
✅ Хорошо — SAS:
Посчитай стоимость:
- Figma 10 мест × 800₽
- Notion 10 мест × 500₽
- GitHub 10 мест × 400₽
Нужна итоговая сумма в месяц.
→ Один запрос, быстрый и точный ответ.
Пример 2: Когда несколько агентов нужны
Задача: Оценить бизнес-идею — открыть кофейню в спальном районе Москвы.
✅ Хорошо — симуляция MAS в одном чате:
Оцени идею с трёх позиций. Важно: каждая роль даёт независимый анализ, затем общий вывод.
ИДЕЯ: Кофейня в спальном районе (Ясенево, Москва)
Роль 1 — Финансист (консервативный):
Посчитай риски, точку безубыточности, запас прочности.
Роль 2 — Маркетолог (креативный):
Оцени спрос, конкурентов, уникальность.
Роль 3 — Операционист (практик):
Оцени сложность запуска, logistics, персонал.
После трёх независимых анализов:
- Укажи где мнения расходятся
- Дай итоговую рекомендацию: идти или нет
Результат: Модель выдаст три блока анализа из разных перспектив, затем сравнит противоречия (например, маркетолог видит спрос, финансист — слабую маржу) и даст взвешенное решение.
Почему работает: Средняя сложность задачи + нужна многогранность. Инструкция структурирует "агентов" и снижает неопределённость через чёткие роли.
Пример 3: Диагностика расхождения
Задача: Разработать стратегию выхода стартапа на рынок.
Промпт:
Предложи 3 варианта стратегии выхода нашего стартапа (SaaS для HR) на российский рынок.
Вариант A — от лица growth-маркетолога
Вариант B — от лица product manager
Вариант C — от лица sales director
Сначала дай все три варианта. Затем — где они противоречат друг другу.
Если в первом раунде: - Все три варианта про контент-маркетинг → ✅ хорошо, можно развивать - A про контент, B про продукт, C про холодные продажи → ⚠️ разброд, нужно уточнить контекст задачи
Действие: Если расхождение сильное — переформулируй с большей конкретикой (укажи бюджет, сроки, текущую стадию). Не надейся, что модель "сама разберётся" в следующих раундах.
Ограничения
⚠️ Не готовая техника: Это исследование даёт принципы, а не промпты. Нужна самостоятельная адаптация под свои задачи.
⚠️ Работает на открытых моделях: Исследование проводилось на LLaMA и Qwen (малые модели, 0.6B-8B параметров). Проприетарные модели (GPT-4, Claude) могут вести себя иначе — они сильнее и лучше держат консистентность в MAS.
⚠️ Entropy Judger требует API: Алгоритм выбора лучшего ответа работает с вероятностями токенов, доступными только через API. В обычном чате (ChatGPT, Claude) это неприменимо напрямую.
⚠️ Числовые пороги не универсальны: "Энтропия >100" — специфика конкретных моделей исследования. Для других моделей пороги будут другими.
⚠️ Сложность внедрения: Построить настоящую MAS (несколько отдельных агентов с координацией) в чате непросто. Симуляция в одном промпте ("веди себя как 3 агента") — упрощение, работает не для всех задач.
Как исследовали
Команда проверила 5 открытых моделей (LLaMA-3.2-3B, LLaMA-3.1-8B, Qwen3-0.6B/4B/8B) на 6 бенчмарках: математика разной сложности (GSM8K — школьная, MATH500 — университетская, AIME24/25 — олимпиадная), код (HumanEval), знания (MMLU). Для каждой задачи запускали 4 архитектуры MAS: Sequential (агенты по очереди), Centralized (оркестратор координирует), Debate (агенты спорят и голосуют), Hybrid (комбинация).
На каждом шаге логировали энтропию — меру неопределённости модели в каждом сгенерированном токене. Построили 245 признаков на разных уровнях: токены (неопределённость в каждом слове), траектории (как меняется энтропия по ходу рассуждения), агенты (разброс между агентами), раунды (динамика от раунда к раунду), система (общие паттерны).
Ключевая идея: переформулировали оценку MAS как задачу машинного обучения — предсказать правильность ответа по признакам энтропии. Обучили XGBoost и LightGBM, затем через SHAP-анализ выяснили, какие признаки на самом деле влияют на успех. Не гипотезы, а данные.
Неожиданный результат: В 43.3% случаев одиночный агент был точнее любой MAS-конфигурации. Особенно на простых задачах и слабых моделях — MAS только мешает. Первый раунд взаимодействия определяет почти всё: если агенты сразу расходятся (высокая вариативность энтропии) — дальше не исправить.
Модели думают по-разному: LLaMA склонна копировать ответы других агентов без проверки (низкая энтропия, но ошибки размножаются), Qwen — перепроверять и корректировать (высокая энтропия, но надёжнее). Это объясняет, почему Qwen с энтропией 100-1000 точнее LLaMA с 0-100.
На основе анализа создали Entropy Judger — алгоритм, который выбирает лучший ответ из нескольких попыток MAS (pass@k) по паттернам энтропии. Тестировали на новых конфигурациях — стабильно улучшает точность во всех случаях.
Ресурсы
On the Uncertainty of Large Language Model-Based Multi-Agent Systems Yuxuan Zhao, Sijia Chen, Ningxin Su Yantai Research Institute of Harbin Engineering University, Hong Kong University of Science and Technology (Guangzhou) Код исследования: https://github.com/AgenticFinLab/multiagent-entropy
