3,583 papers
arXiv:2602.04234 70 4 фев. 2026 г. FREE

Многоагентные системы vs одиночный агент: когда больше не значит лучше

КЛЮЧЕВАЯ СУТЬ
Парадокс: Несколько агентов LLM решают задачу хуже одного в 43% случаев. Все думают больше = лучше, а на деле группа часто плывёт сильнее солиста. Исследование позволяет понять КОГДА использовать несколько агентов, а когда достаточно одного — через измерение неопределённости модели. Ключ — энтропия (насколько модель уверена в каждом токене). Если агенты сильно расходятся в первом раунде (высокая вариативность неопределённости) — дальше только хуже. Траектории мышления становятся несовместимыми, и группа скатывается в разброд вместо консенсуса. Плюс: если базовая модель сама неуверенна (энтропия >100 в исследовании), добавление агентов только размножает ошибки.
Адаптировать под запрос

TL;DR

Исследование показывает, что многоагентные системы (MAS) — когда несколько LLM решают задачу вместе — проигрывают одиночному агенту в 43% случаев. Работу систем измеряли через энтропию (неопределённость в ответах модели): чем она ниже и стабильнее, тем выше шанс на правильное решение. Проверили 4 архитектуры взаимодействия агентов (последовательная, централизованная, дебаты, гибридная) на 6 задачах — от школьной математики до олимпиадной, кода и знаний.

Главная находка: MAS проваливаются из-за рассогласования агентов в первом раунде. Если агенты расходятся в начале (высокая вариативность неопределённости между ними), дальше только хуже — траектории рассуждений становятся несовместимыми. Базовая неопределённость модели тоже критична: если модель сама по себе неуверенна (энтропия >100), добавление агентов только размножает ошибки. Простые задачи требуют быстрой сходимости к уверенному ответу, средние — умеренного исследования с контролируемой неопределённостью, сложные — баланса между изучением и консенсусом.

На основе анализа 245 признаков энтропии (на уровне токенов, агентов, раундов) создали Entropy Judger — алгоритм, который выбирает лучший ответ из нескольких попыток MAS по паттернам неопределённости. Он стабильно улучшает точность во всех конфигурациях.


📌

Почему это важно

Контринтуитивный результат о пределах MAS. Общепринято, что больше агентов = лучше результат. Исследование ломает этот стереотип количественно: в 43.3% случаев один агент точнее, чем группа. Проблема не в идее MAS, а в том, когда и как её применять.

Три практических принципа:

1. Certainty Preference (Предпочтение определённости): Снижение неопределённости на любом этапе критично для правильного решения. Чем стабильнее и увереннее модель, тем выше точность.

2. Base Uncertainty (Базовая неопределённость): Если базовая модель сама неуверенна (высокая энтропия), MAS только усиливает проблему. Модель с низкой базовой энтропией — обязательное условие для эффективной многоагентной системы.

3. Task Awareness (Осознание задачи): Разные задачи требуют разных паттернов неопределённости: - Простые (школьная математика): нужна быстрая сходимость к стабильному ответу (низкая энтропия) - Средние (сложная математика): полезна умеренная неопределённость для исследования, но без разброда - Сложные (олимпиадная математика): требуют баланса — достаточно исследовать, но не терять консенсус

Рычаг для диагностики MAS: Если агенты сильно расходятся в первом раунде (высокая вариативность неопределённости) — система обречена. Лучше перезапустить с другой формулировкой, чем продолжать.


📌

Что можно применить

Это исследование-инсайт, а не готовая техника. Выводы помогают понять когда использовать несколько агентов, а когда достаточно одного.

📌

Принцип 1: Один агент может быть лучше

Когда НЕ нужны несколько агентов: - Задача простая и однозначная - Базовая модель уже хорошо справляется - Нужна скорость и экономия токенов

Когда НУЖНЫ несколько агентов: - Задача многогранная (нужны разные точки зрения) - Базовая модель слишком уверенна в неправильном (нужна критика) - Задача средней сложности (помогает умеренное исследование)

📋

Принцип 2: Снижай неопределённость промптом

Ясные инструкции = меньше энтропии = выше точность. Практически:

  • ✅ Конкретные форматы вывода ("ответ числом", "только да/нет")
  • ✅ Пошаговые инструкции вместо общих ("сначала выпиши известное, затем...")
  • ✅ Примеры желаемого вывода (few-shot)
  • ❌ Размытые формулировки ("проанализируй", "подумай над этим")
📌

Принцип 3: Первый раунд решает всё

Если симулируешь несколько агентов в одном чате или используешь разные чаты:

Проверь первые ответы агентов. Если они принципиально расходятся (разные подходы, противоречащие выводы) — переформулируй задачу, не жди что "разберутся дальше".

Хорошо: Агенты предлагают разные решения, но работают в одной логике Плохо: Один считает задачу про геометрию, другой про алгебру, третий вообще не понял


🚀

Примеры применения

📌

Пример 1: Когда один агент лучше

Задача: Нужно быстро посчитать, сколько стоит месячная подписка на 10 сервисов для команды.

❌ Плохо — MAS: Создать 3 агента: один считает базовую стоимость, второй — скидки, третий — итог. → Простая задача, один агент справится быстрее и точнее.

✅ Хорошо — SAS:

Посчитай стоимость:
- Figma 10 мест × 800₽
- Notion 10 мест × 500₽
- GitHub 10 мест × 400₽
Нужна итоговая сумма в месяц.

→ Один запрос, быстрый и точный ответ.

📌

Пример 2: Когда несколько агентов нужны

Задача: Оценить бизнес-идею — открыть кофейню в спальном районе Москвы.

✅ Хорошо — симуляция MAS в одном чате:

Оцени идею с трёх позиций. Важно: каждая роль даёт независимый анализ, затем общий вывод.

ИДЕЯ: Кофейня в спальном районе (Ясенево, Москва)

Роль 1 — Финансист (консервативный):
Посчитай риски, точку безубыточности, запас прочности.

Роль 2 — Маркетолог (креативный):
Оцени спрос, конкурентов, уникальность.

Роль 3 — Операционист (практик):
Оцени сложность запуска, logistics, персонал.

После трёх независимых анализов:
- Укажи где мнения расходятся
- Дай итоговую рекомендацию: идти или нет

Результат: Модель выдаст три блока анализа из разных перспектив, затем сравнит противоречия (например, маркетолог видит спрос, финансист — слабую маржу) и даст взвешенное решение.

Почему работает: Средняя сложность задачи + нужна многогранность. Инструкция структурирует "агентов" и снижает неопределённость через чёткие роли.

📌

Пример 3: Диагностика расхождения

Задача: Разработать стратегию выхода стартапа на рынок.

Промпт:

Предложи 3 варианта стратегии выхода нашего стартапа (SaaS для HR) на российский рынок.

Вариант A — от лица growth-маркетолога
Вариант B — от лица product manager
Вариант C — от лица sales director

Сначала дай все три варианта. Затем — где они противоречат друг другу.

Если в первом раунде: - Все три варианта про контент-маркетинг → ✅ хорошо, можно развивать - A про контент, B про продукт, C про холодные продажи → ⚠️ разброд, нужно уточнить контекст задачи

Действие: Если расхождение сильное — переформулируй с большей конкретикой (укажи бюджет, сроки, текущую стадию). Не надейся, что модель "сама разберётся" в следующих раундах.


⚠️

Ограничения

⚠️ Не готовая техника: Это исследование даёт принципы, а не промпты. Нужна самостоятельная адаптация под свои задачи.

⚠️ Работает на открытых моделях: Исследование проводилось на LLaMA и Qwen (малые модели, 0.6B-8B параметров). Проприетарные модели (GPT-4, Claude) могут вести себя иначе — они сильнее и лучше держат консистентность в MAS.

⚠️ Entropy Judger требует API: Алгоритм выбора лучшего ответа работает с вероятностями токенов, доступными только через API. В обычном чате (ChatGPT, Claude) это неприменимо напрямую.

⚠️ Числовые пороги не универсальны: "Энтропия >100" — специфика конкретных моделей исследования. Для других моделей пороги будут другими.

⚠️ Сложность внедрения: Построить настоящую MAS (несколько отдельных агентов с координацией) в чате непросто. Симуляция в одном промпте ("веди себя как 3 агента") — упрощение, работает не для всех задач.


🔍

Как исследовали

Команда проверила 5 открытых моделей (LLaMA-3.2-3B, LLaMA-3.1-8B, Qwen3-0.6B/4B/8B) на 6 бенчмарках: математика разной сложности (GSM8K — школьная, MATH500 — университетская, AIME24/25 — олимпиадная), код (HumanEval), знания (MMLU). Для каждой задачи запускали 4 архитектуры MAS: Sequential (агенты по очереди), Centralized (оркестратор координирует), Debate (агенты спорят и голосуют), Hybrid (комбинация).

На каждом шаге логировали энтропию — меру неопределённости модели в каждом сгенерированном токене. Построили 245 признаков на разных уровнях: токены (неопределённость в каждом слове), траектории (как меняется энтропия по ходу рассуждения), агенты (разброс между агентами), раунды (динамика от раунда к раунду), система (общие паттерны).

Ключевая идея: переформулировали оценку MAS как задачу машинного обучения — предсказать правильность ответа по признакам энтропии. Обучили XGBoost и LightGBM, затем через SHAP-анализ выяснили, какие признаки на самом деле влияют на успех. Не гипотезы, а данные.

Неожиданный результат: В 43.3% случаев одиночный агент был точнее любой MAS-конфигурации. Особенно на простых задачах и слабых моделях — MAS только мешает. Первый раунд взаимодействия определяет почти всё: если агенты сразу расходятся (высокая вариативность энтропии) — дальше не исправить.

Модели думают по-разному: LLaMA склонна копировать ответы других агентов без проверки (низкая энтропия, но ошибки размножаются), Qwen — перепроверять и корректировать (высокая энтропия, но надёжнее). Это объясняет, почему Qwen с энтропией 100-1000 точнее LLaMA с 0-100.

На основе анализа создали Entropy Judger — алгоритм, который выбирает лучший ответ из нескольких попыток MAS (pass@k) по паттернам энтропии. Тестировали на новых конфигурациях — стабильно улучшает точность во всех случаях.


🔗

Ресурсы

On the Uncertainty of Large Language Model-Based Multi-Agent Systems Yuxuan Zhao, Sijia Chen, Ningxin Su Yantai Research Institute of Harbin Engineering University, Hong Kong University of Science and Technology (Guangzhou) Код исследования: https://github.com/AgenticFinLab/multiagent-entropy


📋 Дайджест исследования

Ключевая суть

Парадокс: Несколько агентов LLM решают задачу хуже одного в 43% случаев. Все думают больше = лучше, а на деле группа часто плывёт сильнее солиста. Исследование позволяет понять КОГДА использовать несколько агентов, а когда достаточно одного — через измерение неопределённости модели. Ключ — энтропия (насколько модель уверена в каждом токене). Если агенты сильно расходятся в первом раунде (высокая вариативность неопределённости) — дальше только хуже. Траектории мышления становятся несовместимыми, и группа скатывается в разброд вместо консенсуса. Плюс: если базовая модель сама неуверенна (энтропия >100 в исследовании), добавление агентов только размножает ошибки.

Принцип работы

НЕ спеши запускать несколько агентов — сначала проверь нужны ли они. Простые задачи требуют быстрой сходимости к уверенному ответу (низкая неопределённость). Средние задачи выигрывают от умеренного исследования разных путей. Сложные — балансируют между изучением вариантов и поиском согласия. Если базовая модель уже неуверенна (вероятности размазаны, ответы скачут) — группа агентов усилит проблему. Это как спросить совета у пяти друзей которые сами в растерянности — получишь пять противоречивых мнений вместо решения. Решающий момент — первый раунд взаимодействия. Агенты сразу разошлись по разным логикам? Остановись и переформулируй задачу, не жди что "дальше разберутся".

Почему работает

Три принципа из исследования: 1. Предпочтение определённости: Снижение неопределённости на любом этапе критично для правильного решения. Чем стабильнее модель выбирает токены (меньше разброс вероятностей), тем выше точность финального ответа. 2. Базовая неопределённость убивает MAS: Если модель сама по себе плывёт (энтропия высокая), добавление агентов превращает одну неуверенную модель в хор неуверенных — каждый тянет в свою сторону. В исследовании: энтропия >100 → многоагентная система почти всегда хуже одиночного агента. 3. Рассогласование в старте = провал: Проанализировали 245 признаков энтропии (на уровне токенов, агентов, раундов общения). Главный предиктор провала — высокая вариативность неопределённости между агентами в первом раунде. Если агенты сразу не находят общий язык, дальше траектории только расходятся. Исследователи создали Entropy Judger — алгоритм который выбирает лучший ответ из нескольких попыток MAS по паттернам неопределённости. Он стабильно улучшает точность во всех 4 проверенных архитектурах (последовательная, централизованная, дебаты, гибридная).

Когда применять

Диагностика и дизайн многоагентных систем → конкретно для задач где нужна многогранность (оценка идеи с разных сторон, критика решения), особенно когда базовая модель уже хорошо справляется (низкая базовая неопределённость). НЕ подходит для: - Простых однозначных задач (расчёты, факты) - Ситуаций когда базовая модель сама плывёт - Случаев когда нужна скорость и экономия токенов НУЖНЫ несколько агентов когда: - Задача многогранная (бизнес-анализ, стратегия) - Базовая модель слишком уверенна в неправильном (нужна критика) - Средняя сложность где помогает умеренное исследование вариантов

Мини-рецепт

1. Оцени базовую уверенность модели: Запусти задачу на одном агенте 2-3 раза. Ответы сильно разные? Модель плывёт — несколько агентов сделают хуже.

2. Структурируй роли агентов: Не просто дай 3 варианта, а конкретные роли с чёткими перспективами — Роль 1 — Финансист (консервативный): посчитай риски...

3. Проверь первый раунд: Агенты дали первые ответы. Они принципиально расходятся (разные логики, противоречащие подходы)? Останови и переформулируй задачу — дальше будет только хуже.

4. Снижай неопределённость промптом: Ясные инструкции = меньше неопределённости. Конкретные форматы вывода (ответ числом), пошаговые инструкции (сначала выпиши известное, затем...), примеры желаемого.

5. Для простых задач — один агент: Если задача однозначная (расчёт, факт) — не усложняй. Один агент быстрее и точнее группы.

Примеры

[ПЛОХО] : Создам 3 агента для подсчёта месячной стоимости подписок: один считает базу, второй скидки, третий итог (Простая задача, один агент справится за секунду. MAS тут только замедляет и плодит неопределённость там где её быть не должно)
[ХОРОШО] : Оцени бизнес-идею с трёх позиций. Важно: каждая роль даёт независимый анализ, затем общий вывод. ИДЕЯ: Кофейня в спальном районе (Ясенево, Москва) Роль 1 — Финансист (консервативный): Посчитай риски, точку безубыточности, запас прочности. Роль 2 — Маркетолог (креативный): Оцени спрос, конкурентов, уникальность. Роль 3 — Операционист (практик): Оцени сложность запуска, логистику, персонал. После трёх независимых анализов: - Укажи где мнения расходятся - Дай итоговую рекомендацию: идти или нет (Средняя сложность + нужна многогранность. Структура снижает неопределённость через чёткие роли. После первого раунда — проверка расхождений как диагностика)
Источник: On the Uncertainty of Large Language Model-Based Multi-Agent Systems
ArXiv ID: 2602.04234 | Сгенерировано: 2026-02-05 05:28

Концепты не выделены.

📖 Простыми словами

On the Uncertainty ofLargeLanguageModel-Based Multi-Agent Systems

arXiv: 2602.04234

Когда мы заставляем несколько нейросетей работать вместе, мы ждем синергии, а получаем коллективный тупняк. Фундаментальная проблема в том, что в многоагентных системах (MAS) ошибки не исправляются, а множатся. Вместо того чтобы дополнять друг друга, модели начинают сомневаться, поддакивать или уходить в дебри, из-за чего общая неопределенность системы взлетает до небес. Если одна модель еще может выдать четкий ответ, то толпа агентов часто превращает решение в информационный шум, где правильный вариант просто тонет.

Это как собрать консилиум из пяти врачей, где каждый — отличный специалист, но вместе они превращаются в балаган. Один ляпнул глупость, второй из вежливости не стал спорить, а третий вообще уснул. В итоге вместо диагноза ты получаешь три страницы споров ни о чем. Формально они пообщались, но на деле одиночный врач справился бы быстрее и точнее, потому что ему не нужно тратить силы на согласование чужих галлюцинаций.

Исследователи замерили этот хаос через энтропию — показатель того, насколько модель уверена в своем ответе. Оказалось, что в 43% случаев толпа агентов лажает там, где одиночка справляется без проблем. Они протестировали четыре типа «совещаний»: последовательное (передача эстафеты), централизованное (есть главный), дебаты (все спорят со всеми) и гибридное. Выяснилось, что если энтропия в процессе обсуждения не падает, а скачет, то система гарантированно выдаст херню. На сложных задачах вроде олимпиадной математики или написания кода это проявляется ярче всего: агенты просто заражают друг друга неуверенностью.

Этот принцип работает везде, где мы пытаемся строить сложные цепочки из нейросетей. Неважно, пишешь ты код через AutoGPT или строишь сложный пайплайн для анализа рынка — если архитектура взаимодействия кривая, ты просто платишь за токены, которые делают результат хуже. Больше агентов не значит умнее, чаще это значит «дороже и глупее». Исследование наглядно доказывает: если ты не контролируешь стабильность ответов на каждом этапе, твоя мега-система — это просто дорогой генератор случайных чисел.

Короче: хватит верить в магию «командной работы» нейросетей. Главный вывод исследования — одиночный агент часто эффективнее, чем плохо настроенная толпа. Если хочешь, чтобы MAS работала, нужно следить за динамикой неопределенности, а не просто сталкивать модели лбами в дебатах. Либо ты строишь жесткую иерархию с фильтрацией бреда, либо твои агенты сожрут бюджет и выдадут результат хуже, чем бесплатная версия ChatGPT.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с