3,583 papers
arXiv:2602.13255 75 2 фев. 2026 г. FREE

Одновременные решения — ахиллесова пята LLM в многоагентных задачах

КЛЮЧЕВАЯ СУТЬ
Парадокс: Три умных агента не могут поделить вилки. Каждый действует логично, но все вместе застревают в дедлоке. GPT-5.2 в задаче «Обедающие философы»: 0% дедлоков в последовательном режиме vs 95% в одновременном. Подход DPBench позволяет строить многоагентные системы которые реально координируются, а не синхронно проваливаются. Фишка: не ставь агентов одновременно — выстраивай цепочку. Первый агент действует → второй видит результат → третий видит оба. Каждый шаг создаёт асимметрию, которая предотвращает конвергенцию. Плюс контрастные роли: не «два эксперта», а «оптимист vs пессимист» — разные критерии успеха дают разные решения.
Адаптировать под запрос

TL;DR

Модели проваливаются в координации при одновременных решениях, но отлично справляются последовательно. Исследование DPBench тестировало GPT-5.2, Claude Opus 4.5 и Grok 4.1 на классической задаче "Обедающие философы" — агенты должны делить общие ресурсы (вилки), чтобы поесть. В последовательном режиме, где каждый агент видит действия предыдущих, GPT-5.2 показал 0% дедлоков. В одновременном режиме, где все решают параллельно — от 25% до 95% дедлоков.

Провал происходит из-за конвергентного мышления: все агенты независимо рассуждают логично и приходят к одинаковым выводам. "Обе вилки свободны → возьму левую" — разумная стратегия. Но если все три философа одновременно возьмут левую вилку, возникнет мёртвая блокировка: каждый держит одну вилку и ждёт вторую, которую держит сосед. Никто не может продолжить. Коммуникация между агентами не решает проблему — модели говорят одно ("возьму левую"), делают другое, или все синхронно следуют одной договорённости, что снова приводит к дедлоку.

Решение — последовательность вместо одновременности и дифференциация ролей. Если агенты действуют по очереди, каждый видит результат предыдущих действий и адаптируется. Если у агентов разные критерии или приоритеты (не просто "два эксперта", а "оптимист vs пессимист"), они придут к разным решениям, что предотвращает синхронный коллапс.


🧠

Почему это работает

LLM обучены давать полезные, логичные, последовательные ответы. Когда несколько копий модели получают одинаковую задачу ("ты философ, нужно взять две вилки") в одинаковых условиях ("обе вилки свободны"), они проходят через одинаковый процесс рассуждения и приходят к одинаковому выводу. Это не баг — это особенность обучения через RLHF на человеческих предпочтениях, где "разумность" и "последовательность" поощряются.

Последовательный режим работает потому что ломает симметрию: первый агент действует → второй видит новое состояние → рассуждает иначе. Каждый шаг создаёт асимметрию, которая предотвращает конвергенцию.

Дифференциация ролей работает потому что задаёт разные функции оценки: оптимист максимизирует возможности, пессимист минимизирует риски. Даже при одинаковых входных данных разные критерии успеха дают разные решения.

Рычаги управления для ваших промптов:

  • Порядок выполнения: "Сначала агент А, потом агент Б видит ответ А и реагирует" vs "А и Б думают одновременно"
  • Роли и критерии: Чем конкретнее и контрастнее роли, тем ниже риск одинакового мышления. "Два маркетолога" → конвергенция. "Маркетолог из enterprise vs стартапер" → дивергенция.
  • Явная структура зависимостей: Если агент Б должен учесть мнение агента А, заложи это в промпт структурно через нумерацию шагов или явные инструкции "прочитай вывод агента А перед ответом"

📌

Извлекаемые принципы

📌

Принцип 1: Последовательность побеждает одновременность

Суть: Когда нужна работа с разных углов или ролей, организуй процесс последовательно — каждый следующий этап видит результат предыдущего.

Где применить: - Критика идеи: сначала генерация, потом критика генерации, потом доработка с учётом критики - Редактура текста: сначала правка структуры, потом стиля, потом финальная вычитка - Оценка решения: сначала проработка плюсов, потом минусов с учётом найденных плюсов

Антипаттерн: "Оцени идею одновременно с точки зрения маркетинга, продукта, финансов". Все три оценки генерируются параллельно → риск поверхностности и дублирования.

Правильно:

Шаг 1: Оцени идею с точки зрения маркетинга.
Шаг 2: Теперь, ЗНАЯ маркетинговую оценку выше, оцени с точки зрения продукта.
Шаг 3: ЗНАЯ маркетинговую и продуктовую оценки, оцени финансовую сторону.

📌

Принцип 2: Дифференциация ролей через контраст

Суть: Если все агенты/роли смотрят на задачу одинаково, они придут к одинаковым выводам. Задавай контрастные критерии, перспективы, приоритеты.

Где применить: - Вместо "два эксперта" → "оптимист и пессимист" - Вместо "оцени с двух сторон" → "оцени как инвестор (ROI) и как пользователь (удобство)" - Вместо "два варианта текста" → "корпоративный стиль vs разговорный"

Механика: Разные функции оценки дают разные решения даже при одинаковых данных.


📌

Принцип 3: Коммуникация ≠ координация

Суть: Просить агентов "обсудить" или "согласовать" недостаточно. Нужна явная структура — кто, когда, что видит, как учитывает.

Из исследования: Когда философам разрешили обмениваться сообщениями, дедлок вырос с 25% до 65%. Агенты писали "возьму левую вилку", но действовали иначе, или все синхронно следовали договорённости.

Антипаттерн: "Вот три роли: маркетолог, дизайнер, продакт. Обсудите между собой."

Правильно: "Маркетолог предлагает позиционирование → Дизайнер отвечает как это визуализировать → Продакт смотрит на оба предложения и говорит что реализуемо."


📌

Пример адаптации: Оценка бизнес-идеи

Задача: Оценить идею подписки на кофе для офисов — конкурент типа "Кофемании" или "Даблби", но с доставкой зёрен + аренда кофемашины.

❌ Плохо (одновременная оценка):

Оцени идею подписки на кофе для офисов с трёх точек зрения:
1. Маркетинг
2. Продукт  
3. Финансы

Идея: {описание}

Почему плохо: Все три блока генерируются параллельно. Модель даст общие соображения по каждому блоку, но они не будут учитывать друг друга. Маркетинг скажет "растущий рынок", продукт скажет "логистика сложная", финансы скажет "окупаемость через год" — но связи между выводами не будет.

✅ Хорошо (последовательная оценка с контрастными ролями):

Оцени идею подписки на кофе для офисов в 3 шага. Каждый следующий шаг УЧИТЫВАЕТ предыдущий.

**Идея:** Подписка для офисов от 10 человек. Доставляем свежеобжаренное зерно раз в неделю + даём кофемашину в аренду. 15000₽/мес на офис. Москва и Питер.

**Шаг 1 — ОПТИМИСТ (фокус на возможностях):**
Представь, что ты основатель стартапа, который верит в идею. Какие сильные стороны видишь? Почему это выстрелит? Какой лучший сценарий развития?

**Шаг 2 — ПЕССИМИСТ (фокус на рисках):**
Теперь читай оценку оптимиста выше. Ты — скептик, который видит подводные камни. Какие риски он не учёл? Где может провалиться? Какой худший сценарий?

**Шаг 3 — РЕАЛИСТ (фокус на следующем шаге):**
Читай обе оценки. Ты — основатель, который решает: начинать или нет. Если начинать — какой ПЕРВЫЙ Шаг на ближайший месяц, чтобы проверить идею дёшево? Если не начинать — почему именно?

Результат: Модель сгенерирует три оценки, где каждая реагирует на предыдущую. Пессимист увидит конкретные пункты оптимиста и укажет на их слабые места. Реалист взвесит оба взгляда и даст действие с учётом напряжения между ними.


📌

Пример адаптации: Редактура статьи в блог

Задача: Улучшить черновик статьи — сначала структура, потом язык, потом финальная вычитка.

❌ Плохо:

Улучши статью с точки зрения структуры, языка и фактов.

{текст статьи}

✅ Хорошо:

Редактируем статью в 3 прохода. Каждый проход видит результат предыдущего.

**ПРОХОД 1 — Структура:**
Проверь логику изложения. Есть ли вступление → основная мысль → примеры → вывод? Где теряется нить? Предложи новый порядок абзацев, если нужно.

{текст}

**ПРОХОД 2 — Язык:**
Теперь работай с ОТРЕДАКТИРОВАННОЙ СТРУКТУРОЙ из прохода 1. Упрости предложения. Убери канцелярит ("осуществляется", "в рамках"). Замени абстрактное на конкретное.

**ПРОХОД 3 — Финальная вычитка:**
Работай с текстом после прохода 2. Найди фактические ошибки, опечатки, несостыковки. Проверь, что каждый абзац усиливает главную мысль.

Почему это работает: Каждый проход опирается на результат предыдущего. Второй проход не переделывает структуру заново — он работает с уже исправленной. Третий проход видит и структуру, и язык.


🔍

Как исследовали

Команда взяла классическую задачу из Computer Science "Обедающие философы" (Dining Philosophers, Дейкстра, 1965) и превратила её в бенчмарк для LLM. Задача простая: _N_ философов сидят за круглым столом, между каждой парой лежит одна вилка. Чтобы поесть, нужно взять обе соседние вилки одновременно. Если все философы одновременно возьмут левую вилку, возникает дедлок — каждый держит одну вилку и ждёт вторую, которая у соседа. Никто не может продолжить.

Протестировали три топовые модели (GPT-5.2, Claude Opus 4.5, Grok 4.1) в восьми сценариях: последовательный vs одновременный режим × 3 или 5 философов × с коммуникацией или без. Каждый сценарий — 20 эпизодов по 30 шагов. Модели получали промпт с описанием ситуации и могли выбрать действие: взять левую вилку, взять правую, отпустить вилки, ждать.

Результаты оказались драматичными: GPT-5.2 в последовательном режиме — 0% дедлоков. Ни одного провала. Модель идеально координировалась, когда каждый философ видел действия предыдущих. Но в одновременном режиме — 25-95% дедлоков в зависимости от числа философов. С тремя философами хуже всего: 95-100% дедлоков. Почему? При симметричной ситуации вероятность, что все выберут одно направление (например, "все берут левую"), очень высока. С пятью философами есть больше пространства для случайной асимметрии.

Самое удивительное: коммуникация ухудшила результаты. С пятью философами дедлок вырос с 25% до 65% при включении обмена сообщениями. Исследователи проверили транскрипты: философы писали "возьму левую вилку", но потом либо делали другое (message-action consistency всего 29%), либо все синхронно следовали договорённости, что снова приводило к блокировке.

Инсайт о меньшем числе агентов: Обычно думаешь "три проще, чем пять". Но в симметричной задаче три агента — хуже. Если все трое рассуждают одинаково, вероятность одинаковых действий выше. С пятью агентами выше шанс, что хотя бы один "думает иначе" случайно, что ломает симметрию.

Практический вывод для читателя: Конвергентное мышление — не теоретическая абстракция. Это реальная проблема, которая проявляется при частоте 25-95% в контролируемых условиях. Если ваш промпт создаёт несколько ролей с одинаковыми критериями — ожидайте похожие выводы.


⚠️

Ограничения

⚠️ Не готовая техника: Исследование диагностирует проблему, не даёт метод с шаблоном промпта. Принципы нужно адаптировать самостоятельно под свои задачи.

⚠️ Тестировали три модели: GPT-5.2, Claude Opus 4.5, Grok 4.1. Другие модели могут вести себя иначе, но проблема конвергентного мышления скорее всего универсальна — она следует из обучения через RLHF.

⚠️ Стилизованная задача: "Обедающие философы" — абстракция. Реальные задачи координации могут включать дополнительные факторы: асимметричные ресурсы, неполную информацию, меняющиеся приоритеты. Принципы переносимы, но не автоматически.

⚠️ Промпт-дизайн не варьировался: Исследователи использовали один формат промпта. Возможно, другие стратегии (явное указание на необходимость диверсификации, введение случайности, назначение приоритетов) улучшат результаты.


📌

Как это применить в чатах

⚠️ Это НЕ техника с готовым шаблоном. Это набор принципов, которые вы встраиваете в свои промпты.

📋

Чек-лист для мультиагентных промптов

Когда создаёшь промпт с несколькими ролями/точками зрения:

1. Проверь последовательность: - ❌ "Оцени с точки зрения А, Б, В" - ✅ "Шаг 1: А оценивает. Шаг 2: Б видит оценку А и реагирует. Шаг 3: В видит А и Б, делает вывод."

2. Проверь контраст ролей: - ❌ "Два эксперта оценивают" - ✅ "Эксперт-оптимист и эксперт-скептик" - ✅ "Оценка для enterprise-клиента vs стартапа" - ✅ "Редактор структуры vs редактор стиля"

3. Проверь явность зависимостей: - ❌ "Агент Б учитывает мнение А" - ✅ "Агент Б: прочитай ответ А выше. Теперь найди ошибки в его рассуждении."

4. Если нужна диверсификация, задай её явно:

Предложи 3 варианта заголовка. Требования:
- Вариант 1: интрига, вопрос
- Вариант 2: конкретная цифра или факт  
- Вариант 3: эмоция, провокация

Варианты должны быть МАКСИМАЛЬНО РАЗНЫМИ по подходу.

🔗

Ресурсы

DPBench: Large Language Models Struggle with Simultaneous Coordination

Najmul Hasan, Prashanth BusiReddyGari

Department of Mathematics and Computer Science, University of North Carolina at Pembroke

Preprint, February 17, 2026

GitHub: https://github.com/najmulhasan-code/dpbench

pip install dpbench

Классическая задача: Dining Philosophers Problem (Edsger Dijkstra, 1965)


📋 Дайджест исследования

Ключевая суть

Парадокс: Три умных агента не могут поделить вилки. Каждый действует логично, но все вместе застревают в дедлоке. GPT-5.2 в задаче «Обедающие философы»: 0% дедлоков в последовательном режиме vs 95% в одновременном. Подход DPBench позволяет строить многоагентные системы которые реально координируются, а не синхронно проваливаются. Фишка: не ставь агентов одновременно — выстраивай цепочку. Первый агент действует → второй видит результат → третий видит оба. Каждый шаг создаёт асимметрию, которая предотвращает конвергенцию. Плюс контрастные роли: не «два эксперта», а «оптимист vs пессимист» — разные критерии успеха дают разные решения.

Принцип работы

Не «дай трём агентам одну задачу» → организуй процесс с зависимостями. Агент А делает вывод → Агент Б видит вывод А и реагирует → Агент В видит оба. Каждый следующий шаг опирается на предыдущий. Плюс дифференциация через контрастные критерии: оптимист максимизирует возможности, пессимист минимизирует риски. Даже при одинаковых данных разные функции оценки дают разные решения. Это ломает конвергентное мышление — когда все агенты независимо рассуждают одинаково и приходят к одному выводу.

Почему работает

LLM обучены через RLHF давать разумные, последовательные ответы. Когда несколько копий модели получают одинаковую задачу в одинаковых условиях, они проходят через одинаковый процесс рассуждения. Это не баг — это особенность обучения где «разумность» поощряется. Последовательность работает потому что ломает симметрию: первый агент действует → второй видит новое состояние → рассуждает иначе. Каждый шаг создаёт асимметрию. Коммуникация между агентами НЕ решает проблему. В экспериментах когда философам разрешили обмениваться сообщениями, дедлок вырос с 25% до 65%. Агенты писали одно, делали другое, или все синхронно следовали договорённости.

Когда применять

Многоуровневая оценка → когда нужно посмотреть с разных углов: сначала маркетинг, потом продукт с учётом маркетинга, потом финансы с учётом обоих. Редактура текстов → сначала структура, потом язык видя новую структуру, потом вычитка. Критика идей → генерация, потом критика сгенерированного, потом доработка с учётом критики. Особенно когда нужна глубина проработки, а не широкий охват вариантов. НЕ подходит для креативной генерации где нужны параллельные независимые варианты — «10 идей для названия продукта».

Мини-рецепт

1. Определи порядок выполнения: Кто первый, кто видит результат первого, кто видит обоих. Не «все одновременно».
2. Задай контрастные роли: Не «два эксперта», а «оптимист (фокус на возможностях) vs пессимист (фокус на рисках)». Разные критерии оценки.
3. Явная структура зависимостей: Второй агент должен ВИДЕТЬ вывод первого — явно укажи «прочитай оценку выше» или «зная маркетинговую оценку».
4. Проверь асимметрию: Если агенты могут прийти к одинаковым выводам при одинаковых данных — добавь различие в ролях или данных.

Примеры

[ПЛОХО] : Оцени бизнес-идею одновременно с трёх точек зрения: маркетинг, продукт, финансы (Все три блока генерируются параллельно → поверхностность, не учитывают друг друга)
[ХОРОШО] : Шаг 1 — ОПТИМИСТ: Какие сильные стороны? Лучший сценарий? Шаг 2 — ПЕССИМИСТ: Читай оценку оптимиста выше. Какие риски он не учёл? Худший сценарий? Шаг 3 — РЕАЛИСТ: Читай обе оценки. Первый шаг на месяц чтобы проверить дёшево? (Каждый шаг видит предыдущий → пессимист реагирует на конкретные пункты оптимиста → реалист взвешивает напряжение между ними)
Источник: DPBench: Large Language Models Struggle with Simultaneous Coordination
ArXiv ID: 2602.13255 | Сгенерировано: 2026-02-17 05:34

Проблемы LLM

ПроблемаСутьКак обойти
Копии модели думают одинаковоЗапускаешь несколько агентов или ролей одновременно. Даёшь одинаковую задачу ("оцени идею", "предложи решение"). Все приходят к одному выводу. Нет разнообразия. Все агенты выбирают одно действие возникает коллизия или поверхностный результатНе делай одновременно. Делай последовательно: первый агент ответил второй видит этот ответ думает иначе. Или задавай сильно контрастные роли: не "два эксперта", а "оптимист vs пессимист"

Методы

МетодСуть
Последовательная цепочка с явными зависимостямиРазбей работу на шаги. Каждый шаг явно ссылается на результат предыдущего. Шаг 1: [задача А] Шаг 2: Теперь ЗНАЯ результат шага 1, сделай [задача Б] Шаг 3: УЧИТЫВАЯ шаги 1 и 2, сделай [задача В]. Почему работает: Каждый новый шаг видит изменённое состояние. Модель не может прийти к тому же выводу, потому что условия уже другие. Когда применять: Нужна критика идеи, редактура текста, оценка с разных сторон, планирование. Когда не работает: Задачи действительно независимые (перевод разных абзацев, суммаризация нескольких статей отдельно)
Контрастные роли через противоположные критерииНе давай размытые роли ("два эксперта", "оцени с двух сторон"). Задавай роли через противоположные функции оценки: оптимист (максимизирует возможности) vs пессимист (минимизирует риски), инвестор (ROI) vs пользователь (удобство), скорость vs качество. Почему работает: Разные критерии успеха дают разные решения даже при одинаковых данных. Применяй: Для оценки идей, поиска рисков, дебатов, генерации альтернатив

Тезисы

ТезисКомментарий
Одинаковые условия одинаковые рассуждения одинаковые выводыLLM обучена давать логичные последовательные ответы. Когда несколько копий получают идентичную задачу в идентичных условиях, они проходят через одинаковый процесс рассуждений. Это не баг — это следствие обучения на человеческих предпочтениях к "разумности". Применяй: Если нужно разнообразие — ломай симметрию через порядок выполнения или разные входные данные
Последовательность ломает симметрию входных данныхПервый агент действует создаёт новое состояние второй агент видит это состояние рассуждает иначе. Каждый шаг добавляет асимметрию. Предотвращает конвергенцию к одному решению. Применяй: Вместо "Агент А и Б думают одновременно" делай "Агент А думает Агент Б видит результат А и реагирует"
📖 Простыми словами

DPBench:LargeLanguageModelsStruggle with Simultaneous Coordination

arXiv: 2602.13255

Современные AI-ассистенты — это гении логики, пока они работают в одиночку, но стоит заставить их действовать сообща, как начинается полный паралич. Проблема в том, что LLM по своей природе предсказуемы и стремятся к «правильному» ответу. Когда несколько копий одной модели одновременно решают одну и ту же задачу, они мыслят настолько одинаково, что буквально втыкаются друг в друга. Это фундаментальный баг коллективного разума: модели не умеют уступать или хитрить в моменте, они просто синхронно совершают одну и ту же ошибку.

Это как если бы на узком перекрестке встретились четыре водителя-перфекциониста, которые едут строго по инструкции. Каждый видит, что путь свободен, и одновременно нажимает на газ. В итоге — глухая авария в центре. Если бы они ехали по очереди, проблем бы не возникло, но когда нужно принять решение в одну и ту же секунду, их хваленая логика превращается в тыкву. Они слишком «умные» и последовательные, чтобы кто-то один вдруг решил: «А, ладно, я подожду».

В тесте DPBench на классической задаче об «обедающих философах» этот облом виден в цифрах. Когда агенты ходят по очереди, топовые модели вроде GPT-5.2 выдают 0% дедлоков — идеальный результат. Но стоит включить режим «все сразу», и начинается хаос: от 25% до 95% провалов. Модели просто хватают общие ресурсы (вилки) одновременно и замирают в бесконечном ожидании, потому что никто не может доесть свой обед. Это наглядная демонстрация того, что одновременная координация для AI пока остается непосильной задачей.

Хотя эксперимент ставили на философах и вилках, принцип универсален для любых систем, где несколько AI-агентов управляют чем-то общим. Будь то распределение заказов в логистике, управление трафиком или автоматизация биржевых торгов — если модели не видят шагов друг друга в реальном времени, они будут плодить дедлоки. Обычное обучение через RLHF только усугубляет ситуацию, потому что оно приучает модель быть «правильной», а в толпе иногда нужно быть непредсказуемым или просто уметь вовремя притормозить.

Короче: текущие LLM — это крутые исполнители, но паршивые командные игроки. Пока мы не научим их учитывать фактор неопределенности и действий других «игроков» в моменте, доверять им сложные параллельные процессы нельзя. Либо стройте жесткую очередь, где каждый ждет отмашки предыдущего, либо готовьтесь к тому, что ваша система впадет в ступор на ровном месте. Без механизма разруливания конфликтов любая попытка масштабировать AI-агентов превратится в эпичный затор.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с