TL;DR
Модели проваливаются в координации при одновременных решениях, но отлично справляются последовательно. Исследование DPBench тестировало GPT-5.2, Claude Opus 4.5 и Grok 4.1 на классической задаче "Обедающие философы" — агенты должны делить общие ресурсы (вилки), чтобы поесть. В последовательном режиме, где каждый агент видит действия предыдущих, GPT-5.2 показал 0% дедлоков. В одновременном режиме, где все решают параллельно — от 25% до 95% дедлоков.
Провал происходит из-за конвергентного мышления: все агенты независимо рассуждают логично и приходят к одинаковым выводам. "Обе вилки свободны → возьму левую" — разумная стратегия. Но если все три философа одновременно возьмут левую вилку, возникнет мёртвая блокировка: каждый держит одну вилку и ждёт вторую, которую держит сосед. Никто не может продолжить. Коммуникация между агентами не решает проблему — модели говорят одно ("возьму левую"), делают другое, или все синхронно следуют одной договорённости, что снова приводит к дедлоку.
Решение — последовательность вместо одновременности и дифференциация ролей. Если агенты действуют по очереди, каждый видит результат предыдущих действий и адаптируется. Если у агентов разные критерии или приоритеты (не просто "два эксперта", а "оптимист vs пессимист"), они придут к разным решениям, что предотвращает синхронный коллапс.
Почему это работает
LLM обучены давать полезные, логичные, последовательные ответы. Когда несколько копий модели получают одинаковую задачу ("ты философ, нужно взять две вилки") в одинаковых условиях ("обе вилки свободны"), они проходят через одинаковый процесс рассуждения и приходят к одинаковому выводу. Это не баг — это особенность обучения через RLHF на человеческих предпочтениях, где "разумность" и "последовательность" поощряются.
Последовательный режим работает потому что ломает симметрию: первый агент действует → второй видит новое состояние → рассуждает иначе. Каждый шаг создаёт асимметрию, которая предотвращает конвергенцию.
Дифференциация ролей работает потому что задаёт разные функции оценки: оптимист максимизирует возможности, пессимист минимизирует риски. Даже при одинаковых входных данных разные критерии успеха дают разные решения.
Рычаги управления для ваших промптов:
- Порядок выполнения: "Сначала агент А, потом агент Б видит ответ А и реагирует" vs "А и Б думают одновременно"
- Роли и критерии: Чем конкретнее и контрастнее роли, тем ниже риск одинакового мышления. "Два маркетолога" → конвергенция. "Маркетолог из enterprise vs стартапер" → дивергенция.
- Явная структура зависимостей: Если агент Б должен учесть мнение агента А, заложи это в промпт структурно через нумерацию шагов или явные инструкции "прочитай вывод агента А перед ответом"
Извлекаемые принципы
Принцип 1: Последовательность побеждает одновременность
Суть: Когда нужна работа с разных углов или ролей, организуй процесс последовательно — каждый следующий этап видит результат предыдущего.
Где применить: - Критика идеи: сначала генерация, потом критика генерации, потом доработка с учётом критики - Редактура текста: сначала правка структуры, потом стиля, потом финальная вычитка - Оценка решения: сначала проработка плюсов, потом минусов с учётом найденных плюсов
Антипаттерн: "Оцени идею одновременно с точки зрения маркетинга, продукта, финансов". Все три оценки генерируются параллельно → риск поверхностности и дублирования.
Правильно:
Шаг 1: Оцени идею с точки зрения маркетинга.
Шаг 2: Теперь, ЗНАЯ маркетинговую оценку выше, оцени с точки зрения продукта.
Шаг 3: ЗНАЯ маркетинговую и продуктовую оценки, оцени финансовую сторону.
Принцип 2: Дифференциация ролей через контраст
Суть: Если все агенты/роли смотрят на задачу одинаково, они придут к одинаковым выводам. Задавай контрастные критерии, перспективы, приоритеты.
Где применить: - Вместо "два эксперта" → "оптимист и пессимист" - Вместо "оцени с двух сторон" → "оцени как инвестор (ROI) и как пользователь (удобство)" - Вместо "два варианта текста" → "корпоративный стиль vs разговорный"
Механика: Разные функции оценки дают разные решения даже при одинаковых данных.
Принцип 3: Коммуникация ≠ координация
Суть: Просить агентов "обсудить" или "согласовать" недостаточно. Нужна явная структура — кто, когда, что видит, как учитывает.
Из исследования: Когда философам разрешили обмениваться сообщениями, дедлок вырос с 25% до 65%. Агенты писали "возьму левую вилку", но действовали иначе, или все синхронно следовали договорённости.
Антипаттерн: "Вот три роли: маркетолог, дизайнер, продакт. Обсудите между собой."
Правильно: "Маркетолог предлагает позиционирование → Дизайнер отвечает как это визуализировать → Продакт смотрит на оба предложения и говорит что реализуемо."
Пример адаптации: Оценка бизнес-идеи
Задача: Оценить идею подписки на кофе для офисов — конкурент типа "Кофемании" или "Даблби", но с доставкой зёрен + аренда кофемашины.
❌ Плохо (одновременная оценка):
Оцени идею подписки на кофе для офисов с трёх точек зрения:
1. Маркетинг
2. Продукт
3. Финансы
Идея: {описание}
Почему плохо: Все три блока генерируются параллельно. Модель даст общие соображения по каждому блоку, но они не будут учитывать друг друга. Маркетинг скажет "растущий рынок", продукт скажет "логистика сложная", финансы скажет "окупаемость через год" — но связи между выводами не будет.
✅ Хорошо (последовательная оценка с контрастными ролями):
Оцени идею подписки на кофе для офисов в 3 шага. Каждый следующий шаг УЧИТЫВАЕТ предыдущий.
**Идея:** Подписка для офисов от 10 человек. Доставляем свежеобжаренное зерно раз в неделю + даём кофемашину в аренду. 15000₽/мес на офис. Москва и Питер.
**Шаг 1 — ОПТИМИСТ (фокус на возможностях):**
Представь, что ты основатель стартапа, который верит в идею. Какие сильные стороны видишь? Почему это выстрелит? Какой лучший сценарий развития?
**Шаг 2 — ПЕССИМИСТ (фокус на рисках):**
Теперь читай оценку оптимиста выше. Ты — скептик, который видит подводные камни. Какие риски он не учёл? Где может провалиться? Какой худший сценарий?
**Шаг 3 — РЕАЛИСТ (фокус на следующем шаге):**
Читай обе оценки. Ты — основатель, который решает: начинать или нет. Если начинать — какой ПЕРВЫЙ Шаг на ближайший месяц, чтобы проверить идею дёшево? Если не начинать — почему именно?
Результат: Модель сгенерирует три оценки, где каждая реагирует на предыдущую. Пессимист увидит конкретные пункты оптимиста и укажет на их слабые места. Реалист взвесит оба взгляда и даст действие с учётом напряжения между ними.
Пример адаптации: Редактура статьи в блог
Задача: Улучшить черновик статьи — сначала структура, потом язык, потом финальная вычитка.
❌ Плохо:
Улучши статью с точки зрения структуры, языка и фактов.
{текст статьи}
✅ Хорошо:
Редактируем статью в 3 прохода. Каждый проход видит результат предыдущего.
**ПРОХОД 1 — Структура:**
Проверь логику изложения. Есть ли вступление → основная мысль → примеры → вывод? Где теряется нить? Предложи новый порядок абзацев, если нужно.
{текст}
**ПРОХОД 2 — Язык:**
Теперь работай с ОТРЕДАКТИРОВАННОЙ СТРУКТУРОЙ из прохода 1. Упрости предложения. Убери канцелярит ("осуществляется", "в рамках"). Замени абстрактное на конкретное.
**ПРОХОД 3 — Финальная вычитка:**
Работай с текстом после прохода 2. Найди фактические ошибки, опечатки, несостыковки. Проверь, что каждый абзац усиливает главную мысль.
Почему это работает: Каждый проход опирается на результат предыдущего. Второй проход не переделывает структуру заново — он работает с уже исправленной. Третий проход видит и структуру, и язык.
Как исследовали
Команда взяла классическую задачу из Computer Science "Обедающие философы" (Dining Philosophers, Дейкстра, 1965) и превратила её в бенчмарк для LLM. Задача простая: _N_ философов сидят за круглым столом, между каждой парой лежит одна вилка. Чтобы поесть, нужно взять обе соседние вилки одновременно. Если все философы одновременно возьмут левую вилку, возникает дедлок — каждый держит одну вилку и ждёт вторую, которая у соседа. Никто не может продолжить.
Протестировали три топовые модели (GPT-5.2, Claude Opus 4.5, Grok 4.1) в восьми сценариях: последовательный vs одновременный режим × 3 или 5 философов × с коммуникацией или без. Каждый сценарий — 20 эпизодов по 30 шагов. Модели получали промпт с описанием ситуации и могли выбрать действие: взять левую вилку, взять правую, отпустить вилки, ждать.
Результаты оказались драматичными: GPT-5.2 в последовательном режиме — 0% дедлоков. Ни одного провала. Модель идеально координировалась, когда каждый философ видел действия предыдущих. Но в одновременном режиме — 25-95% дедлоков в зависимости от числа философов. С тремя философами хуже всего: 95-100% дедлоков. Почему? При симметричной ситуации вероятность, что все выберут одно направление (например, "все берут левую"), очень высока. С пятью философами есть больше пространства для случайной асимметрии.
Самое удивительное: коммуникация ухудшила результаты. С пятью философами дедлок вырос с 25% до 65% при включении обмена сообщениями. Исследователи проверили транскрипты: философы писали "возьму левую вилку", но потом либо делали другое (message-action consistency всего 29%), либо все синхронно следовали договорённости, что снова приводило к блокировке.
Инсайт о меньшем числе агентов: Обычно думаешь "три проще, чем пять". Но в симметричной задаче три агента — хуже. Если все трое рассуждают одинаково, вероятность одинаковых действий выше. С пятью агентами выше шанс, что хотя бы один "думает иначе" случайно, что ломает симметрию.
Практический вывод для читателя: Конвергентное мышление — не теоретическая абстракция. Это реальная проблема, которая проявляется при частоте 25-95% в контролируемых условиях. Если ваш промпт создаёт несколько ролей с одинаковыми критериями — ожидайте похожие выводы.
Ограничения
⚠️ Не готовая техника: Исследование диагностирует проблему, не даёт метод с шаблоном промпта. Принципы нужно адаптировать самостоятельно под свои задачи.
⚠️ Тестировали три модели: GPT-5.2, Claude Opus 4.5, Grok 4.1. Другие модели могут вести себя иначе, но проблема конвергентного мышления скорее всего универсальна — она следует из обучения через RLHF.
⚠️ Стилизованная задача: "Обедающие философы" — абстракция. Реальные задачи координации могут включать дополнительные факторы: асимметричные ресурсы, неполную информацию, меняющиеся приоритеты. Принципы переносимы, но не автоматически.
⚠️ Промпт-дизайн не варьировался: Исследователи использовали один формат промпта. Возможно, другие стратегии (явное указание на необходимость диверсификации, введение случайности, назначение приоритетов) улучшат результаты.
Как это применить в чатах
⚠️ Это НЕ техника с готовым шаблоном. Это набор принципов, которые вы встраиваете в свои промпты.
Чек-лист для мультиагентных промптов
Когда создаёшь промпт с несколькими ролями/точками зрения:
1. Проверь последовательность: - ❌ "Оцени с точки зрения А, Б, В" - ✅ "Шаг 1: А оценивает. Шаг 2: Б видит оценку А и реагирует. Шаг 3: В видит А и Б, делает вывод."
2. Проверь контраст ролей: - ❌ "Два эксперта оценивают" - ✅ "Эксперт-оптимист и эксперт-скептик" - ✅ "Оценка для enterprise-клиента vs стартапа" - ✅ "Редактор структуры vs редактор стиля"
3. Проверь явность зависимостей: - ❌ "Агент Б учитывает мнение А" - ✅ "Агент Б: прочитай ответ А выше. Теперь найди ошибки в его рассуждении."
4. Если нужна диверсификация, задай её явно:
Предложи 3 варианта заголовка. Требования:
- Вариант 1: интрига, вопрос
- Вариант 2: конкретная цифра или факт
- Вариант 3: эмоция, провокация
Варианты должны быть МАКСИМАЛЬНО РАЗНЫМИ по подходу.
Ресурсы
DPBench: Large Language Models Struggle with Simultaneous Coordination
Najmul Hasan, Prashanth BusiReddyGari
Department of Mathematics and Computer Science, University of North Carolina at Pembroke
Preprint, February 17, 2026
GitHub: https://github.com/najmulhasan-code/dpbench
pip install dpbench
Классическая задача: Dining Philosophers Problem (Edsger Dijkstra, 1965)
