TL;DR
Исследователи из Dartmouth College создали тестовую среду-головоломку, где два LLM-агента видят разные части информации и должны обмениваться сообщениями для решения задачи. Алиса видит формы и позиции (но не цвета), Боб — формы и цвета (но не позиции). Агенты по очереди отправляют сообщения друг другу и обновляют свою рабочую гипотезу, пока не соберут полную картину.
Главная находка: сильные модели делятся всей информацией сразу, слабые — по кусочкам или игнорируют партнёра. GPT-5 и Claude-4.0 решают любую головоломку за 2 хода, полностью раскрывая свою часть информации. GPT-4o и Claude-3.5 обмениваются по одному элементу за раз. GPT-3.5-turbo и Llama 3.2-11B вообще не реагируют на сообщения партнёра — продолжают действовать так, будто работают в одиночку.
Вторая находка про фидбек неожиданна: простое подтверждение "твоя часть решена" повышает успех с 43% до 80% (GPT-4o). Но когда модели дали детальный фидбек об обеих частях головоломки — производительность упала. Причина: информационная перегрузка без контекста. Алисе говорят "позиция 3 у Боба неправильная", но она не видит гипотезу Боба — непонятно как помочь.
Схема среды
ПОДГОТОВКА:
• Создаётся головоломка: N позиций, каждая = форма + цвет
• Алисе: показываются позиции + формы (цвета скрыты)
• Бобу: показываются формы + цвета (позиции скрыты)
ЦИКЛ (до 2N ходов):
ХОД АЛИСЫ:
Input: инструкция, её часть, текущая гипотеза, история сообщений, фидбек
Output: { message: "текст для Боба", actions: [изменения] }
ХОД БОБА:
Input: инструкция, его часть, текущая гипотеза, история сообщений, фидбек
Output: { message: "текст для Алисы", actions: [изменения] }
ФИДБЕК (опционально):
• Нет фидбека
• Своя часть решена: да/нет
• Своя часть детально: какие позиции неправильные
• Обе части решены: да/нет
• Обе части детально: какие позиции у обоих неправильные
УСПЕХ: обе гипотезы совпали с истиной
Extractable принципы
1. Полный обмен информацией эффективнее постепенного
GPT-5 и Claude-4.0 в первом сообщении передают всю свою часть информации:
Алиса (GPT-5): "У меня видно 5 позиций. Слева направо: круг, квадрат, треугольник, пятиугольник, шестиугольник. Какие у них цвета?"
Боб (GPT-5): "У меня: круг=красный, квадрат=синий, треугольник=зелёный, пятиугольник=жёлтый, шестиугольник=фиолетовый."
За 2 хода головоломка решена.
Слабые модели передают по одному элементу:
Алиса (GPT-4o): "Первая фигура — круг. Какой у неё цвет?"
Боб (GPT-4o): "Красный. Вторая фигура у тебя какая?"
Требуется 10 ходов вместо 2.
Применимо в работе: Когда работаешь с LLM итеративно, дай всю информацию сразу, не добавляй по кусочкам. "Вот ТЗ целиком" работает лучше чем "сначала цели, потом требования, потом ограничения".
2. Простой фидбек превосходит детальный
Результаты на GPT-4o (5-элементная головоломка): - Без фидбека: 43% успеха - "Твоя часть решена": 47% - "Твоя часть решена + какие позиции неправильные": 63% - "Обе части решены": 40% - "Обе части + статус партнёра": 80% ← максимум - "Обе части + детали обоих": 57% ← падение!
Детальный фидбек об обеих сторонах вредит, потому что агент не видит гипотезу партнёра. Получает "позиция 3 у Боба неправильная", но не знает что там у Боба — информация бесполезна.
Применимо в работе: Когда даёшь модели фидбек на итерациях: - ✅ "Результат правильный" / "Результат неправильный" - ✅ "Неправильные части: пункт 2, пункт 5" - ❌ "Вот 10 пунктов что не так в формате, структуре, стиле, логике..."
Конкретный фидбек по твоей задаче работает. Детали чужой задачи (которую модель не видит) — перегрузка.
3. Явное разделение ролей обостряет перспективы
Когда два агента имеют явно разные роли (Алиса видит одно, Боб — другое), они вынуждены артикулировать то, что знают. Это извлекает информацию, которая при обычном промпте осталась бы неявной.
Применимо в работе: Multi-agent симуляция в одном промпте для задач, где нужны взаимоисключающие перспективы.
Пример применения
Задача: Проверить бизнес-идею с двух углов — продуктового (что строить) и рыночного (кому продавать).
Промпт:
У меня бизнес-идея: сервис готовых шаблонов отчётов для малого бизнеса.
Симулируй обсуждение между двумя агентами с разной информацией:
АГЕНТ "ПРОДУКТ":
Видит только: какие функции делать, как работает сервис, технические возможности
НЕ видит: кто клиент, сколько готовы платить, где искать
АГЕНТ "РЫНОК":
Видит только: кто целевая аудитория, их боли, готовность платить, каналы привлечения
НЕ видит: как работает продукт, какие функции, технологию
Задача агентов:
1. Обменяться информацией (каждый делится ВСЕМ что видит)
2. Найти несоответствия между продуктом и рынком
3. Дать согласованную рекомендацию
Формат:
ХОД 1 - ПРОДУКТ: [полное описание того что видит]
ХОД 1 - РЫНОК: [полное описание того что видит]
ХОД 2 - ПРОДУКТ: [реакция, корректировки]
ХОД 2 - РЫНОК: [реакция, корректировки]
КОНСЕНСУС: [общий вывод]
Результат:
Модель симулирует два хода обмена. Агент "Продукт" опишет функции (конструктор отчётов, автозаполнение, экспорт). Агент "Рынок" опишет аудиторию (ИП на УСН, нужна отчётность раз в квартал, готовы платить до 500₽/мес). На втором ходе найдут несоответствия: "продукт даёт конструктор, но аудитории нужны готовые шаблоны", "рынок хочет автоматизацию, а продукт требует ручной ввод". В консенсусе — конкретные корректировки идеи.
Почему это работает
Слабость LLM: При обычном промпте модель неявно синтезирует разные перспективы внутри одного ответа. Продуктовое видение размывает рыночное, технические детали заглушают пользовательские боли. Информация есть — но не артикулирована отдельно.
Сильная сторона LLM: Модель хорошо следует структурированным ролям и симулирует диалог. Когда роль явно ограничена ("видишь только X, не видишь Y"), модель отсекает другие углы и фокусируется на своей части.
Как метод использует это: Информационная асимметрия заставляет агентов говорить вслух. Агент "Продукт" не может предполагать что партнёр знает про рынок — приходится объяснять что видит. Это извлекает информацию, которую модель обычно держит неявно. Обмен между ролями делает видимыми стыки и несоответствия, которые при слитном анализе затираются.
Рычаги управления:
- Число агентов — можно добавить третьего (финансы, риски), но больше ролей = больше токенов, можно не уложиться
- Тип асимметрии — не обязательно продукт/рынок; можно оптимист/пессимист, краткосрочное/долгосрочное, клиент/исполнитель
- Число ходов — для простых задач хватит 1 хода каждого (полный обмен), для сложных 2-3 хода (корректировки)
- Фидбек — если работаешь итеративно, давай простой ("согласованы/не согласованы"), не детальный ("вот 10 пунктов несоответствий")
Шаблон промпта
У меня задача: {описание задачи или проблемы}.
Симулируй обсуждение между двумя агентами с разной информацией:
АГЕНТ "{имя_роли_1}":
Видит только: {что доступно этой роли}
НЕ видит: {что скрыто от этой роли}
АГЕНТ "{имя_роли_2}":
Видит только: {что доступно этой роли}
НЕ видит: {что скрыто от этой роли}
Задача агентов:
1. Обменяться информацией (каждый делится ВСЕМ что видит за один ход)
2. {что должны найти или согласовать}
3. Дать общую рекомендацию
Формат:
ХОД 1 - {имя_роли_1}: [полное описание]
ХОД 1 - {имя_роли_2}: [полное описание]
ХОД 2 - {имя_роли_1}: [реакция, корректировки]
ХОД 2 - {имя_роли_2}: [реакция, корректировки]
КОНСЕНСУС: [общий вывод]
Что подставлять:
- {имя_роли_1/2} — конкретные роли с разными перспективами: Продукт/Рынок, Оптимист/Пессимист, Клиент/Исполнитель, Креатив/Аналитика
- {что доступно/скрыто} — явное разделение информации: одна роль видит цели но не ресурсы, другая — ресурсы но не цели; одна — краткосрочные эффекты, другая — долгосрочные
- {что найти} — целевой результат: несоответствия, риски, возможности, компромиссы
🚀 Быстрый старт — вставь в чат:
Вот шаблон multi-agent симуляции с асимметричной информацией.
Адаптируй под мою задачу: [твоя задача].
Спроси какие роли подходят, как разделить информацию между ними,
сколько ходов нужно. Потом собери готовый промпт.
[вставить шаблон выше]
LLM спросит про задачу и предложит разделение ролей — потому что шаблон показывает паттерн "два агента с разной информацией обмениваются и согласовывают". Она адаптирует структуру под твой контекст.
Ограничения
⚠️ Не для простых задач: Если всю информацию можно дать модели сразу в одном промпте — делай так. Multi-agent симуляция нужна когда перспективы конфликтуют или информация естественно разделена (например, у тебя есть два источника данных от разных людей, которые видят ситуацию по-разному).
⚠️ Токены и длина: Два агента = два полных ответа на каждом ходе. На сложных задачах за 2 хода можно выйти за лимиты чата. Если задача большая — огранич число ходов до 1-2 или используй "сжатый" формат обмена.
⚠️ Детальный фидбек вредит: Если работаешь итеративно (даёшь результат симуляции, корректируешь, запускаешь снова) — НЕ давай детали про обе роли одновременно. Либо простой фидбек ("согласованы/не согласованы"), либо детальный по одной роли за раз.
⚠️ Слабые модели игнорируют партнёра: На GPT-3.5 и слабее multi-agent симуляция разваливается — агенты не реагируют на сообщения друг друга. Работает стабильно с GPT-4o, Claude-3.5 и выше.
Как исследовали
Создали среду-головоломку где два агента решают задачу сопоставления форм, цветов и позиций. Алиса видит позиции и формы (но не цвета), Боб — формы и цвета (но не позиции). Оба должны обменяться сообщениями и обновить свою рабочую гипотезу.
Тестировали 7 моделей (GPT-3.5/4o/5, Claude-3.5/4.0, OSS-120B, Llama 3.2-11B) на головоломках размером 3-20 элементов, через API с автоматическим циклом ходов. Максимум ходов = удвоенный размер головоломки (головоломка из 5 элементов → 10 ходов максимум).
Варьировали 6 режимов фидбека: без фидбека, свой статус, свой детально, общий статус, оба статуса, оба детально. Каждый эксперимент — 30 разных головоломок (разные seed).
Метрики: - % решённых головоломок за лимит ходов - Среднее число модификаций на позицию (сколько раз агент перезаписывал одно и то же место — показатель хаотичности) - Число токенов в сообщениях между агентами
Главные результаты: - GPT-5 и Claude-4.0: 100% успех на любом размере, решают за 2 хода - GPT-4o: 43% → 80% успеха при добавлении фидбека "оба статуса", но детальный фидбек снизил до 57% - GPT-3.5 и Llama 3.2-11B: 0% успех — агенты игнорируют сообщения партнёра - Число модификаций: GPT-5/Claude-4.0 ≈1 раз на позицию (оптимально), GPT-3.5 ≈0 (не действует), Llama 3.2-11B >4 раза (хаос)
Ресурсы
AsymPuzl: An Asymmetric Puzzle for multi-agent cooperation — Xavier Cadet, Edward Koh, Peter Chin (Dartmouth College). Представлено на NeurIPS 2025 Workshop: Multi-Turn Interactions in Large Language Models.
Ссылки в тексте на смежные исследования: Multi-Turn Puzzles (Badola et al.), ZebraLogic (Lin et al.), iAgents (Liu et al.), CAMEL framework (Li et al.)
