3,583 papers
arXiv:2512.03466 72 3 дек. 2025 г. FREE

AsymPuzl: как LLM координируются при разделённой информации

КЛЮЧЕВАЯ СУТЬ
Парадокс: детальная обратная связь хуже простой. GPT-4o с фидбеком «обе части решены + детали обоих» показывает 57% успеха. С простым «твоя часть решена» — 80%. Причина: информационная перегрузка без контекста — модель получает «позиция 3 неправильная у партнёра», но не видит его гипотезу. Метод AsymPuzl позволяет извлекать скрытые несоответствия между разными углами задачи (продукт vs рынок, оптимизм vs риски). Работает через симуляцию двух агентов с разделённой информацией. Агент «Продукт» видит только функции, агент «Рынок» — только аудиторию. Асимметрия заставляет каждого артикулировать вслух то, что при слитном анализе осталось бы неявным. Стыки и противоречия становятся видимыми — модель не может их затереть внутри одного ответа.
Адаптировать под запрос

TL;DR

Исследователи из Dartmouth College создали тестовую среду-головоломку, где два LLM-агента видят разные части информации и должны обмениваться сообщениями для решения задачи. Алиса видит формы и позиции (но не цвета), Боб — формы и цвета (но не позиции). Агенты по очереди отправляют сообщения друг другу и обновляют свою рабочую гипотезу, пока не соберут полную картину.

Главная находка: сильные модели делятся всей информацией сразу, слабые — по кусочкам или игнорируют партнёра. GPT-5 и Claude-4.0 решают любую головоломку за 2 хода, полностью раскрывая свою часть информации. GPT-4o и Claude-3.5 обмениваются по одному элементу за раз. GPT-3.5-turbo и Llama 3.2-11B вообще не реагируют на сообщения партнёра — продолжают действовать так, будто работают в одиночку.

Вторая находка про фидбек неожиданна: простое подтверждение "твоя часть решена" повышает успех с 43% до 80% (GPT-4o). Но когда модели дали детальный фидбек об обеих частях головоломки — производительность упала. Причина: информационная перегрузка без контекста. Алисе говорят "позиция 3 у Боба неправильная", но она не видит гипотезу Боба — непонятно как помочь.

📌

Схема среды

ПОДГОТОВКА:
• Создаётся головоломка: N позиций, каждая = форма + цвет
• Алисе: показываются позиции + формы (цвета скрыты)
• Бобу: показываются формы + цвета (позиции скрыты)

ЦИКЛ (до 2N ходов):
ХОД АЛИСЫ:
  Input: инструкция, её часть, текущая гипотеза, история сообщений, фидбек
  Output: { message: "текст для Боба", actions: [изменения] }

ХОД БОБА:
  Input: инструкция, его часть, текущая гипотеза, история сообщений, фидбек
  Output: { message: "текст для Алисы", actions: [изменения] }

ФИДБЕК (опционально):
• Нет фидбека
• Своя часть решена: да/нет
• Своя часть детально: какие позиции неправильные
• Обе части решены: да/нет
• Обе части детально: какие позиции у обоих неправильные

УСПЕХ: обе гипотезы совпали с истиной
📌

Extractable принципы

📌

1. Полный обмен информацией эффективнее постепенного

GPT-5 и Claude-4.0 в первом сообщении передают всю свою часть информации:

Алиса (GPT-5): "У меня видно 5 позиций. Слева направо: круг, квадрат, треугольник, пятиугольник, шестиугольник. Какие у них цвета?"

Боб (GPT-5): "У меня: круг=красный, квадрат=синий, треугольник=зелёный, пятиугольник=жёлтый, шестиугольник=фиолетовый."

За 2 хода головоломка решена.

Слабые модели передают по одному элементу:

Алиса (GPT-4o): "Первая фигура — круг. Какой у неё цвет?"

Боб (GPT-4o): "Красный. Вторая фигура у тебя какая?"

Требуется 10 ходов вместо 2.

Применимо в работе: Когда работаешь с LLM итеративно, дай всю информацию сразу, не добавляй по кусочкам. "Вот ТЗ целиком" работает лучше чем "сначала цели, потом требования, потом ограничения".

📌

2. Простой фидбек превосходит детальный

Результаты на GPT-4o (5-элементная головоломка): - Без фидбека: 43% успеха - "Твоя часть решена": 47% - "Твоя часть решена + какие позиции неправильные": 63% - "Обе части решены": 40% - "Обе части + статус партнёра": 80% ← максимум - "Обе части + детали обоих": 57% ← падение!

Детальный фидбек об обеих сторонах вредит, потому что агент не видит гипотезу партнёра. Получает "позиция 3 у Боба неправильная", но не знает что там у Боба — информация бесполезна.

Применимо в работе: Когда даёшь модели фидбек на итерациях: - ✅ "Результат правильный" / "Результат неправильный" - ✅ "Неправильные части: пункт 2, пункт 5" - ❌ "Вот 10 пунктов что не так в формате, структуре, стиле, логике..."

Конкретный фидбек по твоей задаче работает. Детали чужой задачи (которую модель не видит) — перегрузка.

📌

3. Явное разделение ролей обостряет перспективы

Когда два агента имеют явно разные роли (Алиса видит одно, Боб — другое), они вынуждены артикулировать то, что знают. Это извлекает информацию, которая при обычном промпте осталась бы неявной.

Применимо в работе: Multi-agent симуляция в одном промпте для задач, где нужны взаимоисключающие перспективы.

🚀

Пример применения

Задача: Проверить бизнес-идею с двух углов — продуктового (что строить) и рыночного (кому продавать).

Промпт:

У меня бизнес-идея: сервис готовых шаблонов отчётов для малого бизнеса.

Симулируй обсуждение между двумя агентами с разной информацией:

АГЕНТ "ПРОДУКТ":
Видит только: какие функции делать, как работает сервис, технические возможности
НЕ видит: кто клиент, сколько готовы платить, где искать

АГЕНТ "РЫНОК":
Видит только: кто целевая аудитория, их боли, готовность платить, каналы привлечения
НЕ видит: как работает продукт, какие функции, технологию

Задача агентов:
1. Обменяться информацией (каждый делится ВСЕМ что видит)
2. Найти несоответствия между продуктом и рынком
3. Дать согласованную рекомендацию

Формат:
ХОД 1 - ПРОДУКТ: [полное описание того что видит]
ХОД 1 - РЫНОК: [полное описание того что видит]
ХОД 2 - ПРОДУКТ: [реакция, корректировки]
ХОД 2 - РЫНОК: [реакция, корректировки]
КОНСЕНСУС: [общий вывод]

Результат:

Модель симулирует два хода обмена. Агент "Продукт" опишет функции (конструктор отчётов, автозаполнение, экспорт). Агент "Рынок" опишет аудиторию (ИП на УСН, нужна отчётность раз в квартал, готовы платить до 500₽/мес). На втором ходе найдут несоответствия: "продукт даёт конструктор, но аудитории нужны готовые шаблоны", "рынок хочет автоматизацию, а продукт требует ручной ввод". В консенсусе — конкретные корректировки идеи.

🧠

Почему это работает

Слабость LLM: При обычном промпте модель неявно синтезирует разные перспективы внутри одного ответа. Продуктовое видение размывает рыночное, технические детали заглушают пользовательские боли. Информация есть — но не артикулирована отдельно.

Сильная сторона LLM: Модель хорошо следует структурированным ролям и симулирует диалог. Когда роль явно ограничена ("видишь только X, не видишь Y"), модель отсекает другие углы и фокусируется на своей части.

Как метод использует это: Информационная асимметрия заставляет агентов говорить вслух. Агент "Продукт" не может предполагать что партнёр знает про рынок — приходится объяснять что видит. Это извлекает информацию, которую модель обычно держит неявно. Обмен между ролями делает видимыми стыки и несоответствия, которые при слитном анализе затираются.

Рычаги управления:

  • Число агентов — можно добавить третьего (финансы, риски), но больше ролей = больше токенов, можно не уложиться
  • Тип асимметрии — не обязательно продукт/рынок; можно оптимист/пессимист, краткосрочное/долгосрочное, клиент/исполнитель
  • Число ходов — для простых задач хватит 1 хода каждого (полный обмен), для сложных 2-3 хода (корректировки)
  • Фидбек — если работаешь итеративно, давай простой ("согласованы/не согласованы"), не детальный ("вот 10 пунктов несоответствий")
📋

Шаблон промпта

У меня задача: {описание задачи или проблемы}.

Симулируй обсуждение между двумя агентами с разной информацией:

АГЕНТ "{имя_роли_1}":
Видит только: {что доступно этой роли}
НЕ видит: {что скрыто от этой роли}

АГЕНТ "{имя_роли_2}":
Видит только: {что доступно этой роли}
НЕ видит: {что скрыто от этой роли}

Задача агентов:
1. Обменяться информацией (каждый делится ВСЕМ что видит за один ход)
2. {что должны найти или согласовать}
3. Дать общую рекомендацию

Формат:
ХОД 1 - {имя_роли_1}: [полное описание]
ХОД 1 - {имя_роли_2}: [полное описание]
ХОД 2 - {имя_роли_1}: [реакция, корректировки]
ХОД 2 - {имя_роли_2}: [реакция, корректировки]
КОНСЕНСУС: [общий вывод]

Что подставлять: - {имя_роли_1/2} — конкретные роли с разными перспективами: Продукт/Рынок, Оптимист/Пессимист, Клиент/Исполнитель, Креатив/Аналитика - {что доступно/скрыто} — явное разделение информации: одна роль видит цели но не ресурсы, другая — ресурсы но не цели; одна — краткосрочные эффекты, другая — долгосрочные - {что найти} — целевой результат: несоответствия, риски, возможности, компромиссы

🚀 Быстрый старт — вставь в чат:

Вот шаблон multi-agent симуляции с асимметричной информацией. 
Адаптируй под мою задачу: [твоя задача]. 

Спроси какие роли подходят, как разделить информацию между ними, 
сколько ходов нужно. Потом собери готовый промпт.

[вставить шаблон выше]

LLM спросит про задачу и предложит разделение ролей — потому что шаблон показывает паттерн "два агента с разной информацией обмениваются и согласовывают". Она адаптирует структуру под твой контекст.

⚠️

Ограничения

⚠️ Не для простых задач: Если всю информацию можно дать модели сразу в одном промпте — делай так. Multi-agent симуляция нужна когда перспективы конфликтуют или информация естественно разделена (например, у тебя есть два источника данных от разных людей, которые видят ситуацию по-разному).

⚠️ Токены и длина: Два агента = два полных ответа на каждом ходе. На сложных задачах за 2 хода можно выйти за лимиты чата. Если задача большая — огранич число ходов до 1-2 или используй "сжатый" формат обмена.

⚠️ Детальный фидбек вредит: Если работаешь итеративно (даёшь результат симуляции, корректируешь, запускаешь снова) — НЕ давай детали про обе роли одновременно. Либо простой фидбек ("согласованы/не согласованы"), либо детальный по одной роли за раз.

⚠️ Слабые модели игнорируют партнёра: На GPT-3.5 и слабее multi-agent симуляция разваливается — агенты не реагируют на сообщения друг друга. Работает стабильно с GPT-4o, Claude-3.5 и выше.

🔍

Как исследовали

Создали среду-головоломку где два агента решают задачу сопоставления форм, цветов и позиций. Алиса видит позиции и формы (но не цвета), Боб — формы и цвета (но не позиции). Оба должны обменяться сообщениями и обновить свою рабочую гипотезу.

Тестировали 7 моделей (GPT-3.5/4o/5, Claude-3.5/4.0, OSS-120B, Llama 3.2-11B) на головоломках размером 3-20 элементов, через API с автоматическим циклом ходов. Максимум ходов = удвоенный размер головоломки (головоломка из 5 элементов → 10 ходов максимум).

Варьировали 6 режимов фидбека: без фидбека, свой статус, свой детально, общий статус, оба статуса, оба детально. Каждый эксперимент — 30 разных головоломок (разные seed).

Метрики: - % решённых головоломок за лимит ходов - Среднее число модификаций на позицию (сколько раз агент перезаписывал одно и то же место — показатель хаотичности) - Число токенов в сообщениях между агентами

Главные результаты: - GPT-5 и Claude-4.0: 100% успех на любом размере, решают за 2 хода - GPT-4o: 43% → 80% успеха при добавлении фидбека "оба статуса", но детальный фидбек снизил до 57% - GPT-3.5 и Llama 3.2-11B: 0% успех — агенты игнорируют сообщения партнёра - Число модификаций: GPT-5/Claude-4.0 ≈1 раз на позицию (оптимально), GPT-3.5 ≈0 (не действует), Llama 3.2-11B >4 раза (хаос)

🔗

Ресурсы

AsymPuzl: An Asymmetric Puzzle for multi-agent cooperation — Xavier Cadet, Edward Koh, Peter Chin (Dartmouth College). Представлено на NeurIPS 2025 Workshop: Multi-Turn Interactions in Large Language Models.

Ссылки в тексте на смежные исследования: Multi-Turn Puzzles (Badola et al.), ZebraLogic (Lin et al.), iAgents (Liu et al.), CAMEL framework (Li et al.)


📋 Дайджест исследования

Ключевая суть

Парадокс: детальная обратная связь хуже простой. GPT-4o с фидбеком «обе части решены + детали обоих» показывает 57% успеха. С простым «твоя часть решена» — 80%. Причина: информационная перегрузка без контекста — модель получает «позиция 3 неправильная у партнёра», но не видит его гипотезу. Метод AsymPuzl позволяет извлекать скрытые несоответствия между разными углами задачи (продукт vs рынок, оптимизм vs риски). Работает через симуляцию двух агентов с разделённой информацией. Агент «Продукт» видит только функции, агент «Рынок» — только аудиторию. Асимметрия заставляет каждого артикулировать вслух то, что при слитном анализе осталось бы неявным. Стыки и противоречия становятся видимыми — модель не может их затереть внутри одного ответа.

Принцип работы

Раздели задачу на роли с взаимоисключающими перспективами. Одна роль видит X (но не Y), другая — Y (но не X). Каждая делится всей своей информацией за один ход, потом корректирует на основе ответа партнёра. Ключевое: информация разделена явно. Агент «Продукт» не может предполагать что партнёр знает про рынок — приходится объяснять. Это выводит наружу то, что модель обычно держит неявно. GPT-5 и Claude-4.0 передают всю часть сразу: «У меня 5 фигур — круг, квадрат, треугольник. Какие цвета?». Решение за 2 хода вместо 10.

Почему работает

LLM при обычном промпте неявно синтезирует разные углы внутри одного ответа. Продуктовое видение размывает рыночное, технические детали заглушают пользовательские боли. Информация есть — но не артикулирована отдельно. Асимметрия заставляет говорить вслух. Когда роль явно ограничена («видишь только функции, не видишь аудиторию»), модель отсекает другие углы и фокусируется на своей части. Обмен между ролями делает видимыми несоответствия на стыках — которые при слитном анализе затираются. GPT-4o с разделением ролей находит «продукт даёт конструктор, рынок хочет готовые шаблоны» — без разделения выдал бы компромисс, скрыв противоречие.

Когда применять

Проверка идей и решений → когда нужны взаимоисключающие перспективы: продукт vs рынок, оптимизм vs риски, клиент vs исполнитель, краткосрочное vs долгосрочное. Особенно когда боишься что модель сгладит противоречия вместо того чтобы их показать. НЕ подходит для простых задач, где всю информацию можно дать сразу в одном промпте. Multi-agent нужна когда перспективы естественно конфликтуют.

Мини-рецепт

1. Определи роли с разными углами зрения: продукт/рынок, оптимист/пессимист, клиент/исполнитель — что конфликтует в задаче
2. Раздели информацию явно: агент А видит только X (не видит Y), агент Б — только Y (не видит X)
3. Задай структуру обмена: ХОД 1 — каждый делится ВСЕМ что видит, ХОД 2 — реакция и корректировки, КОНСЕНСУС — общий вывод
4. Укажи что искать: несоответствия, риски, компромиссы — конкретная цель симуляции
5. Если работаешь итеративно: давай простую обратную связь («согласованы/не согласованы»), не детальную про обе роли сразу

Примеры

[ПЛОХО] : Проанализируй бизнес-идею: сервис шаблонов отчётов для малого бизнеса. Оцени продукт и рынок. (Модель выдаст сглаженный анализ, где противоречия между продуктом и рынком затрутся компромиссами)
[ХОРОШО] : Симулируй обсуждение двух агентов. АГЕНТ ПРОДУКТ видит только: функции, технологию (НЕ видит: кто клиент, сколько платят). АГЕНТ РЫНОК видит только: аудиторию, боли, готовность платить (НЕ видит: как работает продукт). Задача: обменяться информацией за 1 ход каждый, найти несоответствия между продуктом и рынком. Формат: ХОД 1 ПРОДУКТ - ХОД 1 РЫНОК - КОНСЕНСУС с корректировками. (Агент «Продукт» опишет конструктор отчётов, агент «Рынок» — что ИП нужны готовые шаблоны. Несоответствие станет явным, модель не сможет его затереть.)
Источник: AsymPuzl: An Asymmetric Puzzle for multi-agent cooperation
ArXiv ID: 2512.03466 | Сгенерировано: 2026-01-09 00:27

Методы

МетодСуть
Два агента с разной информацией — против размытых перспективСоздай два агента с явным разделением: АГЕНТ "X": Видит только: [...] НЕ видит: [...]. Каждый делится ВСЕЙ информацией за один ход, потом обмен корректировками. Механика: асимметрия заставляет модель артикулировать то, что при слитном анализе остаётся неявным — перспективы не размываются. Примеры ролей: Продукт/Рынок, Оптимист/Пессимист, Краткосрочное/Долгосрочное. Для: задачи где перспективы конфликтуют или информация естественно разделена. НЕ для: простые задачи (лучше один промпт). Работает с GPT-4o+, слабые модели игнорируют партнёра
📖 Простыми словами

AsymPuzl: как LLM координируются при разделённой информации

arXiv: 2512.03466

Суть тут в том, что современные нейронки слишком самоуверенны и пытаются проглотить задачу целиком, из-за чего в голове у них получается каша. Исследователи из Дартмута придумали AsymPuzl — это такая цифровая пытка для AI-агентов, где их заставляют работать в условиях жесткого дефицита информации. Алиса видит, где лежат детали, но не знает их цвета, а Боб видит цвета, но понятия не имеет о координатах. Чтобы собрать пазл, им приходится не просто кидаться текстом, а выстраивать структурированный диалог, где каждый дополняет слепое пятно другого.

Это как если бы ты собирал шкаф из Икеи с напарником по телефону: у тебя есть только детали, а у него — только инструкция. Вы оба вроде умные, но по отдельности — бесполезные куски кода. Чтобы дело сдвинулось, вам нужно научиться передавать контекст, а не просто орать в трубку. В этом и прикол: нейронки учатся не просто выдавать ответ, а добывать его через коммуникацию, проверяя гипотезы на ходу.

Главная проблема обычных промптов в том, что модель пытается быть «мастером на все руки» и в итоге лажает в деталях. Когда ты просишь одну нейронку оценить и код, и дизайн, и рынок, она выдает среднюю температуру по больнице. Метод асимметричного пазла доказывает, что разделение ролей и изоляция данных работают лучше. Алиса фокусируется на геометрии, Боб — на палитре, и этот информационный голод заставляет их быть максимально точными в формулировках, исключая галлюцинации и лишний шум.

Тестировали это на абстрактных фигурках, но принцип универсален для любого сложного процесса, от аудита безопасности до запуска стартапа. Вместо того чтобы скармливать нейронке всё подряд, нужно разделять данные: один агент копает техническую часть, другой — юридическую, и они сталкиваются лбами в чате. Это превращает AI из пассивного генератора текста в активного решателя проблем, где GEO и логика важнее, чем просто умение красиво писать.

Короче, эпоха «одного окна» в AI уходит, наступает время мультиагентных систем. Если хочешь реально крутой результат, не давай одной модели всю инфу сразу — заставь их договариваться и собирать общую картину по кускам. Разделяй контекст, властвуй над результатом, иначе рискуешь получить отчет, который формально всё учел, но на деле является бесполезным набором слов. Кто научит своих агентов эффективно «собирать пазл», тот и получит работающие решения вместо красивых сказок.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с