TL;DR
Когда нескольким LLM-агентам задаёшь одну стратегическую ситуацию — например, переговоры, распределение ресурсов или конкурентный выбор — три структурных параметра промпта кардинально меняют исход: известен ли дедлайн, есть ли канал общения между агентами и сколько сторон участвует. Это не вопрос формулировок и не вопрос "попроси вежливее" — это вопрос архитектуры сценария.
Главная находка: добавь в промпт фразу "игра закончится ровно через 10 раундов" — и конфликт случается в 100% случаев. Убери её — оставь горизонт неизвестным — и агенты сотрудничают значительно чаще. Почему? Когда конец известен, модель "считает назад": в последнем раунде смысла сотрудничать нет, значит в предпоследнем — тоже, и так до первого хода. Это не баг, это классическая логика из теории игр, которую LLM воспроизводят автоматически.
Метод работает в три шага: задать структуру сценария (число агентов, горизонт, наличие канала коммуникации), запустить агентов с инструкцией записывать и приватное рассуждение, и публичное сообщение, и проанализировать поведение — когда случился конфликт, кто атаковал первым, что агенты говорили публично vs. думали приватно.
Схема метода
ШАГ 1: Определи структуру сцены
→ Число агентов (2 = стабильнее, 3+ = нестабильнее)
→ Горизонт (неизвестный = кооперация чаще, известный = конфликт)
→ Коммуникация (есть канал = меньше конфликта, нет = агенты действуют вслепую)
ШАГ 2: Промпт каждому агенту
→ Роль и ранжирование исходов (не числа, а порядок: "лучший — атаковать пока другой молчит")
→ Инструкция выдать три поля: действие / публичное сообщение / приватное рассуждение
ШАГ 3: Один промпт — модель симулирует оба агента поочерёдно
→ Каждый раунд: агент получает свою историю + публичный лог (если есть канал)
→ Результат: поведение + текст рассуждений отдельно для каждой роли
Все шаги — в одном запросе, если просишь модель симулировать обоих агентов сразу. Или в отдельных запросах, если хочешь "играть" за одну из сторон сам.
Пример применения
Задача: Два сооснователя SaaS-стартапа решают, объединяться ли с конкурентом. Каждый скрытно думает о своём. Хочется понять, как будут развиваться переговоры — сможем ли договориться, или кто-то "выстрелит первым" и сорвёт сделку.
Промпт:
Симулируй стратегические переговоры между двумя основателями.
Контекст:
- Алексей (основатель Shtab.ru, B2B-таск-менеджер, 200 клиентов)
- Михаил (основатель Flowdo, похожий продукт, 180 клиентов)
- Они рассматривают объединение. В каждом раунде каждый выбирает:
"объединиться" или "уйти в одностороннюю конкуренцию"
- Если хоть один выбирает конкуренцию — переговоры рушатся навсегда
Порядок исходов для каждого:
1. Лучшее: я ухожу в конкуренцию, партнёр пытается договориться (я выигрываю рынок)
2. Хорошее: оба объединяются (делим рынок, но растём быстрее)
3. Плохое: оба уходят в конкуренцию (война на истощение)
4. Худшее: я пытаюсь договориться, партнёр уходит в конкуренцию (теряю время и позиции)
Горизонт: стороны знают, что есть ровно 3 встречи. После третьей — решение окончательное.
Канал коммуникации: перед каждым раундом каждая сторона отправляет короткое публичное заявление, которое видит другая сторона.
Для каждого раунда и каждого агента верни:
- действие (объединиться / конкурировать)
- публичное_сообщение: что говорит вслух
- приватное_рассуждение: что думает на самом деле
Проведи все 3 раунда или остановись раньше, если сделка рухнула.
Результат: Модель покажет три раунда переговоров с двух сторон. В каждом раунде — публичные заявления ("мы открыты к диалогу", "хотим честного партнёрства") и приватные мысли ("если он не предложит 50/50, выхожу в конкуренцию на следующей неделе"). Из-за известного дедлайна ("ровно 3 встречи") — высокая вероятность, что кто-то сорвёт переговоры уже в раунде 2 или 3, действуя по логике "лучше первым, чем вторым". Видно расхождение между публичной риторикой и приватной мотивацией.
Почему это работает
Слабость LLM при открытом горизонте: Когда конец неизвестен, модель генерирует ответы с расчётом на продолжение — это стимулирует кооперативное поведение. Как в жизни: если не знаешь когда закончится совместная работа, выгоднее поддерживать отношения.
Почему известный дедлайн = гарантированный конфликт: У модели в обучающих данных огромный массив текстов про логику "обратного счёта" — из экономики, переговоров, игровой теории. Когда в промпте появляется конкретный финальный раунд, модель активирует этот паттерн автоматически: в последнем раунде незачем сотрудничать → в предпоследнем тоже → разматывается назад до самого начала. Это не случайность — это устойчивый паттерн сразу у четырёх разных моделей.
Три рычага работают независимо и предсказуемо: - Горизонт (известный/неизвестный) — самый мощный рычаг. Меняет исход радикально - Коммуникация — добавь публичный канал, и агенты начинают строить доверие, апеллировать к истории, предлагать правила. Убери — действуют только по собственной истории - Число агентов — больше двух резко увеличивает нестабильность: каждый боится, что другие двое договорятся против него
Шаблон промпта
Симулируй стратегическое взаимодействие между {число_агентов} участниками.
Контекст:
- {Агент_1}: {краткое описание роли, интересов, позиции}
- {Агент_2}: {краткое описание роли, интересов, позиции}
- В каждом раунде каждый выбирает: {действие_А} или {действие_Б}
- Если хоть один выбирает {действие_Б} — {последствие}
Порядок исходов (от лучшего к худшему) для каждого участника:
1. {я делаю Б, другой делает А}
2. {оба делают А}
3. {оба делают Б}
4. {я делаю А, другой делает Б}
Горизонт: {неизвестный — "взаимодействие продолжается неопределённо долго" /
известный — "ровно {N} раундов, после — финальное решение"}
Канал коммуникации: {есть — "перед каждым раундом каждый отправляет публичное
заявление, видимое другим" /
нет — "участники действуют без публичного общения"}
Для каждого раунда и каждого агента выдай:
- действие: {действие_А или действие_Б}
- публичное_сообщение: {что говорит вслух, если есть канал}
- приватное_рассуждение: {внутренняя логика решения}
Продолжай до {N} раундов или до {условие завершения}.
Плейсхолдеры:
- {число_агентов} — 2 для стабильного, 3+ для турбулентного сценария
- {действие_А / Б} — ваш контекст: "сотрудничать/конкурировать", "принять/отклонить", "раскрыть/скрыть"
- {горизонт} — главный рычаг. Неизвестный → больше кооперации. Известный → жди конфликта
- {канал коммуникации} — с каналом агенты строят доверие; без него — действуют вслепую
🚀 Быстрый старт — вставь в чат:
Вот шаблон стратегической симуляции с LLM-агентами.
Адаптируй под мою задачу: {опиши свою ситуацию — переговоры,
конкурентный сценарий, распределение ресурсов}.
Задавай вопросы, чтобы заполнить все поля.
[вставить шаблон выше]
LLM спросит: сколько участников, что они выбирают, известен ли срок и нужен ли канал коммуникации — потому что именно эти четыре параметра определяют исход симуляции. Модель возьмёт структуру и заполнит конкретным контентом твоей ситуации.
Ограничения
⚠️ Разные модели — разный характер по умолчанию: Claude (Sonnet) ведёт себя кооперативно даже там, где GPT-5 агрессивен. Если симулируешь и хочешь "реалистичный конфликт" — Claude может показать аномально мирный сценарий без дополнительных инструкций.
⚠️ Горизонт работает симметрично: Известный дедлайн не только делает симуляцию конфликтнее — он убирает любую возможность "органичной" кооперации. Если хочешь изучить как доверие строится со временем — держи горизонт неизвестным.
⚠️ Симуляция ≠ реальные люди: LLM воспроизводит логику из обучающих данных, не психологию конкретных людей. Паттерны правдоподобны, но не заменяют реальные переговоры или фокус-группы.
⚠️ Три и больше агентов — сложнее читать: С тремя участниками модель иногда сбивается с синхронизации ходов или теряет историю одного из агентов. В длинных симуляциях лучше явно указывать номер раунда в каждом блоке.
Как исследовали
Исследователь из Оксфорда запустил 320 игр — по 20 на каждую комбинацию из четырёх моделей (GPT-5, GPT-5 Mini, Sonnet, Gemini) и четырёх условий (базовый, много игроков, известный конец, коммуникация). Агентам давали порядковые предпочтения вместо числовых (чтобы не провоцировать арифметику) и просили выдавать три поля одновременно: действие, публичное сообщение и приватное рассуждение. Это ключевой дизайнерский ход — обычно в экспериментах с людьми рассуждение не наблюдаемо напрямую, а здесь оно буквально записывалось в лог.
Самый неожиданный результат — полное единодушие при известном дедлайне: 100% игр заканчивались конфликтом, у всех четырёх моделей без исключения. Даже Sonnet, который в базовом условии вообще не рвался воевать, при известных 10 раундах начинал конфликт неизбежно. Это говорит о том, что паттерн "обратного счёта" зашит в логику рассуждений моделей очень глубоко — не как случайность, а как устойчивая реакция на структуру. Второй интересный инсайт: большинство войн случались в первом раунде — агенты предпочитали разрешить неопределённость сразу, а не накапливать историю.
Адаптации и экстраполяции
🔧 Превращение симуляции в stress-test бизнес-гипотезы
Вместо нейтральных агентов дай им конкретные мотивации и информационную асимметрию: "Агент А знает, что у него кончаются деньги через 2 месяца, но Агент Б не знает этого". LLM начнёт отражать реалистичную динамику переговоров с неполной информацией — это мощный инструмент для подготовки к реальным переговорам.
🔧 "Включи коммуникацию" как техника улучшения многоагентных промптов
Если у тебя сложный промпт с несколькими ролями и они "не договариваются" — добавь явный шаг публичного сообщения перед каждым решением. По данным исследования, это снижает конфликт на 22+ процентных пункта. Применимо к любым сценариям с несколькими перспективами: дискуссия менеджера и разработчика, редактора и автора, инвестора и основателя.
🔧 Управление "характером" модели через выбор
Если тебе нужен агрессивный оппонент в симуляции — GPT-5 или Gemini. Если нужен кооперативный, склонный к дипломатии — Claude Sonnet. Это не просто наблюдение: ты можешь подбирать модель под нужный "темперамент" задачи.
Ресурсы
Работа: Multi-Agent Strategic Games with LLMs
Автор: Maxim Chupilkin, University of Oxford, Department of Politics and International Relations
Контакт: maxim.chupilkin@politics.ox.ac.uk
Ключевые отсылки из текста: Schelling (1957, 1980), Fearon (1995) — теория кризисного торга; Waltz (1979), Mearsheimer (2001) — структурный реализм и полярность; Meta FAIR Diplomacy Team (2022) — LLM в игре Diplomacy; Rivera et al. (2024), Lamparth et al. (2024) — LLM в варгеймах
