3,583 papers
arXiv:2605.03604 74 5 мая 2026 г. FREE

Стратегические симуляции с LLM-агентами: три рычага, которые контролируют конфликт и кооперацию

КЛЮЧЕВАЯ СУТЬ
Одна фраза в промпте — и 100% конфликт. Не «веди себя агрессивно», не смена настроек модели — просто «игра закончится ровно через 10 раундов». LLM-агент читает это и начинает считать назад: в последнем раунде сотрудничать незачем → в предпоследнем тоже → разматывается до первого хода. Метод multi-agent strategic simulation позволяет моделировать переговоры, слияния, конкурентные решения — и видеть заранее где и почему сорвётся договорённость. Фишка: горизонт, канал связи и число участников — три параметра сценария, которые определяют исход ещё до первого хода. Меняешь один из них — получаешь принципиально другую симуляцию.
Адаптировать под запрос

TL;DR

Когда нескольким LLM-агентам задаёшь одну стратегическую ситуацию — например, переговоры, распределение ресурсов или конкурентный выбор — три структурных параметра промпта кардинально меняют исход: известен ли дедлайн, есть ли канал общения между агентами и сколько сторон участвует. Это не вопрос формулировок и не вопрос "попроси вежливее" — это вопрос архитектуры сценария.

Главная находка: добавь в промпт фразу "игра закончится ровно через 10 раундов" — и конфликт случается в 100% случаев. Убери её — оставь горизонт неизвестным — и агенты сотрудничают значительно чаще. Почему? Когда конец известен, модель "считает назад": в последнем раунде смысла сотрудничать нет, значит в предпоследнем — тоже, и так до первого хода. Это не баг, это классическая логика из теории игр, которую LLM воспроизводят автоматически.

Метод работает в три шага: задать структуру сценария (число агентов, горизонт, наличие канала коммуникации), запустить агентов с инструкцией записывать и приватное рассуждение, и публичное сообщение, и проанализировать поведение — когда случился конфликт, кто атаковал первым, что агенты говорили публично vs. думали приватно.


🔬

Схема метода

ШАГ 1: Определи структуру сцены
  → Число агентов (2 = стабильнее, 3+ = нестабильнее)
  → Горизонт (неизвестный = кооперация чаще, известный = конфликт)
  → Коммуникация (есть канал = меньше конфликта, нет = агенты действуют вслепую)

ШАГ 2: Промпт каждому агенту
  → Роль и ранжирование исходов (не числа, а порядок: "лучший — атаковать пока другой молчит")
  → Инструкция выдать три поля: действие / публичное сообщение / приватное рассуждение

ШАГ 3: Один промпт — модель симулирует оба агента поочерёдно
  → Каждый раунд: агент получает свою историю + публичный лог (если есть канал)
  → Результат: поведение + текст рассуждений отдельно для каждой роли

Все шаги — в одном запросе, если просишь модель симулировать обоих агентов сразу. Или в отдельных запросах, если хочешь "играть" за одну из сторон сам.


🚀

Пример применения

Задача: Два сооснователя SaaS-стартапа решают, объединяться ли с конкурентом. Каждый скрытно думает о своём. Хочется понять, как будут развиваться переговоры — сможем ли договориться, или кто-то "выстрелит первым" и сорвёт сделку.

Промпт:

Симулируй стратегические переговоры между двумя основателями.

Контекст:
- Алексей (основатель Shtab.ru, B2B-таск-менеджер, 200 клиентов)
- Михаил (основатель Flowdo, похожий продукт, 180 клиентов)
- Они рассматривают объединение. В каждом раунде каждый выбирает: 
  "объединиться" или "уйти в одностороннюю конкуренцию"
- Если хоть один выбирает конкуренцию — переговоры рушатся навсегда

Порядок исходов для каждого:
1. Лучшее: я ухожу в конкуренцию, партнёр пытается договориться (я выигрываю рынок)
2. Хорошее: оба объединяются (делим рынок, но растём быстрее)
3. Плохое: оба уходят в конкуренцию (война на истощение)
4. Худшее: я пытаюсь договориться, партнёр уходит в конкуренцию (теряю время и позиции)

Горизонт: стороны знают, что есть ровно 3 встречи. После третьей — решение окончательное.

Канал коммуникации: перед каждым раундом каждая сторона отправляет короткое публичное заявление, которое видит другая сторона.

Для каждого раунда и каждого агента верни:
- действие (объединиться / конкурировать)
- публичное_сообщение: что говорит вслух
- приватное_рассуждение: что думает на самом деле

Проведи все 3 раунда или остановись раньше, если сделка рухнула.

Результат: Модель покажет три раунда переговоров с двух сторон. В каждом раунде — публичные заявления ("мы открыты к диалогу", "хотим честного партнёрства") и приватные мысли ("если он не предложит 50/50, выхожу в конкуренцию на следующей неделе"). Из-за известного дедлайна ("ровно 3 встречи") — высокая вероятность, что кто-то сорвёт переговоры уже в раунде 2 или 3, действуя по логике "лучше первым, чем вторым". Видно расхождение между публичной риторикой и приватной мотивацией.


🧠

Почему это работает

Слабость LLM при открытом горизонте: Когда конец неизвестен, модель генерирует ответы с расчётом на продолжение — это стимулирует кооперативное поведение. Как в жизни: если не знаешь когда закончится совместная работа, выгоднее поддерживать отношения.

Почему известный дедлайн = гарантированный конфликт: У модели в обучающих данных огромный массив текстов про логику "обратного счёта" — из экономики, переговоров, игровой теории. Когда в промпте появляется конкретный финальный раунд, модель активирует этот паттерн автоматически: в последнем раунде незачем сотрудничать → в предпоследнем тоже → разматывается назад до самого начала. Это не случайность — это устойчивый паттерн сразу у четырёх разных моделей.

Три рычага работают независимо и предсказуемо: - Горизонт (известный/неизвестный) — самый мощный рычаг. Меняет исход радикально - Коммуникация — добавь публичный канал, и агенты начинают строить доверие, апеллировать к истории, предлагать правила. Убери — действуют только по собственной истории - Число агентов — больше двух резко увеличивает нестабильность: каждый боится, что другие двое договорятся против него


📋

Шаблон промпта

Симулируй стратегическое взаимодействие между {число_агентов} участниками.

Контекст:
- {Агент_1}: {краткое описание роли, интересов, позиции}
- {Агент_2}: {краткое описание роли, интересов, позиции}
- В каждом раунде каждый выбирает: {действие_А} или {действие_Б}
- Если хоть один выбирает {действие_Б} — {последствие}

Порядок исходов (от лучшего к худшему) для каждого участника:
1. {я делаю Б, другой делает А}
2. {оба делают А}
3. {оба делают Б}
4. {я делаю А, другой делает Б}

Горизонт: {неизвестный — "взаимодействие продолжается неопределённо долго" / 
           известный — "ровно {N} раундов, после — финальное решение"}

Канал коммуникации: {есть — "перед каждым раундом каждый отправляет публичное 
                    заявление, видимое другим" / 
                    нет — "участники действуют без публичного общения"}

Для каждого раунда и каждого агента выдай:
- действие: {действие_А или действие_Б}
- публичное_сообщение: {что говорит вслух, если есть канал}
- приватное_рассуждение: {внутренняя логика решения}

Продолжай до {N} раундов или до {условие завершения}.

Плейсхолдеры: - {число_агентов} — 2 для стабильного, 3+ для турбулентного сценария - {действие_А / Б} — ваш контекст: "сотрудничать/конкурировать", "принять/отклонить", "раскрыть/скрыть" - {горизонт} — главный рычаг. Неизвестный → больше кооперации. Известный → жди конфликта - {канал коммуникации} — с каналом агенты строят доверие; без него — действуют вслепую


🚀 Быстрый старт — вставь в чат:

Вот шаблон стратегической симуляции с LLM-агентами. 
Адаптируй под мою задачу: {опиши свою ситуацию — переговоры, 
конкурентный сценарий, распределение ресурсов}.
Задавай вопросы, чтобы заполнить все поля.

[вставить шаблон выше]

LLM спросит: сколько участников, что они выбирают, известен ли срок и нужен ли канал коммуникации — потому что именно эти четыре параметра определяют исход симуляции. Модель возьмёт структуру и заполнит конкретным контентом твоей ситуации.


⚠️

Ограничения

⚠️ Разные модели — разный характер по умолчанию: Claude (Sonnet) ведёт себя кооперативно даже там, где GPT-5 агрессивен. Если симулируешь и хочешь "реалистичный конфликт" — Claude может показать аномально мирный сценарий без дополнительных инструкций.

⚠️ Горизонт работает симметрично: Известный дедлайн не только делает симуляцию конфликтнее — он убирает любую возможность "органичной" кооперации. Если хочешь изучить как доверие строится со временем — держи горизонт неизвестным.

⚠️ Симуляция ≠ реальные люди: LLM воспроизводит логику из обучающих данных, не психологию конкретных людей. Паттерны правдоподобны, но не заменяют реальные переговоры или фокус-группы.

⚠️ Три и больше агентов — сложнее читать: С тремя участниками модель иногда сбивается с синхронизации ходов или теряет историю одного из агентов. В длинных симуляциях лучше явно указывать номер раунда в каждом блоке.


🔍

Как исследовали

Исследователь из Оксфорда запустил 320 игр — по 20 на каждую комбинацию из четырёх моделей (GPT-5, GPT-5 Mini, Sonnet, Gemini) и четырёх условий (базовый, много игроков, известный конец, коммуникация). Агентам давали порядковые предпочтения вместо числовых (чтобы не провоцировать арифметику) и просили выдавать три поля одновременно: действие, публичное сообщение и приватное рассуждение. Это ключевой дизайнерский ход — обычно в экспериментах с людьми рассуждение не наблюдаемо напрямую, а здесь оно буквально записывалось в лог.

Самый неожиданный результат — полное единодушие при известном дедлайне: 100% игр заканчивались конфликтом, у всех четырёх моделей без исключения. Даже Sonnet, который в базовом условии вообще не рвался воевать, при известных 10 раундах начинал конфликт неизбежно. Это говорит о том, что паттерн "обратного счёта" зашит в логику рассуждений моделей очень глубоко — не как случайность, а как устойчивая реакция на структуру. Второй интересный инсайт: большинство войн случались в первом раунде — агенты предпочитали разрешить неопределённость сразу, а не накапливать историю.


💡

Адаптации и экстраполяции

🔧 Превращение симуляции в stress-test бизнес-гипотезы

Вместо нейтральных агентов дай им конкретные мотивации и информационную асимметрию: "Агент А знает, что у него кончаются деньги через 2 месяца, но Агент Б не знает этого". LLM начнёт отражать реалистичную динамику переговоров с неполной информацией — это мощный инструмент для подготовки к реальным переговорам.

🔧 "Включи коммуникацию" как техника улучшения многоагентных промптов

Если у тебя сложный промпт с несколькими ролями и они "не договариваются" — добавь явный шаг публичного сообщения перед каждым решением. По данным исследования, это снижает конфликт на 22+ процентных пункта. Применимо к любым сценариям с несколькими перспективами: дискуссия менеджера и разработчика, редактора и автора, инвестора и основателя.

🔧 Управление "характером" модели через выбор

Если тебе нужен агрессивный оппонент в симуляции — GPT-5 или Gemini. Если нужен кооперативный, склонный к дипломатии — Claude Sonnet. Это не просто наблюдение: ты можешь подбирать модель под нужный "темперамент" задачи.


🔗

Ресурсы

Работа: Multi-Agent Strategic Games with LLMs

Автор: Maxim Chupilkin, University of Oxford, Department of Politics and International Relations

Контакт: maxim.chupilkin@politics.ox.ac.uk

Ключевые отсылки из текста: Schelling (1957, 1980), Fearon (1995) — теория кризисного торга; Waltz (1979), Mearsheimer (2001) — структурный реализм и полярность; Meta FAIR Diplomacy Team (2022) — LLM в игре Diplomacy; Rivera et al. (2024), Lamparth et al. (2024) — LLM в варгеймах


📋 Дайджест исследования

Ключевая суть

Одна фраза в промпте — и 100% конфликт. Не «веди себя агрессивно», не смена настроек модели — просто «игра закончится ровно через 10 раундов». LLM-агент читает это и начинает считать назад: в последнем раунде сотрудничать незачем → в предпоследнем тоже → разматывается до первого хода. Метод multi-agent strategic simulation позволяет моделировать переговоры, слияния, конкурентные решения — и видеть заранее где и почему сорвётся договорённость. Фишка: горизонт, канал связи и число участников — три параметра сценария, которые определяют исход ещё до первого хода. Меняешь один из них — получаешь принципиально другую симуляцию.

Принцип работы

Три рычага работают независимо — и предсказуемо. Горизонт самый мощный. Неизвестный конец: агенты рассчитывают на продолжение и сотрудничают. Известный конец: автоматически включается обратный счёт. Логика простая: в последнем раунде сотрудничать незачем → в предпоследнем тоже → и так до самого начала. Это backward induction — классика теории игр. Модель воспроизводит её без подсказки. Канал коммуникации: без него агенты действуют вслепую, паранойя нарастает. Добавь публичный канал — агенты апеллируют к истории, строят обязательства, предлагают правила. Число участников: двое — стабильно, каждый следит за одним. Трое и больше — каждый боится что двое других договорятся против него. Нестабильность растёт быстро.

Почему работает

LLM обучена на огромном массиве текстов про переговоры, экономику, теорию игр. Когда структура промпта совпадает с известным игровым паттерном — модель активирует его автоматически, без команды «используй теорию игр». Это проверили сразу на четырёх разных моделях: паттерн устойчивый, не случайность. Отдельный бонус: поле приватного рассуждения показывает что агент думает, а публичное — что говорит. Разрыв между ними виден прямо в тексте. Именно это делает метод полезным не только для симуляции, но и для анализа логики конфликта.

Когда применять

Стратегические симуляции → для переговоров, слияний, конкурентных решений, распределения ресурсов — особенно когда хочешь найти точку срыва договорённости до реального разговора. Ещё хорошо работает для тренировки переговорщиков: наблюдаешь разрыв между публичной риторикой и внутренней мотивацией прямо в тексте. НЕ подходит для предсказания поведения конкретных реальных людей — LLM воспроизводит логические паттерны из обучающих данных, не психологию конкретного человека.

Мини-рецепт

1. Выбери горизонт: неизвестный («взаимодействие продолжается неопределённо долго») — чтобы изучить как агенты строят доверие. Известный («ровно N раундов, после — финал») — чтобы увидеть где и как сорвётся сотрудничество.
2. Реши насчёт канала связи: с публичным каналом агенты видят заявления друг друга и выстраивают историю. Без него — каждый действует вслепую, опираясь только на собственные ходы.
3. Задай число участников: двое — стабильный сценарий. Трое и больше — турбулентный: жди коалиций и паранои.
4. Выстрой промпт структурно: роль + порядок исходов (не цифры, а иерархия: «лучший исход — атаковать пока другой молчит») + три поля вывода каждый раунд.
5. Запроси три поля для каждого агента: действие / публичное_сообщение / приватное_рассуждение — в этом расхождении и есть весь смысл анализа.

Примеры

[ПЛОХО] : Симулируй переговоры двух стартаперов об объединении. Они договорятся?
[ХОРОШО] : Симулируй стратегические переговоры между двумя основателями. Участники: - Агент А: основатель Shtab.ru, 200 клиентов, рассматривает объединение - Агент Б: основатель Flowdo, 180 клиентов, аналогичный продукт Каждый раунд каждый выбирает: объединиться или уйти в одностороннюю конкуренцию. Если хоть один выбирает конкуренцию — переговоры рушатся навсегда. Порядок исходов от лучшего к худшему: 1. Я ухожу в конкуренцию — другой пытается договориться 2. Оба объединяются 3. Оба уходят в конкуренцию 4. Я пытаюсь договориться — другой уходит в конкуренцию Горизонт: ровно 3 встречи, после — решение окончательное. Канал: перед каждым раундом каждая сторона отправляет публичное заявление, которое видит другая. Для каждого раунда и каждого агента выдай: - действие - публичное_сообщение - приватное_рассуждение Проведи все 3 раунда или остановись раньше, если переговоры рухнули.
Источник: Multi-Agent Strategic Games with LLMs
ArXiv ID: 2605.03604 | Сгенерировано: 2026-05-06 05:26

Проблемы LLM

ПроблемаСутьКак обойти
Структура сценария меняет поведение агента — незаметно для автораСлучайно написал "ровно 5 раундов" вместо "продолжай сколько нужно". Агент начал вести себя агрессивно. Ты думал — это его характер или плохой запрос. На деле — одна фраза про дедлайн переключила режим поведения. Это работает для любых симуляций: переговоры, распределение ресурсов, конкурентный выборУправляй горизонтом осознанно. Хочешь кооперацию — пиши "взаимодействие продолжается неопределённо долго". Хочешь конфликт — пиши "ровно N раундов"

Методы

МетодСуть
Два выхода для агента: публичное + приватное — видишь разрыв между словами и мотивамиДобавь в запрос инструкцию: для каждого хода агент выдаёт три поля — действие, публичное_сообщение (что говорит другим), приватное_рассуждение (что думает на самом деле). Почему работает: модель разделяет роли нарратора и актора. Публичное поле — для "аудитории". Приватное — внутренняя логика без социального фильтра. Разрыв между ними и есть главный результат симуляции. Когда применять: любые переговоры, ролевые сценарии, анализ конфликтов. Не работает для задач где нет "актора" — технический анализ, суммаризация
Три рычага сценария — управляй исходом симуляции до запускаПеред симуляцией выставь три параметра: (1) Горизонт — "неизвестный" даёт кооперацию, "известный N раундов" даёт конфликт. (2) Канал общения — добавь публичные заявления между агентами, и они начнут строить доверие. Убери — действуют вслепую, конфликтнее. (3) Число агентов — два агента стабильнее, три и больше нестабильнее: каждый боится что двое других договорятся против него. Почему работает: каждый параметр меняет информацию, доступную агенту. Агент отвечает на то что видит в запросе — не на "характер"

Тезисы

ТезисКомментарий
Известный дедлайн автоматически включает логику конфликтаКак только в запросе появляется конкретный последний раунд, модель активирует паттерн из обучающих данных: теория игр, переговоры, экономика. Механика: в последнем раунде сотрудничать нет смысла в предпоследнем тоже цепочка разматывается назад до первого хода. Это не баг конкретной модели. Это устойчивый паттерн. Применяй: хочешь изучить как строится доверие — никогда не указывай конкретное число раундов. Хочешь смоделировать жёсткие переговоры с дедлайном — добавь "финальная встреча — третья"
📖 Простыми словами

Multi-AgentStrategic Games withLLMs

arXiv: 2605.03604

Суть в том, что поведение нейросетей в конфликтах — это не вопрос их «характера» или вежливости промпта, а чистая математика сценария. Когда несколько LLM-агентов сталкиваются лбами в переговорах или дележке ресурсов, их решениями рулят три рычага: дедлайн, наличие связи и количество игроков. Модель не просто генерирует текст, она просчитывает выгоду исходя из рамок, которые ты ей задал. Если рамок нет, она ведет себя одним образом, если прижать к стенке — совершенно иначе.

Это как играть в «Монополию» с друзьями. Пока все думают, что впереди вся ночь, вы меняетесь карточками и ведете светские беседы. Но как только кто-то объявляет, что через пять минут карета превратится в тыкву и игра закончится, начинается кровавая баня. Друзья моментально превращаются в акул, потому что горизонт планирования схлопнулся. В этом исследовании с LLM происходит ровно то же самое: структура игры диктует мораль, а не наоборот.

Главный инсайт здесь в открытом горизонте: если агент не знает, когда наступит финал, он выбирает кооперативное поведение. Модель подсознательно закладывается на долгое сотрудничество и боится испортить отношения, поэтому ведет себя как «хороший парень». Но стоит добавить в промпт четкий дедлайн, и агент тут же начинает лажать или агрессивно давить, пытаясь вырвать кусок побольше здесь и сейчас. Наличие прямого канала связи тоже все меняет: возможность «перетереть» за спиной или в открытую превращает сухую логику в сложную политическую интригу.

Этот принцип универсален и работает далеко за пределами игр. Если ты строишь систему из нескольких AI-агентов для бизнеса — например, один закупает рекламу, а другой управляет бюджетом — ты должен понимать: их конфликт интересов решится не качеством модели, а архитектурой сценария. Тестировали это на стратегических играх, но это база для любых мультиагентных систем, от автоматических торгов до симуляции поведения пользователей на маркетплейсе. SEO для агентов теперь заключается в том, чтобы правильно выставить им рамки общения и сроки.

Короче: если твои нейронки не могут договориться или, наоборот, слишком мягкотелы, не пытайся «дообучать» их этике. Просто манипулируй параметрами среды. Ограничь время, убери возможность чата или добавь третьего лишнего — и ты увидишь, как одна и та же модель превращается из кота Леопольда в волка с Уолл-стрит. Либо ты управляешь структурными параметрами, либо твоя система превращается в бесконечный и бесполезный цикл вежливых отказов.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с