TL;DR
Когда LLM озвучивает свою стратегию перед каждым шагом, её решения становятся стабильнее. Исследователи дали моделям возможность отправить короткое сообщение ("планирую сделать X, потому что...") перед каждым действием в многошаговой задаче — и траектория решений стала более гладкой и предсказуемой по сравнению с "молчаливым" режимом, когда модель просто выбирает действие.
LLM в стратегических задачах часто "прыгает" между решениями — то кооперирует, то отказывается без видимой логики. При одинаковых условиях модель может выдать разные наборы решений из-за вероятностной природы генерации. Траектория получается шумной: вместо плавного перехода от стратегии A к стратегии B модель хаотично мечется. Это особенно заметно при temperature > 0, когда модель не выбирает самый вероятный токен, а сэмплирует из распределения.
Артикуляция намерения создаёт "якорь" — модель фиксирует стратегию словами, а потом действует согласованно. Эффект сильнее для нестабильных моделей (Qwen 2.5 7B, Granite 3.3 8B): у них RMSE снижается на 0.3-0.4. Стабильные модели (Falcon 3 7B, Gemma 2 9B) получают меньший прирост (0.02-0.07) — у них просто меньше шума изначально.
Схема метода
Это не промпт-техника, а принцип. Исследование показало закономерность, которую можно адаптировать.
Базовая схема из исследования:
КАЖДЫЙ РАУНД:
1. Агент видит историю предыдущих действий
2. Агент отправляет сообщение (1 предложение): что планирует и почему
3. Агент получает сообщение оппонента
4. Агент выбирает действие
→ Повторить 10 раундов
Сравнение с контролем:
БЕЗ КОММУНИКАЦИИ:
1. Агент видит историю
2. Агент выбирает действие
→ Траектория шумная
С КОММУНИКАЦИЕЙ:
1. Агент видит историю
2. Агент артикулирует стратегию
3. Агент выбирает действие
→ Траектория гладкая
Пример применения
Задача: Ты решаешь запустить ли новый продукт в условиях неопределённости. Хочешь проработать решение через несколько итераций, но замечаешь что LLM даёт разные рекомендации при перезапуске чата.
Промпт:
Я запускаю MVP образовательной платформы для программистов.
Проработай решение в 5 раундов.
В каждом раунде:
1. Сформулируй текущую гипотезу одним предложением
2. Озвучи что планируешь проверить на следующем шаге
3. Выполни анализ
4. Скорректируй гипотезу для следующего раунда
Начни с раунда 1.
Результат:
Модель покажет 5 последовательных итераций, где каждая начинается с озвучивания текущей гипотезы и плана. Вместо хаотичных рекомендаций получишь логичную эволюцию мысли: от первичного предположения через уточнения к финальному выводу. Траектория рассуждений будет стабильнее — при повторном запросе модель с большей вероятностью пройдёт через похожие стадии анализа, а не выдаст радикально другое решение.
Почему это работает
Слабость LLM: Модель генерирует текст вероятностно. Каждый токен выбирается из распределения, где temperature контролирует "рискованность" выбора. При temperature > 0 модель может пойти по разным путям даже при одинаковом промпте. В многошаговых задачах эта неопределённость накапливается — маленькие отклонения на шаге 2 приводят к большим расхождениям на шаге 5.
Сильная сторона LLM: Модель хорошо поддерживает согласованность внутри одного контекста. Если она явно написала "планирую сделать X", следующее действие с высокой вероятностью будет согласовано с этим планом. Модель "помнит" что только что сгенерировала и старается не противоречить.
Как метод использует это: Артикуляция стратегии фиксирует намерение в контексте. Модель сначала генерирует план (это снижает вариативность — она выбрала направление), потом действует согласованно с планом (это снижает шум — действие не случайное, а обоснованное). Результат: траектория становится более детерминированной, хотя temperature остаётся прежним.
Рычаги управления: - Частота артикуляции — требуй озвучивать план на каждом шаге (максимум стабильности) или только на ключевых поворотах (экономия токенов) - Детальность объяснения — короткое "планирую X" vs развёрнутое "планирую X потому что Y и Z" (больше контекста = сильнее якорение) - Temperature — при temperature = 0 эффект почти исчезает (модель и так детерминирована), максимум пользы при 0.7-0.9
Шаблон промпта
{описание_задачи}
Проработай решение в {число_итераций} раундов.
В каждом раунде:
1. Сформулируй текущую гипотезу/позицию одним предложением
2. Озвучи что планируешь сделать на следующем шаге и почему
3. Выполни {действие: анализ/генерация/проверка}
4. Скорректируй позицию для следующего раунда на основе результатов
Начни с раунда 1.
Что подставлять:
- {описание_задачи} — твоя задача требующая многошаговой проработки
- {число_итераций} — сколько циклов уточнения нужно (3-7 обычно достаточно)
- {действие} — что модель делает на каждом шаге: анализирует, генерирует варианты, проверяет гипотезу
Ключевой элемент: Пункт 2 — "озвучь что планируешь и почему". Это создаёт якорь стабильности.
🚀 Быстрый старт — вставь в чат:
Вот шаблон многораундовой проработки с артикуляцией стратегии.
Адаптируй под мою задачу: [твоя задача].
Задавай вопросы про специфику задачи и формат результата.
[вставить шаблон выше]
LLM спросит сколько итераций нужно и какой тип действий выполнять на каждом шаге — это важно для калибровки под твою задачу (аналитическая vs креативная vs проверочная). Она возьмёт паттерн "озвучь план → действуй → скорректируй" и адаптирует под контекст.
Адаптации и экстраполяции
🔧 Техника: Убрать артикуляцию → увидеть baseline volatility
Если хочешь понять насколько стабильна модель сама по себе, запусти ту же задачу БЕЗ пункта "озвучь план":
{описание_задачи}
Проработай решение в {число_итераций} раундов.
В каждом раунде:
- Выполни анализ
- Скорректируй позицию
Сравни результаты нескольких запусков. Если они сильно расходятся — модель нестабильна, и артикуляция намерений даст большой эффект. Если результаты похожи — модель стабильна, артикуляция даст маленький прирост.
🔧 Техника: Dual cheap talk → два агента с озвучиванием планов
Комбинация с multi-agent reasoning. Создай двух агентов с противоположными ролями, каждый озвучивает план перед действием:
Ты — два аналитика с разными подходами.
АНАЛИТИК A (Оптимист):
- Ищет возможности роста
- Верит в потенциал идеи
АНАЛИТИК B (Скептик):
- Ищет риски и ограничения
- Критически оценивает предпосылки
Задача: {твоя_задача}
РАУНД 1:
Аналитик A: [озвучь свою гипотезу и что планируешь проверить]
Аналитик B: [озвучь свою гипотезу и что планируешь проверить]
Аналитик A: [анализ]
Аналитик B: [анализ]
→ Повтори для {число_раундов} раундов
→ Финал: консенсусный вывод обоих
Это даёт двойной эффект: 1. Артикуляция намерений стабилизирует каждого агента 2. Взаимная критика снижает confirmation bias
🔧 Техника: Progressive commitment → нарастающая детальность планов
Вместо одинаковой артикуляции на каждом шаге, делай планы всё более детальными:
{описание_задачи}
РАУНД 1: Общее направление
- Сформулируй общий подход одним предложением
РАУНД 2: Декомпозиция
- Озвучь 3 ключевых аспекта которые будешь прорабатывать
РАУНД 3-5: Детальная проработка
- Для каждого аспекта: озвучь конкретный план действий, выполни, оцени результат
ФИНАЛ: Синтез
- Собери все промежуточные выводы в связанное решение
Это полезно для сложных многоуровневых задач, где стабильность нужна на разных масштабах.
Ограничения
⚠️ Temperature = 0: При полностью детерминированной генерации эффект почти исчезает. Cheap talk стабилизирует вероятностную вариативность, а если её нет изначально — нечего стабилизировать.
⚠️ Контекст-зависимость: В исследовании были редкие случаи (2 из 24) когда коммуникация ухудшала стабильность — Falcon 3 и Gemma 2 в социальном контексте показали отрицательный эффект. Механизм неясен, но предположение: артикуляция может усилить нежелательные паттерны если модель уже склонна к ним в конкретном контексте.
⚠️ Не увеличивает качество решений: Исследование измеряло стабильность, не правильность. Cheap talk делает траекторию предсказуемой, но не гарантирует что модель придёт к оптимальному решению. Если модель стабильно ошибается — артикуляция лишь зафиксирует эту ошибку.
⚠️ Токены: Каждая артикуляция намерений = дополнительные токены. В задаче с 10 раундами это 10 дополнительных сообщений. Для коротких задач overhead незначителен, для длинных многошаговых процессов может стать заметным.
Как исследовали
Команда взяла четыре модели (Qwen 2.5 7B, Falcon 3 7B, Granite 3.3 8B, Gemma 2 9B) и заставила их играть в повторяющуюся Дилемму заключённого — классическую игровую задачу где нужно выбирать между кооперацией и предательством на протяжении 10 раундов. Выбор Дилеммы неслучаен: в отличие от простых координационных игр, здесь бесконечно много возможных равновесий (Folk Theorem), что максимизирует пространство для стратегического дрейфа.
Для каждой модели запустили 100 симуляций в шести контекстах (нейтральный, бизнес, окружающая среда, социальный, командный, международные отношения). В половине случаев агенты могли обмениваться короткими сообщениями перед каждым ходом ("планирую кооперировать потому что..."), в другой половине — действовали молча. Температуру поставили 0.8 специально: это заставляет модель сэмплировать из распределения вероятностей, а не брать самый вероятный токен — так проявляется настоящая вариативность стратегического мышления.
Измеряли не среднюю кооперацию, а гладкость траектории: сначала строили усреднённый график кооперации по раундам, потом накладывали LOWESS-регрессию (это как "плавная линия тренда"), и считали RMSE — насколько реальные точки отклоняются от гладкой кривой. Низкий RMSE = стабильная предсказуемая траектория, высокий RMSE = хаотичные прыжки.
Что удивило: Эффект оказался гетерогенным. Нестабильные модели (Granite, Qwen) получили огромный прирост стабильности — RMSE упал на 0.3-0.4 пункта. Стабильные модели (Falcon, Gemma) получили скромный эффект — всего 0.02-0.07. Получается коммуникация не делает всех одинаково стабильными, она снижает шум у тех у кого его много, а у "тихих" моделей просто нечего снижать.
Дополнительная проверка при temperature = 0 показала что эффект почти исчезает для некоторых моделей — это подтверждает что cheap talk стабилизирует именно вероятностную вариативность, а не улучшает качество reasoning как таковое.
Статистика: Из 24 комбинаций модель-контекст, 17 показали значимое снижение RMSE, а 20 показали положительное направление (messaging снижает шум). Оба результата статистически значимы (p < 0.001 для обоих биномиальных тестов). Это говорит что эффект общий и устойчивый, хотя и не универсальный.
Ресурсы
Communication Enhances LLMs' Stability in Strategic Thinking
Nunzio Lore, Babak Heydari (Network Science Institute, Northeastern University)
