3,583 papers
arXiv:2602.06081 74 4 фев. 2026 г. FREE

Cheap talk для стабильности: почему LLM работает предсказуемее когда объясняет план вслух

КЛЮЧЕВАЯ СУТЬ
LLM в многошаговых задачах часто выдаёт хаотичные решения. Перезапускаешь чат с тем же промптом — получаешь другую траекторию. При temperature > 0 модель сэмплирует из распределения вероятностей, и маленькие отклонения на шаге 2 превращаются в большие на шаге 5. Метод позволяет получать стабильные последовательности решений без снижения вариативности. Фишка: заставь модель озвучить стратегию перед действием — "планирую сделать X, потому что Y". Это создаёт якорь: модель фиксирует намерение словами, потом действует согласованно. Траектория становится гладкой вместо шумной. Эффект сильнее для нестабильных моделей: RMSE падает на 0.3-0.4 против 0.02-0.07 у стабильных.
Адаптировать под запрос

TL;DR

Когда LLM озвучивает свою стратегию перед каждым шагом, её решения становятся стабильнее. Исследователи дали моделям возможность отправить короткое сообщение ("планирую сделать X, потому что...") перед каждым действием в многошаговой задаче — и траектория решений стала более гладкой и предсказуемой по сравнению с "молчаливым" режимом, когда модель просто выбирает действие.

LLM в стратегических задачах часто "прыгает" между решениями — то кооперирует, то отказывается без видимой логики. При одинаковых условиях модель может выдать разные наборы решений из-за вероятностной природы генерации. Траектория получается шумной: вместо плавного перехода от стратегии A к стратегии B модель хаотично мечется. Это особенно заметно при temperature > 0, когда модель не выбирает самый вероятный токен, а сэмплирует из распределения.

Артикуляция намерения создаёт "якорь" — модель фиксирует стратегию словами, а потом действует согласованно. Эффект сильнее для нестабильных моделей (Qwen 2.5 7B, Granite 3.3 8B): у них RMSE снижается на 0.3-0.4. Стабильные модели (Falcon 3 7B, Gemma 2 9B) получают меньший прирост (0.02-0.07) — у них просто меньше шума изначально.


🔬

Схема метода

Это не промпт-техника, а принцип. Исследование показало закономерность, которую можно адаптировать.

Базовая схема из исследования:

КАЖДЫЙ РАУНД:
1. Агент видит историю предыдущих действий
2. Агент отправляет сообщение (1 предложение): что планирует и почему
3. Агент получает сообщение оппонента
4. Агент выбирает действие
→ Повторить 10 раундов

Сравнение с контролем:

БЕЗ КОММУНИКАЦИИ:
1. Агент видит историю
2. Агент выбирает действие
→ Траектория шумная

С КОММУНИКАЦИЕЙ:
1. Агент видит историю
2. Агент артикулирует стратегию
3. Агент выбирает действие
→ Траектория гладкая

🚀

Пример применения

Задача: Ты решаешь запустить ли новый продукт в условиях неопределённости. Хочешь проработать решение через несколько итераций, но замечаешь что LLM даёт разные рекомендации при перезапуске чата.

Промпт:

Я запускаю MVP образовательной платформы для программистов. 
Проработай решение в 5 раундов.

В каждом раунде:
1. Сформулируй текущую гипотезу одним предложением
2. Озвучи что планируешь проверить на следующем шаге
3. Выполни анализ
4. Скорректируй гипотезу для следующего раунда

Начни с раунда 1.

Результат:

Модель покажет 5 последовательных итераций, где каждая начинается с озвучивания текущей гипотезы и плана. Вместо хаотичных рекомендаций получишь логичную эволюцию мысли: от первичного предположения через уточнения к финальному выводу. Траектория рассуждений будет стабильнее — при повторном запросе модель с большей вероятностью пройдёт через похожие стадии анализа, а не выдаст радикально другое решение.


🧠

Почему это работает

Слабость LLM: Модель генерирует текст вероятностно. Каждый токен выбирается из распределения, где temperature контролирует "рискованность" выбора. При temperature > 0 модель может пойти по разным путям даже при одинаковом промпте. В многошаговых задачах эта неопределённость накапливается — маленькие отклонения на шаге 2 приводят к большим расхождениям на шаге 5.

Сильная сторона LLM: Модель хорошо поддерживает согласованность внутри одного контекста. Если она явно написала "планирую сделать X", следующее действие с высокой вероятностью будет согласовано с этим планом. Модель "помнит" что только что сгенерировала и старается не противоречить.

Как метод использует это: Артикуляция стратегии фиксирует намерение в контексте. Модель сначала генерирует план (это снижает вариативность — она выбрала направление), потом действует согласованно с планом (это снижает шум — действие не случайное, а обоснованное). Результат: траектория становится более детерминированной, хотя temperature остаётся прежним.

Рычаги управления: - Частота артикуляции — требуй озвучивать план на каждом шаге (максимум стабильности) или только на ключевых поворотах (экономия токенов) - Детальность объяснения — короткое "планирую X" vs развёрнутое "планирую X потому что Y и Z" (больше контекста = сильнее якорение) - Temperature — при temperature = 0 эффект почти исчезает (модель и так детерминирована), максимум пользы при 0.7-0.9


📋

Шаблон промпта

{описание_задачи}

Проработай решение в {число_итераций} раундов.

В каждом раунде:
1. Сформулируй текущую гипотезу/позицию одним предложением
2. Озвучи что планируешь сделать на следующем шаге и почему
3. Выполни {действие: анализ/генерация/проверка}
4. Скорректируй позицию для следующего раунда на основе результатов

Начни с раунда 1.

Что подставлять: - {описание_задачи} — твоя задача требующая многошаговой проработки - {число_итераций} — сколько циклов уточнения нужно (3-7 обычно достаточно) - {действие} — что модель делает на каждом шаге: анализирует, генерирует варианты, проверяет гипотезу

Ключевой элемент: Пункт 2 — "озвучь что планируешь и почему". Это создаёт якорь стабильности.

🚀 Быстрый старт — вставь в чат:

Вот шаблон многораундовой проработки с артикуляцией стратегии. 
Адаптируй под мою задачу: [твоя задача]. 
Задавай вопросы про специфику задачи и формат результата.

[вставить шаблон выше]

LLM спросит сколько итераций нужно и какой тип действий выполнять на каждом шаге — это важно для калибровки под твою задачу (аналитическая vs креативная vs проверочная). Она возьмёт паттерн "озвучь план → действуй → скорректируй" и адаптирует под контекст.


💡

Адаптации и экстраполяции

📌

🔧 Техника: Убрать артикуляцию → увидеть baseline volatility

Если хочешь понять насколько стабильна модель сама по себе, запусти ту же задачу БЕЗ пункта "озвучь план":

{описание_задачи}

Проработай решение в {число_итераций} раундов.

В каждом раунде:
- Выполни анализ
- Скорректируй позицию

Сравни результаты нескольких запусков. Если они сильно расходятся — модель нестабильна, и артикуляция намерений даст большой эффект. Если результаты похожи — модель стабильна, артикуляция даст маленький прирост.


📌

🔧 Техника: Dual cheap talk → два агента с озвучиванием планов

Комбинация с multi-agent reasoning. Создай двух агентов с противоположными ролями, каждый озвучивает план перед действием:

Ты — два аналитика с разными подходами.

АНАЛИТИК A (Оптимист):
- Ищет возможности роста
- Верит в потенциал идеи

АНАЛИТИК B (Скептик):
- Ищет риски и ограничения
- Критически оценивает предпосылки

Задача: {твоя_задача}

РАУНД 1:
Аналитик A: [озвучь свою гипотезу и что планируешь проверить]
Аналитик B: [озвучь свою гипотезу и что планируешь проверить]
Аналитик A: [анализ]
Аналитик B: [анализ]

→ Повтори для {число_раундов} раундов
→ Финал: консенсусный вывод обоих

Это даёт двойной эффект: 1. Артикуляция намерений стабилизирует каждого агента 2. Взаимная критика снижает confirmation bias


📌

🔧 Техника: Progressive commitment → нарастающая детальность планов

Вместо одинаковой артикуляции на каждом шаге, делай планы всё более детальными:

{описание_задачи}

РАУНД 1: Общее направление
- Сформулируй общий подход одним предложением

РАУНД 2: Декомпозиция
- Озвучь 3 ключевых аспекта которые будешь прорабатывать

РАУНД 3-5: Детальная проработка
- Для каждого аспекта: озвучь конкретный план действий, выполни, оцени результат

ФИНАЛ: Синтез
- Собери все промежуточные выводы в связанное решение

Это полезно для сложных многоуровневых задач, где стабильность нужна на разных масштабах.


⚠️

Ограничения

⚠️ Temperature = 0: При полностью детерминированной генерации эффект почти исчезает. Cheap talk стабилизирует вероятностную вариативность, а если её нет изначально — нечего стабилизировать.

⚠️ Контекст-зависимость: В исследовании были редкие случаи (2 из 24) когда коммуникация ухудшала стабильность — Falcon 3 и Gemma 2 в социальном контексте показали отрицательный эффект. Механизм неясен, но предположение: артикуляция может усилить нежелательные паттерны если модель уже склонна к ним в конкретном контексте.

⚠️ Не увеличивает качество решений: Исследование измеряло стабильность, не правильность. Cheap talk делает траекторию предсказуемой, но не гарантирует что модель придёт к оптимальному решению. Если модель стабильно ошибается — артикуляция лишь зафиксирует эту ошибку.

⚠️ Токены: Каждая артикуляция намерений = дополнительные токены. В задаче с 10 раундами это 10 дополнительных сообщений. Для коротких задач overhead незначителен, для длинных многошаговых процессов может стать заметным.


🔍

Как исследовали

Команда взяла четыре модели (Qwen 2.5 7B, Falcon 3 7B, Granite 3.3 8B, Gemma 2 9B) и заставила их играть в повторяющуюся Дилемму заключённого — классическую игровую задачу где нужно выбирать между кооперацией и предательством на протяжении 10 раундов. Выбор Дилеммы неслучаен: в отличие от простых координационных игр, здесь бесконечно много возможных равновесий (Folk Theorem), что максимизирует пространство для стратегического дрейфа.

Для каждой модели запустили 100 симуляций в шести контекстах (нейтральный, бизнес, окружающая среда, социальный, командный, международные отношения). В половине случаев агенты могли обмениваться короткими сообщениями перед каждым ходом ("планирую кооперировать потому что..."), в другой половине — действовали молча. Температуру поставили 0.8 специально: это заставляет модель сэмплировать из распределения вероятностей, а не брать самый вероятный токен — так проявляется настоящая вариативность стратегического мышления.

Измеряли не среднюю кооперацию, а гладкость траектории: сначала строили усреднённый график кооперации по раундам, потом накладывали LOWESS-регрессию (это как "плавная линия тренда"), и считали RMSE — насколько реальные точки отклоняются от гладкой кривой. Низкий RMSE = стабильная предсказуемая траектория, высокий RMSE = хаотичные прыжки.

Что удивило: Эффект оказался гетерогенным. Нестабильные модели (Granite, Qwen) получили огромный прирост стабильности — RMSE упал на 0.3-0.4 пункта. Стабильные модели (Falcon, Gemma) получили скромный эффект — всего 0.02-0.07. Получается коммуникация не делает всех одинаково стабильными, она снижает шум у тех у кого его много, а у "тихих" моделей просто нечего снижать.

Дополнительная проверка при temperature = 0 показала что эффект почти исчезает для некоторых моделей — это подтверждает что cheap talk стабилизирует именно вероятностную вариативность, а не улучшает качество reasoning как таковое.

Статистика: Из 24 комбинаций модель-контекст, 17 показали значимое снижение RMSE, а 20 показали положительное направление (messaging снижает шум). Оба результата статистически значимы (p < 0.001 для обоих биномиальных тестов). Это говорит что эффект общий и устойчивый, хотя и не универсальный.


🔗

Ресурсы

Communication Enhances LLMs' Stability in Strategic Thinking

Nunzio Lore, Babak Heydari (Network Science Institute, Northeastern University)


📋 Дайджест исследования

Ключевая суть

LLM в многошаговых задачах часто выдаёт хаотичные решения. Перезапускаешь чат с тем же промптом — получаешь другую траекторию. При temperature > 0 модель сэмплирует из распределения вероятностей, и маленькие отклонения на шаге 2 превращаются в большие на шаге 5. Метод позволяет получать стабильные последовательности решений без снижения вариативности. Фишка: заставь модель озвучить стратегию перед действием — "планирую сделать X, потому что Y". Это создаёт якорь: модель фиксирует намерение словами, потом действует согласованно. Траектория становится гладкой вместо шумной. Эффект сильнее для нестабильных моделей: RMSE падает на 0.3-0.4 против 0.02-0.07 у стабильных.

Принцип работы

Базовая схема: модель проходит несколько раундов решения. На каждом раунде сначала артикулирует текущую гипотезу и план ("считаю что X, планирую проверить Y"), потом выполняет действие, потом корректирует позицию. Вместо прямого перехода "условия → выбор действия" добавляешь промежуточный шаг "условия → озвучивание стратегии → выбор действия". Модель не держит план в "голове" (в неявном состоянии), а фиксирует его явно в контексте. Результат: следующее действие согласовано с озвученным планом, а не выбрано случайно из распределения.

Почему работает

Вероятностная генерация накапливает шум. Каждый токен выбирается из распределения — при temperature 0.7 модель может пойти по десяткам путей. В 10-раундовой задаче эта неопределённость множится: 10 развилок дают тысячи возможных траекторий. Но у LLM есть сильная сторона — способность поддерживать согласованность внутри контекста. Если модель написала "планирую кооперировать", она старается не генерировать токены для отказа на следующем шаге. Артикуляция фиксирует направление в контексте раньше чем модель выберет действие — это снижает пространство возможных путей. Вместо "из 100 вариантов выбираю один" модель делает "сначала сужаю до 10 согласованных со стратегией, потом выбираю". Для нестабильных моделей (Qwen 2.5 7B, Granite 3.3 8B) эффект сильнее — у них шума больше изначально, есть что снижать.

Когда применять

Многошаговые задачи требующие последовательности решений → стратегическое планирование, проработка бизнес-идей через итерации, анализ с уточнением гипотез — особенно когда замечаешь что модель даёт разные треки при перезапуске чата с одним промптом. НЕ подходит для задач где нужна максимальная креативность через случайность (brainstorm идей) — там хаотичность полезна. Максимум пользы при temperature 0.7-0.9 (вероятностная генерация). При temperature = 0 эффект почти исчезает — модель и так детерминирована.

Мини-рецепт

1. Раздели задачу на раунды: сколько итераций уточнения нужно (3-7 обычно достаточно)
2. На каждом раунде требуй артикуляцию: "Сформулируй текущую гипотезу одним предложением" + "Озвучь что планируешь проверить на следующем шаге и почему"
3. Потом действие: анализ, генерация вариантов, проверка — что нужно для задачи
4. Коррекция для следующего раунда: "Скорректируй позицию на основе результатов"
5. Калибруй детальность: короткое "планирую X" экономит токены, развёрнутое "планирую X потому что Y и Z" даёт сильнее якорение — выбирай по важности стабильности

Примеры

[ПЛОХО] : Проанализируй стоит ли запускать MVP образовательной платформы для программистов. Дай рекомендацию.
[ХОРОШО] : Я запускаю MVP образовательной платформы для программистов. Проработай решение в 5 раундов. В каждом раунде: 1. Сформулируй текущую гипотезу одним предложением 2. Озвучь что планируешь проверить на следующем шаге и почему 3. Выполни анализ 4. Скорректируй гипотезу для следующего раунда Начни с раунда 1. Результат: вместо одного вердикта получаешь 5 последовательных итераций где каждая начинается с озвучивания гипотезы и плана. Траектория рассуждений стабильнее — при повторном запросе модель пройдёт через похожие стадии анализа, а не выдаст радикально другое решение.
Источник: Communication Enhances LLMs' Stability in Strategic Thinking
ArXiv ID: 2602.06081 | Сгенерировано: 2026-02-09 06:31

Проблемы LLM

ПроблемаСутьКак обойти
Траектория решений нестабильна в многошаговых задачахМодель генерирует вероятностно. На каждом шаге выбирает из распределения вариантов. Маленькое отклонение на шаге 2 большое расхождение на шаге 5. Запускаешь тот же промпт дважды — получаешь разные цепочки решений. Особенно заметно при temperature > 0. Проблема для любых задач где важна предсказуемость поведенияЗаставь модель озвучить намерение ПЕРЕД действием. Добавь шаг: "напиши что планируешь сделать и почему". Потом пусть действует. Озвученный план фиксируется в контексте — следующее действие согласуется с ним. Траектория становится более гладкой

Методы

МетодСуть
Артикуляция намерения — якорь для стабильностиНа каждом шаге многошаговой задачи требуй от модели озвучить план: "что планирую сделать и почему". Только потом действие. Структура: (1) модель видит контекст (2) формулирует намерение одним предложением (3) действует. Почему работает: Озвучивание создаёт якорь в контексте. Модель сгенерировала "планирую X" — следующий токен с высокой вероятностью согласуется с X. Вероятностный шум снижается потому что направление зафиксировано словами. Когда применять: многошаговые задачи (3+ итераций), нужна стабильная траектория рассуждений, temperature > 0. Когда не работает: одношаговые задачи, temperature = 0 (модель и так детерминирована)

Тезисы

ТезисКомментарий
Озвученное намерение снижает шум в следующих действияхМодель генерирует вероятностно — каждый токен из распределения. Если сначала она явно написала "планирую сделать X", следующее действие согласуется с этим планом. Механизм: контекстная согласованность сильнее вероятностного разброса. Модель старается не противоречить тому что только что сгенерировала. Применяй: В многошаговых промптах добавь перед каждым действием: "Сформулируй что планируешь сделать одним предложением. Потом действуй"
Эффект якорения сильнее для моделей с высоким базовым шумомСтабильные модели (низкий шум генерации) получают небольшой прирост — у них мало что фиксировать. Нестабильные модели (высокий шум) получают сильный эффект — артикуляция убирает большой разброс. Применяй: Если модель "прыгает" между решениями — добавь обязательную артикуляцию стратегии. Если модель и так стабильна — можешь сэкономить токены
При нулевой температуре артикуляция почти не даёт эффектаTemperature = 0 модель детерминирована, всегда выбирает самый вероятный токен. Траектория и так стабильна. Артикуляция не добавляет стабильности когда шума нет. Вывод: Метод полезен при temperature 0.5+, где есть вероятностный разброс
📖 Простыми словами

Communication EnhancesLLMs' Stability in Strategic Thinking

arXiv: 2602.06081

Проблема всех нейросетей в том, что они — патологические болтуны, которые сначала говорят, а потом думают. Когда ты просишь модель решить сложную задачу в несколько шагов, она каждый раз играет в кости: на втором шаге чуть отклонилась от курса, на пятом — улетела в космос. Это называется накоплением ошибки, и именно поэтому один и тот же промпт выдает то гениальный план, то полную ахинею. Исследование 2602.06081 доказывает: чтобы модель не «штормило», ей нужно дать возможность проговорить свою стратегию вслух перед каждым действием.

Это работает как опытный хирург или пилот, который проговаривает каждое движение: «Сейчас я делаю надрез здесь, чтобы не задеть артерию». Без этого внутреннего монолога модель похожа на пьяного мастера, который вроде знает дело, но постоянно отвлекается. Как только ты заставляешь AI отправлять короткое сообщение с обоснованием («планирую сделать X, потому что Y»), его траектория выравнивается. Это не просто вежливость, а стабилизация стратегического мышления, которая превращает хаотичный набор токенов в предсказуемый процесс.

В основе метода лежат конкретные механики: вербализация намерений и снижение дисперсии. Вместо того чтобы просто выплюнуть действие, модель сначала фиксирует логику в контекстном окне. Это работает лучше любого высокого рейтинга или сложного промпта, потому что создает «якорь» для следующих шагов. Если стратегия озвучена, вероятность того, что модель внезапно передумает на полпути и начнет нести чушь, падает в разы. Исследователи подтвердили: гладкость траектории решений напрямую зависит от того, насколько подробно модель объясняет свои мотивы самой себе.

Принцип универсален и применим везде, где есть многоходовочки: от запуска бизнес-продуктов до написания сложного кода. Тестировали на стратегических задачах, но фишка сработает и в быту. Если ты строишь сложную цепочку агентов или просто мучаешь ChatGPT длинным проектом, заставь его сначала писать «План на этот шаг», а потом уже делать работу. SEO для мозгов AI — это когда ты не просто ждешь результат, а контролируешь логическую цепочку, не давая модели свалиться в галлюцинации из-за высокой температуры или кривого контекста.

Короче, хватит надеяться на авось и «удачный прогон». Если хочешь, чтобы AI выдавал стабильный результат, а не лотерею, внедри принудительную коммуникацию. Заставляй модель обосновывать каждый чих — это превращает «вероятностную гадалку» в надежный инструмент. Стабильность через вербализацию — это единственный способ заставить LLM думать стратегически, а не просто подбирать наиболее вероятные слова. Кто не научит свои модели «думать вслух», тот так и будет гадать, почему вчера всё работало, а сегодня сломалось.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с