TL;DR
Society of Thought — принцип работы reasoning-моделей (DeepSeek-R1, QwQ-32B, o1): они генерируют не просто длинную цепочку рассуждений, а симулируют внутреннюю дискуссию между разными перспективами. Модель как будто создаёт внутри себя несколько "голосов" с разными экспертизами и характерами, которые спорят, критикуют друг друга и приходят к консенсусу.
Исследователи обнаружили: reasoning-модели в 2-3 раза чаще показывают конверсационное поведение, чем обычные модели той же размерности. Они задают себе вопросы и отвечают, меняют перспективу ("а если посмотреть с другой стороны"), создают конфликт взглядов ("но это противоречит"), примиряют их. Показывают социо-эмоциональные роли как в живой дискуссии: спрашивают и дают информацию, выражают несогласие и согласие, создают напряжение и разряжают его. Всё это происходит автоматически — модель научилась этому через reinforcement learning, просто получая награду за правильные ответы.
Механизм простой: разнообразие перспектив + конфликт между ними = лучшее исследование пространства решений. Reasoning-модели активируют больше фичей связанных с разными личностями и экспертизами. Одна перспектива может пропустить ошибку, но другая её поймает через несогласие. Это работает потому что humans тоже лучше решают сложные задачи в группах с diversity — reasoning-модели нашли способ симулировать это внутри себя.
Схема механизма
КОНВЕРСАЦИОННОЕ ПОВЕДЕНИЕ (что происходит внутри рассуждения):
1. Question & Answering
Модель задаёт себе вопрос → отвечает на него
"Wait, what if we approach this differently?" → "Let's try..."
2. Perspective Shift
Смена угла зрения
"From the user's perspective..." → "But from technical standpoint..."
3. Conflict of Perspectives
Острое столкновение взглядов
"This suggests A" → "But that contradicts B" → критика и проверка
4. Reconciliation
Интеграция конфликтующих взглядов
"Both are valid, but in this context..." → консенсусный вывод
СОЦИО-ЭМОЦИОНАЛЬНЫЕ РОЛИ (как в живой группе):
Ask & Give: спрашивает ориентацию/мнение/предложение ↔ даёт их
Negative & Positive: несогласие/напряжение ↔ согласие/солидарность
Всё это происходит в ОДНОМ reasoning trace, автоматически.
Чем сложнее задача — тем больше конверсационных паттернов.
Пример применения
Задача: Ты хочешь запустить сервис персональных AI-помощников для малого бизнеса в России. Нужно понять — стоит ли вкладывать время и деньги, или идея сырая.
Промпт:
Проанализируй бизнес-идею: персональные AI-помощники для малого бизнеса
в России (автоматизация рутины, ответы клиентам, аналитика).
Симулируй внутреннюю дискуссию между разными перспективами:
- предприниматель (execution, реальность рынка)
- технический эксперт (feasibility, риски)
- маркетолог (позиционирование, конкуренция)
- скептик (что пойдёт не так)
Покажи:
1. Как каждая перспектива видит идею
2. Где возникают конфликты взглядов
3. Какие аргументы оспариваются
4. К какому консенсусу приходит "группа"
В конце — итоговая оценка: запускать / доработать / отказаться, и почему.
Результат:
Модель покажет 3-5 раундов внутренней дискуссии. Предприниматель скажет "рынок есть, малый бизнес задыхается без автоматизации" → технический эксперт возразит "но интеграция с 1С и российскими CRM — боль, там нет нормальных API" → маркетолог добавит "позиционирование размыто, конкуренция с Битрикс24 и амoCRM которые добавляют AI" → скептик усилит "плюс бизнес не доверяет AI с данными клиентов". Потом перспективы начнут примиряться: "если фокус на узкий сегмент где боль острая + white-label решение...". В финале — консенсусный вывод с конкретными условиями когда идея работает, а когда нет.
Почему это работает
Слабость LLM: Одна перспектива создаёт слепые зоны. Модель может пойти по первому правдоподобному пути рассуждений и пропустить ошибку или альтернативу. Это как человек который решает задачу в одиночку — легко застрять в своём фрейме.
Сильная сторона LLM: Модель отлично симулирует разные стили мышления и экспертизы. Она знает как рассуждает предприниматель vs технический эксперт vs скептик. Может генерировать текст "от лица" разных персон.
Как метод использует это: Вместо монолитного рассуждения, модель создаёт внутреннюю структуру из нескольких "голосов" которые активно конфликтуют. Конфликт — это критическая проверка идей. Одна перспектива предлагает решение → другая находит дыру в логике → третья предлагает компромисс. Через этот процесс модель исследует больше веток решения и отлавливает больше ошибок.
Исследование показало: когда модель генерирует текст с маркерами удивления ("Oh!" "Wait!") в конверсационном контексте, это коррелирует с активацией более широкого спектра personality- и expertise-фичей в пространстве активаций модели. Surprise signal = смена перспективы = проверка предположений.
Рычаги управления:
- Число перспектив: 2 агента для быстрой проверки, 4-5 для глубокой проработки. Больше = дольше но тщательнее.
- Характеристики перспектив: Дай конкретные роли (не "агент А" а "технический директор с 10 летним опытом") — острее критика и специфичнее инсайты.
- Явный запрос конфликта: "Покажи где перспективы противоречат друг другу" vs "найди консенсус" — первое даёт глубже анализ, второе быстрее к выводу.
- Условие выхода: "до консенсуса" vs "3 раунда дискуссии" vs "пока не найдены все риски" — меняет когда модель останавливается.
Шаблон промпта
Проанализируй {задачу/проблему} через симуляцию внутренней дискуссии.
Создай {N} перспектив с разными экспертизами и стилями мышления:
- {Перспектива 1}: {характеристика, фокус}
- {Перспектива 2}: {характеристика, фокус}
- {Перспектива N}: {характеристика, фокус}
Структура рассуждения:
РАУНД 1: Каждая перспектива высказывает начальную позицию по {задаче}
РАУНД 2: Выяви конфликты и противоречия между позициями
- Где перспективы не согласны?
- Какие аргументы оспариваются?
РАУНД 3: Каждая перспектива отвечает на критику и корректирует позицию
РАУНД 4 (если нужен): Примирение — интеграция валидных элементов из конфликтующих взглядов
ИТОГ: Консенсусный вывод или спектр возможных решений с условиями
Покажи процесс дискуссии, не только финальный ответ.
Что подставлять:
{задача/проблема}— что нужно проанализировать (решение, идея, гипотеза, стратегия){N}— количество перспектив: 2-3 для быстрой проверки, 4-5 для глубокой проработки{Перспектива X}— роль/экспертиза: "предприниматель", "технический директор", "маркетолог", "скептик", "юрист", "финансист"{характеристика, фокус}— что важно для этой перспективы: "execution и реальность рынка", "technical feasibility и риски", "что пойдёт не так"
Число раундов можно варьировать: 2-3 для простых задач, 4-5 для сложных где нужна глубокая проработка.
🚀 Быстрый старт — вставь в чат:
Вот шаблон Society of Thought для анализа через множественные перспективы.
Адаптируй под мою задачу: [опиши свою задачу].
Спроси какие перспективы нужны для этой конкретной задачи, сколько раундов,
и что должно быть в итоговом выводе.
[вставить шаблон выше]
Модель спросит про специфику задачи, какие экспертизы релевантны, какой уровень детализации нужен. Она возьмёт структуру multi-perspective dialogue из шаблона и заполнит под твою ситуацию — сама определит какие "голоса" дадут лучший анализ.
Ограничения
⚠️ Требует reasoning-capable моделей: Этот паттерн работает лучше всего на моделях с развитыми reasoning-способностями (DeepSeek-R1, QwQ, o1, Claude Sonnet 3.5+). Базовые или instruction-tuned модели могут имитировать структуру, но без реальной глубины конфликта и проверки — получится "театр" дискуссии без substance.
⚠️ Не для простых задач: На простых фактических вопросах ("столица Франции?") симуляция дискуссии избыточна и может даже вредить — модель начнёт сомневаться в очевидном. Применяй для сложных задач где есть trade-offs, неоднозначность, множество факторов.
⚠️ Длина и стоимость: Генерация reasoning trace с множественными перспективами значительно длиннее обычного ответа. Для GPT-4 или Claude это может быть дорого в API. DeepSeek-R1 показывает traces в среднем на 300-500 токенов длиннее чем DeepSeek-V3 на той же задаче.
⚠️ Конверсационная структура ≠ гарантия точности: Исследование показало корреляцию, но не детерминизм. Модель может симулировать дискуссию и всё равно прийти к неверному выводу если все "перспективы" разделяют одно ошибочное предположение (echo chamber внутри модели).
Как исследовали
Исследователи из Google и University of Chicago взяли 8,262 задачи из бенчмарков (BigBench Hard, GPQA, MATH Hard, MMLU-Pro, MUSR, IFEval) и сгенерировали reasoning traces через DeepSeek-R1 (671B) и QwQ-32B. Для сравнения использовали обычные instruction-tuned модели той же размерности — DeepSeek-V3, Qwen-2.5-32B, Llama — чтобы понять что отличает reasoning-модели.
Ключевая идея: они не просто замерили accuracy, а проанализировали СОДЕРЖАНИЕ reasoning traces. Используя LLM-as-judge (Gemini-2.5-Pro), классифицировали каждый trace на наличие:
- 4 конверсационных поведений (вопросы-ответы, смена перспектив, конфликт, примирение)
- 12 социо-эмоциональных ролей из теории Bales (спрашивать/давать информацию, позитивные/негативные эмоции)
Удивительный результат: DeepSeek-R1 показал в 2-3 раза больше конверсационных паттернов чем DeepSeek-V3, хотя обе модели 671B параметров и V3 — база для R1. То есть reasoning-способности = не просто "длиннее думать", а "думать через внутренний диалог". Контролировали длину traces через regression — эффект остался.
Потом копнули глубже через mechanistic interpretability: обучили sparse autoencoder на Layer 15 DeepSeek-R1-Llama-8B (дистиллированная версия R1) чтобы разложить активации на 32,768 интерпретируемых фичей. Нашли фичу #30939 — "дискурсивный маркер удивления/осознания" ("Oh!" "Wait!") которая активируется в 65.7% случаев в конверсационном контексте (99-й перцентиль). Когда добавили эту фичу искусственно через activation steering (масштаб +10) в генерацию, модель удвоила accuracy на Countdown game (с 30% до 60%), при этом показала в 4 раза больше конверсационных паттернов.
Финальный эксперимент — controlled RL: взяли базовые модели (Qwen-2.5-3B, Llama-3.2-3B) и обучили через self-taught reinforcement learning награждая только за правильный ответ, без явных инструкций про структуру рассуждений. Результат поразил: модели спонтанно развили конверсационное поведение — начали задавать себе вопросы, менять перспективы, показывать конфликт. Более того, если сначала файнтюнили на примерах с конверсационной структурой, модели учились reasoning значительно быстрее чем те что файнтюнили на "монологах" (одна перспектива, линейное рассуждение).
Инсайт: Reinforcement learning открыл multi-agent simulation как оптимальную стратегию для reasoning, потому что diversity + conflict = более тщательное исследование пространства решений = меньше пропущенных ошибок = выше reward. Модели сами нашли этот паттерн когда награждали за результат.
Адаптации и экстраполяции
💡 Адаптация для quick sanity check
Не всегда нужна полная дискуссия на 4-5 раундов. Для быстрой проверки идеи/решения можно сократить до 2 перспектив и 1 раунда конфликта:
Оцени {решение/идею} через две перспективы:
ОПТИМИСТ: Что может сработать, лучший сценарий, возможности
ПЕССИМИСТ: Что пойдёт не так, риски, скрытые проблемы
Покажи где их взгляды конфликтуют острее всего.
Какой из конфликтов критичный для принятия решения?
Финал: стоит ли идти дальше, и при каких условиях?
Это lightweight версия — 2 минуты вместо 5-10, но уже ловит очевидные слепые зоны.
💡 Адаптация для письма (проверка аргументации)
Society of Thought работает не только для решения задач, но и для проверки качества аргументации в тексте:
Я написал текст с аргументацией: {текст}
Симулируй критический разбор через 3 перспективы:
- ЛОГИК: проверяет структуру аргумента, находит логические дыры
- СКЕПТИК: ищет слабые места, непроверенные предположения
- АДВОКАТ ЧИТАТЕЛЯ: что неясно, что требует пояснений
Каждая перспектива:
1. Выделяет проблемные места в тексте (цитата)
2. Объясняет почему это проблема
3. Предлагает как усилить
Финал: топ-3 правки которые критически улучшат текст.
🔧 Техника: явные имена агентов → острее ролевая игра
Вместо абстрактных "Перспектива 1, 2, 3" или "Агент A, B" — дай конкретные имена и backstory:
Анализируй через дискуссию между:
СЕРГЕЙ — СТО стартапа, 10 лет в разработке, перфекционист, фокус на tech debt
МАРИЯ — head of product, shipped 5 фич за квартал, фокус на скорость и метрики
ОЛЕГ — CFO, считает юнит-экономику, боится overengineering
[дальше как в шаблоне]
Конкретные персонажи с характером → модель острее держит различия между перспективами, меньше сползает в безликий консенсус. Это как в ролевой игре — чем ярче характер, тем интереснее конфликт.
🔧 Техника: запрос на meta-уровень → видеть динамику группы
Добавь после раундов дискуссии:
META-АНАЛИЗ:
- Какая перспектива доминировала в дискуссии?
- Чей голос был услышан меньше, но содержал критичный инсайт?
- Где группа пришла к консенсусу слишком быстро, не проработав конфликт?
Это помогает модели отследить динамику самой дискуссии и поймать момент когда консенсус = groupthink, а не реальное примирение взглядов.
Ресурсы
Reasoning Models Generate Societies of Thought (2025)
Junsol Kim, Shiyang Lai, Nino Scherrer, Blaise Agüera y Arcas, James Evans
Google Paradigms of Intelligence Team, University of Chicago, Santa Fe Institute
