3,583 papers
arXiv:2601.10825 77 15 янв. 2026 г. FREE

Society of Thought: reasoning-модели решают задачи через симуляцию внутренней дискуссии

КЛЮЧЕВАЯ СУТЬ
Обнаружено: reasoning-модели (DeepSeek-R1, QwQ, o1) не просто выдают длинную цепочку рассуждений — они создают внутри себя несколько «голосов» с разными экспертизами, которые спорят, критикуют друг друга и приходят к консенсусу. Метод Society of Thought позволяет явно запросить эту внутреннюю дискуссию для решения сложных задач с неоднозначностью. Фишка: модель генерирует конфликт перспектив автоматически — одна предлагает решение, другая находит дыру в логике, третья предлагает компромисс. Результат: в 2-3 раза больше конверсационных паттернов (вопросы себе, смена угла зрения, острые столкновения взглядов) чем у обычных моделей той же размерности.
Адаптировать под запрос

TL;DR

Society of Thought — принцип работы reasoning-моделей (DeepSeek-R1, QwQ-32B, o1): они генерируют не просто длинную цепочку рассуждений, а симулируют внутреннюю дискуссию между разными перспективами. Модель как будто создаёт внутри себя несколько "голосов" с разными экспертизами и характерами, которые спорят, критикуют друг друга и приходят к консенсусу.

Исследователи обнаружили: reasoning-модели в 2-3 раза чаще показывают конверсационное поведение, чем обычные модели той же размерности. Они задают себе вопросы и отвечают, меняют перспективу ("а если посмотреть с другой стороны"), создают конфликт взглядов ("но это противоречит"), примиряют их. Показывают социо-эмоциональные роли как в живой дискуссии: спрашивают и дают информацию, выражают несогласие и согласие, создают напряжение и разряжают его. Всё это происходит автоматически — модель научилась этому через reinforcement learning, просто получая награду за правильные ответы.

Механизм простой: разнообразие перспектив + конфликт между ними = лучшее исследование пространства решений. Reasoning-модели активируют больше фичей связанных с разными личностями и экспертизами. Одна перспектива может пропустить ошибку, но другая её поймает через несогласие. Это работает потому что humans тоже лучше решают сложные задачи в группах с diversity — reasoning-модели нашли способ симулировать это внутри себя.

🧠

Схема механизма

КОНВЕРСАЦИОННОЕ ПОВЕДЕНИЕ (что происходит внутри рассуждения):

1. Question & Answering
   Модель задаёт себе вопрос → отвечает на него
   "Wait, what if we approach this differently?" → "Let's try..."

2. Perspective Shift  
   Смена угла зрения
   "From the user's perspective..." → "But from technical standpoint..."

3. Conflict of Perspectives
   Острое столкновение взглядов
   "This suggests A" → "But that contradicts B" → критика и проверка

4. Reconciliation
   Интеграция конфликтующих взглядов
   "Both are valid, but in this context..." → консенсусный вывод

СОЦИО-ЭМОЦИОНАЛЬНЫЕ РОЛИ (как в живой группе):

Ask & Give: спрашивает ориентацию/мнение/предложение ↔ даёт их
Negative & Positive: несогласие/напряжение ↔ согласие/солидарность

Всё это происходит в ОДНОМ reasoning trace, автоматически.
Чем сложнее задача — тем больше конверсационных паттернов.
🚀

Пример применения

Задача: Ты хочешь запустить сервис персональных AI-помощников для малого бизнеса в России. Нужно понять — стоит ли вкладывать время и деньги, или идея сырая.

Промпт:

Проанализируй бизнес-идею: персональные AI-помощники для малого бизнеса 
в России (автоматизация рутины, ответы клиентам, аналитика).

Симулируй внутреннюю дискуссию между разными перспективами:
- предприниматель (execution, реальность рынка)
- технический эксперт (feasibility, риски)
- маркетолог (позиционирование, конкуренция)
- скептик (что пойдёт не так)

Покажи:
1. Как каждая перспектива видит идею
2. Где возникают конфликты взглядов
3. Какие аргументы оспариваются
4. К какому консенсусу приходит "группа"

В конце — итоговая оценка: запускать / доработать / отказаться, и почему.

Результат:

Модель покажет 3-5 раундов внутренней дискуссии. Предприниматель скажет "рынок есть, малый бизнес задыхается без автоматизации" → технический эксперт возразит "но интеграция с 1С и российскими CRM — боль, там нет нормальных API" → маркетолог добавит "позиционирование размыто, конкуренция с Битрикс24 и амoCRM которые добавляют AI" → скептик усилит "плюс бизнес не доверяет AI с данными клиентов". Потом перспективы начнут примиряться: "если фокус на узкий сегмент где боль острая + white-label решение...". В финале — консенсусный вывод с конкретными условиями когда идея работает, а когда нет.

🧠

Почему это работает

Слабость LLM: Одна перспектива создаёт слепые зоны. Модель может пойти по первому правдоподобному пути рассуждений и пропустить ошибку или альтернативу. Это как человек который решает задачу в одиночку — легко застрять в своём фрейме.

Сильная сторона LLM: Модель отлично симулирует разные стили мышления и экспертизы. Она знает как рассуждает предприниматель vs технический эксперт vs скептик. Может генерировать текст "от лица" разных персон.

Как метод использует это: Вместо монолитного рассуждения, модель создаёт внутреннюю структуру из нескольких "голосов" которые активно конфликтуют. Конфликт — это критическая проверка идей. Одна перспектива предлагает решение → другая находит дыру в логике → третья предлагает компромисс. Через этот процесс модель исследует больше веток решения и отлавливает больше ошибок.

Исследование показало: когда модель генерирует текст с маркерами удивления ("Oh!" "Wait!") в конверсационном контексте, это коррелирует с активацией более широкого спектра personality- и expertise-фичей в пространстве активаций модели. Surprise signal = смена перспективы = проверка предположений.

Рычаги управления:

  • Число перспектив: 2 агента для быстрой проверки, 4-5 для глубокой проработки. Больше = дольше но тщательнее.
  • Характеристики перспектив: Дай конкретные роли (не "агент А" а "технический директор с 10 летним опытом") — острее критика и специфичнее инсайты.
  • Явный запрос конфликта: "Покажи где перспективы противоречат друг другу" vs "найди консенсус" — первое даёт глубже анализ, второе быстрее к выводу.
  • Условие выхода: "до консенсуса" vs "3 раунда дискуссии" vs "пока не найдены все риски" — меняет когда модель останавливается.
📋

Шаблон промпта

Проанализируй {задачу/проблему} через симуляцию внутренней дискуссии.

Создай {N} перспектив с разными экспертизами и стилями мышления:
- {Перспектива 1}: {характеристика, фокус}
- {Перспектива 2}: {характеристика, фокус}
- {Перспектива N}: {характеристика, фокус}

Структура рассуждения:

РАУНД 1: Каждая перспектива высказывает начальную позицию по {задаче}

РАУНД 2: Выяви конфликты и противоречия между позициями
- Где перспективы не согласны?
- Какие аргументы оспариваются?

РАУНД 3: Каждая перспектива отвечает на критику и корректирует позицию

РАУНД 4 (если нужен): Примирение — интеграция валидных элементов из конфликтующих взглядов

ИТОГ: Консенсусный вывод или спектр возможных решений с условиями

Покажи процесс дискуссии, не только финальный ответ.

Что подставлять:

  • {задача/проблема} — что нужно проанализировать (решение, идея, гипотеза, стратегия)
  • {N} — количество перспектив: 2-3 для быстрой проверки, 4-5 для глубокой проработки
  • {Перспектива X} — роль/экспертиза: "предприниматель", "технический директор", "маркетолог", "скептик", "юрист", "финансист"
  • {характеристика, фокус} — что важно для этой перспективы: "execution и реальность рынка", "technical feasibility и риски", "что пойдёт не так"

Число раундов можно варьировать: 2-3 для простых задач, 4-5 для сложных где нужна глубокая проработка.

🚀 Быстрый старт — вставь в чат:

Вот шаблон Society of Thought для анализа через множественные перспективы. 
Адаптируй под мою задачу: [опиши свою задачу]. 

Спроси какие перспективы нужны для этой конкретной задачи, сколько раундов, 
и что должно быть в итоговом выводе.

[вставить шаблон выше]

Модель спросит про специфику задачи, какие экспертизы релевантны, какой уровень детализации нужен. Она возьмёт структуру multi-perspective dialogue из шаблона и заполнит под твою ситуацию — сама определит какие "голоса" дадут лучший анализ.

⚠️

Ограничения

⚠️ Требует reasoning-capable моделей: Этот паттерн работает лучше всего на моделях с развитыми reasoning-способностями (DeepSeek-R1, QwQ, o1, Claude Sonnet 3.5+). Базовые или instruction-tuned модели могут имитировать структуру, но без реальной глубины конфликта и проверки — получится "театр" дискуссии без substance.

⚠️ Не для простых задач: На простых фактических вопросах ("столица Франции?") симуляция дискуссии избыточна и может даже вредить — модель начнёт сомневаться в очевидном. Применяй для сложных задач где есть trade-offs, неоднозначность, множество факторов.

⚠️ Длина и стоимость: Генерация reasoning trace с множественными перспективами значительно длиннее обычного ответа. Для GPT-4 или Claude это может быть дорого в API. DeepSeek-R1 показывает traces в среднем на 300-500 токенов длиннее чем DeepSeek-V3 на той же задаче.

⚠️ Конверсационная структура ≠ гарантия точности: Исследование показало корреляцию, но не детерминизм. Модель может симулировать дискуссию и всё равно прийти к неверному выводу если все "перспективы" разделяют одно ошибочное предположение (echo chamber внутри модели).

🔍

Как исследовали

Исследователи из Google и University of Chicago взяли 8,262 задачи из бенчмарков (BigBench Hard, GPQA, MATH Hard, MMLU-Pro, MUSR, IFEval) и сгенерировали reasoning traces через DeepSeek-R1 (671B) и QwQ-32B. Для сравнения использовали обычные instruction-tuned модели той же размерности — DeepSeek-V3, Qwen-2.5-32B, Llama — чтобы понять что отличает reasoning-модели.

Ключевая идея: они не просто замерили accuracy, а проанализировали СОДЕРЖАНИЕ reasoning traces. Используя LLM-as-judge (Gemini-2.5-Pro), классифицировали каждый trace на наличие: - 4 конверсационных поведений (вопросы-ответы, смена перспектив, конфликт, примирение)

- 12 социо-эмоциональных ролей из теории Bales (спрашивать/давать информацию, позитивные/негативные эмоции)

Удивительный результат: DeepSeek-R1 показал в 2-3 раза больше конверсационных паттернов чем DeepSeek-V3, хотя обе модели 671B параметров и V3 — база для R1. То есть reasoning-способности = не просто "длиннее думать", а "думать через внутренний диалог". Контролировали длину traces через regression — эффект остался.

Потом копнули глубже через mechanistic interpretability: обучили sparse autoencoder на Layer 15 DeepSeek-R1-Llama-8B (дистиллированная версия R1) чтобы разложить активации на 32,768 интерпретируемых фичей. Нашли фичу #30939 — "дискурсивный маркер удивления/осознания" ("Oh!" "Wait!") которая активируется в 65.7% случаев в конверсационном контексте (99-й перцентиль). Когда добавили эту фичу искусственно через activation steering (масштаб +10) в генерацию, модель удвоила accuracy на Countdown game (с 30% до 60%), при этом показала в 4 раза больше конверсационных паттернов.

Финальный эксперимент — controlled RL: взяли базовые модели (Qwen-2.5-3B, Llama-3.2-3B) и обучили через self-taught reinforcement learning награждая только за правильный ответ, без явных инструкций про структуру рассуждений. Результат поразил: модели спонтанно развили конверсационное поведение — начали задавать себе вопросы, менять перспективы, показывать конфликт. Более того, если сначала файнтюнили на примерах с конверсационной структурой, модели учились reasoning значительно быстрее чем те что файнтюнили на "монологах" (одна перспектива, линейное рассуждение).

Инсайт: Reinforcement learning открыл multi-agent simulation как оптимальную стратегию для reasoning, потому что diversity + conflict = более тщательное исследование пространства решений = меньше пропущенных ошибок = выше reward. Модели сами нашли этот паттерн когда награждали за результат.

💡

Адаптации и экстраполяции

📌

💡 Адаптация для quick sanity check

Не всегда нужна полная дискуссия на 4-5 раундов. Для быстрой проверки идеи/решения можно сократить до 2 перспектив и 1 раунда конфликта:

Оцени {решение/идею} через две перспективы:

ОПТИМИСТ: Что может сработать, лучший сценарий, возможности
ПЕССИМИСТ: Что пойдёт не так, риски, скрытые проблемы

Покажи где их взгляды конфликтуют острее всего.
Какой из конфликтов критичный для принятия решения?

Финал: стоит ли идти дальше, и при каких условиях?

Это lightweight версия — 2 минуты вместо 5-10, но уже ловит очевидные слепые зоны.

📌

💡 Адаптация для письма (проверка аргументации)

Society of Thought работает не только для решения задач, но и для проверки качества аргументации в тексте:

Я написал текст с аргументацией: {текст}

Симулируй критический разбор через 3 перспективы:
- ЛОГИК: проверяет структуру аргумента, находит логические дыры
- СКЕПТИК: ищет слабые места, непроверенные предположения  
- АДВОКАТ ЧИТАТЕЛЯ: что неясно, что требует пояснений

Каждая перспектива:
1. Выделяет проблемные места в тексте (цитата)
2. Объясняет почему это проблема
3. Предлагает как усилить

Финал: топ-3 правки которые критически улучшат текст.
📌

🔧 Техника: явные имена агентов → острее ролевая игра

Вместо абстрактных "Перспектива 1, 2, 3" или "Агент A, B" — дай конкретные имена и backstory:

Анализируй через дискуссию между:

СЕРГЕЙ — СТО стартапа, 10 лет в разработке, перфекционист, фокус на tech debt
МАРИЯ — head of product, shipped 5 фич за квартал, фокус на скорость и метрики
ОЛЕГ — CFO, считает юнит-экономику, боится overengineering

[дальше как в шаблоне]

Конкретные персонажи с характером → модель острее держит различия между перспективами, меньше сползает в безликий консенсус. Это как в ролевой игре — чем ярче характер, тем интереснее конфликт.

📌

🔧 Техника: запрос на meta-уровень → видеть динамику группы

Добавь после раундов дискуссии:

META-АНАЛИЗ: 
- Какая перспектива доминировала в дискуссии?
- Чей голос был услышан меньше, но содержал критичный инсайт?
- Где группа пришла к консенсусу слишком быстро, не проработав конфликт?

Это помогает модели отследить динамику самой дискуссии и поймать момент когда консенсус = groupthink, а не реальное примирение взглядов.

🔗

Ресурсы

Reasoning Models Generate Societies of Thought (2025) Junsol Kim, Shiyang Lai, Nino Scherrer, Blaise Agüera y Arcas, James Evans

Google Paradigms of Intelligence Team, University of Chicago, Santa Fe Institute


📋 Дайджест исследования

Ключевая суть

Обнаружено: reasoning-модели (DeepSeek-R1, QwQ, o1) не просто выдают длинную цепочку рассуждений — они создают внутри себя несколько «голосов» с разными экспертизами, которые спорят, критикуют друг друга и приходят к консенсусу. Метод Society of Thought позволяет явно запросить эту внутреннюю дискуссию для решения сложных задач с неоднозначностью. Фишка: модель генерирует конфликт перспектив автоматически — одна предлагает решение, другая находит дыру в логике, третья предлагает компромисс. Результат: в 2-3 раза больше конверсационных паттернов (вопросы себе, смена угла зрения, острые столкновения взглядов) чем у обычных моделей той же размерности.

Принцип работы

Не держи всё рассуждение в одной линейной перспективе. Создай внутренний парламент из 3-5 экспертиз с разными фокусами (технический директор, предприниматель, скептик, финансист). Модель проходит через раунды: начальные позиции → выявление конфликтов → ответы на критику → примирение валидных элементов → консенсусный вывод. Чем сложнее задача — тем больше раундов и острее конфликты между перспективами.

Почему работает

Одна перспектива создаёт слепые зоны. Предприниматель видит возможность рынка, но пропускает технический риск. Технический эксперт фокусируется на feasibility, но не видит проблем с позиционированием. Конфликт между перспективами = критическая проверка идей. Модель исследует больше веток решения и отлавливает больше ошибок через механизм несогласия. Исследование показало: когда модель генерирует маркеры удивления ("Wait!" "Oh!") в конверсационном контексте, это коррелирует с активацией более широкого спектра personality- и expertise-фичей в пространстве активаций модели. Surprise signal = смена перспективы = проверка предположений.

Когда применять

Для сложных задач с неоднозначностью и множественными trade-offs → конкретно для стратегических решений (запускать ли продукт), технических архитектур (какой стек выбрать), бизнес-идей (где риски), особенно когда одна перспектива может пропустить критическую проблему. НЕ подходит для простых фактических вопросов («столица Франции?») — модель начнёт сомневаться в очевидном и создаст театр дискуссии без substance.

Мини-рецепт

1. Задай задачу и перспективы: Опиши проблему + создай 3-4 роли с конкретными экспертизами и фокусами (не «агент А», а «технический директор с 10 летним опытом, фокус на feasibility и риски»)
2. Запроси конфликт явно: «Покажи где перспективы противоречат друг другу» — это критично, без этого модель может дать поверхностное согласие
3. Структурируй раунды: Начальные позиции → конфликты и противоречия → ответы на критику → консенсус (2-3 раунда для быстрой проверки, 4-5 для глубокой проработки)
4. Запроси процесс: «Покажи процесс дискуссии, не только финальный ответ» — так видно как модель проверяет предположения

Примеры

[ПЛОХО] : Проанализируй идею: персональные AI-помощники для малого бизнеса в России. Стоит ли запускать? — модель выдаст односторонний анализ из одной перспективы, пропустит критические проблемы
[ХОРОШО] : Проанализируй идею через симуляцию внутренней дискуссии между перспективами: предприниматель (execution, реальность рынка) / технический директор (feasibility, риски) / маркетолог (позиционирование, конкуренция) / скептик (что пойдёт не так). Покажи: 1) как каждая перспектива видит идею 2) где возникают конфликты взглядов 3) какие аргументы оспариваются 4) консенсусный вывод. Итог: запускать/доработать/отказаться и почему — модель сгенерирует 3-5 раундов дискуссии, где предприниматель увидит возможность → технический эксперт найдёт проблему интеграции с 1С → маркетолог укажет на конкуренцию с Битрикс24 → скептик усилит про недоверие к AI с данными → потом перспективы начнут примиряться через условия когда работает
Источник: Reasoning Models Generate Societies of Thought (2601.10825)
ArXiv ID: 2601.10825 | Сгенерировано: 2026-01-19 05:34

Концепты не выделены.

📖 Простыми словами

ReasoningModelsGenerate Societies of Thought

arXiv: 2601.10825

Новые reasoning-модели вроде DeepSeek-R1 или o1 работают не так, как старый добрый ChatGPT. Раньше нейронка просто выдавала наиболее вероятное следующее слово, а теперь она выстраивает внутреннюю дискуссию. Это не просто длинная цепочка мыслей, а полноценная симуляция разных экспертов внутри одной головы. Модель буквально создает несколько «голосов» с разными взглядами, которые спорят, придираются к деталям и ищут подвох в собственных же выводах, пока не придут к консенсусу.

Это как если бы ты пришел на совещание, где сидят скептик, оптимист и зануда-бухгалтер, но все они — это один и тот же мозг. Обычная LLM часто ведет себя как самоуверенный стажер: ляпнул первое, что пришло в голову, и верит в это до конца. Society of Thought заставляет модель сомневаться в себе. Формально она пишет один текст, но на деле это протокол жаркого спора, где каждая слабая идея безжалостно выкидывается на помойку еще до того, как ты увидишь финальный ответ.

Главная фишка здесь в устранении слепых зон. Если ты спросишь модель, стоит ли открывать кофейню в спальном районе, «голос» маркетолога скажет про трафик, а «голос» юриста тут же вклинится с вопросами про лицензии и нормы СанПиНа. В этом и кроется секрет их внезапного поумнения: 10 из 10 ошибок в старых моделях случались из-за того, что они зацикливались на одном пути рассуждения. Теперь же модель сама себе работает и адвокатом дьявола, и строгим цензором.

Этот принцип универсален и применим к любой сложной задаче — от написания кода до бизнес-стратегий. Исследование показывает, что качество ответа растет, когда мы заставляем модель имитировать разные роли. Это уже не просто генерация текста, а GEO для смыслов: модель фильтрует мусор внутри себя, выдавая только то, что выдержало внутреннюю проверку. Если твой запрос сложный, модель не просто «думает», она проводит полноценный консилиум за доли секунды.

Короче, эпоха «просто чат-ботов» закончилась, началась эпоха коллективного разума в одной коробке. Хватит ждать от нейронки простого ответа — нужно провоцировать её на внутренний конфликт и столкновение мнений. Society of Thought доказывает, что истина рождается в споре, даже если этот спор происходит в недрах видеокарты. Кто научится управлять этим внутренним хором, тот получит результаты на голову выше тех, кто по старинке ждет от AI просто угадывания слов.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с