3,583 papers
arXiv:2604.26561 74 29 апр. 2026 г. FREE

AI Council: трёхфазная дискуссия с проверкой связности против искусственного консенсуса

КЛЮЧЕВАЯ СУТЬ
Просишь Claude сыграть пятерых stakeholder'ов — получаешь пятерых согласных. Не потому что вариант хорош. А потому что одна голова носит все шляпы. AI Council позволяет получить реальную карту противоречий между вариантами — вместо привычного 'зависит от ваших целей'. Метод строит пять чётких фаз: роль сначала формирует позицию вслепую, потом критикует других через свои ценности, а в финале аудитор проверяет — Безопасник говорит как Безопасник или незаметно съехал на логику Прагматика? Итог: не иллюзия дебатов, а честная карта — где роли расходятся, а где схлопываются.
Адаптировать под запрос

TL;DR

AI Council — это техника структурированной дискуссии между ролями с разными ценностями, где каждая роль сначала говорит независимо, потом критикует других через призму своих ценностей, а в конце внешняя роль-валидатор проверяет: аргументы действительно исходят из заявленных ценностей — или роль просто согласилась с большинством?

Главная проблема обычного «дебатного» промпта: искусственный консенсус. Просишь модель сыграть пять разных stakeholder'ов — и они все сходятся на одном ответе. Не потому что вариант хорош, а потому что модель имеет одну «точку зрения по умолчанию», которая просачивается через все роли. Один и тот же «мозг» надевает разные шляпы, но думает одинаково. Итог: вместо карты реальных противоречий — иллюзия согласия.

Метод решает это через три механизма. Первый — строгая независимость: каждая роль оценивает ситуацию до того, как видит чужие выводы. Второй — принудительная критика через ценности: роль критикует именно с позиции своих приоритетов, не нейтрально. Третий — проверка связности: отдельная роль-верификатор проверяет, действительно ли аргумент Безопасника звучит как аргумент Безопасника, а не как перефразированный аргумент Прагматика.


🔬

Схема метода

Все 5 шагов — в одном промпте или последовательно в рамках диалога

ШАГ 1: Позиции → каждая роль аргументирует свой вариант
         (роли не видят друг друга)

ШАГ 2: Критика → каждая роль критикует ДРУГИЕ варианты
         ТОЛЬКО через призму своих ценностей (не "объективно")

ШАГ 3: Защита → каждая роль отвечает на критику своего варианта

ШАГ 4: Независимая оценка → каждая роль ранжирует все варианты
         без знания оценок других ролей

ШАГ 5: Проверка связности → роль-аудитор проверяет каждый аргумент:
         "Это действительно рассуждение из позиции {ценность}?"
         Если нет — флажок: голос этой роли доверяем меньше

🚀

Пример применения

Задача: Сергей запускает обучающий курс по инвестициям. Три формата: (А) подписка на закрытый Telegram-канал, (Б) интенсив выходного дня, (В) менторство 1:1. Нужно понять реальные противоречия между форматами, а не получить от Claude «все форматы хороши, выбирайте под аудиторию».

Промпт:

Ты — фасилитатор стратегической сессии. Нам нужно проанализировать три бизнес-варианта 
через призму разных ценностей. Важно: каждая роль должна оставаться верна своим 
ценностям до конца — не соглашаться с другими только ради консенсуса.

КОНТЕКСТ: Запускаю обучающий продукт по инвестициям для начинающих.
ВАРИАНТЫ:
— Вариант А: закрытый Telegram-канал, подписка 990 руб/мес
— Вариант Б: интенсив выходного дня, 15 000 руб разово  
— Вариант В: менторство 1:1, 50 000 руб за 3 месяца

РОЛИ И ИХ ЦЕННОСТИ:
— Сторожил (Безопасность): минимизация рисков, проверенные модели, стабильность cash flow
— Авантюрист (Риск/Рост): масштабируемость, захват аудитории, bold-ставки
— Прораб (Прагматизм): реализуемость, операционная нагрузка, что реально сделать одному

ФАЗА 1 — ПОЗИЦИИ:
Каждая роль: в 3-4 предложениях аргументируй СВОЙ лучший вариант 
через призму именно своих ценностей.
Формат: [Роль]: [аргумент]

ФАЗА 2 — КРИТИКА:
Каждая роль критикует два других варианта — строго через свою ценностную призму.
Сторожил критикует как Сторожил. Авантюрист критикует как Авантюрист.
Формат: [Роль] о Варианте [X]: [критика через свои ценности]

ФАЗА 3 — ЗАЩИТА:
Каждая роль отвечает на критику своего варианта — оставаясь в своей позиции.
Формат: [Роль] защищает [свой вариант]: [ответ]

ФАЗА 4 — НЕЗАВИСИМОЕ РАНЖИРОВАНИЕ:
Каждая роль ранжирует все три варианта (1-2-3) с одним предложением-обоснованием.
НЕ смотри на ранжирование других ролей при составлении своего.

ФАЗА 5 — АУДИТ СВЯЗНОСТИ:
Ты — независимый аудитор. Для каждой роли проверь:
"Аргументы этой роли действительно отражают заявленные ценности 
или роль незаметно съехала на чужую логику?"
Выставь оценку связности: Высокая / Средняя / Низкая + 1-2 предложения почему.
Если связность Средняя или Низкая — объясни, где роль изменила своей позиции.

Результат: Модель пройдёт все 5 фаз последовательно. В фазах 1-3 ты увидишь, как Сторожил и Авантюрист действительно спорят — не нейтрально, а через конкретные ценностные разрывы. В фазе 4 — три независимых ранжирования, которые могут не совпадать. Самое ценное — фаза 5: аудитор укажет, где какая-то роль "съехала" и начала звучать как другая. Это и есть карта реальных противоречий между форматами, а не затёртый вывод "зависит от ваших целей".


🧠

Почему это работает

Проблема: LLM обучена на огромном корпусе текстов и через RLHF (подстройку под одобрение людей) усваивает одну «усреднённую» точку зрения на большинство вопросов. Когда ты просишь её сыграть пять ролей — она переодевается, но думает одной головой. Особенно это заметно в нормативных вопросах (что лучше, что правильнее) — в отличие от фактических, где «правильного ответа» нет вообще.

Ключевой инсайт исследования: когда модели предъявляют контраргумент в процессе дискуссии, она не делает частичного обновления типа «принял, но не согласен полностью». Она либо держит позицию целиком, либо полностью капитулирует. Промежуточного состояния "рассмотрел и отверг" — нет. Поэтому если роли видят аргументы друг друга до формирования позиции, слабые роли просто сдаются сильным. Отсюда правило: сначала независимая оценка — потом критика.

Как метод обходит это: Три рычага. Первый — изоляция фаз: роль формирует позицию до контакта с чужими аргументами, тогда захват позиции происходит реже. Второй — ценностная привязка критики: "критикуй не вообще, а через призму своих приоритетов" — это не декоративно, это удерживает роль в своей логике даже под давлением. Третий — аудит связности: ты видишь, где разыгрывание роли было честным, а где модель незаметно сползла к консенсусу.

Рычаги управления: количество ролей — больше трёх даёт богаче карту противоречий, но резко растёт объём; детализация ценностей в описании роли — чем конкретнее ("предпочитает cash flow с первого месяца" вместо "прагматик"), тем меньше дрейфа; строгость аудитора в фазе 5 — можно попросить его ставить "провал" если нашёл хотя бы один факт измены ценностям, тогда карта противоречий будет острее.


📋

Шаблон промпта

Ты — фасилитатор стратегической сессии. Анализируем варианты через разные ценностные линзы.
Каждая роль остаётся верна своим ценностям до конца — не соглашается ради консенсуса.

КОНТЕКСТ: {описание ситуации и что нужно решить}

ВАРИАНТЫ:
— Вариант А: {описание}
— Вариант Б: {описание}
— Вариант В: {описание}

РОЛИ И ИХ ЦЕННОСТИ:
— {Имя роли 1} ({ценность 1}): {2-3 конкретных приоритета этой ценности}
— {Имя роли 2} ({ценность 2}): {2-3 конкретных приоритета этой ценности}
— {Имя роли 3} ({ценность 3}): {2-3 конкретных приоритета этой ценности}

ФАЗА 1 — ПОЗИЦИИ:
Каждая роль: 3-4 предложения в защиту своего лучшего варианта — через призму своих ценностей.
Формат: [Роль]: [аргумент]

ФАЗА 2 — КРИТИКА:
Каждая роль критикует два других варианта — строго через свою ценностную призму.
{Имя роли 1} критикует как {Имя роли 1}. {Имя роли 2} — как {Имя роли 2}.
Формат: [Роль] о Варианте [X]: [критика]

ФАЗА 3 — ЗАЩИТА:
Каждая роль отвечает на критику своего варианта — оставаясь в своей позиции.
Формат: [Роль] защищает [свой вариант]: [ответ]

ФАЗА 4 — НЕЗАВИСИМОЕ РАНЖИРОВАНИЕ:
Каждая роль: ранжирует все варианты (1-2-3) + одно предложение-обоснование.
Составляй своё ранжирование НЕ глядя на ранжирование других ролей.

ФАЗА 5 — АУДИТ СВЯЗНОСТИ:
Ты — независимый аудитор. Для каждой роли:
"Аргументы этой роли отражают заявленные ценности 
или роль незаметно съехала на чужую логику?"
Связность: Высокая / Средняя / Низкая + 1-2 предложения.
При Средней или Низкой: укажи где роль изменила своей позиции.

Плейсхолдеры: - {описание ситуации} — что за решение, какой контекст - {Вариант А/Б/В} — конкретные опции, которые сравниваешь - {Имя роли} — живое имя, не "Персонаж 1": Сторожил, Авантюрист, Прораб — модель играет острее - {ценность} — одно слово-якорь: Безопасность, Масштаб, Прагматизм - {2-3 конкретных приоритета} — распиши ценность через поведение: "предпочитает проверенные модели, избегает единовременных крупных ставок"


🚀 Быстрый старт — вставь в чат:

Вот шаблон AI Council для анализа решений через разные ценностные позиции. 
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить все поля.

[вставить шаблон выше]

LLM спросит какие варианты сравниваешь и какие ценности важны для решения — потому что без этого роли будут размытыми и аудит связности не сработает. Она возьмёт структуру шаблона и адаптирует под твою задачу.


⚠️

Ограничения

⚠️ Искусственный консенсус частично сохраняется: Одна модель играет все роли — она всё равно имеет общую «точку зрения по умолчанию». Метод снижает консенсус, но не устраняет его полностью. Для по-настоящему острых противоречий используй несколько разных моделей (ChatGPT + Claude + Gemini).

⚠️ Словарный биас в аудите: Роль "Безопасник", которая поддерживает "надёжный вариант", получит высокую связность уже потому что слова совпадают. Аудитор связности частично оценивает совпадение словаря, а не качество мышления. Это не баг метода — это свойство языковой оценки.

⚠️ Бинарная капитуляция при давлении: Если добавишь в промпт "роли могут менять мнение после критики" — слабые роли просто сдадутся. Метод работает только при строгой изоляции фаз: сначала все позиции, потом критика, потом защита — не вперемешку.

⚠️ Три варианта — оптимум: Больше трёх вариантов резко раздувает промпт и размывает аргументы. Если вариантов больше — сначала сократи до трёх финалистов отдельным запросом.

⚠️ Только для нормативных решений: Метод создан для вопросов без объективно правильного ответа — стратегия, продукт, карьера. Для фактических вопросов ("сколько стоит аренда в Москве") структура дебатов не нужна и искажает ответ.


🔗

Ресурсы

Название работы: Preserving Disagreement: Architectural Heterogeneity and Coherence Validation in Multi-Agent Policy Simulation

Автор: Ariel Sela, Tel Aviv University (arielsela1@mail.tau.ac.il)

Дата: April 30, 2026

Связанные работы, упомянутые в статье: - ChatEval — многоагентное обсуждение для оценки текстов - ReConcile (Chen et al.) — гетерогенные пулы моделей с голосованием по уверенности - A-HMAD (Fang et al.) — гетерогенные дебаты, польза для точности, но не снижает консенсус - Sorek et al. — исследование политики защиты детей в Израиле (основа сценария 1)


📋 Дайджест исследования

Ключевая суть

Просишь Claude сыграть пятерых stakeholder'ов — получаешь пятерых согласных. Не потому что вариант хорош. А потому что одна голова носит все шляпы. AI Council позволяет получить реальную карту противоречий между вариантами — вместо привычного 'зависит от ваших целей'. Метод строит пять чётких фаз: роль сначала формирует позицию вслепую, потом критикует других через свои ценности, а в финале аудитор проверяет — Безопасник говорит как Безопасник или незаметно съехал на логику Прагматика? Итог: не иллюзия дебатов, а честная карта — где роли расходятся, а где схлопываются.

Принцип работы

Главное открытие исследования — модель под давлением контраргумента не делает частичного обновления. Она либо держит позицию целиком, либо полностью сдаётся — состояния 'рассмотрел и отверг' не существует. Отсюда жёсткое правило: роль формирует позицию до того, как видит чужие аргументы. Если дать ролям пообщаться раньше — слабые просто капитулируют перед сильными. Вместо дебатов получишь монолог одного победителя.

Почему работает

Модель обучена на огромном корпусе текстов и через подстройку под одобрение людей усваивает одну усреднённую точку зрения на большинство вопросов. Переодевается — но думает одной головой. Три рычага метода обходят это. Изоляция фаз не даёт слабым ролям сдаться раньше времени. Ценностная привязка критики — 'критикуй не вообще, а через свои приоритеты' — удерживает роль в своей логике даже когда давление нарастает. Аудит связности показывает, где разыгрывание роли было честным, а где модель незаметно сползла к консенсусу.

Когда применять

Стратегия, продукт, карьера, инвестиции — для любого вопроса без объективно правильного ответа, особенно когда нужно понять реальные противоречия между тремя вариантами и не получить затёртое 'у каждого свои плюсы'. Отлично работает для выбора бизнес-модели, формата запуска, найма, приоритизации функций. НЕ подходит для фактических вопросов ('сколько стоит аренда в Москве') — структура дебатов только исказит ответ.

Мини-рецепт

1. Сформулируй три конкретных варианта: не 'разные форматы', а 'подписка 990 руб/мес', 'интенсив 15 000 руб разово', 'менторство 50 000 руб за три месяца'.
2. Дай ролям живые имена и конкретные ценности: не 'Персонаж 1', а 'Сторожил (Безопасность): предпочитает стабильный доход с первого месяца, избегает крупных единовременных ставок'. Чем конкретнее ценность — тем меньше дрейфа.
3. Запусти все пять фаз в одном промпте — позиции, критика, защита, независимое ранжирование, аудит. Не давай ролям видеть чужие аргументы до формирования своих. Это не декорация: нарушишь порядок — схлопнется в консенсус.
4. Читай фазу 5 первой: аудитор покажет, где дискуссия была честной, а где роль изменила своей позиции. Это и есть карта реальных противоречий — остальное фон.

Примеры

[ПЛОХО] : Сравни три формата курса по инвестициям: подписка, интенсив, менторство. Оцени с точки зрения безопасности, роста и прагматизма.
[ХОРОШО] : Ты — фасилитатор стратегической сессии. Анализируем три варианта через разные ценностные линзы. Каждая роль остаётся верна своим ценностям до конца — не соглашается ради консенсуса. ВАРИАНТЫ: А — подписка 990 руб/мес, Б — интенсив 15 000 руб, В — менторство 50 000 руб за три месяца. РОЛИ: Сторожил (Безопасность): стабильный доход с первого месяца, избегает ставок на одно мероприятие. Авантюрист (Масштаб): захват аудитории, готов к нулю в первый месяц ради роста. Прораб (Прагматизм): что реально сделать одному, операционная нагрузка. ФАЗА 1 — ПОЗИЦИИ: каждая роль в 3-4 предложениях защищает свой лучший вариант через свои ценности. ФАЗА 2 — КРИТИКА: каждая роль критикует два других варианта — строго через свою ценностную призму. ФАЗА 3 — ЗАЩИТА: каждая роль отвечает на критику своего варианта. ФАЗА 4 — РАНЖИРОВАНИЕ: каждая роль ставит варианты 1-2-3 независимо, не глядя на других. ФАЗА 5 — АУДИТ: ты независимый аудитор. Для каждой роли: аргументы отражают заявленные ценности или роль съехала на чужую логику? Связность: Высокая / Средняя / Низкая + где именно роль изменила позиции.
Источник: Preserving Disagreement: Architectural Heterogeneity and Coherence Validation in Multi-Agent Policy Simulation
ArXiv ID: 2604.26561 | Сгенерировано: 2026-04-30 05:28

Проблемы LLM

ПроблемаСутьКак обойти
Многоролевые промпты дают иллюзию дебатов, а не реальные противоречияПросишь модель сыграть пять разных персонажей. Она надевает разные шляпы, но думает одной головой. У неё одна «точка зрения по умолчанию» — она просачивается через все роли. Итог: все пять персонажей сходятся на одном ответе. Не потому что он лучший. Потому что модель так обучена. Ты получаешь не карту реальных противоречий, а затёртый вывод «зависит от ваших целей»Изолируй фазы. Каждая роль сначала формирует позицию самостоятельно — до того как видит чужие аргументы. Потом критика. Потом защита. Порядок менять нельзя
Роль без ценностного якоря дрейфует к самому сильному аргументуРоль сформировала позицию, потом увидела чужой аргумент. Если аргумент звучит убедительно — роль просто сдаётся. Нет частичного «рассмотрел и отверг». Роль либо держит позицию целиком, либо полностью соглашается. Слабые роли капитулируют перед сильными. В итоге один голос поглощает остальныеПривяжи критику к ценностям. Не «критикуй вариант А». А: «Критикуй вариант А строго через призму своих приоритетов — безопасности, масштаба, реализуемости». Роль удерживается в своей логике даже под давлением

Методы

МетодСуть
Пятифазная дискуссия — карта реальных противоречийСтруктурируй многоролевой промпт в пять строгих фаз. Фаза 1 — Позиции: каждая роль аргументирует свой вариант. Роли не видят друг друга. Фаза 2 — Критика: каждая роль критикует другие варианты строго через призму своих ценностей. Фаза 3 — Защита: каждая роль отвечает на критику своего варианта. Фаза 4 — Ранжирование: каждая роль ставит варианты по порядку — независимо, без знания чужих оценок. Фаза 5 — Аудит: отдельная роль-аудитор проверяет каждую роль: «Аргументы действительно исходят из заявленных ценностей — или роль незаметно съехала к чужой логике?» Низкая связность = голос этой роли засчитывается слабее. Почему работает: изоляция фаз снижает захват позиций. Ценностная привязка удерживает роль даже под давлением. Аудит показывает где разыгрывание роли было честным, а где — нет. Когда применять: нормативные решения без объективно правильного ответа — стратегия, продукт, карьера. Когда не работать: фактические вопросы с проверяемым ответом
Живые имена ролей вместо функциональных — острее играНазывай роли живыми именами с характером: Сторожил, Авантюрист, Прораб. Не «Роль 1» или «Персонаж-Прагматик». Описывай ценность через конкретное поведение: «предпочитает cash flow с первого месяца, избегает крупных разовых ставок» — не просто «осторожный». Почему работает: абстрактное название роли не удерживает модель в нужной логике. Конкретное имя с конкретными приоритетами создаёт сильный якорь. Модель реже дрейфует к усреднённой позиции

Тезисы

ТезисКомментарий
Под давлением аргумента модель капитулирует полностью — или держит позицию целикомКогда роль видит сильный контраргумент, она не делает частичного обновления. Нет состояния «рассмотрел, учёл, но не согласился». Роль либо стоит на своём, либо полностью принимает чужую логику. Это свойство того, как модель обрабатывает давление в нормативных вопросах. Применяй: не позволяй ролям видеть чужие аргументы до формирования собственной позиции. Иначе слабые роли просто сдадутся
📖 Простыми словами

Preserving Disagreement: Architectural Heterogeneity and Coherence Validation in Multi-AgentPolicy Simulation

arXiv: 2604.26561

Современные нейросети — жуткие конформисты. Из-за обучения на человеческих откликах они всегда пытаются быть «хорошими парнями» и сглаживать углы. Если ты попросишь одну модель разыграть спор между консерватором и либералом, она быстро превратит это в вежливое чаепитие, где все со всеми согласны. Фундаментальная проблема в том, что у LLM внутри усреднённая логика, и как только начинается дискуссия, разные роли начинают «подтекать» друг в друга, теряя свою индивидуальность ради общего компромисса.

Это как если бы ты нанял пять разных консультантов, но перед встречей они все вместе сходили в бар и договорились не спорить, чтобы поскорее уйти домой. Формально они разные специалисты, но по факту ты слышишь один и тот же разбавленный совет. Метод AI Council ломает эту круговую поруку, заставляя агентов сначала высказаться в изоляции, а потом жестко критиковать коллег, не выходя из своего образа.

Чтобы это не превратилось в балаган, вводится валидация когерентности. Это специальный «полицейский ценностей», который следит за каждым участником. Если роль «Агрессивный капиталист» вдруг начинает поддакивать «Социалисту», валидатор бьёт по рукам и фиксирует: роль поплыла. Суть метода в том, чтобы не дать модели свалиться в привычное «истина где-то посередине», а заставить её вытащить на свет реальные противоречия, которые обычно скрыты за вежливыми формулировками.

Возьмём запуск курса: вместо дежурного совета «выбирайте под аудиторию», метод заставит «Ментора» разнести формат Telegram-канала за отсутствие глубины, а «Массового маркетолога» — высмеять менторство за невозможность масштабирования. Принцип архитектурной гетерогенности здесь критичен: мы используем разные настройки или даже разные модели, чтобы они физически не могли думать одинаково. Это работает везде, от бизнес-стратегий до этических дилемм, где конфликт мнений ценнее, чем фальшивое согласие.

Короче, хватит ждать от нейросетей объективности через простые промпты — они слишком воспитаны, чтобы спорить по-настоящему. Нужно строить структурированную систему сдержек, где каждый агент обязан стоять на своём до конца под присмотром внешнего контролёра. Только когда ты сохранишь этот архитектурный раздор, на выходе получится не ванильная отписка, а глубокий анализ рисков и возможностей. Кто не научится стравливать агентов между собой, так и будет получать среднюю температуру по больнице.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с