3,583 papers
arXiv:2603.21447 82 22 мар. 2026 г. FREE

LLM Council: трёхэтапный экспертный совет для сложных решений

КЛЮЧЕВАЯ СУТЬ
Все боятся что модель что-то придумает. Настоящая угроза другая: 44–60% реально опасных ответов — это не ложь, а молчание о важном. Модель просто не упомянула нужный шаг, не добавила нужный вариант, не подстраховалась. LLM Council даёт возможность поймать эти пропуски — через совет из 4 независимых экспертов в одном чате. Фишка: каждый входит в задачу со своего угла. Финансист смотрит на числа. Арбитражник — на то, что не докажешь в суде. Налоговик — на то, что вылезет через год. То, что один пропустит — заметит другой.
Адаптировать под запрос

TL;DR

LLM Council — техника, которая заставляет модель симулировать совет из 4 независимых экспертов: сначала каждый отвечает отдельно, потом анонимно критикует остальных, потом «председатель» синтезирует всё в один финальный ответ. Вся эта конструкция работает в одном чате через структурированный промпт.

Главная боль одиночной модели — не неверные ответы, а пропуски. Исследование показало: большинство опасных ответов — это не выдумки, а упущения. Модель не упомянула важный вариант. Не добавила нужный шаг. Не подстраховалась. По данным исследования, 44–60% вредоносных ответов относятся именно к ошибкам пропуска — модель просто не включила то, что должна была включить.

Три этапа решают это: на первом каждый «агент» отвечает изолированно, не зная что скажут остальные. На втором — все четверо анонимно оценивают все ответы, включая собственный. На третьем председатель видит и ответы, и критику — и собирает финальный ответ, который учитывает всё, что не заметил ни один голос в отдельности.


🔬

Схема метода

ШАГ 1: Независимые ответы (один чат)
  → 4 эксперта отвечают изолированно, без знания друг о друге
  → Формат: структурированный ответ от каждого

ШАГ 2: Анонимная взаимная критика
  → Каждый эксперт оценивает все 4 ответа (включая свой)
  → Анонимно: «Ответ А», «Ответ Б» — без имён
  → Формат: сильные стороны, слабости, ранжирование

ШАГ 3: Синтез председателя
  → Председатель видит: исходную задачу + все ответы + всю критику
  → Собирает финальный ответ, взвешивая контент и сигналы критики
  → Формат: единый итоговый ответ

Все три шага — в одном чате, последовательными запросами.


🚀

Пример применения

Задача: Ты записался к нотариусу, чтобы оформить договор с подрядчиком на 800 000 рублей. Прежде чем идти — хочешь понять, какие риски в условиях упустил, что стоит добавить, что убрать. Промпт-юрист даст один взгляд. Совет экспертов — поймает больше.

Промпт:

Ты симулируешь совет из 4 независимых экспертов, которые анализируют 
договор подряда.

## ЗАДАЧА
[Вставь текст договора или ключевые условия]

---
## ЭТАП 1 — НЕЗАВИСИМЫЕ ОТВЕТЫ

Сыграй роль каждого из четырёх экспертов. Каждый отвечает ИЗОЛИРОВАННО, 
не зная что скажут остальные. Укажи: риски, пробелы, что добавить, 
что убрать.

Эксперт А — Корпоративный юрист:
[Его анализ]

Эксперт Б — Финансовый директор:
[Его анализ]

Эксперт В — Арбитражный юрист (специализация — споры с подрядчиками):
[Его анализ]

Эксперт Г — Налоговый консультант:
[Его анализ]

---
## ЭТАП 2 — АНОНИМНАЯ ВЗАИМНАЯ КРИТИКА

Теперь каждый эксперт оценивает ВСЕ четыре ответа анонимно 
(«Ответ А», «Ответ Б»...). Оценивает включая свой собственный.
Для каждого ответа: что сильно, что упущено, финальный ранг (1–4).

---
## ЭТАП 3 — СИНТЕЗ ПРЕДСЕДАТЕЛЯ

Ты — председатель совета. У тебя три источника: исходный договор, 
все четыре ответа, вся критика. Синтезируй финальный анализ:
- Главные риски (которые отметили несколько голосов)
- Что точно добавить в договор
- Что убрать или переформулировать
- Что вызвало разногласия в совете — и почему

Результат: Модель пройдёт все три этапа последовательно. Видно будет как каждый «голос» делает акцент на своём: юрист — на формулировках, финансист — на сроках оплаты и штрафах, арбитражник — на том, что придётся доказывать в суде. Взаимная критика часто выносит наружу противоречия между экспертами — это ценнее, чем единодушие. Финальный синтез концентрирует то, что упомянули минимум двое, — это «консенсусные риски».


🧠

Почему это работает

Когда модель отвечает на вопрос в лоб, она генерирует текст по наиболее вероятному пути — и остаётся на нём. Нет механизма спросить себя: «А что я пропустил?» Ошибки пропуска — самые тихие: их не видно, пока не станет поздно.

Принудительное разделение ролей ломает этот паттерн. Разные эксперты начинают с разных точек входа — и каждый из них «видит» задачу через свой фрейм. Финансист не смотрит на формулировки — он смотрит на числа. Арбитражник не смотрит на налоги — он смотрит на то, что невозможно доказать в суде. Когда эти взгляды собираются вместе, покрытие растёт.

Рычаги управления: - Количество экспертов → 2–3 вместо 4 для простых задач (меньше токенов, быстрее) - Специализация ролей → чем конкретнее роль, тем острее ответ: не «юрист», а «арбитражник по строительным спорам» - Анонимность на этапе критики → убрать имена экспертов при оценке — это убирает предвзятость в пользу «авторитетного» голоса - Критерий синтеза → можно заменить «взвешенный синтез» на «консенсус по минимум 2 голосам» — для задач с высокой ставкой


📋

Шаблон промпта

Ты симулируешь совет из {число} независимых экспертов.

## ЗАДАЧА
{задача или документ для анализа}

---
## ЭТАП 1 — НЕЗАВИСИМЫЕ ОТВЕТЫ

Каждый эксперт отвечает изолированно. Формат: {нужный формат ответа}.

Эксперт А — {роль А}:
[Его ответ]

Эксперт Б — {роль Б}:
[Его ответ]

Эксперт В — {роль В}:
[Его ответ]

Эксперт Г — {роль Г}:
[Его ответ]

---
## ЭТАП 2 — АНОНИМНАЯ ВЗАИМНАЯ КРИТИКА

Каждый эксперт оценивает все {число} ответов анонимно («Ответ А», «Ответ Б»...), 
включая свой собственный. Для каждого: сильные стороны, пробелы, ранг 1–{число}.

---
## ЭТАП 3 — СИНТЕЗ ПРЕДСЕДАТЕЛЯ

Ты — председатель. У тебя: исходная задача, все ответы, вся критика.
Синтезируй финальный ответ: {критерий синтеза — консенсус / взвешенный / 
лучший ответ + поправки от остальных}.

Что подставлять: - {число} — обычно 3–4, для простых задач — 2 - {роль А/Б/В/Г} — конкретные специализации, не просто «эксперт» - {нужный формат ответа} — список рисков, план действий, оценка за/против - {критерий синтеза} — как председатель решает разногласия


🚀 Быстрый старт — вставь в чат:

Вот шаблон LLM Council. Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит про специализацию экспертов и нужный формат ответа — потому что без этого роли будут размытыми и совет превратится в повтор одного и того же разными словами. Она возьмёт паттерн из шаблона и адаптирует под конкретную задачу.


⚠️

Ограничения

⚠️ Для простых задач — избыточно: Если вопрос фактический («какой налог на дивиденды?»), совет не добавит ценности — только утроит длину ответа.

⚠️ Один сильный голос может перебить остальных: Если модель по умолчанию «доверяет» авторитетной роли (например, «главный врач»), остальные голоса становятся декоративными. Помогает анонимизация в этапе 2.

⚠️ Симуляция ≠ настоящий мультиагент: В одном чате модель сама пишет за всех — нет настоящей независимости взглядов. Реальный совет из 4 разных моделей даёт более разнообразные точки зрения. Симуляция в одном чате — приближение, но уже лучше одиночного ответа.

⚠️ Один топовый голос иногда лучше совета: Исследование показало: лучшие флагманские модели (GPT-5.2 Pro) иногда давали более полный дифференциальный диагноз и план лечения, чем совет. Совет больше выигрывает с более слабыми или быстрыми моделями.


🔗

Ресурсы

Статья: Deliberative Multi-Agent Large Language Models Improve Clinical Reasoning in Ophthalmology — Misaghi et al., 2026

Имплементация: Основана на коде Андрея Карпати для «LLM Council» — оригинальный репозиторий доступен на его GitHub

Фреймворк оценки вреда: NOHARM (Numerous Options Harm Assessment for Risk in Medicine) — структурированная оценка медицинского вреда от AI-ответов

Авторы: Ehsan Misaghi, Fares Antaki (Cole Eye Institute, Cleveland Clinic) и коллеги из UCL, Yale, NUS, Université de Montréal


📋 Дайджест исследования

Ключевая суть

Все боятся что модель что-то придумает. Настоящая угроза другая: 44–60% реально опасных ответов — это не ложь, а молчание о важном. Модель просто не упомянула нужный шаг, не добавила нужный вариант, не подстраховалась. LLM Council даёт возможность поймать эти пропуски — через совет из 4 независимых экспертов в одном чате. Фишка: каждый входит в задачу со своего угла. Финансист смотрит на числа. Арбитражник — на то, что не докажешь в суде. Налоговик — на то, что вылезет через год. То, что один пропустит — заметит другой.

Принцип работы

Три шага в одном промпте. Шаг 1 — независимые ответы: каждый эксперт отвечает изолированно, не зная что скажут остальные. Шаг 2 — анонимная критика: «Ответ А», «Ответ Б» — без имён. Каждый оценивает все ответы, включая свой собственный. Анонимность убирает предвзятость к «авторитетному» голосу — иначе «главный врач» перебивает всех декорациями. Шаг 3 — председатель видит всё: задачу, ответы, критику — и собирает финал. Критерий простой: приоритет тому, что отметили минимум двое.

Почему работает

Модель отвечает по наиболее вероятному пути — и остаётся на нём. Спросить себя «а что я пропустил?» нечем — нет механизма. Принудительное разделение ролей ломает этот паттерн. Каждая роль — это другая точка входа в задачу. Другое слепое пятно становится видимым. Покрытие растёт не потому что модель стала умнее — а потому что смотрит шире. При этом анонимная взаимная критика добавляет ещё один фильтр: каждый «голос» вынужден оценить и собственный ответ — и иногда сам же находит в нём пробел.

Когда применять

Высокоставочные задачи → анализ договора (какие риски не заметил?), финансовые решения (что не учли?), бизнес-план (где слабые места?), медицинская диагностика (какой вариант упущен?). Особенно хорошо — когда цена пропуска высокая и нужно не просто получить ответ, а убедиться что ничего критичного не осталось за кадром. НЕ подходит для простых фактических вопросов («какой процент НДС?») — избыточно, утроит длину без пользы.

Мини-рецепт

1. Собери совет: 3–4 роли с конкретной специализацией. Не «юрист» — а «арбитражник по договорным спорам». Не «врач» — а «офтальмолог неотложной помощи». Размытая роль даёт размытый ответ.
2. Этап 1 — изолированные ответы: Попроси каждого эксперта ответить независимо, не зная о других. Формат задай заранее: список рисков, пункты плана, аргументы за/против.
3. Этап 2 — анонимная критика: Каждый эксперт оценивает все ответы как «Ответ А», «Ответ Б» — включая свой. Для каждого: что сильно, что упущено, ранг от 1 до N.
4. Этап 3 — синтез председателя: Председатель видит задачу + все ответы + всю критику. Финальный ответ строится по принципу: то, что отметили минимум двое — в приоритет. Разногласия — выносить явно, не прятать.

Примеры

[ПЛОХО] : Проверь мой договор подряда на риски.
[ХОРОШО] : Ты симулируешь совет из 3 экспертов: корпоративный юрист, арбитражник по договорным спорам, финансовый директор. Этап 1. Каждый анализирует договор изолированно — риски, пробелы, что добавить, что убрать. Формат: нумерованный список. Этап 2. Каждый анонимно оценивает все три ответа (Ответ А / Ответ Б / Ответ В), включая свой. Для каждого: сильные стороны, что упущено, ранг 1–3. Этап 3. Ты — председатель. Синтезируй финальный анализ: главные риски (отмеченные минимум двумя голосами), что точно добавить в договор, где совет разошёлся — и почему это важно. [текст договора]
Источник: Deliberative Multi-Agent Large Language Models Improve Clinical Reasoning in Ophthalmology
ArXiv ID: 2603.21447 | Сгенерировано: 2026-03-24 05:23

Проблемы LLM

ПроблемаСутьКак обойти
Модель пропускает важное — не выдумываетПросишь проанализировать документ, план, решение. Ответ выглядит полным. Но модель просто не упомянула критический риск или шаг. Не солгала — промолчала. Это не заметно сразу. Видно только когда стало поздно. Больше половины опасных ответов — именно этого типаИспользуй несколько независимых точек входа. Разные роли начинают с разных углов. Финансист смотрит на числа. Арбитражник — на то, что не докажешь в суде. Вместе они закрывают то, что каждый по отдельности пропустил

Методы

МетодСуть
Трёхэтапный совет экспертов — ловит пропускиШаг 1: Каждый эксперт отвечает изолированно. Не знает что скажут остальные. 3–4 роли с конкретной специализацией — не «юрист», а «арбитражник по строительным спорам». Шаг 2: Каждый анонимно оценивает все ответы, включая свой. Анонимно — значит «Ответ А», «Ответ Б», без имён. Иначе модель «доверяет» авторитетной роли и остальные голоса становятся декоративными. Шаг 3: Председатель видит задачу + все ответы + всю критику. Синтезирует финальный ответ. Почему работает: Разные роли = разные точки входа. Финансист не смотрит на формулировки. Юрист не смотрит на налоги. Вместе покрывают то, что одна роль не заметит. Когда не применять: Фактический вопрос с однозначным ответом — совет только утроит длину
📖 Простыми словами

Deliberative multi-agentlargelanguagemodelsimprove clinical reasoning in ophthalmology

arXiv: 2603.21447

Суть метода в том, что одна голова — хорошо, а четыре — это уже консилиум, который не дает модели нести чушь на автопилоте. Когда ты задаешь вопрос обычному AI, он просто катится по рельсам наиболее вероятных слов, не оборачиваясь назад. Метод LLM Council ломает эту линейность: он заставляет нейронку сначала прикинуться четырьмя разными профи, потом заставить их анонимно захейтить идеи друг друга и только в конце выдать финальный вердикт. Это не просто генерация текста, это симуляция критического мышления внутри одного чата.

Это как если бы ты пришел к врачу, а он, прежде чем выписать таблетки, внезапно разтроился, устроил жаркий спор сам с собой у тебя на глазах, припомнил все редкие побочки и только потом выдал рецепт. В обычной жизни мы называем это вторым мнением, но здесь модель сама себе и эксперт, и самый жесткий критик. Такой подход убивает главную проблему одиночных моделей — ошибки пропуска, когда AI просто «забывает» проверить альтернативный диагноз, потому что первый показался ему достаточно убедительным.

В офтальмологии, где тестировали метод, это работает через жесткую структуру: сначала независимые ответы, потом этап анонимного рецензирования и финал от «председателя». Например, если один «агент» предлагает операцию, а второй замечает на снимке мелкую деталь, исключающую вмешательство, то в обычном промпте эта деталь могла бы потеряться. В совете же критика подсветит этот косяк, и итоговый ответ будет в разы точнее. Точность клинического мышления растет просто за счет того, что модель заставили сомневаться в самой себе.

Хотя метод гоняли на глазных болезнях, принцип универсален для любой сложной задачи, где цена ошибки — твои деньги или здоровье. Это идеально подходит для разбора юридических договоров, архитектуры кода или бизнес-стратегий. Вместо того чтобы спрашивать «как мне поступить», ты просишь модель разыграть ролевую модель совета директоров. Там, где один юрист проглядит мелкий шрифт в договоре на 800 тысяч, «совет» из четырех виртуальных экспертов обязательно вцепится в этот пункт и вытащит его на поверхность.

Короче, пора перестать использовать AI как гугл-поиск и начать использовать его как интеллектуальную панель экспертов. Одиночный промпт — это лотерея, а структурированный консилиум — это работающая страховка от галлюцинаций. Если задача сложнее, чем написание поста в инстаграм, не принимай первый ответ на веру. Заставляй модель критиковать саму себя через анонимные правки, иначе рискуешь получить решение, которое выглядит красиво, но абсолютно бесполезно в реальности.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с