TL;DR
Когда у вас есть несколько ответов от разных AI-моделей, попросите LLM выбрать лучший — не объединять все в одно. Это не нюанс оркестровки, это главный фактор качества всего мультиагентного пайплайна.
Синтез (merge all answers into one) — катастрофа. Разные модели генерируют принципиально разные ответы, один из которых значительно лучше остальных. Когда LLM «синтезирует» — она усредняет: лучший ответ тонет в посредственных. Это всё равно что взять прорывную идею Касперского, размыть её мнениями двух менее компетентных консультантов, и подать как «консенсус».
Судья-LLM, который читает все варианты и выбирает один лучший, работает в разы лучше синтеза — и резко лучше, чем одна модель в одиночку. Разнородная команда (разные семейства моделей) + судья-отборщик = выигрывает у одиночной модели в 81% задач. Синтез той же команды — проигрывает в 82% задач.
Схема метода
ШАГ 1: Генерация (один запрос от каждой модели)
Diverse: Claude + GPT + Gemini → 3 разных ответа
или: один Claude, 3 разных промпта → 3 варианта
ШАГ 2: Отбор (отдельный запрос к судье-LLM)
[Wставить все варианты] → судья выбирает ОДИН лучший
НЕ синтезирует, НЕ смешивает — только выбирает
Финал: Лучший вариант как есть (или как отправная точка)
Два шага — два отдельных запроса. Или один запрос с тремя встроенными вариантами, если генерируете в одной сессии.
Пример применения
Задача: Илья запускает B2B SaaS для автоматизации HR-процессов. Нужно холодное письмо директору по персоналу крупной компании. Три разные модели дали три непохожих варианта — теперь нужно выбрать лучший.
Промпт (шаг отбора):
Ты — опытный B2B-копирайтер. Твоя задача: выбрать ЛУЧШЕЕ
из трёх вариантов холодного письма. Не объединяй их в одно
и не переписывай — только выбери одного победителя.
Критерии оценки:
- Конкретность боли клиента (а не общие слова)
- Убедительность ценностного предложения
- Естественность, без канцелярита
- Вероятность, что письмо откроют и ответят
---
ВАРИАНТ А:
[вставить вариант от Claude]
---
ВАРИАНТ Б:
[вставить вариант от GPT]
---
ВАРИАНТ В:
[вставить вариант от Gemini]
---
Для каждого варианта: 2-3 предложения оценки по критериям выше.
Финальное решение: ВАРИАНТ [X] — победитель.
Главная причина выбора: одно предложение.
Результат: Модель разберёт каждый вариант по критериям, объяснит слабые стороны проигравших и выдаст чёткое решение — один победитель с обоснованием. Вы получите лучший из трёх ответов плюс понимание почему остальные хуже.
Почему это работает
LLM при синтезе — усредняет, а не улучшает. Когда вы просите объединить три ответа в один, модель ищет общее между ними и сглаживает противоречия. Но именно острые, нетипичные элементы из «лучшего» ответа чаще всего исчезают — они не совпадают с остальными. Вы получаете усреднённого Франкенштейна вместо лучшего из трёх.
Разные модели совершают разные ошибки. Claude может быть слишком осторожным, GPT — слишком общим, Gemini — слишком формальным. Шансы, что все три одновременно ошибутся в одном и том же месте — низкие. Значит, в пуле почти всегда есть один сильный вариант. Задача судьи — найти его. Синтез этот сильный вариант уничтожает, судья — сохраняет.
Рычаги управления: - Критерии для судьи → меняйте под задачу: «конкретность» и «убедительность» для продаж, «точность» и «полнота» для аналитики. Чем конкретнее критерий, тем точнее выбор - Формат финального решения → добавьте «дай топ-2 и объясни разрыв» — если разрыв мал, варианты взаимозаменяемы - Разнородность вариантов → чем сильнее отличаются промпты для генерации, тем больше шансов, что один окажется значительно лучше
Шаблон промпта
Ты — судья. Твоя задача: выбрать лучший вариант {тип контента}
из {число} предложенных. НЕ объединяй варианты в один.
НЕ переписывай. Только выбери победителя.
Критерии оценки:
- {критерий 1}
- {критерий 2}
- {критерий 3}
---
ВАРИАНТ 1:
{вариант 1}
---
ВАРИАНТ 2:
{вариант 2}
---
ВАРИАНТ 3:
{вариант 3}
---
Оценка каждого варианта: 1-2 предложения по критериям.
Победитель: ВАРИАНТ [N].
Причина выбора: одно предложение.
Что подставлять:
- {тип контента} — письмо, стратегия, описание продукта, аргумент
- {число} — сколько вариантов сравниваете (2-5, больше — судья теряет фокус)
- {критерий 1-3} — конкретные качества важные для вашей задачи
- Варианты — из разных моделей или один Claude с разными промптами
🚀 Быстрый старт — вставь в чат:
Вот шаблон судьи для выбора лучшего варианта ответа LLM.
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит тип контента, число вариантов и критерии — потому что без этого она не знает что считать «хорошим» в вашем контексте. Она возьмёт структуру и адаптирует под вашу задачу.
Ограничения
⚠️ Однородная команда не даёт эффекта: Если три ваших варианта — три запроса к одному Claude с похожими промптами, судья не поможет. Все три будут почти одинаковыми — выбирать не из чего. Нужна реальная разнородность: разные модели или принципиально разные инструкции.
⚠️ Голосование (большинством) почти не работает: Когда каждый агент сам голосует за лучший вариант — результат близок к случайному. Нужен внешний судья, который читает всё и выносит суждение независимо.
⚠️ Для простых фактических задач эффект минимален: «Напиши 5 синонимов к слову» — все варианты примерно равны, судья ничего не усилит. Метод работает там, где качество ответов действительно сильно различается: стратегические решения, сложные тексты, нестандартные задачи.
⚠️ Парадокс слабой модели — пока исследовательская находка: Добавление слабой модели в команду улучшает результат и снижает стоимость — это интригующий результат, но не подтверждённый в других исследованиях. Не стоит специально включать «плохие» ответы — ждите репликаций.
Как исследовали
Исследователь из Uber решил закрыть спор: одна школа говорит «разнородные команды моделей лучше», другая — «одинаковые модели лучше». Обе правы? Аrtem Maryanskyy предположил: противоречие возникло потому, что обе стороны использовали синтез как агрегатор — и никто не попробовал замену на судью.
Дизайн простой и строгий: 5 ячеек сравнения, 42 задачи из 7 категорий (код, этика, математика, рассуждения, наука, summary, творчество). Команды: три Claude Opus, или Claude + GPT + Gemini, или Claude + Gemini + слабый Haiku. Агрегаторы: судья-панель из трёх моделей, большинство голосов агентов, синтез одной моделью. Итого 210 экспериментальных прогонов.
Самый удивительный результат — синтез проиграл даже одиночной модели в 82% задач (не «хуже» — значительно хуже). Это противоречит интуиции «больше голосов = лучше». Выровненность находок подтвердила независимая панель судей с разными семействами моделей: ранговый порядок полностью сохранился (Спирмен ρ = 0.90). Практический вывод для выбора пайплайна: качество селектора важнее состава команды генераторов.
Адаптации и экстраполяции
🔧 Техника: один Claude, три инструкции → разнородные варианты
Нет доступа к трём разным моделям? Можно создать «ложное разнообразие» через радикально разные роли:
Дай три принципиально разных ответа на вопрос: {вопрос}
ВАРИАНТ А — от лица максималиста: быстро, дерзко,
с конкретными шагами, без оговорок.
ВАРИАНТ Б — от лица скептика: что может пойти не так,
какие риски упускают, что надо проверить сначала.
ВАРИАНТ В — от лица системного мыслителя: структура,
приоритеты, зависимости, долгосрочные последствия.
После трёх вариантов: какой ближе всего к оптимальному
для типичной ситуации — и почему именно он?
Это не идентичные варианты — роли создают реальные углы зрения с разными акцентами. Судья в конце выбирает не из «одного и того же», а из трёх действительно разных подходов.
🔧 Техника: судья с весами вместо абстрактного «лучший»
Если критерии важны неравномерно — укажите явно:
Оценивай по трём критериям с разным весом:
- Вероятность принять клиент (вес 50%)
- Скорость реализации (вес 30%)
- Стоимость (вес 20%)
Выбери победителя по взвешенной сумме.
Это особенно полезно для стратегических решений, где «лучший» зависит от приоритетов.
Ресурсы
Название работы: When Agents Disagree: The Selection Bottleneck in Multi-Agent LLM Pipelines
Автор: Artem Maryanskyy (Uber), artem.maryanskyy@uber.com
Ключевые отсылки из исследования: - Mixture-of-Agents (MoA): Wang et al. — исходная архитектура синтеза - Self-MoA: Li et al. — однородные команды моделей - LLM-Blender (Jiang et al.) — двухэтапный пайплайн с ранжированием - Теорема Кондорсе о жюри — исторический фундамент коллективных решений - Hong & Page: «Diverse problem solvers can outperform high-ability solvers» — отправная точка дискуссии - Chatbot Arena (57 477 битв) — данные о корреляции внутри семейств моделей
