3,583 papers
arXiv:2603.20324 84 20 мар. 2026 г. FREE

Selection Bottleneck: почему нужно выбирать лучший ответ, а не смешивать все в один

КЛЮЧЕВАЯ СУТЬ
Парадокс: слить ответы трёх AI-моделей в один — значит ухудшить результат. Синтез проигрывает одиночной модели в 82% задач — это не погрешность, это системная катастрофа. Метод позволяет стабильно вытаскивать лучший ответ из нескольких вариантов — без усреднения и без потери острых идей. Судья-LLM не смешивает — он читает все варианты и называет одного победителя. Разнородная команда из разных моделей плюс такой судья выигрывает у одиночной модели в 81% задач.
Адаптировать под запрос

TL;DR

Когда у вас есть несколько ответов от разных AI-моделей, попросите LLM выбрать лучший — не объединять все в одно. Это не нюанс оркестровки, это главный фактор качества всего мультиагентного пайплайна.

Синтез (merge all answers into one) — катастрофа. Разные модели генерируют принципиально разные ответы, один из которых значительно лучше остальных. Когда LLM «синтезирует» — она усредняет: лучший ответ тонет в посредственных. Это всё равно что взять прорывную идею Касперского, размыть её мнениями двух менее компетентных консультантов, и подать как «консенсус».

Судья-LLM, который читает все варианты и выбирает один лучший, работает в разы лучше синтеза — и резко лучше, чем одна модель в одиночку. Разнородная команда (разные семейства моделей) + судья-отборщик = выигрывает у одиночной модели в 81% задач. Синтез той же команды — проигрывает в 82% задач.


🔬

Схема метода

ШАГ 1: Генерация (один запрос от каждой модели)
        Diverse: Claude + GPT + Gemini → 3 разных ответа
        или: один Claude, 3 разных промпта → 3 варианта

ШАГ 2: Отбор (отдельный запрос к судье-LLM)
        [Wставить все варианты] → судья выбирает ОДИН лучший
        НЕ синтезирует, НЕ смешивает — только выбирает

Финал: Лучший вариант как есть (или как отправная точка)

Два шага — два отдельных запроса. Или один запрос с тремя встроенными вариантами, если генерируете в одной сессии.


🚀

Пример применения

Задача: Илья запускает B2B SaaS для автоматизации HR-процессов. Нужно холодное письмо директору по персоналу крупной компании. Три разные модели дали три непохожих варианта — теперь нужно выбрать лучший.

Промпт (шаг отбора):

Ты — опытный B2B-копирайтер. Твоя задача: выбрать ЛУЧШЕЕ 
из трёх вариантов холодного письма. Не объединяй их в одно 
и не переписывай — только выбери одного победителя.

Критерии оценки:
- Конкретность боли клиента (а не общие слова)
- Убедительность ценностного предложения
- Естественность, без канцелярита
- Вероятность, что письмо откроют и ответят

---
ВАРИАНТ А:
[вставить вариант от Claude]

---
ВАРИАНТ Б:
[вставить вариант от GPT]

---
ВАРИАНТ В:
[вставить вариант от Gemini]

---

Для каждого варианта: 2-3 предложения оценки по критериям выше.
Финальное решение: ВАРИАНТ [X] — победитель. 
Главная причина выбора: одно предложение.

Результат: Модель разберёт каждый вариант по критериям, объяснит слабые стороны проигравших и выдаст чёткое решение — один победитель с обоснованием. Вы получите лучший из трёх ответов плюс понимание почему остальные хуже.


🧠

Почему это работает

LLM при синтезе — усредняет, а не улучшает. Когда вы просите объединить три ответа в один, модель ищет общее между ними и сглаживает противоречия. Но именно острые, нетипичные элементы из «лучшего» ответа чаще всего исчезают — они не совпадают с остальными. Вы получаете усреднённого Франкенштейна вместо лучшего из трёх.

Разные модели совершают разные ошибки. Claude может быть слишком осторожным, GPT — слишком общим, Gemini — слишком формальным. Шансы, что все три одновременно ошибутся в одном и том же месте — низкие. Значит, в пуле почти всегда есть один сильный вариант. Задача судьи — найти его. Синтез этот сильный вариант уничтожает, судья — сохраняет.

Рычаги управления: - Критерии для судьи → меняйте под задачу: «конкретность» и «убедительность» для продаж, «точность» и «полнота» для аналитики. Чем конкретнее критерий, тем точнее выбор - Формат финального решения → добавьте «дай топ-2 и объясни разрыв» — если разрыв мал, варианты взаимозаменяемы - Разнородность вариантов → чем сильнее отличаются промпты для генерации, тем больше шансов, что один окажется значительно лучше


📋

Шаблон промпта

Ты — судья. Твоя задача: выбрать лучший вариант {тип контента} 
из {число} предложенных. НЕ объединяй варианты в один.
НЕ переписывай. Только выбери победителя.

Критерии оценки:
- {критерий 1}
- {критерий 2}
- {критерий 3}

---
ВАРИАНТ 1:
{вариант 1}

---
ВАРИАНТ 2:
{вариант 2}

---
ВАРИАНТ 3:
{вариант 3}

---

Оценка каждого варианта: 1-2 предложения по критериям.
Победитель: ВАРИАНТ [N].
Причина выбора: одно предложение.

Что подставлять: - {тип контента} — письмо, стратегия, описание продукта, аргумент - {число} — сколько вариантов сравниваете (2-5, больше — судья теряет фокус) - {критерий 1-3} — конкретные качества важные для вашей задачи - Варианты — из разных моделей или один Claude с разными промптами

🚀 Быстрый старт — вставь в чат:

Вот шаблон судьи для выбора лучшего варианта ответа LLM.
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит тип контента, число вариантов и критерии — потому что без этого она не знает что считать «хорошим» в вашем контексте. Она возьмёт структуру и адаптирует под вашу задачу.


⚠️

Ограничения

⚠️ Однородная команда не даёт эффекта: Если три ваших варианта — три запроса к одному Claude с похожими промптами, судья не поможет. Все три будут почти одинаковыми — выбирать не из чего. Нужна реальная разнородность: разные модели или принципиально разные инструкции.

⚠️ Голосование (большинством) почти не работает: Когда каждый агент сам голосует за лучший вариант — результат близок к случайному. Нужен внешний судья, который читает всё и выносит суждение независимо.

⚠️ Для простых фактических задач эффект минимален: «Напиши 5 синонимов к слову» — все варианты примерно равны, судья ничего не усилит. Метод работает там, где качество ответов действительно сильно различается: стратегические решения, сложные тексты, нестандартные задачи.

⚠️ Парадокс слабой модели — пока исследовательская находка: Добавление слабой модели в команду улучшает результат и снижает стоимость — это интригующий результат, но не подтверждённый в других исследованиях. Не стоит специально включать «плохие» ответы — ждите репликаций.


🔍

Как исследовали

Исследователь из Uber решил закрыть спор: одна школа говорит «разнородные команды моделей лучше», другая — «одинаковые модели лучше». Обе правы? Аrtem Maryanskyy предположил: противоречие возникло потому, что обе стороны использовали синтез как агрегатор — и никто не попробовал замену на судью.

Дизайн простой и строгий: 5 ячеек сравнения, 42 задачи из 7 категорий (код, этика, математика, рассуждения, наука, summary, творчество). Команды: три Claude Opus, или Claude + GPT + Gemini, или Claude + Gemini + слабый Haiku. Агрегаторы: судья-панель из трёх моделей, большинство голосов агентов, синтез одной моделью. Итого 210 экспериментальных прогонов.

Самый удивительный результат — синтез проиграл даже одиночной модели в 82% задач (не «хуже» — значительно хуже). Это противоречит интуиции «больше голосов = лучше». Выровненность находок подтвердила независимая панель судей с разными семействами моделей: ранговый порядок полностью сохранился (Спирмен ρ = 0.90). Практический вывод для выбора пайплайна: качество селектора важнее состава команды генераторов.


💡

Адаптации и экстраполяции

🔧 Техника: один Claude, три инструкции → разнородные варианты

Нет доступа к трём разным моделям? Можно создать «ложное разнообразие» через радикально разные роли:

Дай три принципиально разных ответа на вопрос: {вопрос}

ВАРИАНТ А — от лица максималиста: быстро, дерзко, 
с конкретными шагами, без оговорок.

ВАРИАНТ Б — от лица скептика: что может пойти не так, 
какие риски упускают, что надо проверить сначала.

ВАРИАНТ В — от лица системного мыслителя: структура, 
приоритеты, зависимости, долгосрочные последствия.

После трёх вариантов: какой ближе всего к оптимальному 
для типичной ситуации — и почему именно он?

Это не идентичные варианты — роли создают реальные углы зрения с разными акцентами. Судья в конце выбирает не из «одного и того же», а из трёх действительно разных подходов.

🔧 Техника: судья с весами вместо абстрактного «лучший»

Если критерии важны неравномерно — укажите явно:

Оценивай по трём критериям с разным весом:
- Вероятность принять клиент (вес 50%)
- Скорость реализации (вес 30%)
- Стоимость (вес 20%)

Выбери победителя по взвешенной сумме.

Это особенно полезно для стратегических решений, где «лучший» зависит от приоритетов.


🔗

Ресурсы

Название работы: When Agents Disagree: The Selection Bottleneck in Multi-Agent LLM Pipelines

Автор: Artem Maryanskyy (Uber), artem.maryanskyy@uber.com

Ключевые отсылки из исследования: - Mixture-of-Agents (MoA): Wang et al. — исходная архитектура синтеза - Self-MoA: Li et al. — однородные команды моделей - LLM-Blender (Jiang et al.) — двухэтапный пайплайн с ранжированием - Теорема Кондорсе о жюри — исторический фундамент коллективных решений - Hong & Page: «Diverse problem solvers can outperform high-ability solvers» — отправная точка дискуссии - Chatbot Arena (57 477 битв) — данные о корреляции внутри семейств моделей


📋 Дайджест исследования

Ключевая суть

Парадокс: слить ответы трёх AI-моделей в один — значит ухудшить результат. Синтез проигрывает одиночной модели в 82% задач — это не погрешность, это системная катастрофа. Метод позволяет стабильно вытаскивать лучший ответ из нескольких вариантов — без усреднения и без потери острых идей. Судья-LLM не смешивает — он читает все варианты и называет одного победителя. Разнородная команда из разных моделей плюс такой судья выигрывает у одиночной модели в 81% задач.

Принцип работы

Когда LLM синтезирует — она ищет общее между вариантами и сглаживает противоречия. Именно острые, нетипичные элементы из лучшего ответа исчезают первыми — они ни с чем не совпадают, поэтому вырезаются. Вы получаете усреднённого Франкенштейна вместо победителя. Судья работает иначе: он не сглаживает, а сравнивает — и сохраняет лучший ответ целым. Разные модели делают разные ошибки. Маловероятно, что все три провалятся в одном месте. Значит в пуле почти всегда есть сильный вариант — судья его находит, синтез его хоронит.

Почему работает

Цифры бьют наповал: синтез проигрывает в 82% задач, отбор выигрывает в 81%. Разрыв симметричный и огромный. Суть: LLM при слиянии усредняет то, что видит. Усреднение всегда режет выдающееся. Голосование большинством — когда каждый агент сам выбирает лучший вариант — тоже не спасает, результат близок к случайному. Нужен один судья с явными критериями, который читает всё и выносит независимое решение.

Когда применять

Стратегические задачи, сложные тексты и нестандартные решения — везде где варианты реально отличаются по качеству. Конкретно: холодные письма, рекламные тексты, аргументы для переговоров, описания продукта, питч-презентации. НЕ подходит для простых фактических задач — «напиши синонимы» или «переведи абзац»: там все варианты примерно равны и судья ничего не усилит. Важно: однородная команда тоже не работает — три запроса к одному Claude с похожими инструкциями дадут три почти одинаковых ответа, выбирать не из чего.

Мини-рецепт

1. Сгенерируй варианты: минимум 2-3 ответа от разных моделей (Claude, GPT, Gemini) или от одной — но с принципиально разными инструкциями. Чем сильнее варианты отличаются, тем больше шансов что один окажется значительно лучше.
2. Дай судье критерии: не просто «выбери лучший», а конкретные параметры под задачу. Для продаж — убедительность и конкретность боли. Для аналитики — точность и полнота. Без критериев судья угадывает.
3. Запрети синтез явно: добавь в промпт: НЕ объединяй варианты. НЕ переписывай. Только выбери одного победителя. Без этой строки модель часто начинает смешивать — рефлекс сильнее инструкции.
4. Попроси объяснение: добавь Главная причина выбора: одно предложение. Это помогает судье не ошибиться и вам понять почему проигравшие хуже.

Примеры

[ПЛОХО] : Объедини три варианта холодного письма в одно лучшее
[ХОРОШО] : Ты — судья. Выбери лучшее холодное письмо из трёх ниже. НЕ объединяй, НЕ переписывай — только выбери одного победителя. Критерии оценки: - Конкретность боли клиента (не общие слова) - Убедительность ценностного предложения - Естественность, без канцелярита --- ВАРИАНТ 1: [текст письма от Claude] --- ВАРИАНТ 2: [текст письма от GPT] --- ВАРИАНТ 3: [текст письма от Gemini] --- Оценка каждого варианта: 1-2 предложения по критериям. Победитель: ВАРИАНТ [N]. Главная причина выбора: одно предложение.
Источник: WhenAgentsDisagree: The Selection Bottleneck in Multi-Agent LLM Pipelines
ArXiv ID: 2603.20324 | Сгенерировано: 2026-03-24 04:28

Проблемы LLM

ПроблемаСутьКак обойти
Синтез нескольких ответов уничтожает лучший из нихПросишь модель объединить три варианта в один. Она ищет общее между ними и сглаживает различия. Острые, нетипичные элементы лучшего ответа не совпадают с остальными — и исчезают. Итог: усреднённый результат хуже, чем просто лучший из трёх исходныхНе синтезируй. Выбирай. Попроси отдельную модель прочитать все варианты и назвать один победитель по конкретным критериям

Методы

МетодСуть
Судья-отборщик — выбрать один лучший из несколькихДва шага. Шаг 1: получи несколько вариантов (от разных моделей или с разными запросами). Шаг 2: отдельным запросом попроси судью выбрать одного победителя. Шаблон: Ты — судья. Выбери лучший {тип контента} из {N} вариантов. НЕ объединяй. Критерии: {критерий 1}, {критерий 2}. --- ВАРИАНТ 1: ... --- ВАРИАНТ 2: ... Победитель: ВАРИАНТ [N]. Причина: одно предложение. Почему работает: разные модели ошибаются в разных местах. Шансы, что все три одновременно ошиблись там же — малы. В пуле почти всегда есть один сильный вариант. Судья его находит и сохраняет. Когда работает: сложные тексты, стратегические решения, задачи где качество ответов действительно различается. Когда не работает: простые фактические задачи, однородные варианты (три похожих запроса к одной модели)
📖 Простыми словами

WhenAgentsDisagree: The Selection Bottleneck in Multi-AgentLLMPipelines

arXiv: 2603.20324

Мультиагентные системы сейчас пытаются строить как консилиум врачей, но на деле они работают как лебедь, рак и щука. Когда ты просишь несколько разных LLM решить одну задачу, главная проблема не в том, как они генерируют идеи, а в том, как ты выбираешь финал. Традиционный подход — заставить нейронку «склеить» все варианты в один — это путь в никуда. Модели по своей природе стремятся к усреднению, поэтому вместо супер-ответа ты получаешь серую массу, из которой вырезано всё самое острое и толковое.

Это как если бы ты выбирал дизайн квартиры и попросил трех топовых архитекторов объединить их чертежи в один проект. Вместо шедевра ты получишь бетонную коробку с окнами, потому что это единственный элемент, в котором они все сошлись. Формально задача выполнена, но на выходе — унылый компромисс. В мире нейросетей это называется бутылочным горлышком выбора: попытка синтеза убивает качество, превращая крутые инсайты в «среднюю температуру по больнице».

Исследование WhenAgentsDisagree четко показывает: работает только метод Selection, а не синтез. Нужно не смешивать ответы, а заставить отдельную модель-судью ткнуть пальцем в один конкретный вариант. Если Илья пишет холодное письмо для HR-директора, ему не нужен «гибрид» из трех черновиков. Ему нужно, чтобы AI посмотрел на все три и сказал: «Вот этот вариант №2 — самый дерзкий и точный, берем его». Выбор лучшего дает буст качеству, в то время как попытка объединения его просто топит.

Этот принцип универсален для любого сложного пайплайна, будь то написание кода, создание маркетинговых стратегий или анализ данных. Тестировали на агентах, но правило работает везде: если у тебя есть несколько путей, выбирай один, а не пытайся усидеть на всех стульях сразу. Как только ты просишь нейронку «дополнить один ответ другим», она включает режим осторожного бюрократа и выкидывает всё нестандартное. SEO для смыслов здесь не работает — работает только жесткая фильтрация.

Короче, завязывай с «умным синтезом» — это иллюзия прогресса. Если хочешь выжать из мультиагентных систем максимум, делай ставку на модель-селектор, которая умеет отсекать лишнее. Главный фактор успеха в AI-пайплайнах сегодня — это не то, сколько моделей ты нагнал в систему, а то, насколько жестко ты умеешь выбирать победителя. Кто продолжает «усреднять» контент, тот добровольно сливает бюджет на генерацию стерильного мусора.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с