3,583 papers
arXiv:2605.24660 76 23 мая 2026 г. FREE

Принцип Малого Списка: меньше вариантов для выбора — точнее решение LLM

КЛЮЧЕВАЯ СУТЬ
Самые провальные ответы LLM на задачах выбора — не когда список длинный вообще, а когда варианты похожи и ни один явно не выделяется. Именно там потери максимальны: 77% против 61% правильных выборов при сокращении с 5 до 2–3 вариантов. Двухшаговый метод позволяет вытащить конкретный, обоснованный ответ даже из 20+ похожих кандидатов — вместо размытого 'зависит от задачи'. Первый запрос — только сужение: 'назови 3 лучших, без объяснений'. Второй запрос — финальный выбор из короткого списка. Разделить 'выкини лишнее' и 'выбери лучшее' на два отдельных запроса — и модель перестаёт усреднять, точность выбора растёт на 6–30 процентных пунктов.
Адаптировать под запрос

TL;DR

Когда LLM выбирает из набора вариантов, качество выбора падает с ростом списка. Покажи 2–3 варианта вместо 5–10 — и модель выберет правильный на 6–30 процентных пунктов чаще. Это работает не потому что список "проще" — а потому что каждый лишний вариант создаёт шум, в котором модель теряет нужное.

Главная находка: LLM хуже всего выбирает на задачах средней сложности — когда правильный вариант есть в списке, но не стоит первым. Именно там разница между коротким и длинным списком максимальна: 77% против 61% при уменьшении с 5 до 2–3 вариантов. В "лёгких" случаях (правильный ответ очевиден) разница невелика. В "тяжёлых" — тоже. Больнее всего — посередине.

Метод решает это в два шага: сначала сужаем большой список до 2–3 лучших кандидатов, потом выбираем финальный из короткого. Оба шага выполняет сама LLM, но в отдельных запросах — это и есть ключ.


🔬

Схема метода

Два запроса подряд:

ЗАПРОС 1 — Сужение:
Из большого списка → выбрать 2–3 лучших кандидата
(без финального решения, только отбор)

ЗАПРОС 2 — Выбор:
Из короткого списка → выбрать оптимальный + обоснование

Важно: Два запроса — не лишний шаг, а суть метода. В одном запросе модель стреляет по всем сразу и промахивается чаще.


🚀

Пример применения

Задача: Ты запускаешь новый телеграм-канал о личных финансах. Нужно выбрать формат монетизации из 12 вариантов — от рекламы до курсов и платной подписки. Просишь Claude выбрать лучший.

Промпт (Запрос 1 — Сужение):

Вот 12 вариантов монетизации телеграм-канала о личных финансах.
Аудитория: 5 000 подписчиков, средний возраст 28–40 лет, тема — 
накопления и инвестиции для начинающих.

Варианты:
1. Реклама брокеров
2. Реклама банков
3. Платная подписка (Boosty)
4. Курс по инвестициям
5. Марафон 21 день
6. Консультации 1 на 1
7. Клуб подписчиков в закрытом канале
8. Партнёрские ссылки на сервисы
9. Книга (PDF)
10. Вебинары
11. Курс на GetCourse
12. Спонсорские посты от финтех-стартапов

Выбери 3 наиболее подходящих формата для этой аудитории 
и этого этапа роста. Только перечисли их без объяснений.

Промпт (Запрос 2 — Выбор):

Из этих трёх форматов монетизации:
[вставить результат запроса 1]

Выбери один оптимальный для старта. 
Объясни: почему именно он, какой первый шаг для запуска, 
какой реалистичный доход в первые 3 месяца.

Результат:

В первом запросе модель выдаст 3 варианта — без объяснений, без борьбы с 9 оставшимися. Во втором запросе она сосредоточится только на этих трёх и выдаст конкретный, аргументированный выбор с планом действий. Без размытых "с одной стороны, с другой стороны".


🧠

Почему это работает

Слабость LLM при выборе из многих вариантов. Когда список длинный, модель генерирует ответ, одновременно удерживая в фокусе все варианты. Чем их больше — тем сильнее они "тянут" ответ в разные стороны. Похожие варианты особенно мешают: модель начинает путаться между ними и выбирает не лучший, а ближайший к началу списка или самый "токенно громкий".

Сильная сторона LLM — оценка малого набора. Когда вариантов 2–3, модель делает то, в чём сильна: сравнивает по нескольким критериям, взвешивает, выбирает. Это похоже на то, как человек легко выбирает из трёх ресторанов, но теряется в меню на 40 позиций.

Как работает двухшаговый подход. Первый запрос использует LLM как фильтр — она отсекает явно лишнее и оставляет лучших кандидатов. Второй запрос — уже чистое решение без шума. Разделение задач убирает конфликт между "кого выкинуть" и "кого выбрать" внутри одного ответа.

Рычаги управления: - Размер короткого списка — 2 варианта дают максимальную точность выбора, 3–4 дают компромисс между точностью и охватом. Для сложных задач лучше 3. - Критерий сужения — чем точнее сформулирован критерий отбора в первом запросе, тем лучше фильтрует. "Наиболее релевантных" хуже, чем "наиболее подходящих для аудитории 28–40 лет с бюджетом до 10 000 ₽". - Порядок вариантов — если знаешь, что один вариант явно слабее, поставь в конец: модели свойственно "примагничиваться" к началу списка на этапе сужения.


📋

Шаблон промпта

=== ШАГ 1: СУЖЕНИЕ ===
Вот {N} вариантов {тип_объектов}.
Контекст: {описание_задачи_и_ограничений}.

{список_вариантов_пронумерованный}

Выбери {2-3} наиболее подходящих для контекста выше.
Только перечисли их без объяснений.

---

=== ШАГ 2: ВЫБОР (отдельный запрос) ===
Из этих вариантов:
{результат_шага_1}

Выбери оптимальный для задачи: {задача}.
Обоснуй выбор. {дополнительные_инструкции_по_формату}.

Что подставлять: - {тип_объектов} — инструментов / стратегий / форматов / кандидатов - {N} — общее количество вариантов в исходном списке - {2-3} — рекомендуется 3 для задач с неочевидным правильным ответом - {дополнительные_инструкции} — "укажи первый шаг", "дай оценку рисков", "в формате таблицы"


🚀 Быстрый старт — вставь в чат:

Вот шаблон двухшагового выбора. Адаптируй под мою задачу: [твоя задача].
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит про количество вариантов, контекст задачи и критерий отбора — потому что без этого первый шаг (сужение) не работает точно. Она возьмёт двухшаговую структуру и подготовит оба запроса.


⚠️

Ограничения

⚠️ Задачи с очевидным ответом: Если правильный вариант явно выделяется на фоне остальных, двухшаговость не нужна — модель выберет верно и с длинным списком. Метод работает там, где варианты реально похожи или конкурируют.

⚠️ Плохой первичный список: Если в исходном списке нет хорошего варианта — метод не поможет. Сужение поднимает лучшее из имеющегося, не создаёт новое.

⚠️ Зависимость от качества критерия сужения: В первом запросе важно чётко описать контекст. Размытый критерий → модель выберет "общепринятые" варианты, а не оптимальные для твоей ситуации.

⚠️ Не для генерации: Метод работает на задачах выбора из готового списка. Если нужно сгенерировать варианты с нуля — другой случай.


🔗

Ресурсы

How Many Tools Should an LLM Agent See? A Chance-Corrected Answer Vyzantinos Repantis, Ameya Gawde, Harshvardhan Singh, Joey Blackwell II Meta Platforms, 2025

Использует метрику BoR (Bits-over-Random) из более ранней работы Repantis et al. [30]. Бенчмарки: BFCL (Berkeley Function Calling Leaderboard), MetaTool, ToolBench. Валидация: Claude Sonnet 4.6.


📋 Дайджест исследования

Ключевая суть

Самые провальные ответы LLM на задачах выбора — не когда список длинный вообще, а когда варианты похожи и ни один явно не выделяется. Именно там потери максимальны: 77% против 61% правильных выборов при сокращении с 5 до 2–3 вариантов. Двухшаговый метод позволяет вытащить конкретный, обоснованный ответ даже из 20+ похожих кандидатов — вместо размытого 'зависит от задачи'. Первый запрос — только сужение: 'назови 3 лучших, без объяснений'. Второй запрос — финальный выбор из короткого списка. Разделить 'выкини лишнее' и 'выбери лучшее' на два отдельных запроса — и модель перестаёт усреднять, точность выбора растёт на 6–30 процентных пунктов.

Принцип работы

Когда список длинный, модель одновременно решает две задачи: фильтрует слабых и оценивает сильных. Похожие варианты тянут ответ в разные стороны — и вместо выбора получается усреднение. Два запроса разбивают этот конфликт: первый задействует модель как фильтр, второй — как судью. На этапе фильтрации модель не обосновывает — просто чистит список. На этапе выбора видит только 2–3 варианта и делает то, в чём сильна: сравнивает по нескольким критериям и выносит чистое решение без шума от семи отброшенных. Как конвейер на заводе — каждый шаг делает своё, а не всё разом.

Почему работает

Дело не в том, что 'короче = проще для модели'. Когда похожие варианты конкурируют в одном ответе, они занимают одни и те же позиции в рассуждении — модель начинает взвешивать всех одновременно и проседает. Ключевой момент: эффект максимален именно на задачах средней сложности — когда правильный вариант есть, но не торчит явным лидером. На лёгких задачах (один очевидный победитель) длина списка почти не важна. На очень сложных — тоже слабый эффект. Больнее всего посередине: там 16 процентных пунктов разницы между коротким и длинным списком.

Когда применять

Любой выбор из готового списка: форматы монетизации, стратегии продвижения, варианты решений, инструменты, кандидаты на должность — особенно когда варианты реально похожи и конкурируют между собой. НЕ подходит: если нужно сгенерировать варианты с нуля; если один вариант явно лучше остальных — двухшаговость избыточна; если в исходном списке нет хорошего варианта — сужение вытащит лучшее из плохого, не создаст новое.

Мини-рецепт

1. Подготовь список и контекст: пронумеруй варианты, добавь 2–3 строчки про задачу и ограничения. Чем точнее контекст — тем лучше модель отфильтрует на первом шаге. 'Наиболее подходящих' хуже, чем 'подходящих для аудитории 28–40 лет с бюджетом до 10 000 рублей'.
2. Первый запрос — только отсев: попроси назвать 2–3 лучших без объяснений. Явно запрети обосновывать — иначе модель смешает фильтрацию с выбором и снова потеряется.
3. Второй запрос — чистый выбор: подставь результат первого шага, сформулируй задачу заново. Попроси выбрать один оптимальный с обоснованием и первым шагом действий.
4. Настрой размер короткого списка: 2 варианта дают максимальную точность, 3 — хороший компромисс между точностью и охватом. Для задач с неочевидным ответом выбирай 3.

Примеры

[ПЛОХО] : Выбери лучший формат монетизации для моего Telegram-канала о личных финансах из этих 12 вариантов: реклама брокеров, платная подписка, курс, марафон, консультации...
[ХОРОШО] : Запрос 1: Вот 12 форматов монетизации Telegram-канала. Аудитория: 5 000 подписчиков, возраст 28–40 лет, тема — накопления и инвестиции для начинающих. Назови 3 наиболее подходящих для этой аудитории и этого этапа роста. Только перечисли номера — без объяснений. Запрос 2: Из этих трёх вариантов: [результат шага 1]. Выбери один оптимальный для старта. Объясни почему именно он, укажи первый шаг для запуска и реалистичный доход в первые 3 месяца.
Источник: How Many Tools Should an LLM Agent See? A Chance-Corrected Answer — Vyzantinos Repantis, Ameya Gawde, Harshvardhan Singh, Joey Blackwell II, Meta Platforms, 2025
ArXiv ID: 2605.24660 | Сгенерировано: 2026-05-26 07:39

Проблемы LLM

ПроблемаСутьКак обойти
Точность выбора падает с ростом спискаПросишь выбрать лучший вариант из 10-12 похожих. Модель удерживает все варианты одновременно. Похожие варианты создают шум — модель путается и выбирает не лучший, а первый попавшийся. Работает плохо именно когда варианты реально конкурируют между собойРазбей на два запроса. Сначала: "выбери 2–3 кандидата из этого списка". Потом: "выбери один из этих трёх". Второй запрос получает чистое поле без шума

Методы

МетодСуть
Двухшаговый выбор: сужение решениеШаг 1. Дай полный список. Попроси выбрать 2–3 кандидата. Без объяснений, только перечислить. Пример: Выбери 3 наиболее подходящих для {контекст}. Только перечисли без обоснования. Шаг 2. Дай короткий список из шага 1. Попроси финальный выбор с обоснованием. Пример: Из этих трёх выбери оптимальный. Объясни почему, укажи первый шаг. Почему работает: В одном запросе модель одновременно "отсекает лишнее" и "выбирает лучшее". Это два конфликтующих режима. Разделение убирает конфликт. Когда применять: Варианты похожи между собой, список от 6 вариантов. Когда не нужен: Один вариант явно лучше других — модель выберет верно и без двух шагов
📖 Простыми словами

How ManyToolsShould anLLMAgentSee? A Chance-Corrected Answer

arXiv: 2605.24660

Суть проблемы в том, что современные нейронки — это не гениальные аналитики, а скорее перегруженные операторы, которые теряются в длинных списках. Когда ты даешь LLM выбор из десяти инструментов или вариантов, ее «внимание» размывается. Модель не просто читает список, она пытается удержать в памяти связи между всеми пунктами сразу, и в итоге каждый лишний вариант создает шум. Исследование четко показывает: если сократить выбор с десяти позиций до двух-трех, точность попадания в цель взлетает на 6–30 процентных пунктов. Это не магия, а банальное избавление от информационного мусора, который мешает модели сфокусироваться на главном.

Это как если бы ты пришел в ресторан с меню на сорок страниц, где пять видов карбонары и десять вариантов стейка. Ты начинаешь тупить, путаться в описаниях и в итоге заказываешь какую-то фигню, просто чтобы это закончилось. Если же официант приносит листок с тремя позициями дня, ты выбираешь осознанно и быстро. С нейронками та же история: чем длиннее список, тем выше шанс, что модель ткнет в первый попавшийся пункт или в тот, который звучит «громче» остальных, просто потому что мозги закипели.

Механика провала проста: когда вариантов много, похожие пункты начинают слипаться в кашу. Если ты просишь выбрать способ монетизации канала из 12 вариантов, Claude или GPT начнут метаться между «платной подпиской» и «закрытым чатом», в итоге выбрав не самый эффективный, а тот, что стоит выше в списке. Работает связка из двух шагов: сначала ты просишь AI отфильтровать мусор и оставить топ-3, а вторым запросом заставляешь выбрать финалиста из этого короткого списка. Результат будет на голову выше, чем если пытаться выбить решение за один присест.

Тестировали это на выборе инструментов для агентов, но принцип универсален для любой задачи, где нужно принять решение. Выбираешь ли ты стратегию маркетинга, лучший заголовок для статьи или подходящий софт для команды — никогда не кидай в модель «простыню» из вариантов. Этот паттерн работает везде, где LLM выступает в роли судьи. Длинные списки убивают логику, превращая мощный интеллект в генератор случайных ответов, который просто хочет поскорее закончить диалог.

Короче: хочешь адекватный ответ — фильтруй базар. Не заставляй модель выбирать из десяти опций, она гарантированно начнет лажать и выдавать рандом. Сначала используй AI как сито, чтобы отсеять лишнее, и только потом — как эксперта для финального выбора из пары-тройки кандидатов. Меньше вариантов — выше точность, это железное правило, которое экономит время и избавляет от тупых галлюцинаций.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с