3,583 papers
arXiv:2511.20086 86 25 нояб. 2025 г. FREE

BiasPrompting: принудительное исследование всех вариантов перед выбором

КЛЮЧЕВАЯ СУТЬ
Обнаружено: LLM «залипает» на первом подходящем варианте — генерирует рассуждение только для него, остальные отбрасывает без анализа. BiasPrompting позволяет принимать взвешенные решения при выборе из нескольких альтернатив — модель исследует все варианты, а не первый попавшийся. Фишка: заставь модель найти аргументы ЗА каждый вариант — даже за нелепый. Модель защищает каждый так, будто он точно правильный. Потом, видя все аргументы перед глазами, выбирает самый убедительный.
Адаптировать под запрос

TL;DR

BiasPrompting — двухшаговая техника для задач с выбором из нескольких вариантов. Сначала модель генерирует аргументы в пользу каждого варианта (как если бы каждый был правильным), затем, имея все аргументы перед глазами, выбирает наиболее убедительный.

Когда LLM видит вопрос с вариантами ответа, она часто «залипает» на первом подходящем — генерирует рассуждение только для него, а остальные отбрасывает без анализа. Это усугубляется selection bias — моделям свойственно предпочитать определённые позиции (например, первый или последний вариант) независимо от содержания. В итоге качественные альтернативы остаются непроверенными.

BiasPrompting решает это принудительным исследованием: модель обязана найти аргументы за каждый вариант, даже нелепый. Это даёт ей полную картину перед финальным выбором — как адвокат, который изучил позиции всех сторон, прежде чем вынести суждение.


🔬

Схема метода

ШАГ 1: Генерация аргументов
   Для каждого варианта A, B, C... → "Почему [вариант] — правильный ответ?" → аргумент

ШАГ 2: Выбор на основе всех аргументов
   Вопрос + все варианты + все аргументы → "Какой аргумент самый убедительный?" → финальный ответ

Оба шага можно выполнить в одном промпте или двумя отдельными запросами (для контроля качества аргументов).


🚀

Пример применения

Задача: Выбираешь CRM для небольшого агентства недвижимости. Есть три варианта: AmoCRM, Битрикс24, Мегаплан. Нужно принять обоснованное решение.

Промпт:

Я выбираю CRM для агентства недвижимости (5 агентов, ~50 сделок/месяц).

Варианты:
A. AmoCRM
B. Битрикс24
C. Мегаплан

ШАГ 1: Для каждого варианта напиши 2-3 предложения, почему ИМЕННО ОН — лучший выбор для моей ситуации. Защищай каждый вариант так, будто он точно правильный.

ШАГ 2: Посмотри на все аргументы. Какой вариант самый убедительный для агентства недвижимости с 5 агентами? Объясни, почему аргументы за него перевесили остальные.

Результат: Модель выдаст структурированный ответ: сначала блок аргументов за AmoCRM (простота воронки, интеграции с Авито/ЦИАН), затем за Битрикс24 (всё-в-одном, телефония), затем за Мегаплан (управление проектами). В финале — взвешенный выбор с объяснением, какие аргументы оказались сильнее для конкретной ситуации.


🧠

Почему это работает

Слабость LLM: Модели склонны к confirmation bias — найдя первый подходящий вариант, они строят рассуждение вокруг него, игнорируя альтернативы. Плюс selection bias: позиция варианта в списке влияет на выбор независимо от содержания. Если поменять местами варианты A и C — модель может выбрать другой ответ.

Сильная сторона LLM: Модели отлично генерируют аргументы по заданному направлению. Если сказать «защити позицию X» — она найдёт релевантные факты и логику. Это можно использовать для систематического исследования всех вариантов.

Как метод использует это: BiasPrompting превращает слабость в силу — вместо одного предвзятого рассуждения модель создаёт набор предвзятых рассуждений (по одному за каждый вариант). Когда все аргументы собраны вместе, модель видит полную картину и может сделать сравнительный выбор, а не «первый подходящий».

Рычаги управления:

  • Глубина аргументов — «2-3 предложения» vs «развёрнутый анализ на абзац» → больше деталей для сложных решений
  • Критерии оценки — добавь в ШАГ 2 конкретные критерии («по цене», «по простоте», «по масштабируемости») → фокус на важном для тебя
  • Формат вывода — попроси таблицу сравнения после аргументов → визуальная структура для принятия решения

📋

Шаблон промпта

{контекст_ситуации}

Варианты:
A. {вариант_1}
B. {вариант_2}
C. {вариант_3}

ШАГ 1: Для каждого варианта напиши аргументы, почему ИМЕННО ОН — лучший выбор. Защищай каждый вариант так, будто он точно правильный.

ШАГ 2: Посмотри на все аргументы. Какой вариант самый убедительный? Объясни, почему его аргументы перевесили остальные.

Плейсхолдеры:

  • {контекст_ситуации} — что выбираешь и для чего (чем конкретнее, тем точнее аргументы)
  • {вариант_N} — варианты выбора (от 2 до 6 работает хорошо)

⚠️

Ограничения

⚠️ Качество аргументов: Если модель плохо знает предметную область, аргументы будут поверхностными или ошибочными. Для специализированных тем (медицина, право, узкая техника) лучше сначала дать модели контекст или использовать веб-поиск.

⚠️ Не для простых вопросов: Если ответ очевиден («Столица России?»), метод избыточен — модель потратит токены на генерацию бессмысленных аргументов за Новосибирск и Казань.

⚠️ Субъективные критерии: Метод работает лучше, когда есть объективные критерии оценки. Для вопросов вкуса («какой цвет лучше?») аргументы будут одинаково убедительными.


🔍

Как исследовали

Команда из NTU (Сингапур), NUS и VinUniversity (Вьетнам) проверила BiasPrompting на пяти бенчмарках с вопросами на здравый смысл: CommonsenseQA, StrategyQA, PIQA и два из BIG-Bench (Date Understanding, Causal Judgement). Использовали три модели размером 7B: Mistral, DeepSeek, Gemma.

Интересная находка: CoT (Chain-of-Thought) нестабилен — на одних датасетах даёт +11%, на других −14%. BiasPrompting показал более ровные улучшения почти везде. При этом BiasPrompting генерирует меньше токенов, чем CoT — потому что не требует длинных цепочек рассуждений.

Отдельно проверили устойчивость к порядку вариантов: перемешивали варианты ответов случайным образом и смотрели разброс результатов. BiasPrompting показал меньшую дисперсию — модель реже «залипала» на конкретной позиции. Это подтверждает, что принудительное исследование всех вариантов действительно снижает selection bias.

Ещё один эксперимент: посмотрели на вопросы, которые BiasPrompting решает правильно, а zero-shot и CoT — нет. Таких вопросов оказалось значительно больше, чем наоборот. Это говорит о том, что метод «разблокирует» скрытые способности модели — она знала правильный ответ, но не могла до него добраться без структурированного исследования альтернатив.


📄

Оригинал из исследования

Контекст: Шаблон промпта для генерации аргументов (ШАГ 1) — модель получает вопрос и один вариант, должна защитить его как правильный.

Given the following question:
A revolving door is convenient for two direction travel, but it also serves as a security measure at a what?
Provide reasoning proving that 'bank' is the correct choice without any textual description in one sentence.

Контекст: Шаблон промпта для финального выбора (ШАГ 2) — модель видит все аргументы и выбирает.

### Question: A revolving door is convenient for two direction travel, but it also serves as a security measure at a what?
### Answer choices: A. bank | B. library | C. department store | D. mall | E. new york
### Reasoning for answer choice A: The answer is 'bank'. Revolving doors are often used in banks to control the flow of people entering and exiting.
### Reasoning for answer choice B: The answer is 'library'. Revolving doors are commonly used in libraries to control the flow of people entering and exiting.
### Reasoning for answer choice C: The answer is department store. Revolving doors are commonly used in department stores to control the flow of customers.
### Reasoning for answer choice D: The answer is 'mall'. Revolving doors are commonly found in malls to control pedestrian traffic flow and prevent congestion.
### Reasoning for answer choice E: The answer is New York. The revolving door is a security measure at the Empire State Building in New York City.

Wrap your final answer by filling in the placeholder below: 'So the answer is: {{placeholder}}'

💡

Адаптации и экстраполяции

📌

💡 Адаптация для карьерных решений

BiasPrompting хорошо работает для взвешивания карьерных альтернатив, где эмоции часто мешают объективному анализу.

Мне 28 лет, 4 года работаю продактом в финтехе. Получил три предложения:

A. Остаться в текущей компании (повышение до Senior PM, +30% к зарплате)
B. Перейти в Яндекс (тот же уровень, но крупнее масштаб, зарплата на уровне)
C. Пойти в стартап сооснователем (меньше зарплата, но equity 5%)

ШАГ 1: Для каждого варианта напиши аргументы, почему это лучший выбор для карьеры продакта на горизонте 5 лет. Защищай каждый вариант убедительно.

ШАГ 2: Какой путь даёт лучшую комбинацию роста компетенций, финансов и рисков? Почему аргументы за него перевесили?
⚖️

🔧 Техника: добавить критерии оценки → фокусированное сравнение

Если в ШАГ 2 добавить явные критерии, модель будет сравнивать аргументы по ним, а не абстрактно.

ШАГ 2: Оцени аргументы по трём критериям:
- Потенциал роста зарплаты за 3 года
- Развитие hard skills
- Work-life balance

Какой вариант побеждает по совокупности критериев?
📌

💡 Экстраполяция: BiasPrompting + Devil's Advocate

Можно усилить метод, добавив третий шаг — критику выбранного варианта. Это помогает поймать слепые пятна.

ШАГ 1: [аргументы за каждый вариант]

ШАГ 2: [выбор лучшего]

ШАГ 3: Теперь выступи адвокатом дьявола: какие 3 главных риска у выбранного варианта? Что может пойти не так?

🔗

Ресурсы

Работа: "More Bias, Less Bias: BiasPrompting for Enhanced Multiple-Choice Question Answering" (SAC'26)

Авторы: Duc Anh Vu, Nguyen Thanh Thong, Cong-Duy Nguyen, Viet Anh Nguyen, Anh Tuan Luu

Организации: Nanyang Technological University (Сингапур), National University of Singapore, VinUniversity (Вьетнам)

Связанные работы: Selection bias в LLM (Zheng et al., 2023), Chain-of-Thought prompting (Wei et al., 2022), Self-Consistency (Wang et al., 2022)


📋 Дайджест исследования

Ключевая суть

Обнаружено: LLM «залипает» на первом подходящем варианте — генерирует рассуждение только для него, остальные отбрасывает без анализа. BiasPrompting позволяет принимать взвешенные решения при выборе из нескольких альтернатив — модель исследует все варианты, а не первый попавшийся. Фишка: заставь модель найти аргументы ЗА каждый вариант — даже за нелепый. Модель защищает каждый так, будто он точно правильный. Потом, видя все аргументы перед глазами, выбирает самый убедительный.

Принцип работы

Двухшаговый процесс. Шаг 1: Для каждого варианта A, B, C — «Почему ИМЕННО ОН правильный?» → генерация аргументов. Шаг 2: Все аргументы собраны → «Какой самый убедительный?» → финальный выбор. Модель перестает хватать первый подходящий вариант, начинает сравнивать все на равных. Можно в одном промпте или двумя запросами (для контроля качества аргументов).

Почему работает

LLM склонны к confirmation bias — найдя первый подходящий вариант, они строят рассуждение вокруг него, игнорируя остальные. Плюс selection bias: позиция в списке влияет на выбор независимо от содержания (поменяй A и C местами — модель может выбрать другой ответ). BiasPrompting превращает слабость в силу: вместо одного предвзятого рассуждения модель создает набор предвзятых рассуждений — по одному за каждый вариант. Когда все аргументы собраны вместе — модель делает сравнительный выбор, а не хватает «первый подходящий».

Когда применять

Для решений с выбором из нескольких вариантов (2-6 альтернатив) — выбор инструмента, подхода, стратегии, особенно когда нужно обоснованное решение с учетом всех плюсов и минусов. НЕ подходит для очевидных вопросов (столица России?) и чисто субъективных предпочтений без объективных критериев (какой цвет лучше?).

Мини-рецепт

1. Опиши контекст выбора: что выбираешь и для чего (чем конкретнее — тем точнее аргументы)
2. Перечисли варианты: A, B, C... (от 2 до 6 работает хорошо)
3. ШАГ 1 в промпте: Для каждого варианта напиши 2-3 предложения, почему ИМЕННО ОН — лучший выбор. Защищай каждый так, будто он точно правильный.
4. ШАГ 2 в промпте: Посмотри на все аргументы. Какой вариант самый убедительный? Объясни, почему его аргументы перевесили остальные.
5. Опционально: добавь критерии оценки в ШАГ 2 — по цене, по простоте, по масштабируемости

Примеры

[ПЛОХО] : Какую CRM выбрать для агентства недвижимости — AmoCRM, Битрикс24 или Мегаплан? (модель сразу выберет первый знакомый вариант без глубокого анализа)
[ХОРОШО] : Выбираю CRM для агентства (5 агентов, ~50 сделок/месяц). Варианты: A. AmoCRM B. Битрикс24 C. Мегаплан. ШАГ 1: Для каждого варианта напиши 2-3 предложения, почему ИМЕННО ОН лучший для моей ситуации. Защищай каждый так, будто он точно правильный. ШАГ 2: Посмотри на все аргументы. Какой вариант самый убедительный для агентства с 5 агентами? Почему его аргументы перевесили? (модель сгенерирует аргументы за простоту воронки AmoCRM, всё-в-одном Битрикс24, управление проектами Мегаплан — потом взвешенно выберет)
Источник: More Bias, Less Bias: BiasPrompting for Enhanced Multiple-Choice Question Answering
ArXiv ID: 2511.20086 | Сгенерировано: 2026-01-11 20:04

Проблемы LLM

ПроблемаСутьКак обойти
Модель выбирает первый подходящий вариант без анализа остальныхДаёшь вопрос с вариантами A, B, C, D. Модель находит первый подходящий (например, B). Строит рассуждение только для него. Остальные варианты не исследует — просто отбрасывает. Результат: пропускает лучшие альтернативы. Плюс позиция варианта в списке влияет на выбор — поменяешь местами A и C, может выбрать другой ответИспользуй двухшаговый выбор: сначала принудительно генерируй аргументы ЗА КАЖДЫЙ вариант (как будто каждый правильный), потом сравнивай все аргументы и выбирай самый убедительный

Методы

МетодСуть
Принудительное исследование всех вариантовШАГ 1: Для каждого варианта попроси модель написать аргументы, почему ИМЕННО ОН правильный. Промпт: "Защищай каждый вариант так, будто он точно верный". ШАГ 2: Покажи модели все аргументы вместе. Попроси выбрать самый убедительный. Почему работает: Модель отлично генерирует аргументы по заданному направлению. Вместо одного предвзятого рассуждения получаешь набор предвзятых рассуждений — по одному за каждый вариант. Когда все аргументы перед глазами, модель делает сравнительный выбор, а не хватается за первый подходящий. Когда применять: выбор из 2-6 вариантов, есть объективные критерии оценки, решение не очевидно. Когда не работает: ответ тривиален ("столица России?"), критерии чисто субъективны ("какой цвет красивее?"), предметная область слишком специфична (модель не знает контекста)
📖 Простыми словами

BiasPrompting: принудительное исследование всех вариантов перед выбором

arXiv: 2511.20086

Нейросети в тестах с вариантами ответов ведут себя как самоуверенные дилетанты: они цепляются за первый попавшийся вариант и начинают подтягивать факты под него. Это называется предвзятостью подтверждения. Если модель решила, что правильный ответ — А, она проигнорирует все аргументы против. Хуже того, на выбор влияет даже порядок слов: поставь правильный ответ в конец списка, и модель его пропустит просто потому, что устала читать. Метод BiasPrompting ломает эту кривую логику, заставляя AI работать системно.

Это как если бы ты выбирал машину и вместо того, чтобы сразу купить «ту красненькую», нанял трех разных менеджеров по продажам. Один доказывает, что лучше всех BMW, второй топит за Mercedes, а третий — за самокат. Ты выслушиваешь каждого, кто из кожи вон лезет, чтобы оправдать свой вариант, и только потом, имея на руках все аргументы, принимаешь решение. Формально ты заставляешь модель врать во благо, заставляя её найти плюсы даже в заведомо ложном ответе.

Технически это работает в два этапа: сначала генерация аргументов, где для каждого варианта (A, B, C) создается обоснование, почему именно он верный. Модель буквально пишет три разных сочинения на тему «Почему я прав». Затем наступает этап финального выбора, когда AI смотрит на свои же доводы со стороны и оценивает, какой из них звучит логичнее. Этот метод убивает позиционное смещение, когда модель выбирает вариант просто потому, что он стоит первым в списке.

Хотя метод тестировали на скучных тестах с выбором ответа, принцип BiasPrompting — это спасение для любого сложного выбора, от покупки CRM до найма сотрудника. Вместо того чтобы спрашивать нейронку «что лучше», нужно заставить её аргументировать каждый вариант по отдельности. Это превращает AI из гадалки на кофейной гуще в объективного судью, который видит всю картину целиком, а не только то, что подсунули под нос в начале текста.

Короче, если хочешь от модели адекватности, не давай ей выбирать сразу. Заставь её сначала адвокатировать каждый вариант, даже самый бредовый, а потом сравнивать результаты. Это убирает системный шум и заставляет нейронку включать логику вместо того, чтобы тыкать пальцем в небо. Двухшаговая проверка — это единственный способ заставить LLM перестать поддакивать самой себе и начать реально думать.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с