TL;DR
BiasPrompting — двухшаговая техника для задач с выбором из нескольких вариантов. Сначала модель генерирует аргументы в пользу каждого варианта (как если бы каждый был правильным), затем, имея все аргументы перед глазами, выбирает наиболее убедительный.
Когда LLM видит вопрос с вариантами ответа, она часто «залипает» на первом подходящем — генерирует рассуждение только для него, а остальные отбрасывает без анализа. Это усугубляется selection bias — моделям свойственно предпочитать определённые позиции (например, первый или последний вариант) независимо от содержания. В итоге качественные альтернативы остаются непроверенными.
BiasPrompting решает это принудительным исследованием: модель обязана найти аргументы за каждый вариант, даже нелепый. Это даёт ей полную картину перед финальным выбором — как адвокат, который изучил позиции всех сторон, прежде чем вынести суждение.
Схема метода
ШАГ 1: Генерация аргументов
Для каждого варианта A, B, C... → "Почему [вариант] — правильный ответ?" → аргумент
ШАГ 2: Выбор на основе всех аргументов
Вопрос + все варианты + все аргументы → "Какой аргумент самый убедительный?" → финальный ответ
Оба шага можно выполнить в одном промпте или двумя отдельными запросами (для контроля качества аргументов).
Пример применения
Задача: Выбираешь CRM для небольшого агентства недвижимости. Есть три варианта: AmoCRM, Битрикс24, Мегаплан. Нужно принять обоснованное решение.
Промпт:
Я выбираю CRM для агентства недвижимости (5 агентов, ~50 сделок/месяц).
Варианты:
A. AmoCRM
B. Битрикс24
C. Мегаплан
ШАГ 1: Для каждого варианта напиши 2-3 предложения, почему ИМЕННО ОН — лучший выбор для моей ситуации. Защищай каждый вариант так, будто он точно правильный.
ШАГ 2: Посмотри на все аргументы. Какой вариант самый убедительный для агентства недвижимости с 5 агентами? Объясни, почему аргументы за него перевесили остальные.
Результат: Модель выдаст структурированный ответ: сначала блок аргументов за AmoCRM (простота воронки, интеграции с Авито/ЦИАН), затем за Битрикс24 (всё-в-одном, телефония), затем за Мегаплан (управление проектами). В финале — взвешенный выбор с объяснением, какие аргументы оказались сильнее для конкретной ситуации.
Почему это работает
Слабость LLM: Модели склонны к confirmation bias — найдя первый подходящий вариант, они строят рассуждение вокруг него, игнорируя альтернативы. Плюс selection bias: позиция варианта в списке влияет на выбор независимо от содержания. Если поменять местами варианты A и C — модель может выбрать другой ответ.
Сильная сторона LLM: Модели отлично генерируют аргументы по заданному направлению. Если сказать «защити позицию X» — она найдёт релевантные факты и логику. Это можно использовать для систематического исследования всех вариантов.
Как метод использует это: BiasPrompting превращает слабость в силу — вместо одного предвзятого рассуждения модель создаёт набор предвзятых рассуждений (по одному за каждый вариант). Когда все аргументы собраны вместе, модель видит полную картину и может сделать сравнительный выбор, а не «первый подходящий».
Рычаги управления:
- Глубина аргументов — «2-3 предложения» vs «развёрнутый анализ на абзац» → больше деталей для сложных решений
- Критерии оценки — добавь в ШАГ 2 конкретные критерии («по цене», «по простоте», «по масштабируемости») → фокус на важном для тебя
- Формат вывода — попроси таблицу сравнения после аргументов → визуальная структура для принятия решения
Шаблон промпта
{контекст_ситуации}
Варианты:
A. {вариант_1}
B. {вариант_2}
C. {вариант_3}
ШАГ 1: Для каждого варианта напиши аргументы, почему ИМЕННО ОН — лучший выбор. Защищай каждый вариант так, будто он точно правильный.
ШАГ 2: Посмотри на все аргументы. Какой вариант самый убедительный? Объясни, почему его аргументы перевесили остальные.
Плейсхолдеры:
{контекст_ситуации}— что выбираешь и для чего (чем конкретнее, тем точнее аргументы){вариант_N}— варианты выбора (от 2 до 6 работает хорошо)
Ограничения
⚠️ Качество аргументов: Если модель плохо знает предметную область, аргументы будут поверхностными или ошибочными. Для специализированных тем (медицина, право, узкая техника) лучше сначала дать модели контекст или использовать веб-поиск.
⚠️ Не для простых вопросов: Если ответ очевиден («Столица России?»), метод избыточен — модель потратит токены на генерацию бессмысленных аргументов за Новосибирск и Казань.
⚠️ Субъективные критерии: Метод работает лучше, когда есть объективные критерии оценки. Для вопросов вкуса («какой цвет лучше?») аргументы будут одинаково убедительными.
Как исследовали
Команда из NTU (Сингапур), NUS и VinUniversity (Вьетнам) проверила BiasPrompting на пяти бенчмарках с вопросами на здравый смысл: CommonsenseQA, StrategyQA, PIQA и два из BIG-Bench (Date Understanding, Causal Judgement). Использовали три модели размером 7B: Mistral, DeepSeek, Gemma.
Интересная находка: CoT (Chain-of-Thought) нестабилен — на одних датасетах даёт +11%, на других −14%. BiasPrompting показал более ровные улучшения почти везде. При этом BiasPrompting генерирует меньше токенов, чем CoT — потому что не требует длинных цепочек рассуждений.
Отдельно проверили устойчивость к порядку вариантов: перемешивали варианты ответов случайным образом и смотрели разброс результатов. BiasPrompting показал меньшую дисперсию — модель реже «залипала» на конкретной позиции. Это подтверждает, что принудительное исследование всех вариантов действительно снижает selection bias.
Ещё один эксперимент: посмотрели на вопросы, которые BiasPrompting решает правильно, а zero-shot и CoT — нет. Таких вопросов оказалось значительно больше, чем наоборот. Это говорит о том, что метод «разблокирует» скрытые способности модели — она знала правильный ответ, но не могла до него добраться без структурированного исследования альтернатив.
Оригинал из исследования
Контекст: Шаблон промпта для генерации аргументов (ШАГ 1) — модель получает вопрос и один вариант, должна защитить его как правильный.
Given the following question:
A revolving door is convenient for two direction travel, but it also serves as a security measure at a what?
Provide reasoning proving that 'bank' is the correct choice without any textual description in one sentence.
Контекст: Шаблон промпта для финального выбора (ШАГ 2) — модель видит все аргументы и выбирает.
### Question: A revolving door is convenient for two direction travel, but it also serves as a security measure at a what?
### Answer choices: A. bank | B. library | C. department store | D. mall | E. new york
### Reasoning for answer choice A: The answer is 'bank'. Revolving doors are often used in banks to control the flow of people entering and exiting.
### Reasoning for answer choice B: The answer is 'library'. Revolving doors are commonly used in libraries to control the flow of people entering and exiting.
### Reasoning for answer choice C: The answer is department store. Revolving doors are commonly used in department stores to control the flow of customers.
### Reasoning for answer choice D: The answer is 'mall'. Revolving doors are commonly found in malls to control pedestrian traffic flow and prevent congestion.
### Reasoning for answer choice E: The answer is New York. The revolving door is a security measure at the Empire State Building in New York City.
Wrap your final answer by filling in the placeholder below: 'So the answer is: {{placeholder}}'
Адаптации и экстраполяции
💡 Адаптация для карьерных решений
BiasPrompting хорошо работает для взвешивания карьерных альтернатив, где эмоции часто мешают объективному анализу.
Мне 28 лет, 4 года работаю продактом в финтехе. Получил три предложения:
A. Остаться в текущей компании (повышение до Senior PM, +30% к зарплате)
B. Перейти в Яндекс (тот же уровень, но крупнее масштаб, зарплата на уровне)
C. Пойти в стартап сооснователем (меньше зарплата, но equity 5%)
ШАГ 1: Для каждого варианта напиши аргументы, почему это лучший выбор для карьеры продакта на горизонте 5 лет. Защищай каждый вариант убедительно.
ШАГ 2: Какой путь даёт лучшую комбинацию роста компетенций, финансов и рисков? Почему аргументы за него перевесили?
🔧 Техника: добавить критерии оценки → фокусированное сравнение
Если в ШАГ 2 добавить явные критерии, модель будет сравнивать аргументы по ним, а не абстрактно.
ШАГ 2: Оцени аргументы по трём критериям:
- Потенциал роста зарплаты за 3 года
- Развитие hard skills
- Work-life balance
Какой вариант побеждает по совокупности критериев?
💡 Экстраполяция: BiasPrompting + Devil's Advocate
Можно усилить метод, добавив третий шаг — критику выбранного варианта. Это помогает поймать слепые пятна.
ШАГ 1: [аргументы за каждый вариант]
ШАГ 2: [выбор лучшего]
ШАГ 3: Теперь выступи адвокатом дьявола: какие 3 главных риска у выбранного варианта? Что может пойти не так?
Ресурсы
Работа: "More Bias, Less Bias: BiasPrompting for Enhanced Multiple-Choice Question Answering" (SAC'26)
Авторы: Duc Anh Vu, Nguyen Thanh Thong, Cong-Duy Nguyen, Viet Anh Nguyen, Anh Tuan Luu
Организации: Nanyang Technological University (Сингапур), National University of Singapore, VinUniversity (Вьетнам)
Связанные работы: Selection bias в LLM (Zheng et al., 2023), Chain-of-Thought prompting (Wei et al., 2022), Self-Consistency (Wang et al., 2022)
