TL;DR
LLM обучены на миллионах тестовых заданий, где правильный ответ всегда присутствует среди вариантов. Это создало устойчивый паттерн: модель почти всегда выбирает один из предложенных вариантов — даже если ни один не подходит. Исследование назвало это forced-choice bias (предрасположенность к принудительному выбору), воспроизвело в строгом эксперименте и измерило его масштаб.
Практическая боль: представьте, что вы даёте Claude три варианта оффера для клиента и просите выбрать лучший. Среди них нет хорошего — все три слабые. Модель всё равно выдаст уверенное «вариант Б» вместо «ни один не работает». Вы получите псевдо-экспертную рекомендацию вместо честной оценки.
Частичное решение есть: явно добавить в запрос опцию «ни один из вариантов не подходит» — и попросить модель пошагово оценить каждый вариант по критериям до финального выбора. Chain-of-Thought (пошаговое рассуждение) удваивает и утраивает вероятность честного ответа. Полностью проблему это не закрывает, но делает оценку значительно надёжнее.
Схема метода
Это не один метод, а комбинация двух приёмов, которые работают вместе:
ПРИЁМ 1: Явное разрешение
Добавить в конец запроса: "Если ни один из вариантов не подходит —
так и скажи" → снижает давление принудительного выбора
ПРИЁМ 2: CoT-оценка каждого варианта (в одном промпте)
ШАГ 1: Оцени каждый вариант по очереди → вывод плюсов/минусов
ШАГ 2: Сравни с критерием → вывод соответствия
ШАГ 3: Финальный выбор или "ни один" → обоснованный ответ
Оба приёма — в одном запросе, один диалог.
Пример применения
Задача: Артемий Лебедев попросил вас отобрать слоган для нового проекта. У вас есть три варианта от копирайтера, но внутри чувствуете — что-то не то. Вы хотите честную оценку, а не «лучший из плохих».
Промпт:
Ты — креативный директор, который жёстко oценивает тексты.
Задача: выбрать слоган для дизайн-студии, работающей с госзаказами.
Целевая аудитория — чиновники и госкорпорации.
Критерии хорошего слогана: запоминается, звучит профессионально,
внушает доверие, без пафоса.
Варианты:
А. «Государственный масштаб, частная точность»
Б. «Мы делаем государство красивее»
В. «Дизайн для страны»
Оцени каждый вариант отдельно: что работает, что нет,
насколько соответствует критериям. Думай вслух по каждому.
Если ни один из вариантов не соответствует критериям —
прямо скажи об этом. Не выбирай «лучший из плохих»
только потому что нужно что-то выбрать.
Результат: Модель пройдёт по каждому слогану отдельно — назовёт конкретные проблемы. Если все три слабые, скажет это прямо с объяснением. Если один рабочий — выберет с аргументами. Вы получите честную оценку, а не псевдовыбор.
Почему это работает
Слабость LLM. Модели прошли обучение на огромном количестве тестов и заданий формата «выбери правильный ответ». Там правильный вариант всегда был в списке. Модель выучила этот паттерн: если дали варианты — надо выбрать один. Это не баг в логике, это усвоенное ожидание.
Почему CoT помогает. Когда модель генерирует текст по шагам, она вынуждена сначала сформулировать оценку каждого варианта словами — а потом принять решение. Словесная оценка фиксирует противоречие: «этот вариант не соответствует критериям → и тот не соответствует → и этот тоже → значит, правильного нет». Без CoT модель перескакивает сразу к выбору, не проходя через это рассуждение.
Рычаги управления: - Явная фраза «не выбирай лучшее из плохого» — прямо снимает ожидание обязательного выбора - «Думай вслух по каждому» — запускает пошаговую оценку - Конкретные критерии — даёт модели точку отсчёта для оценки, а не расплывчатое «хорошо/плохо» - Роль критика — усиливает оценочную позицию, ослабляет позицию «помощника, который должен помочь выбрать»
Шаблон промпта
Ты — {роль-критика}.
Задача: выбрать {что выбираем} для {контекст}.
Аудитория / назначение: {кому / зачем}.
Критерии хорошего {что выбираем}:
— {критерий 1}
— {критерий 2}
— {критерий 3}
Варианты:
А. {вариант А}
Б. {вариант Б}
В. {вариант В}
Оцени каждый вариант отдельно: что работает, что нет,
насколько соответствует критериям. Думай вслух.
Если ни один не соответствует критериям — скажи прямо.
Не выбирай «лучшее из плохого» ради выбора.
Что подставлять:
- {роль-критика} — эксперт, который оценивает жёстко: «опытный редактор», «стратегический консультант», «директор по маркетингу с 15-летним опытом»
- {что выбираем} — слоган, концепцию, кандидата, формулировку, подход
- {контекст} — кратко суть проекта или задачи
- {критерии} — конкретные измеримые требования, не «хорошо» а «запоминается», «без жаргона», «до 7 слов»
🚀 Быстрый старт — вставь в чат:
Вот шаблон для честной оценки вариантов без принудительного выбора.
Адаптируй под мою задачу: [твоя задача — что выбираешь, для чего,
какие варианты]. Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит про критерии и контекст — потому что без них оценка каждого варианта «вслух» теряет точку отсчёта. Она возьмёт структуру из шаблона и адаптирует под твою задачу.
Ограничения
⚠️ CoT не решает проблему полностью: даже с пошаговым рассуждением модели часто всё равно выбирают один из вариантов. Вероятность честного «ни один не подходит» растёт, но остаётся ниже 50% на сложных задачах.
⚠️ Чем «правдоподобнее» плохие варианты — тем сильнее искажение: если варианты похожи на правильный ответ (близкие по формулировкам, близкие по смыслу), модель с большей вероятностью выберет один из них. Особенно если варианты покрывают одну тему с небольшими различиями.
⚠️ Не работает для вкусовых суждений: исследование фиксирует проблему в ситуациях с объективно верным ответом. Для оценки «нравится / не нравится» — другая история, там нет отсутствующего правильного ответа как такового.
⚠️ Это не лечится промптом полностью: авторы прямо говорят — проблема требует изменений на уровне обучения модели, не только инструкций. CoT — костыль, не решение.
Как исследовали
Команда Duke University придумала элегантный трюк: взяли стандартные тесты для видео-моделей (где правильный ответ всегда есть среди вариантов), убрали правильный ответ из списка — и смотрели, что будет. Если модель действительно понимает видео, она должна сказать «правильного ответа нет». Если просто выбирает «наиболее похожее» — возьмёт дистрактор с уверенным видом.
Проверили почти все топовые мультимодальные модели: Gemini, Qwen, InternVL, Gemma. Три режима: вариант «ни один из перечисленных» добавлен явно в список; модель может написать это словами сама; стандартный формат без подсказок.
Результат оказался неожиданно резким. Без подсказок — почти 0% детекции у всех моделей. С явным вариантом «ни один» — лучшая модель (Gemini 2.5 Flash) добирается до 34%. Больше кадров из видео парадоксально ухудшает результат: модель лучше понимает видео, но сильнее «привязывается» к похожим вариантам и реже признаёт их неправильность. CoT даёт скачок — у Qwen3-VL с 17% до 48% — но «потолок» всё равно остаётся низким.
Самый тревожный инсайт: модели уверены в своём неправильном выборе так же, как в правильном. Убрали верный ответ — вероятность выбора дистрактора практически не изменилась. Это не неуверенность с ошибкой, это уверенная ошибка.
Адаптации и экстраполяции
1. Адаптация: явный «предохранитель» в любом оценочном промпте
🔧 Добавить одну фразу → честнее оценка
В конце любого промпта с выбором из вариантов:
Если ни один из вариантов не соответствует задаче — скажи прямо и объясни почему. Не выбирай «лучший из плохих».Работает даже без полного CoT-шаблона. Минимальный «предохранитель» от принудительного выбора.
2. Экстраполяция: обратный режим — проверка своих вариантов
Принцип работает и в обратную сторону. Если вы сами предлагаете варианты и хотите знать, есть ли среди них рабочий — дайте модели явное разрешение сказать «нет»:
Я разрабатываю {что}. Вот мои варианты:
А. {вариант}
Б. {вариант}
В. {вариант}
Критерии: {список}.
Оцени каждый вариант вслух: плюсы, минусы, соответствие критериям.
Если ни один не работает — скажи прямо. Мне нужна честная оценка,
а не одобрение ради одобрения.
Это особенно полезно когда вы уже вложили работу в варианты и мозг хочет подтверждения — именно тогда модель без разрешения «откажет» вам в критике.
Ресурсы
When No Answer Is Correct: Diagnosing Absent Answer Detection for MLLMs in Video Understanding
Yiheng Wang, Yueqian Lin, Lichen Zhu, Yudong Liu, Hai "Helen" Li, Yiran Chen — Duke University, Durham, North Carolina, USA
Бенчмарки: VideoMME, EgoSchema
