TL;DR
LLM не имеют стабильных предпочтений. Если модель выбрала вариант A вместо B, это не значит, что она выберет улучшенный A+ вместо того же B — она запросто может выбрать B. Исследователи назвали это непоследовательностью ценностей: предпочтения модели при вынужденном выборе часто не складываются в единую картину, не обобщаются на похожие ситуации.
Когда просишь модель быстро сравнить два варианта, она не "думает и решает" — она генерирует ответ по паттернам. Результат похож на случайный: то выберет одно, то другое, в зависимости от формулировки. Это особенно сильно проявляется при этических, ценностных и приоритетных суждениях — анализ коммерческого предложения, выбор между несколькими стратегиями, оценка рисков, ранжирование задач.
Главная находка: режим рассуждения (reasoning/thinking mode) резко повышает последовательность — у модели меньшего размера с включённым reasoning больше связных ответов, чем у более крупной без него. Это даёт конкретный инструмент: включай рассуждение всегда, когда просишь AI сравнивать, ранжировать или оценивать.
Схема метода
Два инструмента, которые вытекают из исследования:
ИНСТРУМЕНТ 1 — Reasoning Trigger (применяй всегда при ценностных суждениях)
ШАГ 1: Задаёшь вопрос на сравнение/оценку
ШАГ 2: Явно просишь "рассуждай пошагово" перед ответом
ШАГ 3: Получаешь связный вывод с обоснованием → надёжнее, чем быстрый ответ
ИНСТРУМЕНТ 2 — Parametric Variation Test (стресс-тест предпочтения AI)
ШАГ 1: Получаешь от AI рекомендацию "выбери A, не B"
ШАГ 2: Усиливаешь плюс в A — делаешь A+ (больше того, что делало A лучше)
ШАГ 3: Спрашиваешь снова: "теперь выбери между A+ и B"
ШАГ 4: Если AI переключился на B — первый ответ был случайным, не доверяй
Оба инструмента работают в обычном чате, один запрос или цепочка вопросов.
Пример применения
Задача: Илья — продуктовый менеджер. Ему нужно приоритизировать две задачи на квартал: запустить реферальную программу или улучшить онбординг. Просит AI помочь выбрать.
Промпт — Reasoning Trigger:
Помоги мне принять решение о приоритете.
Задача A: Запустить реферальную программу.
Пользователи приглашают друзей, получают скидку 10%, LTV нового клиента — 4500₽.
Задача B: Улучшить онбординг новых пользователей.
Сейчас 40% уходят в первую неделю, конверсия в платящих — 12%.
Рассуждай шаг за шагом: какие факторы важны для этого выбора,
как каждый из них проявляется в этих двух задачах, и только потом —
твой вывод с обоснованием. Не начинай с ответа.
Параметрический стресс-тест (следующим сообщением):
Хорошо. Теперь представь, что улучшение онбординга снизит отток в первую неделю
не с 40% до 25%, а до 10% — это сильная версия той же задачи.
Ты всё ещё рекомендуешь реферальную программу?
Рассуждай снова перед ответом.
Результат: В первом сообщении модель покажет развёрнутые шаги: анализирует LTV vs отток, считает потенциальный эффект, формулирует вывод. Второй запрос — стресс-тест: если AI меняет рекомендацию при усилении параметра B — это нормально и честно. Если не меняет без объяснений — стоит перепросить. Если переключается хаотично — значит, первый ответ был слабым, нужно перегенерировать с ещё более явным reasoning-требованием.
Почему это работает
Слабость LLM: Модель не "сравнивает" варианты в нашем понимании. Она генерирует следующий токен, основываясь на паттернах обучения. При чистом вопросе "выбери A или B" — выбор сильно зависит от порядка слов, длины вариантов, позиции в тексте. Нет "весов", нет "внутренней шкалы". Отсюда — непоследовательность: спроси три раза разными словами, получишь три разных ответа.
Сильная сторона LLM: Модель отлично следует структуре. Если попросить сначала выписать критерии, потом оценить каждый вариант по этим критериям, потом свести — каждый шаг будет корректным. Reasoning mode буквально заставляет модель строить промежуточные шаги перед ответом. Это снижает "прыжки" к первому подходящему ответу.
Как метод использует это: Явный запрос на рассуждение создаёт внутренний "якорь" — модель фиксирует логику до ответа, и при похожем вопросе с чуть другими параметрами продолжает ту же логику, а не стартует с нуля. Параметрическая вариация проверяет, есть ли вообще этот якорь — или каждый ответ независим от предыдущего.
Рычаги управления: - Количество шагов рассуждения → "рассуждай в 3 шага" vs "рассуждай подробно" — чем явнее структура, тем выше последовательность - Осевой критерий → "фокусируйся только на финансовом эффекте" — фиксирует ось сравнения, убирает дрейф - Parametric intensity → насколько сильно усиливать вариант в стресс-тесте: чем сильнее, тем яснее проявляется реальная суть предпочтения
Шаблон промпта
Reasoning Trigger для сравнений:
Помоги мне выбрать между вариантами.
Вариант A: {описание_A}
Вариант B: {описание_B}
Важный контекст: {что важно именно мне — цель, ограничения, критерий}
Рассуждай по шагам:
1. Выдели ключевые критерии для этого выбора
2. Оцени каждый вариант по каждому критерию
3. Сформулируй вывод — только после шагов 1-2, не раньше
Parametric Variation Test:
Ты рекомендовал {вариант_A}.
Теперь рассмотри усиленную версию варианта B: {описание_B_plus —
усиль именно то, что делало B привлекательным}.
Пересмотри свою рекомендацию с учётом этого изменения.
Рассуждай снова перед ответом.
Плейсхолдеры:
- {описание_A}, {описание_B} — конкретные варианты с цифрами
- {что важно именно мне} — твой приоритет: скорость, деньги, риск, ресурсы
- {описание_B_plus} — та же задача B, но усиленная: не "улучшит онбординг", а "снизит отток с 40% до 5%"
🚀 Быстрый старт — вставь в чат:
Вот шаблон для последовательного сравнения вариантов.
Адаптируй под мою задачу: {твоя задача — что выбираешь}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит про варианты, контекст и твои критерии — потому что без них не сможет выстроить осьсравнения. Она возьмёт структуру из шаблона и адаптирует под твою ситуацию.
Ограничения
⚠️ Reasoning — не панацея: Даже с включённым рассуждением модели остаются непоследовательными в значительной доле суждений. Reasoning резко улучшает ситуацию, но не доводит до 100% надёжности. Для критических решений — верифицируй несколькими промптами.
⚠️ Метод работает для ценностных/сравнительных суждений: Фактические вопросы ("сколько стоит аренда в Москве") — другая история. Параметрический тест нужен там, где в основе субъективный выбор или приоритизация.
⚠️ Масштаб модели не гарантирует последовательность: Исследование показало, что более крупные модели без reasoning могут быть менее последовательны, чем меньшие с reasoning. Не решай "возьму самую большую модель" — включи рассуждение.
⚠️ Стресс-тест требует осторожности с формулировкой: Усиивать нужно именно то измерение, которое делало вариант привлекательным. Если случайно добавишь другой плюс — тест теряет смысл.
Как исследовали
Идея была простой: предыдущие работы утверждали, что LLM имеют стабильные предпочтения — модели последовательно выбирают одни утверждения вместо других, и это можно описать функцией полезности. Исследователи решили проверить: а если усилить плюс в предпочитаемом варианте — предпочтение сохранится?
Для проверки взяли 100 "лесенок" — цепочек из 7 версий одного утверждения, где каждый следующий уровень усиливает ключевое свойство. Например, утверждение про "иметь одного близкого друга" становится сначала "иметь двух", потом "иметь широкий круг поддерживающих людей" и т.д. Каждую из 700 версий сравнивали с 30 фиксированными утверждениями из других категорий — в общей сложности 420 000 API-вызовов.
Логика была железная: если модель действительно предпочитает A перед B, она должна ещё сильнее предпочитать A+ перед тем же B. Если нет — предпочтение было случайным. Результат оказался неожиданным: большинство моделей провалили тест. Самое неожиданное — меньшая модель с включённым reasoning (GPT-5.4 Nano Thinking) показала 58% последовательных ответов против 41% у GPT-5.4 Standard без reasoning. Reasoning оказался важнее, чем размер модели — что прямо противоречит распространённому убеждению "большая модель = умнее".
Оригинал из исследования
Пример forced-choice задачи (как тестировали предпочтения):
We employed the same design choice of [Mazeika et al., 2025] to obtain LLM preferences
through forced-choice prompts.
For each pair, we ran 10 trials in original A/B order and 10 trials in flipped order
(20 total), then aggregated outcomes into a single win probability.
All trials used temperature = 0.
A coherent model should, as the tier increases, become at least as likely to choose
the ladder statement. In other words, the choiceworthiness of each tier should
increase monotonically.
For example, the curve (0.10, 0.20, 0.35, 0.50, 0.65, 0.75, 0.90) passes
the monotonicity test.
The curve (0.10, 0.20, 0.35, 0.50, 0.48, 0.75, 0.90) fails, because the model
chooses T5 (0.48) less often than T4 (0.50) against the same comparison statement.
Контекст: Так исследователи измеряли, насколько последовательна модель — если предпочтение реальное, оно должно расти при усилении ключевого свойства.
Адаптации и экстраполяции
💡 Адаптация для долгих диалогов: Если в ходе длинного контекста AI давал несколько рекомендаций — проверь их параметрическим тестом в конце разговора. "Раньше ты рекомендовал вариант A. Если A будет на 50% лучше по ключевой метрике — ты рекомендуешь то же самое?" Если AI меняет ответ без причины — флаг для пересмотра.
🔧 Техника: Зафиксируй ось перед сравнением → стабильнее вывод
Вместо просто "что выбрать" — сначала явно задай ось:
Оценивай только по критерию [скорость запуска / потенциальная выручка / риск].
Игнорируй остальные факторы.
Теперь сравни: {вариант A} vs {вариант B}
Когда модель знает одну ось, параметрический тест становится острее: усиливать нужно именно эту ось, и проверять — сохраняется ли логика.
Ресурсы
Название работы: Incoherent Values? Probing LLM Preferences Through Parametric Variation (2025, Preprint)
Авторы: Elena Ajayi, Angelica Chowdhury, Seth Lazar
Организации: Machine Intelligence Normative Theory Lab (MINT); School of Government and Policy, Johns Hopkins University
Ключевые отсылки из исследования: Mazeika et al. (2025) — предыдущая работа о стабильных предпочтениях LLM, которую данное исследование оспаривает; Hare (2010) — философская основа принципа параметрической вариации
