3,583 papers
arXiv:2606.21102 77 19 июня 2026 г. FREE

Parametric Variation Probe: LLM непоследовательны в оценках — и как это использовать в работе

КЛЮЧЕВАЯ СУТЬ
AI выбрал вариант A. Ты усилил его плюсы — сделал A+. AI выбрал B. Это не баг конкретной модели — это системная особенность: LLM не сравнивают варианты, они генерируют токены по паттернам. Порядок слов, длина описания, позиция в тексте — всё это меняет «выбор» без всякой логики внутри. Метод даёт два инструмента, чтобы это починить: Reasoning Trigger и Parametric Variation Test — они позволяют получать последовательные, проверяемые рекомендации при сравнении вариантов. Явный запрос на пошаговое рассуждение создаёт «якорь» — модель фиксирует логику до ответа и при похожем вопросе продолжает ту же цепочку, а не стартует с нуля. При этом меньшая модель с включённым рассуждением даёт более связные ответы, чем крупная без него — размер не спасает.
Адаптировать под запрос

TL;DR

LLM не имеют стабильных предпочтений. Если модель выбрала вариант A вместо B, это не значит, что она выберет улучшенный A+ вместо того же B — она запросто может выбрать B. Исследователи назвали это непоследовательностью ценностей: предпочтения модели при вынужденном выборе часто не складываются в единую картину, не обобщаются на похожие ситуации.

Когда просишь модель быстро сравнить два варианта, она не "думает и решает" — она генерирует ответ по паттернам. Результат похож на случайный: то выберет одно, то другое, в зависимости от формулировки. Это особенно сильно проявляется при этических, ценностных и приоритетных суждениях — анализ коммерческого предложения, выбор между несколькими стратегиями, оценка рисков, ранжирование задач.

Главная находка: режим рассуждения (reasoning/thinking mode) резко повышает последовательность — у модели меньшего размера с включённым reasoning больше связных ответов, чем у более крупной без него. Это даёт конкретный инструмент: включай рассуждение всегда, когда просишь AI сравнивать, ранжировать или оценивать.


🔬

Схема метода

Два инструмента, которые вытекают из исследования:

ИНСТРУМЕНТ 1 — Reasoning Trigger (применяй всегда при ценностных суждениях)
ШАГ 1: Задаёшь вопрос на сравнение/оценку
ШАГ 2: Явно просишь "рассуждай пошагово" перед ответом
ШАГ 3: Получаешь связный вывод с обоснованием → надёжнее, чем быстрый ответ

ИНСТРУМЕНТ 2 — Parametric Variation Test (стресс-тест предпочтения AI)
ШАГ 1: Получаешь от AI рекомендацию "выбери A, не B"
ШАГ 2: Усиливаешь плюс в A — делаешь A+ (больше того, что делало A лучше)
ШАГ 3: Спрашиваешь снова: "теперь выбери между A+ и B"
ШАГ 4: Если AI переключился на B — первый ответ был случайным, не доверяй

Оба инструмента работают в обычном чате, один запрос или цепочка вопросов.

🚀

Пример применения

Задача: Илья — продуктовый менеджер. Ему нужно приоритизировать две задачи на квартал: запустить реферальную программу или улучшить онбординг. Просит AI помочь выбрать.

Промпт — Reasoning Trigger:

Помоги мне принять решение о приоритете.

Задача A: Запустить реферальную программу. 
Пользователи приглашают друзей, получают скидку 10%, LTV нового клиента — 4500₽.

Задача B: Улучшить онбординг новых пользователей.  
Сейчас 40% уходят в первую неделю, конверсия в платящих — 12%.

Рассуждай шаг за шагом: какие факторы важны для этого выбора, 
как каждый из них проявляется в этих двух задачах, и только потом — 
твой вывод с обоснованием. Не начинай с ответа.

Параметрический стресс-тест (следующим сообщением):

Хорошо. Теперь представь, что улучшение онбординга снизит отток в первую неделю 
не с 40% до 25%, а до 10% — это сильная версия той же задачи.

Ты всё ещё рекомендуешь реферальную программу? 
Рассуждай снова перед ответом.

Результат: В первом сообщении модель покажет развёрнутые шаги: анализирует LTV vs отток, считает потенциальный эффект, формулирует вывод. Второй запрос — стресс-тест: если AI меняет рекомендацию при усилении параметра B — это нормально и честно. Если не меняет без объяснений — стоит перепросить. Если переключается хаотично — значит, первый ответ был слабым, нужно перегенерировать с ещё более явным reasoning-требованием.


🧠

Почему это работает

Слабость LLM: Модель не "сравнивает" варианты в нашем понимании. Она генерирует следующий токен, основываясь на паттернах обучения. При чистом вопросе "выбери A или B" — выбор сильно зависит от порядка слов, длины вариантов, позиции в тексте. Нет "весов", нет "внутренней шкалы". Отсюда — непоследовательность: спроси три раза разными словами, получишь три разных ответа.

Сильная сторона LLM: Модель отлично следует структуре. Если попросить сначала выписать критерии, потом оценить каждый вариант по этим критериям, потом свести — каждый шаг будет корректным. Reasoning mode буквально заставляет модель строить промежуточные шаги перед ответом. Это снижает "прыжки" к первому подходящему ответу.

Как метод использует это: Явный запрос на рассуждение создаёт внутренний "якорь" — модель фиксирует логику до ответа, и при похожем вопросе с чуть другими параметрами продолжает ту же логику, а не стартует с нуля. Параметрическая вариация проверяет, есть ли вообще этот якорь — или каждый ответ независим от предыдущего.

Рычаги управления: - Количество шагов рассуждения → "рассуждай в 3 шага" vs "рассуждай подробно" — чем явнее структура, тем выше последовательность - Осевой критерий → "фокусируйся только на финансовом эффекте" — фиксирует ось сравнения, убирает дрейф - Parametric intensity → насколько сильно усиливать вариант в стресс-тесте: чем сильнее, тем яснее проявляется реальная суть предпочтения


📋

Шаблон промпта

Reasoning Trigger для сравнений:

Помоги мне выбрать между вариантами.

Вариант A: {описание_A}
Вариант B: {описание_B}

Важный контекст: {что важно именно мне — цель, ограничения, критерий}

Рассуждай по шагам:
1. Выдели ключевые критерии для этого выбора
2. Оцени каждый вариант по каждому критерию
3. Сформулируй вывод — только после шагов 1-2, не раньше

Parametric Variation Test:

Ты рекомендовал {вариант_A}.

Теперь рассмотри усиленную версию варианта B: {описание_B_plus — 
усиль именно то, что делало B привлекательным}.

Пересмотри свою рекомендацию с учётом этого изменения. 
Рассуждай снова перед ответом.

Плейсхолдеры: - {описание_A}, {описание_B} — конкретные варианты с цифрами - {что важно именно мне} — твой приоритет: скорость, деньги, риск, ресурсы - {описание_B_plus} — та же задача B, но усиленная: не "улучшит онбординг", а "снизит отток с 40% до 5%"


🚀 Быстрый старт — вставь в чат:

Вот шаблон для последовательного сравнения вариантов. 
Адаптируй под мою задачу: {твоя задача — что выбираешь}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит про варианты, контекст и твои критерии — потому что без них не сможет выстроить осьсравнения. Она возьмёт структуру из шаблона и адаптирует под твою ситуацию.


⚠️

Ограничения

⚠️ Reasoning — не панацея: Даже с включённым рассуждением модели остаются непоследовательными в значительной доле суждений. Reasoning резко улучшает ситуацию, но не доводит до 100% надёжности. Для критических решений — верифицируй несколькими промптами.

⚠️ Метод работает для ценностных/сравнительных суждений: Фактические вопросы ("сколько стоит аренда в Москве") — другая история. Параметрический тест нужен там, где в основе субъективный выбор или приоритизация.

⚠️ Масштаб модели не гарантирует последовательность: Исследование показало, что более крупные модели без reasoning могут быть менее последовательны, чем меньшие с reasoning. Не решай "возьму самую большую модель" — включи рассуждение.

⚠️ Стресс-тест требует осторожности с формулировкой: Усиивать нужно именно то измерение, которое делало вариант привлекательным. Если случайно добавишь другой плюс — тест теряет смысл.


🔍

Как исследовали

Идея была простой: предыдущие работы утверждали, что LLM имеют стабильные предпочтения — модели последовательно выбирают одни утверждения вместо других, и это можно описать функцией полезности. Исследователи решили проверить: а если усилить плюс в предпочитаемом варианте — предпочтение сохранится?

Для проверки взяли 100 "лесенок" — цепочек из 7 версий одного утверждения, где каждый следующий уровень усиливает ключевое свойство. Например, утверждение про "иметь одного близкого друга" становится сначала "иметь двух", потом "иметь широкий круг поддерживающих людей" и т.д. Каждую из 700 версий сравнивали с 30 фиксированными утверждениями из других категорий — в общей сложности 420 000 API-вызовов.

Логика была железная: если модель действительно предпочитает A перед B, она должна ещё сильнее предпочитать A+ перед тем же B. Если нет — предпочтение было случайным. Результат оказался неожиданным: большинство моделей провалили тест. Самое неожиданное — меньшая модель с включённым reasoning (GPT-5.4 Nano Thinking) показала 58% последовательных ответов против 41% у GPT-5.4 Standard без reasoning. Reasoning оказался важнее, чем размер модели — что прямо противоречит распространённому убеждению "большая модель = умнее".


📄

Оригинал из исследования

Пример forced-choice задачи (как тестировали предпочтения):

We employed the same design choice of [Mazeika et al., 2025] to obtain LLM preferences 
through forced-choice prompts.

For each pair, we ran 10 trials in original A/B order and 10 trials in flipped order 
(20 total), then aggregated outcomes into a single win probability.
All trials used temperature = 0.

A coherent model should, as the tier increases, become at least as likely to choose 
the ladder statement. In other words, the choiceworthiness of each tier should 
increase monotonically.

For example, the curve (0.10, 0.20, 0.35, 0.50, 0.65, 0.75, 0.90) passes 
the monotonicity test. 
The curve (0.10, 0.20, 0.35, 0.50, 0.48, 0.75, 0.90) fails, because the model 
chooses T5 (0.48) less often than T4 (0.50) against the same comparison statement.

Контекст: Так исследователи измеряли, насколько последовательна модель — если предпочтение реальное, оно должно расти при усилении ключевого свойства.


💡

Адаптации и экстраполяции

💡 Адаптация для долгих диалогов: Если в ходе длинного контекста AI давал несколько рекомендаций — проверь их параметрическим тестом в конце разговора. "Раньше ты рекомендовал вариант A. Если A будет на 50% лучше по ключевой метрике — ты рекомендуешь то же самое?" Если AI меняет ответ без причины — флаг для пересмотра.

🔧 Техника: Зафиксируй ось перед сравнением → стабильнее вывод

Вместо просто "что выбрать" — сначала явно задай ось:

Оценивай только по критерию [скорость запуска / потенциальная выручка / риск].
Игнорируй остальные факторы. 
Теперь сравни: {вариант A} vs {вариант B}

Когда модель знает одну ось, параметрический тест становится острее: усиливать нужно именно эту ось, и проверять — сохраняется ли логика.


🔗

Ресурсы

Название работы: Incoherent Values? Probing LLM Preferences Through Parametric Variation (2025, Preprint)

Авторы: Elena Ajayi, Angelica Chowdhury, Seth Lazar

Организации: Machine Intelligence Normative Theory Lab (MINT); School of Government and Policy, Johns Hopkins University

Ключевые отсылки из исследования: Mazeika et al. (2025) — предыдущая работа о стабильных предпочтениях LLM, которую данное исследование оспаривает; Hare (2010) — философская основа принципа параметрической вариации


📋 Дайджест исследования

Ключевая суть

AI выбрал вариант A. Ты усилил его плюсы — сделал A+. AI выбрал B. Это не баг конкретной модели — это системная особенность: LLM не сравнивают варианты, они генерируют токены по паттернам. Порядок слов, длина описания, позиция в тексте — всё это меняет «выбор» без всякой логики внутри. Метод даёт два инструмента, чтобы это починить: Reasoning Trigger и Parametric Variation Test — они позволяют получать последовательные, проверяемые рекомендации при сравнении вариантов. Явный запрос на пошаговое рассуждение создаёт «якорь» — модель фиксирует логику до ответа и при похожем вопросе продолжает ту же цепочку, а не стартует с нуля. При этом меньшая модель с включённым рассуждением даёт более связные ответы, чем крупная без него — размер не спасает.

Принцип работы

Не спрашивай 'что лучше' напрямую — сначала заставь модель выписать критерии, потом оценить каждый вариант по ним, и только потом — вывод. Буквально: 'Не начинай с ответа'. Это Reasoning Trigger. Дальше — стресс-тест: получил рекомендацию → усиль именно тот параметр, который делал проигравший вариант слабым → спроси снова с требованием рассуждать. Если модель переключилась хаотично и без объяснений — первый ответ был случайным: перегенерируй с более жёсткой структурой шагов. Если поменяла мнение с обоснованием — это честный результат. Усиливай только уже существующий плюс, иначе тест теряет смысл.

Почему работает

Когда нет структуры — модель прыгает к первому подходящему ответу. Следующий токен определяется паттернами из обучения, не внутренней шкалой ценностей. Спроси три раза разными словами — получишь три разных ответа. Пошаговое рассуждение физически не позволяет выдать случайный результат в конце: каждый шаг фиксирует логику, и следующий шаг не может ей противоречить. Не модель стала умнее — цепочка рассуждений работает как якорь. Именно поэтому меньшая модель с рассуждением бьёт крупную без него: дело не в размере, а в структуре.

Когда применять

Продуктовые и стратегические решения → выбор между несколькими направлениями, особенно когда у каждого варианта разные сильные стороны. Расстановка приоритетов по задачам → когда нужен не просто список, а обоснованный порядок с учётом конкретных ограничений. Оценка рисков и ранжирование инициатив → когда критерии субъективны или пересекаются. НЕ подходит для фактических вопросов ('сколько стоит аренда в Москве') — там другая механика, parametric test не нужен.

Мини-рецепт

1. Зафиксируй критерии явно: напиши что важно тебе — скорость, деньги, риск, ресурсы. Без этого модель сама выберет ось сравнения — и сменит её в следующем сообщении.
2. Задай структуру рассуждения: попроси выделить критерии → оценить каждый вариант по ним → только потом вывод. Добавь явно: 'Не начинай с ответа'.
3. Запусти стресс-тест: усиль проигравший вариант — именно тот параметр, который делал его слабее. Не добавляй новые плюсы, только усиливай существующий.
4. Читай переключение: поменяла с обоснованием — рассуждение работает, ответ можно доверять. Переключилась без объяснений или хаотично — перегенерируй с более жёсткой структурой шагов.

Примеры

[ПЛОХО] : Что лучше запустить первым — реферальную программу или улучшить онбординг?
[ХОРОШО] : Помоги выбрать приоритет. Вариант A: реферальная программа, скидка 10%, пожизненная ценность нового клиента — 4500₽. Вариант B: улучшить онбординг, сейчас 40% уходят в первую неделю, конверсия в платящих — 12%. Рассуждай по шагам: 1) выдели ключевые критерии для этого выбора, 2) оцени каждый вариант по каждому критерию, 3) вывод — только после шагов 1 и 2, не раньше. Стресс-тест следующим сообщением: Ты рекомендовал реферальную программу. Теперь усиленный онбординг: отток в первую неделю снижается не с 40% до 25%, а до 5%. Пересмотри рекомендацию — рассуждай снова перед ответом.
Источник: Incoherent Values? Probing LLM Preferences Through Parametric Variation
ArXiv ID: 2606.21102 | Сгенерировано: 2026-06-28 20:45

Проблемы LLM

ПроблемаСутьКак обойти
Модель не сравнивает варианты — она угадываетПросишь выбрать A или B. Модель генерирует ответ по паттернам. Не взвешивает варианты. Результат зависит от порядка слов, длины описаний, позиции в тексте. Спроси три раза разными словами — получишь три разных ответа. Особенно плохо при оценке стратегий, приоритетов, рисковПеред любым сравнением добавь: "Рассуждай пошагово: выдели критерии, оцени каждый вариант, только потом — вывод". Это создаёт логику до ответа, а не после

Методы

МетодСуть
Стресс-тест предпочтения — проверяй ответ усилениемПолучил рекомендацию "выбери A". Следующим запросом усиль именно тот параметр, который делал B привлекательным. Пример: B выигрывал по скорости — сделай B ещё быстрее. Спроси снова: "Ты всё ещё выбираешь A? Рассуждай перед ответом". Интерпретация: Поменял рекомендацию с объяснением — модель реально анализирует. Поменял без объяснений или не поменял вообще — первый ответ был случайным. Когда применять: любой выбор между вариантами где важно решение. Не применяй: фактические вопросы с одним верным ответом, не параметрический выбор
📖 Простыми словами

Incoherent Values? ProbingLLMPreferences Through Parametric Variation

arXiv: 2606.21102

Суть в том, что у нейросетей напрочь отсутствует внутренний стержень и логика предпочтений. Когда ты просишь модель выбрать между вариантом А и Б, она не взвешивает их на невидимых весах ценностей, а просто предсказывает следующий токен. Исследователи обнаружили феномен непоследовательности ценностей: если модель предпочла А, это вообще не гарантирует, что она выберет улучшенную версию того же А в следующий раз. У LLM нет «мнения», есть только статистическая вероятность, которая шатается от любого дуновения ветра в промпте.

Это как если бы ты спросил друга, что лучше — яблоко или старый сухарь, и он выбрал яблоко. Но когда ты предлагаешь ему на выбор сочное спелое яблоко и тот же сухарь, он вдруг тыкает в сухарь. Логика вышла из чата. В мире людей это признак шизофрении или троллинга, но для нейросети это норма, потому что её выбор — это математическая случайность, замаскированная под уверенный ответ. Она не понимает сути вещей, она просто комбинирует слова, которые в данный момент кажутся ей уместными.

В работе использовали метод параметрической вариации, чтобы прощупать эту пустоту внутри моделей. Выяснилось, что на выбор AI влияет любая фигня: порядок слов, длина предложений или то, какой вариант стоит первым. Если ты добавишь в описание одного из вариантов пару пафосных прилагательных, модель может резко передумать, хотя суть предложения не изменилась. Это доказывает, что стабильных предпочтений не существует — есть только реакция на конкретный набор символов здесь и сейчас.

Этот принцип применим к любой задаче, где ты пытаешься использовать AI как судью или аналитика. Будь то приоритизация фич в бэклоге, оценка резюме или выбор маркетинговой стратегии — результат будет рандомным. Тестировали это на абстрактных выборах, но принцип универсален: нельзя доверять нейросети принятие решений, требующих последовательной логики. Сегодня она «считает», что рефералка важнее онбординга, а завтра переставит их местами просто потому, что ты поменял точку на запятую.

Короче, не пытайся найти в ответах нейросети «глубинную мудрость» или твердую позицию. LLM — это флюгер, который крутится туда, куда дует контекст твоего вопроса. Если тебе нужно принять важное решение, не проси AI выбрать за тебя — он выдаст случайный результат с лицом знатока. Используй модель для генерации идей, но финальный выбор оставляй за собой, иначе рискуешь построить стратегию на фундаменте из чистого цифрового шума.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с