3,583 papers
arXiv:2602.09802 74 10 фев. 2026 г. FREE

LLM завышают готовность платить: три принципа калибровки субъективных выборов

КЛЮЧЕВАЯ СУТЬ
Обнаружено: LLM весит важность опций пропорционально длине их описания в промпте, а не реальной ценности. Детально расписал premium-поддержку на 3 строки, а базовую на полстроки? Модель переоценит premium в 2-4 раза против человеческих предпочтений — даже если для тебя разница не критична. Три принципа калибровки позволяют получать рекомендации близкие к твоим реальным приоритетам: (1) балансируй длину описаний всех опций, (2) дай 2-3 примера твоих прошлых выборов для якорения ценовой чувствительности, (3) опиши свой профиль в контексте задачи. Фишка: модель не имеет внутренней шкалы ценности денег — «1000 рублей» для неё просто токены. Поэтому она выводит важность из структуры промпта: длинное описание = важная штука, короткое = менее важная. Разница в описании на 3 строки → переоценка готовности платить в 2-4 раза.
Адаптировать под запрос

TL;DR

LLM систематически переоценивают готовность человека платить при субъективных выборах — например, при выборе отеля модели готовы "доплатить" в 2-4 раза больше чем люди за определённые опции. Чем детальнее описан атрибут в промпте, тем сильнее модель его весит в итоговом решении — даже если для человека он не так важен.

Две критичные проблемы для агентских сценариев: (1) Дисбаланс описаний создаёт дисбаланс важности — доступ к клубу отеля описали подробно ("завтрак и вечерние коктейли в панорамном ресторане"), и модели переоценили его в 2-4 раза против человеческих данных. Когда описание сократили до сухого "доступ к клубу", WTP упала вдвое. (2) Введение дорогих опций или бизнес-персоны сдвигает всю шкалу оценок вверх — модель начинает "думать дороже". Меньшие модели (<70B параметров) дают хаотичные результаты с order bias — тупо выбирают первый вариант.

Три принципа калибровки: (1) Балансируй длину описаний опций — подробность = важность для LLM. (2) Давай контекст прошлых выборов пользователя — примеры дешёвых выборов сдвигают оценки к реалистичным значениям. (3) Персоны влияют на ценовую чувствительность — студент экономит, бизнесмен тратит.


🧠

Как это работает

Исследователи создали 240 дилемм выбора между двумя номерами отеля с разными характеристиками: вид из окна, этаж, доступ к клубу, минибар, смартфон для гостя, условия отмены, цена. Для каждой модели собрали все 240 ответов и прогнали через экономическую модель (multinomial logit) — она вычисляет implied WTP (готовность платить) для каждого атрибута. Например, если модель постоянно выбирает номер с видом на гавань, даже когда он на 500 HK$ дороже, но отказывается при разнице в 1000 HK$ — значит её WTP за вид = примерно 700-800 HK$.

Эти значения сравнили с человеческими бенчмарками из экономических исследований на реальных гостях отелей. Разрыв оказался огромным на некоторых атрибутах.


📌

Три принципа калибровки

📌

Принцип 1: Балансировка описаний

Проблема: LLM весит важность атрибута пропорционально длине его описания, не реальной ценности.

Пример из исследования: - "Access to hotel club" (короткое) → модели недооценивали - "Access to hotel club which includes extra services such as breakfast and evening cocktails served in the panoramic restaurant" (детальное) → переоценка в 2-4 раза против человеческих данных

Когда описание сократили до базового, WTP для Llama 3.3 70B упала с 1874 HK$ до 864 HK$ — больше чем вдвое.

Как применять: При формулировании опций для сравнения давай одинаковый уровень детализации. Если одну опцию расписал подробно — распиши все остальные так же. Или наоборот — все сухо и кратко.

❌ Плохо:
Вариант А: быстрая доставка
Вариант Б: премиум доставка с отслеживанием в реальном времени, SMS-уведомлениями на каждом этапе, возможностью изменить адрес до момента отправки, приоритетной обработкой

✅ Хорошо:
Вариант А: быстрая доставка (2-3 дня, базовое отслеживание)
Вариант Б: премиум доставка (1-2 дня, детальное отслеживание, гибкие условия)

🚀

Принцип 2: Примеры прошлых выборов

Проблема: Без якорения модель не знает твою ценовую чувствительность и склонна завышать.

Находка из исследования: Когда моделям давали 3 примера прошлых выборов пользователя в формате in-context learning, их WTP значительно сдвигалась: - Примеры дешёвых выборов → WTP ближе к человеческим значениям - Примеры дорогих выборов → WTP улетает вверх ещё сильнее

Как применять: Перед запросом рекомендации дай 2-3 примера твоих прошлых решений в похожих ситуациях. Это откалибрует модель на твой уровень трат.

У меня есть выбор между двумя подрядчиками. Для контекста — мои недавние решения:

1. Выбирал между дизайнером за 80к и за 150к — взял за 80к, результат устроил
2. Хостинг: был вариант за 500₽/мес и за 1500₽/мес — взял за 500₽, хватает  
3. Email-рассылка: есть тариф за 2000₽ и за 5000₽ — пока на бесплатном, думаю взять за 2000₽

Теперь выбор:
[описание вариантов]

Что посоветуешь с учётом моего паттерна?

📌

Принцип 3: Персонификация

Проблема: Абстрактный "пользователь" получает абстрактные рекомендации. Бизнес-контекст или студенческий бюджет — разные вселенные.

Находка из исследования: Персоны драматически меняют ценовую чувствительность: - Бизнес-персона ("компания оплачивает, главное комфорт") → модель агрессивно выбирает дорогие опции - Студент-путешественник ("бюджет ограничен") → модель фокусируется на цене

Комбинация персоны + примеры выборов работает сильнее всего.

Как применять: Опиши свой профиль в контексте задачи — не абстрактно ("я предприниматель"), а конкретно ("стартап на pre-seed, бюджет ограничен, критично уложиться в смету").

Мой контекст: Freelance-дизайнер, работаю один, доход нестабильный (50-150к/мес). 
Для меня важнее предсказуемость расходов и возможность масштабировать постепенно.

Выбираю между:
[варианты]

Что разумнее для моей ситуации?

🚀

Пример применения

⚠️ Сильная зона: Субъективные выборы с trade-offs между несколькими атрибутами (цена/качество/скорость). Слабая зона: Объективные вопросы или простые однозначные задачи.


Задача: Выбираешь между двумя веб-студиями для разработки интернет-магазина.

Промпт без калибровки (проблемный):

Помоги выбрать веб-студию для интернет-магазина.

Вариант А:
- Цена: 300 000 ₽
- Срок: 2 месяца
- Портфолио: 50+ проектов
- Поддержка: standart (email, рабочие дни)

Вариант Б:
- Цена: 450 000 ₽
- Срок: 1.5 месяца
- Портфолио: 20 проектов
- Поддержка: premium — выделенный менеджер на связи 24/7, приоритетные 
  правки, ежемесячные консультации по развитию проекта, бесплатный аудит 
  конверсии через 3 месяца

Что выбрать?

Результат: Модель с высокой вероятностью выберет Б из-за детального описания поддержки, хотя для многих клиентов разница в 150к не оправдана. Premium-поддержка описана в 5 раз подробнее → модель видит её в 5 раз важнее.


Промпт с калибровкой:

Помоги выбрать веб-студию для интернет-магазина.

Мой профиль: Начинающий предприниматель, первый интернет-магазин. Сейчас 
работаю в найме, вкладываю накопления. Бюджет ограничен 350к максимум, для 
меня критично уложиться в смету и запустить MVP быстро.

Контекст моих прошлых решений:
- Выбирал между дизайнером за 80к и за 150к → взял за 80к, результат устроил  
- Хостинг: тариф за 500₽/мес vs 1500₽/мес → взял за 500₽, пока хватает
- Фотосессия товаров: 15к vs 35к → взял за 15к, доснял сам недостающее

Вариант А:
- Цена: 300 000 ₽
- Срок: 2 месяца  
- Портфолио: 50+ проектов (можно посмотреть кейсы)
- Поддержка: standart (email поддержка в рабочие дни, ответ до 24 часов)

Вариант Б:
- Цена: 450 000 ₽
- Срок: 1.5 месяца
- Портфолио: 20 проектов (более крупные бренды)
- Поддержка: premium (выделенный менеджер, связь 24/7, приоритет)

Что выбрать с учётом моей ситуации?

Результат: Модель получает три калибрующих сигнала: (1) примеры прошлых бюджетных выборов задают паттерн ценовой чувствительности, (2) персона начинающего предпринимателя с указанием на ограниченный бюджет усиливает фокус на цене и рисках, (3) сбалансированные описания опций устраняют искажение от длины текста. Рекомендация будет учитывать реальные приоритеты, не абстрактное "премиум лучше".


🧠

Почему это работает

LLM не имеет внутренней шкалы ценности денег — для неё "1000 рублей" это просто токены, не покупательная способность. Поэтому она выводит важность из структуры промпта: длинное описание = важная штука, короткое = менее важная.

Человек автоматически учитывает личный опыт ("за такие деньги я обычно получаю X"), финансовый контекст ("это 20% моего месячного бюджета"), социальные паттерны ("мои знакомые в похожей ситуации выбирают Y"). LLM всего этого не знает, пока не скажешь явно.

Примеры прошлых выборов работают как якорение — устанавливают референсную точку "нормальной" цены для пользователя. Персона добавляет контекст принятия решения — почему одна цена приемлема, а другая нет. Балансировка описаний убирает искусственное усиление некоторых опций за счёт многословности.

Эффект усиливается в больших моделях (70B+), потому что они лучше удерживают контекст и более чувствительны к паттернам в примерах. Маленькие модели (<10B) часто показывают order bias — просто выбирают первый вариант, игнорируя атрибуты.


📋

Шаблон промпта для калиброванных рекомендаций

Мне нужна помощь с выбором между вариантами.

Мой профиль: {твоя ситуация в контексте задачи — роль, ограничения, приоритеты}

Контекст прошлых решений в похожих ситуациях:
1. {ситуация выбора} → {что выбрал и почему}
2. {ситуация выбора} → {что выбрал и почему}  
3. {ситуация выбора} → {что выбрал и почему}

Сейчас выбираю между:

Вариант А:
- {атрибут 1}: {значение}
- {атрибут 2}: {значение}
- {атрибут 3}: {значение}
- Цена: {цена}

Вариант Б:
- {атрибут 1}: {значение}
- {атрибут 2}: {значение}
- {атрибут 3}: {значение}
- Цена: {цена}

Что разумнее для моей ситуации? Объясни trade-offs.

Где заполнять: - {твоя ситуация} — не просто "я фрилансер", а "фрилансер с нестабильным доходом, критично контролировать постоянные расходы" - {прошлые решения} — 2-3 примера где ты выбирал между дешёвым и дорогим вариантом в релевантной области - {атрибуты} — опиши одинаковым уровнем детализации, если один пункт на 2 строки — все на 2 строки


⚠️

Ограничения

⚠️ Маленькие модели хаотичны: Модели меньше 70B параметров показывают order bias (выбирают первый вариант по умолчанию) и нелогичные WTP (положительный коэффициент у цены = "чем дороже, тем лучше"). Используй GPT-4o, Claude 3.5 Sonnet, Gemini Pro или Llama 3.3 70B+.

⚠️ Дорогие опции сдвигают шкалу: Если в выборе есть очень дорогой вариант (даже если ты его не рассматриваешь), модель начинает "думать дороже" и завышает оценку средних опций. Убирай неактуальные варианты из промпта.

⚠️ Бизнес-персоны усиливают переоценку: Формулировка "компания оплачивает" или "корпоративный бюджет" делает модель менее чувствительной к цене. Если бюджет ограничен даже в бизнес-контексте — явно укажи лимит.

⚠️ Работает для trade-offs, не для объективных вопросов: Эти принципы полезны где есть субъективное сравнение атрибутов. Для вопросов с правильным ответом ("какой тариф дешевле?") калибровка не нужна — модель и так посчитает корректно.


🔍

Как исследовали

Команда из University of Antwerp создала 240 уникальных дилемм выбора между двумя отельными номерами. Каждый номер описывался семью атрибутами: вид (город/гавань), этаж (10/18/26), доступ к клубу, тип минибара, гостевой смартфон, условия отмены, цена (от 1600 до 3200 HK$). Комбинации генерировались так, чтобы не было доминирующих вариантов — приходилось выбирать между trade-offs.

Для каждой из трёх моделей (Llama 3.3 70B, GPT-4o, Gemini-3-Pro) собрали ответы на все 240 дилемм при разных промпт-условиях: без контекста (baseline), с 1-3 примерами прошлых выборов (случайные и специально сконструированные), с персонами (бизнес-путешественник vs студент-бэкпекер), с комбинацией персоны + примеры.

Выборы моделей прогнали через multinomial logit model — стандартный инструмент поведенческой экономики для оценки utility functions. Модель выдаёт коэффициенты важности каждого атрибута, из которых вычислили implied WTP: сколько модель "готова доплатить" за каждую характеристику. Например, если коэффициент вида = 0.53, а цены = -1.17, то WTP за harbour view = (0.53 / 1.17) × стандартизация = ~511 HK$.

Эти значения сравнили с человеческим бенчмарком из исследования Masiero et al. (2015) на реальных гостях отелей в Гонконге. Разрывы оказались систематическими: модели переоценили club access в 2-4 раза (человек готов доплатить 437 HK$, Llama оценила в 1874 HK$), но недооценили вид из окна и услугу guest smartphone.

Почему club access переоценили? Исследователи проверили гипотезу: скоратили описание "access to hotel club which includes breakfast and cocktails in panoramic restaurant" до просто "access to hotel club". WTP Llama упала с 1874 до 864 HK$ — подтвердилось, что длина описания = воспринимаемая ценность для LLM.

Самое интересное нашли в экспериментах с in-context learning: когда давали 3 примера где пользователь всегда выбирал дешёвый вариант, средняя девиация от человеческих WTP снижалась для всех моделей. Когда давали примеры дорогих выборов — модели уходили в ещё большее завышение. Это показывает, что LLM извлекают паттерн ценовой чувствительности из контекста и экстраполируют на новые решения.

Псевдо-R² моделей составил от 0.63 (Llama) до 0.90 (Gemini-3-Pro), что означает высокую предсказательную силу — решения моделей действительно следуют определённой логике, не случайны. Но эта логика систематически отклоняется от человеческой.


🔗

Ресурсы

Would a Large Language Model Pay Extra for a View? Inferring Willingness to Pay from Subjective Choices

Авторы: Manon Reusens, Sofie Goethals, Toon Calders, David Martens

University of Antwerp, Department of Engineering Management & Computer Science

Код исследования: github.com/manon-reusens/WTP_LLMs

Базовое исследование человеческих WTP:

Masiero et al. (2015) — оригинальное исследование готовности платить за атрибуты отелей на выборке реальных гостей в Гонконге


📋 Дайджест исследования

Ключевая суть

Обнаружено: LLM весит важность опций пропорционально длине их описания в промпте, а не реальной ценности. Детально расписал premium-поддержку на 3 строки, а базовую на полстроки? Модель переоценит premium в 2-4 раза против человеческих предпочтений — даже если для тебя разница не критична. Три принципа калибровки позволяют получать рекомендации близкие к твоим реальным приоритетам: (1) балансируй длину описаний всех опций, (2) дай 2-3 примера твоих прошлых выборов для якорения ценовой чувствительности, (3) опиши свой профиль в контексте задачи. Фишка: модель не имеет внутренней шкалы ценности денег — «1000 рублей» для неё просто токены. Поэтому она выводит важность из структуры промпта: длинное описание = важная штука, короткое = менее важная. Разница в описании на 3 строки → переоценка готовности платить в 2-4 раза.

Принцип работы

Не пиши все опции одинаковым стилем, если хочешь честное сравнение. LLM работает не как человек — она не «чувствует» ценность атрибутов из жизненного опыта. Пример из исследования: описание «доступ к клубу отеля» (короткое) модель недооценивала. Когда расширили до «доступ к клубу отеля, включая завтрак и вечерние коктейли в панорамном ресторане» — готовность платить для Llama 3.3 70B выросла с 864 HK$ до 1874 HK$. Вдвое больше за одну и ту же фичу, просто потому что описание в 3 раза длиннее. Правило: если одну опцию описал на 2 строки — опиши все опции на 2 строки. Или все на полстроки. Длина описания = сигнал важности для модели.

Почему работает

LLM не знает что «1000 рублей это 20% моего месячного бюджета на инструменты» или «мои знакомые в похожей ситуации тратят не больше 5к». Для модели деньги = абстрактные числа, не покупательная способность. Поэтому она цепляется за единственные доступные сигналы важности: длину текста, детализацию, порядок упоминания. Примеры прошлых выборов работают как якорение — устанавливают точку отсчёта «нормальной» цены для тебя. Персона (профиль) добавляет контекст принятия решения — почему одна цена приемлема, а другая нет. Цифры: в экспериментах на 240 дилеммах выбора отелей модели переоценивали готовность платить за некоторые атрибуты в 2-4 раза против человеческих данных. Когда давали 3 примера прошлых бюджетных выборов — оценки сдвигались к реалистичным значениям.

Когда применять

Субъективные выборы с компромиссами между несколькими атрибутами (цена/качество/скорость/удобство) → конкретно для рекомендаций и сравнений вариантов, особенно когда есть ценовой диапазон и разные уровни сервиса. НЕ подходит для объективных вопросов («какой тариф математически дешевле?») — там модель посчитает корректно без калибровки.

Мини-рецепт

1. Профиль в контексте задачи: не «я предприниматель», а «стартап на посевном раунде, бюджет ограничен, критично уложиться в смету»

2. Примеры прошлых выборов (2-3 штуки): «Выбирал между дизайнером за 80к и за 150к → взял за 80к, результат устроил»

3. Балансировка описаний: если premium-тариф описал на 3 строки, базовый тоже опиши на 3 строки с конкретными деталями

4. Убери слишком дорогие варианты: наличие очень дорогой опции сдвигает всю шкалу вверх, даже если ты её не рассматриваешь

Примеры

[ПЛОХО] : Помоги выбрать CRM. Вариант А: базовый за 2000₽/мес. Вариант Б: продвинутый за 8000₽/мес с автоматизацией воронок, интеграцией с мессенджерами, AI-скорингом лидов, выделенным менеджером поддержки Проблема: вариант Б описан в 4 раза подробнее → модель переоценит его важность. Плюс нет контекста твоих приоритетов.
[ХОРОШО] : `` Выбираю CRM для небольшого агентства (5 человек). Мой профиль: Небольшое digital-агентство, доход нестабильный. Критично контролировать постоянные расходы, для меня важнее предсказуемость чем навороты. Прошлые решения: - Email-рассылки: тариф за 2000₽ vs 5000₽ → взял за 2000₽, функций хватает - Хостинг: за 500₽ vs 1500₽ → взял за 500₽, работает стабильно - Таск-менеджер: бесплатный Trello vs платный Asana за 3000₽ → пока на Trello Варианты: А: Базовый за 2000₽/мес - До 1000 контактов - Email + телефон поддержки (ответ до 24ч) - Стандартные отчёты (воронка, конверсия) - Интеграция с почтой и календарём Б: Продвинутый за 8000₽/мес - До 10000 контактов - Выделенный менеджер (ответ до 2ч) - Кастомные отчёты + дашборды - Интеграция с мессенджерами, соцсетями, AI-скоринг Что разумнее для моей ситуации? `` Результат: модель видит паттерн бюджетных выборов, профиль с акцентом на предсказуемость расходов, сбалансированные описания обоих вариантов. Рекомендация учтёт реальные приоритеты.
Источник: Would a Large Language Model Pay Extra for a View? Inferring Willingness to Pay from Subjective Choices
ArXiv ID: 2602.09802 | Сгенерировано: 2026-02-11 05:38

Проблемы LLM

ПроблемаСутьКак обойти
Модель весит важность по длине описанияДаёшь два варианта. Один описан коротко: "доступ к клубу". Второй подробно: "доступ к клубу с завтраками, вечерними коктейлями в панорамном ресторане". Модель решает: второй важнее — там больше слов. Хотя по сути это одно и то же. Результат: модель переоценивает подробно описанные опции в 2-4 раза против реальных приоритетовДавай одинаковый уровень детализации всем вариантам. Все кратко или все развёрнуто. Если один пункт на две строки — остальные тоже на две

Методы

МетодСуть
Примеры прошлых выборов для калибровки ценыПеред запросом рекомендации дай 2-3 примера твоих прошлых решений в похожих ситуациях: "Выбирал между дизайнером за 80к и за 150к — взял за 80к. Хостинг: 500₽ vs 1500₽ — взял дешёвый". Почему работает: Модель не имеет внутренней шкалы ценности денег. "1000 рублей" для неё просто токены. Примеры показывают твою ценовую чувствительность — что для тебя "дорого" и "нормально". Это якорь. Когда применять: Субъективные выборы с балансом цена/качество/скорость. Когда нет: Объективные вопросы ("какой тариф дешевле")
Персона с финансовым контекстомОпиши профиль конкретно в контексте задачи: не "я предприниматель", а "стартап на pre-seed, бюджет ограничен 350к максимум, критично уложиться в смету". Почему работает: Абстрактный "пользователь" получает абстрактные оценки. Персона добавляет контекст — почему одна цена приемлема, другая нет. "Студент" модель экономит. "Бизнес оплачивает компания" модель тратит агрессивно. Комбинируй с примерами — эффект усиливается. Осторожно: Формулировка "корпоративный бюджет" делает модель менее чувствительной к цене даже если лимит есть
📖 Простыми словами

Would aLargeLanguageModelPay Extra for a View? Inferring Willingness to Pay from Subjective Choices

arXiv: 2602.09802

Нейросети на самом деле понятия не имеют, сколько стоят деньги. Для LLM любая сумма — это просто набор цифр, а не часы твоей жизни, потраченные на работу. Когда ты просишь модель выбрать отель или товар, она не соотносит цену с реальностью, а пытается угадать «правильный» ответ, опираясь на структуру твоего вопроса. В итоге получается галлюцинация ценности: модель ведет себя как транжира с чужой кредиткой, приписывая вещам значимость, которой у них нет.

Это как если бы ты пришел в автосалон с другом-теоретиком, который никогда не водил машину. Ты смотришь на расход топлива и цену, а он в восторге от «перламутрового напыления на ручках», потому что в буклете про это написано три абзаца. Друг уверен, что за такую красоту не грех переплатить вдвое, ведь раз об этом так много говорят, значит, это чертовски важно. Модель работает ровно так же: она путает объем текста с реальной ценностью.

Исследование показало, что модели готовы «доплачивать» за опции в 2–4 раза больше, чем реальные люди. Главный баг здесь — вес атрибутов. Если ты распишешь вид из окна на полстраницы, а цену упомянешь вскользь, модель решит, что вид — это база, а лишние сто долларов — пыль. Чем детальнее описана фича в промпте, тем сильнее модель на ней зацикливается. Это превращает субъективный выбор в систематическую ошибку, где логика пасует перед количеством токенов.

Этот принцип универсален для любых задач, где нужно выбирать между ценой, качеством и скоростью. Тестировали на отелях, но это касается и выбора софта, и найма сотрудников, и оценки бизнес-стратегий. Если ты дашь LLM сравнивать два варианта, она не выдаст объективный вердикт, а просто «клюнет» на тот пункт, который расписан сочнее. Субъективные предпочтения AI — это зеркало того, как ты составил описание, а не реальный анализ рынка.

Короче: никогда не используй нейросеть как финального судью в вопросах «стоит ли оно того». Она переоценивает готовность платить, потому что не чувствует боли от пустых карманов. Если хочешь получить от модели адекватный совет, выравнивай описания всех опций по длине и детальности, иначе получишь ответ в стиле «конечно, бери этот золотой ершик, про него так красиво написано». Без жесткого контроля структуры промпта любой совет модели по бюджету — это полная фигня.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с