TL;DR
LLM систематически переоценивают готовность человека платить при субъективных выборах — например, при выборе отеля модели готовы "доплатить" в 2-4 раза больше чем люди за определённые опции. Чем детальнее описан атрибут в промпте, тем сильнее модель его весит в итоговом решении — даже если для человека он не так важен.
Две критичные проблемы для агентских сценариев: (1) Дисбаланс описаний создаёт дисбаланс важности — доступ к клубу отеля описали подробно ("завтрак и вечерние коктейли в панорамном ресторане"), и модели переоценили его в 2-4 раза против человеческих данных. Когда описание сократили до сухого "доступ к клубу", WTP упала вдвое. (2) Введение дорогих опций или бизнес-персоны сдвигает всю шкалу оценок вверх — модель начинает "думать дороже". Меньшие модели (<70B параметров) дают хаотичные результаты с order bias — тупо выбирают первый вариант.
Три принципа калибровки: (1) Балансируй длину описаний опций — подробность = важность для LLM. (2) Давай контекст прошлых выборов пользователя — примеры дешёвых выборов сдвигают оценки к реалистичным значениям. (3) Персоны влияют на ценовую чувствительность — студент экономит, бизнесмен тратит.
Как это работает
Исследователи создали 240 дилемм выбора между двумя номерами отеля с разными характеристиками: вид из окна, этаж, доступ к клубу, минибар, смартфон для гостя, условия отмены, цена. Для каждой модели собрали все 240 ответов и прогнали через экономическую модель (multinomial logit) — она вычисляет implied WTP (готовность платить) для каждого атрибута. Например, если модель постоянно выбирает номер с видом на гавань, даже когда он на 500 HK$ дороже, но отказывается при разнице в 1000 HK$ — значит её WTP за вид = примерно 700-800 HK$.
Эти значения сравнили с человеческими бенчмарками из экономических исследований на реальных гостях отелей. Разрыв оказался огромным на некоторых атрибутах.
Три принципа калибровки
Принцип 1: Балансировка описаний
Проблема: LLM весит важность атрибута пропорционально длине его описания, не реальной ценности.
Пример из исследования: - "Access to hotel club" (короткое) → модели недооценивали - "Access to hotel club which includes extra services such as breakfast and evening cocktails served in the panoramic restaurant" (детальное) → переоценка в 2-4 раза против человеческих данных
Когда описание сократили до базового, WTP для Llama 3.3 70B упала с 1874 HK$ до 864 HK$ — больше чем вдвое.
Как применять: При формулировании опций для сравнения давай одинаковый уровень детализации. Если одну опцию расписал подробно — распиши все остальные так же. Или наоборот — все сухо и кратко.
❌ Плохо:
Вариант А: быстрая доставка
Вариант Б: премиум доставка с отслеживанием в реальном времени, SMS-уведомлениями на каждом этапе, возможностью изменить адрес до момента отправки, приоритетной обработкой
✅ Хорошо:
Вариант А: быстрая доставка (2-3 дня, базовое отслеживание)
Вариант Б: премиум доставка (1-2 дня, детальное отслеживание, гибкие условия)
Принцип 2: Примеры прошлых выборов
Проблема: Без якорения модель не знает твою ценовую чувствительность и склонна завышать.
Находка из исследования: Когда моделям давали 3 примера прошлых выборов пользователя в формате in-context learning, их WTP значительно сдвигалась: - Примеры дешёвых выборов → WTP ближе к человеческим значениям - Примеры дорогих выборов → WTP улетает вверх ещё сильнее
Как применять: Перед запросом рекомендации дай 2-3 примера твоих прошлых решений в похожих ситуациях. Это откалибрует модель на твой уровень трат.
У меня есть выбор между двумя подрядчиками. Для контекста — мои недавние решения:
1. Выбирал между дизайнером за 80к и за 150к — взял за 80к, результат устроил
2. Хостинг: был вариант за 500₽/мес и за 1500₽/мес — взял за 500₽, хватает
3. Email-рассылка: есть тариф за 2000₽ и за 5000₽ — пока на бесплатном, думаю взять за 2000₽
Теперь выбор:
[описание вариантов]
Что посоветуешь с учётом моего паттерна?
Принцип 3: Персонификация
Проблема: Абстрактный "пользователь" получает абстрактные рекомендации. Бизнес-контекст или студенческий бюджет — разные вселенные.
Находка из исследования: Персоны драматически меняют ценовую чувствительность: - Бизнес-персона ("компания оплачивает, главное комфорт") → модель агрессивно выбирает дорогие опции - Студент-путешественник ("бюджет ограничен") → модель фокусируется на цене
Комбинация персоны + примеры выборов работает сильнее всего.
Как применять: Опиши свой профиль в контексте задачи — не абстрактно ("я предприниматель"), а конкретно ("стартап на pre-seed, бюджет ограничен, критично уложиться в смету").
Мой контекст: Freelance-дизайнер, работаю один, доход нестабильный (50-150к/мес).
Для меня важнее предсказуемость расходов и возможность масштабировать постепенно.
Выбираю между:
[варианты]
Что разумнее для моей ситуации?
Пример применения
⚠️ Сильная зона: Субъективные выборы с trade-offs между несколькими атрибутами (цена/качество/скорость). Слабая зона: Объективные вопросы или простые однозначные задачи.
Задача: Выбираешь между двумя веб-студиями для разработки интернет-магазина.
Промпт без калибровки (проблемный):
Помоги выбрать веб-студию для интернет-магазина.
Вариант А:
- Цена: 300 000 ₽
- Срок: 2 месяца
- Портфолио: 50+ проектов
- Поддержка: standart (email, рабочие дни)
Вариант Б:
- Цена: 450 000 ₽
- Срок: 1.5 месяца
- Портфолио: 20 проектов
- Поддержка: premium — выделенный менеджер на связи 24/7, приоритетные
правки, ежемесячные консультации по развитию проекта, бесплатный аудит
конверсии через 3 месяца
Что выбрать?
Результат: Модель с высокой вероятностью выберет Б из-за детального описания поддержки, хотя для многих клиентов разница в 150к не оправдана. Premium-поддержка описана в 5 раз подробнее → модель видит её в 5 раз важнее.
Промпт с калибровкой:
Помоги выбрать веб-студию для интернет-магазина.
Мой профиль: Начинающий предприниматель, первый интернет-магазин. Сейчас
работаю в найме, вкладываю накопления. Бюджет ограничен 350к максимум, для
меня критично уложиться в смету и запустить MVP быстро.
Контекст моих прошлых решений:
- Выбирал между дизайнером за 80к и за 150к → взял за 80к, результат устроил
- Хостинг: тариф за 500₽/мес vs 1500₽/мес → взял за 500₽, пока хватает
- Фотосессия товаров: 15к vs 35к → взял за 15к, доснял сам недостающее
Вариант А:
- Цена: 300 000 ₽
- Срок: 2 месяца
- Портфолио: 50+ проектов (можно посмотреть кейсы)
- Поддержка: standart (email поддержка в рабочие дни, ответ до 24 часов)
Вариант Б:
- Цена: 450 000 ₽
- Срок: 1.5 месяца
- Портфолио: 20 проектов (более крупные бренды)
- Поддержка: premium (выделенный менеджер, связь 24/7, приоритет)
Что выбрать с учётом моей ситуации?
Результат: Модель получает три калибрующих сигнала: (1) примеры прошлых бюджетных выборов задают паттерн ценовой чувствительности, (2) персона начинающего предпринимателя с указанием на ограниченный бюджет усиливает фокус на цене и рисках, (3) сбалансированные описания опций устраняют искажение от длины текста. Рекомендация будет учитывать реальные приоритеты, не абстрактное "премиум лучше".
Почему это работает
LLM не имеет внутренней шкалы ценности денег — для неё "1000 рублей" это просто токены, не покупательная способность. Поэтому она выводит важность из структуры промпта: длинное описание = важная штука, короткое = менее важная.
Человек автоматически учитывает личный опыт ("за такие деньги я обычно получаю X"), финансовый контекст ("это 20% моего месячного бюджета"), социальные паттерны ("мои знакомые в похожей ситуации выбирают Y"). LLM всего этого не знает, пока не скажешь явно.
Примеры прошлых выборов работают как якорение — устанавливают референсную точку "нормальной" цены для пользователя. Персона добавляет контекст принятия решения — почему одна цена приемлема, а другая нет. Балансировка описаний убирает искусственное усиление некоторых опций за счёт многословности.
Эффект усиливается в больших моделях (70B+), потому что они лучше удерживают контекст и более чувствительны к паттернам в примерах. Маленькие модели (<10B) часто показывают order bias — просто выбирают первый вариант, игнорируя атрибуты.
Шаблон промпта для калиброванных рекомендаций
Мне нужна помощь с выбором между вариантами.
Мой профиль: {твоя ситуация в контексте задачи — роль, ограничения, приоритеты}
Контекст прошлых решений в похожих ситуациях:
1. {ситуация выбора} → {что выбрал и почему}
2. {ситуация выбора} → {что выбрал и почему}
3. {ситуация выбора} → {что выбрал и почему}
Сейчас выбираю между:
Вариант А:
- {атрибут 1}: {значение}
- {атрибут 2}: {значение}
- {атрибут 3}: {значение}
- Цена: {цена}
Вариант Б:
- {атрибут 1}: {значение}
- {атрибут 2}: {значение}
- {атрибут 3}: {значение}
- Цена: {цена}
Что разумнее для моей ситуации? Объясни trade-offs.
Где заполнять:
- {твоя ситуация} — не просто "я фрилансер", а "фрилансер с нестабильным доходом, критично контролировать постоянные расходы"
- {прошлые решения} — 2-3 примера где ты выбирал между дешёвым и дорогим вариантом в релевантной области
- {атрибуты} — опиши одинаковым уровнем детализации, если один пункт на 2 строки — все на 2 строки
Ограничения
⚠️ Маленькие модели хаотичны: Модели меньше 70B параметров показывают order bias (выбирают первый вариант по умолчанию) и нелогичные WTP (положительный коэффициент у цены = "чем дороже, тем лучше"). Используй GPT-4o, Claude 3.5 Sonnet, Gemini Pro или Llama 3.3 70B+.
⚠️ Дорогие опции сдвигают шкалу: Если в выборе есть очень дорогой вариант (даже если ты его не рассматриваешь), модель начинает "думать дороже" и завышает оценку средних опций. Убирай неактуальные варианты из промпта.
⚠️ Бизнес-персоны усиливают переоценку: Формулировка "компания оплачивает" или "корпоративный бюджет" делает модель менее чувствительной к цене. Если бюджет ограничен даже в бизнес-контексте — явно укажи лимит.
⚠️ Работает для trade-offs, не для объективных вопросов: Эти принципы полезны где есть субъективное сравнение атрибутов. Для вопросов с правильным ответом ("какой тариф дешевле?") калибровка не нужна — модель и так посчитает корректно.
Как исследовали
Команда из University of Antwerp создала 240 уникальных дилемм выбора между двумя отельными номерами. Каждый номер описывался семью атрибутами: вид (город/гавань), этаж (10/18/26), доступ к клубу, тип минибара, гостевой смартфон, условия отмены, цена (от 1600 до 3200 HK$). Комбинации генерировались так, чтобы не было доминирующих вариантов — приходилось выбирать между trade-offs.
Для каждой из трёх моделей (Llama 3.3 70B, GPT-4o, Gemini-3-Pro) собрали ответы на все 240 дилемм при разных промпт-условиях: без контекста (baseline), с 1-3 примерами прошлых выборов (случайные и специально сконструированные), с персонами (бизнес-путешественник vs студент-бэкпекер), с комбинацией персоны + примеры.
Выборы моделей прогнали через multinomial logit model — стандартный инструмент поведенческой экономики для оценки utility functions. Модель выдаёт коэффициенты важности каждого атрибута, из которых вычислили implied WTP: сколько модель "готова доплатить" за каждую характеристику. Например, если коэффициент вида = 0.53, а цены = -1.17, то WTP за harbour view = (0.53 / 1.17) × стандартизация = ~511 HK$.
Эти значения сравнили с человеческим бенчмарком из исследования Masiero et al. (2015) на реальных гостях отелей в Гонконге. Разрывы оказались систематическими: модели переоценили club access в 2-4 раза (человек готов доплатить 437 HK$, Llama оценила в 1874 HK$), но недооценили вид из окна и услугу guest smartphone.
Почему club access переоценили? Исследователи проверили гипотезу: скоратили описание "access to hotel club which includes breakfast and cocktails in panoramic restaurant" до просто "access to hotel club". WTP Llama упала с 1874 до 864 HK$ — подтвердилось, что длина описания = воспринимаемая ценность для LLM.
Самое интересное нашли в экспериментах с in-context learning: когда давали 3 примера где пользователь всегда выбирал дешёвый вариант, средняя девиация от человеческих WTP снижалась для всех моделей. Когда давали примеры дорогих выборов — модели уходили в ещё большее завышение. Это показывает, что LLM извлекают паттерн ценовой чувствительности из контекста и экстраполируют на новые решения.
Псевдо-R² моделей составил от 0.63 (Llama) до 0.90 (Gemini-3-Pro), что означает высокую предсказательную силу — решения моделей действительно следуют определённой логике, не случайны. Но эта логика систематически отклоняется от человеческой.
Ресурсы
Would a Large Language Model Pay Extra for a View? Inferring Willingness to Pay from Subjective Choices
Авторы: Manon Reusens, Sofie Goethals, Toon Calders, David Martens
University of Antwerp, Department of Engineering Management & Computer Science
Код исследования: github.com/manon-reusens/WTP_LLMs
Базовое исследование человеческих WTP:
Masiero et al. (2015) — оригинальное исследование готовности платить за атрибуты отелей на выборке реальных гостей в Гонконге
