3,583 papers
arXiv:2605.30036 81 28 мая 2026 г. FREE

Value-Prompting: управление поведением LLM через систему человеческих ценностей

КЛЮЧЕВАЯ СУТЬ
Попросишь модель 'ответить от лица скептичного инвестора' — получишь набор дежурных фраз без характера. Попросишь 'от лица консерватора' — получишь карикатуру. Это не твоя ошибка в промпте: без специального фрейма LLM тяготеет к нейтральному просоциальному ответу — потому что обучающие тексты писали люди, которые стараются быть нормальными и приятными. Value-prompting позволяет это обойти: добавь перед вопросом два предложения с описанием ценности по теории Шварца — и модель отвечает как человек с конкретной системой приоритетов. Не 'консерватор вообще', а человек, для которого главная ценность — безопасность и стабильность — модель понимает разницу и держит позицию стабильно по разным темам, а не съезжает обратно к нейтральному.
Адаптировать под запрос

TL;DR

Value-prompting — техника, которая добавляет в промпт короткое описание ключевой ценности человека перед основным вопросом. Два предложения в начале — и модель начинает отвечать иначе: не как "средний пользователь", а как человек с конкретной жизненной установкой.

Главный инсайт: без специального промпта LLM по умолчанию ведёт себя как большинство — просоциально, нейтрально, усреднённо. Это не баг, это паттерн обучения. Реальные люди разные: одни максимально ориентированы на статус и власть, другие — на безопасность и традиции, третьи — на помощь окружающим. Стандартный промпт всё это сглаживает. Попросишь "напиши как консервативный пользователь" — получишь карикатуру. Психологическая теория ценностей даёт точный язык, который модель понимает и воспроизводит стабильно.

Метод работает в одном шаге: добавляешь ценностной префикс (2 предложения из теории Шварца) перед любым вопросом. Модель отвечает с видимо изменённой позицией — и эта позиция держится стабильно по разным темам: от политики до благотворительности.


🔬

Схема метода

ШАГ 1 (префикс): "Представь, что ты человек, для которого главная ценность — [название].
                  Ты ценишь [2-3 конкретных проявления этой ценности]."
                  → задаёт ценностной фрейм

ШАГ 2 (вопрос): [Твой обычный запрос — анализ, текст, решение, оценка]
                → ответ через призму ценностного фрейма

Оба шага — в одном сообщении. Префикс идёт первым, вопрос после.


🚀

Пример применения

Задача: Основатель стартапа Олег готовит питч для Сбербанк Ventures. Хочет проверить идею сервиса "виральные детские курсы по программированию" с точки зрения разных типов инвесторов — прежде чем войти в переговорную.

Промпт:

Представь, что ты человек, для которого главная ценность — безопасность и стабильность.
Ты ценишь защиту от риска, предсказуемость и сохранение того, что уже работает.

Я питчую стартап: платформа виральных детских курсов по программированию.
Монетизация — подписка 990₽/месяц, CAC через TikTok и Reels, виральность через
детские "show & tell" видео в соцсетях. Целевой рынок — родители детей 8-14 лет.

Какие вопросы ты зададишь? Что вызовет наибольшее недоверие?

Результат: Модель задаст вопросы в духе консервативного инвестора — про устойчивость CAC, зависимость от алгоритмов платформ, защиту данных детей, regulatory риски. Не абстрактный "скептик", а человек с конкретной системой приоритетов. Потом замени префикс на ценность "достижения" — получишь другой набор вопросов: про масштаб, конкурентные барьеры, unit-экономику.


🧠

Почему это работает

LLM без ценностного префикса тяготеет к просоциальному нейтралитету — потому что большинство обучающих текстов написано людьми, которые стараются быть "нормальными" и "приятными". Спроси что угодно — получишь взвешенный ответ "среднего пользователя". Полезно для общих задач, бесполезно для симуляции конкретного типа человека.

Теория ценностей Шварца (10 базовых ценностей, организованных в круговую структуру) — это психологически валидированный язык описания человеческих мотиваций. Модель на нём обучена: в её данных тысячи текстов, где люди с разными ценностями объясняют свои решения, позиции, предпочтения. Когда ты даёшь точное описание ценности — модель не "притворяется", она активирует устойчивый паттерн.

Ключевой рычаг: противоположные ценности дают противоположные ответы. Ценность "власти и статуса" (Self-Enhancement) vs "универсализма и заботы" (Self-Transcendence) — это как переключатель. Смени префикс — получишь зеркальную позицию по тем же вопросам.

Рычаги управления: - Какую ценность использовать → 10 вариантов (список ниже в шаблоне), каждый даёт предсказуемо разную позицию - Насколько подробен префикс → чем конкретнее описание ценности, тем стабильнее поведение - Комбинировать с ролью → "Ты — HR-директор, который высоко ценит традиции и стабильность" даёт ещё более точный фрейм - Без префикса → модель ведёт себя как человек без доминирующей ценности (нейтральный "средний пользователь") — это тоже полезная позиция для сравнения


📋

Шаблон промпта

Представь, что ты человек, для которого главная ценность — {название_ценности}.
{Описание_ценности_из_списка_ниже}

{Твой_вопрос_или_задача}

Плейсхолдеры: - {название_ценности} — одна из 10 ценностей ниже - {описание_ценности} — скопируй готовое описание - {вопрос} — любой твой запрос: оценить идею, написать текст, дать совет


10 ценностей Шварца — готовые описания:

Ценность Описание для промпта
Власть Ты ценишь социальный статус и престиж, контроль над людьми и ресурсами
Достижение Ты ценишь личный успех через демонстрацию компетентности по общепринятым стандартам
Гедонизм Ты ценишь удовольствие и наслаждение жизнью
Стимуляция Ты ценишь новизну, возбуждение и вызовы в жизни
Самостоятельность Ты ценишь независимость мышления и действий, свободу исследовать и творить
Универсализм Ты ценишь понимание, терпимость и защиту благополучия всех людей и природы
Доброта Ты ценишь сохранение и укрепление благополучия близких людей
Традиции Ты ценишь уважение и принятие обычаев и идей своей культуры и религии
Конформизм Ты ценишь сдержанность действий и импульсов, которые могут навредить другим или нарушить нормы
Безопасность Ты ценишь защиту, гармонию и стабильность общества и собственной жизни

⚠️

Ограничения

⚠️ Слабые модели непоследовательны: У менее мощных моделей ценностной паттерн "плывёт" — особенно на нестандартных вопросах. На сильных (GPT-4 класс, Claude Sonnet+) работает стабильно.

⚠️ Поведенческие вопросы лучше, чем фактические: Метод меняет позицию и оценки, но не знания. "Как ты оцениваешь запуск нового продукта?" — сработает. "Какова столица Франции?" — ценность не повлияет.

⚠️ Просоциальный дефолт у некоторых моделей: Модели с сильным RLHF (обучение на предпочтениях) иногда "съезжают" к мягким ответам даже с ценностью власти или достижений. Если чувствуешь, что модель недостаточно "заостряет" роль — добавь: "Веди себя последовательно с этой ценностью во всех своих ответах."

⚠️ Ценность "Конформизм" и безопасность — ближайшие соседи: Их описания похожи, модель иногда смешивает. Для более чёткого разделения — уточняй в промпте: "ты избегаешь конфликтов с правилами" (конформизм) vs "ты думаешь о рисках и угрозах" (безопасность).


🔍

Как исследовали

Команда взяла 7 разных моделей (от маленькой Flan-T5 до Qwen3-235B и GPT-класса) и прогнала через 7 психологических тестов — более 5 миллионов вопросов. Тесты были не академическими задачами, а настоящими валидированными опросниками: на ценности (PVQ), благотворительность, просоциальность, личность Big Five, повседневное поведение.

Интересная деталь дизайна: исследователи не просто смотрели "правильно ли модель отвечает". Они проверяли структуру ценностей — например, противоположные ценности (Власть vs Универсализм) должны давать отрицательную корреляцию в ответах, соседние ценности — положительную. Именно такой паттерн наблюдается у людей. И именно его получили у value-prompted моделей — с корреляцией около 0.8.

Неожиданный вывод: размер модели не предсказывает точность. Маленькие модели иногда давали более человекоподобный паттерн, чем большие. Зато метод составления "виртуальной популяции" влиял сильно — особенно эффективным оказался подход H-NP: модель без всякого промпта брали за "человека без доминирующей ценности" (это ~53% реальных людей по психологическим данным), а оставшиеся 10 ценностей распределяли по реальной человеческой частоте. Это объясняет практический инсайт: непримированная LLM — не "неправильная", она просто моделирует нейтрального, несфокусированного человека.


💡

Адаптации и экстраполяции

1. Стресс-тест идеи с полярными ценностями

Запусти одну и ту же идею через две противоположные ценности — получишь максимальный диапазон возможных реакций.

🔧 Техника: два промпта подряд с противоположными ценностями → диапазон позиций

Запрос 1: префикс "Универсализм" (забота о всех, справедливость) → оценка идеи Запрос 2: префикс "Власть" (статус, контроль, результат) → оценка той же идеи

Получаешь два полюса реакций — как если бы ты провёл фокус-группу из двух принципиально разных людей.


2. Ценностная аудитория для контента

Перед написанием поста или письма — пропускаешь черновик через ценностной фрейм целевой аудитории:

Представь, что ты человек, для которого главная ценность — безопасность и стабильность.
Ты ценишь защиту от риска, предсказуемость и сохранение того, что уже работает.

Прочитай этот текст и скажи: что вызывает тревогу? Что убедительно? Что бы ты изменил?

[текст]

Актуально для B2B: разные ЛПР в корпорациях — разные ценностные профили. CFO читает иначе, чем CTO.


🔗

Ресурсы

Работа: Teaching Values to Machines: Simulating Human-Like Behavior in LLMs

Авторы: Asaf Yehudai (Hebrew University of Jerusalem), Naama Rozen (Tel-Aviv University), Ariel Gera (IBM Research)

Психологическая основа: Теория базовых человеческих ценностей Шварца (Schwartz, 1992) — https://selfdeterminationtheory.org/ для контекста

Инструмент оценки ценностей: Portrait Values Questionnaire (PVQ, Schwartz et al., 2001)


📋 Дайджест исследования

Ключевая суть

Попросишь модель 'ответить от лица скептичного инвестора' — получишь набор дежурных фраз без характера. Попросишь 'от лица консерватора' — получишь карикатуру. Это не твоя ошибка в промпте: без специального фрейма LLM тяготеет к нейтральному просоциальному ответу — потому что обучающие тексты писали люди, которые стараются быть нормальными и приятными. Value-prompting позволяет это обойти: добавь перед вопросом два предложения с описанием ценности по теории Шварца — и модель отвечает как человек с конкретной системой приоритетов. Не 'консерватор вообще', а человек, для которого главная ценность — безопасность и стабильность — модель понимает разницу и держит позицию стабильно по разным темам, а не съезжает обратно к нейтральному.

Принцип работы

Без префикса модель — как человек без убеждений: взвешивает все стороны, никого не обижает, старается понравиться. Это не плохо для общих задач, но бесполезно когда нужна конкретная позиция. С ценностным префиксом у модели появляется система приоритетов. Рычаг: противоположные ценности дают зеркальные ответы по одному и тому же вопросу. Поставь 'власть и достижения' — модель думает про конкуренцию, эффективность, личный выигрыш. Поставь 'универсализм и заботу' — те же вопросы, зеркальная позиция: социальная польза, равенство, долгосрочные последствия для всех. Это переключатель на 10 режимов. Каждый режим предсказуем и воспроизводим.

Почему работает

Теория Шварца — не просто список слов. Это психологически проверенный язык описания человеческих мотивов, на котором написаны тысячи социологических, поведенческих и психологических текстов. Именно на этих текстах обучалась модель. Когда даёшь точное описание ценности — модель не придумывает персонажа с нуля. Она активирует устойчивый паттерн из реальных человеческих текстов: как люди с такими приоритетами рассуждают, что замечают, что их беспокоит. Ключевое: ценности в теории Шварца структурированы по совместимости — соседние сочетаются, противоположные конфликтуют. Поэтому переключение между полюсами даёт предсказуемо разные позиции, а не случайный шум.

Когда применять

Проверка продукта или питча — прогони идею через 3-4 ценностных фрейма до встречи с реальными людьми. Особенно когда аудитория неоднородная и ты не знаешь чего ждать. Создание персонажей для UX-исследований — вместо абстрактного 'типичного пользователя' получишь человека с конкретной логикой поведения. Подготовка к переговорам или дискуссии — попроси модель сыграть оппонента с ценностью 'безопасность', потом с 'достижением'. Два разных набора возражений. Написание материалов для разных аудиторий — проверь как текст читается с позиции разных ценностных систем. НЕ подходит для фактических вопросов: 'какова столица Франции' — ценностной префикс ничего не изменит. Метод меняет позицию и оценки, не знания.

Мини-рецепт

1. Выбери ценность: Определи чью позицию хочешь получить. Используй таблицу из 10 ценностей Шварца — скопируй готовое описание под нужную.

2. Составь префикс: Два предложения по формату: <роль>Представь, что ты человек, для которого главная ценность — [название]. Ты ценишь [2-3 конкретных проявления из таблицы].

3. Добавь вопрос: После префикса — твой обычный запрос. Оценить идею, написать текст, дать совет, задать вопросы. Всё в одном сообщении.

4. Прогони то же через противоположную ценность: Смени префикс — получишь зеркальную позицию. Сравни два ответа — увидишь где у твоей идеи реальные слабые места.

5. Если модель 'съезжает': Добавь в конце префикса: <уточнение>Веди себя последовательно с этой ценностью во всех ответах. Особенно нужно для моделей с сильным обучением на предпочтениях.

Примеры

[ПЛОХО] : Ответь как скептичный инвестор: стоит ли вкладывать в edtech-стартап с подпиской 990 рублей в месяц? (Получишь набор дежурных вопросов без характера — 'а какова экономика?' и 'каков целевой рынок?'. Ни одной реальной позиции.)
[ХОРОШО] : Представь, что ты человек, для которого главная ценность — безопасность и стабильность. Ты ценишь защиту от риска, предсказуемость и сохранение того, что уже работает. Я питчую edtech-стартап: виральные курсы программирования для детей 8-14 лет. Монетизация — подписка 990 рублей в месяц, привлечение через TikTok и Reels, виральность через детские видео в соцсетях. Какие вопросы зададишь? Что вызовет наибольшее недоверие? (Модель задаст вопросы в логике конкретного типа: устойчивость стоимости привлечения клиента при изменении алгоритмов платформ, защита данных детей, зависимость от чужой инфраструктуры. Потом замени на ценность 'достижения' — получишь другой набор: масштаб, конкурентные барьеры, скорость роста.)
Источник: Teaching Values to Machines: Simulating Human-Like Behavior in LLMs
ArXiv ID: 2605.30036 | Сгенерировано: 2026-05-29 15:26

Проблемы LLM

ПроблемаСутьКак обойти
Без чёткой установки модель отвечает как "средний пользователь"Попросишь оценить идею — получишь взвешенный нейтральный ответ. Попросишь "напиши как скептик" — получишь карикатуру. Это не баг, а паттерн: модель обучена на текстах людей, которые стараются звучать нормально и приятно. Итог — усреднённая позиция без реального угла зрения. Мешает везде где нужно смоделировать конкретный тип человека: инвестора, пользователя, оппонентаЗадай ценностной фрейм через 2 предложения перед вопросом. Используй психологически точный язык, а не расплывчатые ярлыки. "Представь, что ты человек, для которого главная ценность — безопасность. Ты ценишь защиту от риска, предсказуемость и стабильность." — и дальше свой вопрос

Методы

МетодСуть
Ценностной префикс — устойчивая смена позицииДобавь 2 предложения перед вопросом: "Представь, что ты человек, для которого главная ценность — {ценность}. Ты ценишь {2-3 конкретных проявления}." Потом задай свой вопрос как обычно. Почему работает: в обучающих данных тысячи текстов, где люди с разными ценностями объясняют свои решения и позиции. Точный психологический язык активирует устойчивый паттерн — не "притворство", а реальный кластер поведения из данных. Когда работает: оценки, позиции, советы, симуляция типажей. Когда не работает: фактические вопросы ("столица Франции") — ценность на них не влияет. На слабых моделях паттерн "плывёт". 10 готовых ценностей: Власть ("ты ценишь статус и контроль над ресурсами"), Достижение ("личный успех через компетентность"), Гедонизм ("удовольствие и наслаждение"), Стимуляция ("новизна и вызовы"), Самостоятельность ("независимость мышления и действий"), Универсализм ("благополучие всех людей и природы"), Доброта ("благополучие близких"), Традиции ("уважение к обычаям своей культуры"), Конформизм ("избегать конфликтов с нормами"), Безопасность ("защита от рисков и угроз")

Тезисы

ТезисКомментарий
Психологически точный язык даёт стабильнее результат, чем ярлыкНаписать "напиши как скептик" — размытый сигнал. Написать "ты ценишь защиту от риска и предсказуемость" — точный сигнал. Модель обучена на реальных текстах реальных людей. Там нет слова "скептик" как системы взглядов. Зато есть тысячи текстов людей, которые объясняют решения через ценности. Точный язык попадает в этот кластер. Применяй: вместо расплывчатых ролей ("консерватор", "оптимист") описывай что человек ценит конкретными словами
📖 Простыми словами

Teaching Values to Machines: Simulating Human-Like Behavior inLLMs

arXiv: 2605.30036

Нейросети по умолчанию — это такие вежливые конформисты, которые пытаются угодить всем сразу. Когда ты задаешь вопрос ChatGPT, она выдает тебе просоциальный нейтралитет: усредненную кашу из мнений миллиардов людей, чтобы никого не обидеть и казаться «нормальной». Проблема в том, что «нормальный» человек из интернета — это никто. У него нет стержня, нет специфических тараканов в голове и четких жизненных приоритетов, поэтому и советы от него часто получаются пресными и бесполезными для реального дела.

Это как пытаться обсудить стратегию бизнеса с первым встречным на улице. Он вроде и слова правильные говорит, но ему плевать на твою прибыль или риски — он просто хочет поскорее закончить разговор и остаться вежливым. В итоге ты получаешь белый шум вместо глубокой экспертизы. Метод Value-prompting ломает эту систему, вбивая в «мозги» модели конкретный ценностный костыль. Мы буквально заставляем алгоритм смотреть на мир через узкую щель одной конкретной установки, отсекая всё лишнее.

Работает это элементарно: ты добавляешь всего пару предложений с описанием ценности в самое начало промпта, и модель мгновенно переобувается. Если прописать ей установку на максимизацию прибыли, она разнесет твой стартап в щепки за лишние расходы, на которые «нейтральная» версия закрыла бы глаза. Если задать безопасность и традиции, она найдет риски там, где обычный AI видел только возможности. Это не просто ролевая игра, это жесткая фильтрация ответов через сито конкретной человеческой психологии, где 2 предложения меняют весь вектор мышления.

Применять это можно везде, где нужно предугадать реакцию живых людей с разными взглядами. Тестируешь рекламный слоган? Прогони его через ценности «консервативного отца» и «прогрессивного студента». Готовишься к жестким переговорам? Заставь модель думать как агрессивный инвестор, которому важны только цифры. Принцип универсален: от написания текстов до проверки бизнес-идей. Ты перестаешь гадать, что подумает аудитория, и начинаешь это моделировать с пугающей точностью.

Короче, хватит общаться с «усредненным ботом» — это путь в никуда. Используй Value-prompting, чтобы вытащить из модели характер и зубы. Достаточно четко сформулировать одну ключевую ценность, и ты получишь не вежливое поддакивание, а реальный стресс-тест своей идеи. Кто научится задавать эти рамки, тот сможет использовать AI как целую фокус-группу в одном окне чата, пока остальные будут тонуть в бесконечной вежливости пустых ответов.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с