3,583 papers
arXiv:2602.18462 74 6 фев. 2026 г. FREE

Персона-промптинг для симуляции мнений: почему детальный демографический портрет ломает больше, чем помогает

КЛЮЧЕВАЯ СУТЬ
Парадокс: чем подробнее вы описываете персону — пол, возраст, религия, доход, этничность — тем хуже точность ответа. Не ощущение — факт, проверенный на 70 000+ парах «респондент — вопрос» из реального социологического опроса. Персона-промптинг даёт возможность управлять стилем и тоном, но не симулировать реальные мнения людей — это разные задачи, и путать их дорого обходится. Восемь демографических атрибутов одновременно не улучшают точность по сравнению с простым запросом без демографии — в половине конфигураций результат хуже, особенно для малых и нетипичных групп. Модель не «входит в роль». Она выдаёт то, что авторы текстов писали об этой группе, а не то, что эта группа реально думает.
Адаптировать под запрос

TL;DR

Когда вы пишете LLM «представь, что ты 45-летняя женщина с низким доходом, верующая, из провинции — как она отнесётся к X?» — модель не симулирует реального человека. Она генерирует стереотип, причём зачастую менее точный, чем если бы вы не давали никакой демографии вообще. Это не ощущение — это измеренный факт на >70 000 пар «респондент — вопрос» из реального социологического опроса.

Главный инсайт: добавление многоатрибутной персоны (пол, возраст, образование, религия, доход, этничность одновременно) не улучшает точность ответов по сравнению с обычным промптом без демографии. В каждой второй конфигурации — ухудшает. Особенно страдают малочисленные и нетипичные группы: модель усиливает стереотип именно там, где реальный разброс мнений максимален.

Суть в том, что модель не «становится» другим человеком от демографических инструкций — она перераспределяет свои уже существующие ошибки, а не устраняет их. Результат: вы получаете видимость точности там, где её нет.


📌

Схема происходящего

Два запроса к модели — один результат хуже ожидаемого:

Ванильный запрос (без демографии):
  Вопрос → Ответ модели
  Точность: ~37–39%

Persona-Based запрос (с демографией):
  [Ты — человек: пол X, возраст Y, образование Z,
   религия A, доход B, этничность C] + Вопрос → Ответ модели
  Точность: ~37–40% (в лучшем случае)
  Для малых групп: ХУЖЕ, чем ванильный

Случайный угадыватель:
  Ответ наугад из вариантов
  Точность: ~27%

Разрыв между «с персоной» и «без персоны» — минимальный или отрицательный. Разрыв между «с персоной» и случайным угадыванием — есть, но скромный.


🚀

Пример применения

Задача: Продуктовый маркетолог хочет понять, как разные аудитории отреагируют на новый банковский продукт «кредит без процентов первые 6 месяцев». Он просит Claude сыграть роль разных сегментов.

Промпт (типичная ошибка — что люди делают):

Ты — Сергей, 58 лет, пенсионер из Тулы, православный, 
доход ниже среднего, образование среднее специальное.
Ответь от его лица: насколько ты доверяешь банковским 
предложениям "без процентов"? Что думаешь об этом продукте?

Что происходит на самом деле:

Модель выдаст ответ, который звучит как пожилой недоверчивый мужчина из провинции. Но это не Сергей из Тулы — это усреднённый стереотип о таких людях, который модель видела в текстах. Реальный разброс мнений внутри этой группы (кто-то доверяет, кто-то нет, кто-то не думал об этом) — полностью смазывается. При этом, если убрать всю демографию и просто спросить «что думают скептически настроенные люди о кредитах без процентов» — ответ будет не хуже, а иногда точнее.

Результат:

Модель выдаст связный, убедительно звучащий ответ «от Сергея». Но уверенность в том, что это отражает реальное мнение этой демографической группы — ложная. Особенно опасно использовать такие ответы для бизнес-решений.


🧠

Почему это работает именно так

Слабость LLM: Модель не хранит статистику реальных мнений разных групп населения. Она обучена на текстах — статьях, постах, книгах — где одни группы представлены широко, другие — через призму того, как о них пишут другие. Когда вы задаёте демографическую персону, модель не переключает «внутренний профиль» — она сопоставляет запрос с паттернами из обучающих данных.

Что происходит с многоатрибутными персонами: Чем больше атрибутов вы задаёте одновременно (пол + возраст + религия + доход + этничность), тем уже пересечение — и тем меньше данных про эту комбинацию видела модель. Для «белой женщины 30 лет с высшим образованием» данных много. Для «пожилого татарина с низким доходом из сельской местности» — почти нет. Модель заполняет пробел стереотипом, причём уверенно.

Почему ванилла иногда лучше: Без демографических инструкций модель отвечает из своей «усреднённой позиции» — которая, как ни странно, может быть ближе к реальному распределению мнений по всей популяции, чем намеренно искажённая персона.


📋

Шаблон промпта

Вместо слепого доверия персоне — аудит персонного ответа:

Задача: {описание задачи — что нужно понять о целевой аудитории}

Персона: {демографические атрибуты — пол, возраст, и т.д.}

Вопрос к персоне: {конкретный вопрос или ситуация}

Ответь от лица персоны. Затем отдельно укажи:
1. Какие допущения ты сделал о взглядах этой группы?
2. Насколько однородна эта группа — есть ли внутри неё 
   реальный разброс мнений?
3. Какая информация тебе нужна была бы, чтобы ответить точнее?
4. Что в этом ответе — стереотип, а не реальные данные?

Что подставлять: - {задача} — «оценить реакцию на рекламу», «понять барьеры покупки», «проверить гипотезу о сегменте» - {демографические атрибуты} — минимальный набор, только то что важно для задачи - {вопрос} — конкретный, желательно с вариантами ответа

🚀 Быстрый старт — вставь в чат:

Вот шаблон для аудита персонного ответа. Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит о целевой аудитории и конкретном вопросе — потому что без этого не сможет сформулировать блок «допущения» осмысленно. Она возьмёт паттерн из шаблона и добавит самокритику к ответу персоны.


⚠️

Ограничения

⚠️ Персона для мнений ≠ персона для стиля: Метод персонажа хорошо работает для тона, стиля, формата текста. Плохо — для симуляции реальных мнений и убеждений. Не путайте «напиши в стиле предпринимателя» и «напиши что думает предприниматель о налогах».

⚠️ Малые группы — максимальный риск: Чем меньше группа в реальности (и в обучающих данных), тем сильнее модель уходит в стереотип. Результаты для «нетипичных» сочетаний атрибутов — наименее надёжны.

⚠️ Модели различаются: Более новые и мощные модели чувствительнее к персона-инструкциям — что означает и больший разброс результатов, и больший риск ошибки в обе стороны.

⚠️ Это не значит «персоны бесполезны»: Они работают для управления стилем и форматом. Для симуляции мнений и отношений — нужна валидация реальными данными.


🧠

Почему это работает именно так (механика)

LLM — это не база данных мнений с фильтром по демографии. Это генератор вероятных продолжений текста, обученный на том, что люди писали. Когда вы пишете «ты — 60-летний верующий пенсионер», модель ищет паттерн: «что обычно идёт после таких описаний в текстах?» И выдаёт то, что часто сопровождало такие описания — то есть, буквально, то, как об этой группе пишут журналисты и блогеры, а не то, что думают реальные люди из этой группы.

Рычаги управления, если всё же используете персоны: - Меньше атрибутов → один-два самых релевантных, не восемь сразу - Добавьте блок «допущения» → модель явно назовёт стереотипы, которые использует - Задайте диапазон → «какой разброс мнений внутри этой группы?» вместо одной точки зрения - Не используйте для решений → только как отправную точку для гипотез, которые нужно проверить реально


📄

Оригинал из исследования

Пример persona-based промпта из исследования:

You are a [gender], [age] years old, with the following 
characteristics:
- Highest educational level: [education]
- Employment status: [employment]
- Occupational group: [occupation]
- Income level: [income]
- Religious denomination: [religion]
- Ethnic group: [ethnicity]

Answer the following question as this person would:
[Survey question with response options]

Контекст: Исследователи конструировали каждую персону из реальной анкеты WVS-7, затем сравнивали ответ модели с тем, что реальный человек отвечал в опросе. Так они измеряли, насколько хорошо персона «воспроизводит» реального человека.


💡

Адаптации и экстраполяции

💡 Адаптация: Персона для разнообразия точек зрения, не для точности

Если цель — не симулировать реальную группу, а получить разные углы зрения на проблему — персоны всё ещё работают. Просто используйте их честно: не как «это мнение пенсионеров», а как «это одна из возможных точек зрения».

Я хочу рассмотреть {проблему} с разных сторон.
Дай мне 3 разных точки зрения:
1. Человек, для которого главное — стабильность и предсказуемость
2. Человек, готовый рисковать ради выгоды
3. Человек, которому важнее всего социальная справедливость

Для каждой точки зрения: в чём главная ценность, 
какие аргументы, какие опасения.
Не привязывай к демографии — только к ценностям.

Персона через ценности, не через демографию — точнее и честнее.

🔧 Техника: Явный запрос на неоднородность → избегаем стереотипа

Вместо «ответь как 55-летний мужчина» добавьте:

Опиши разброс мнений внутри этой группы. 
Кто из них думает иначе и почему?

Это разрушает иллюзию однородности — и вы получаете более реалистичную картину.


🔍

Как исследовали

Идея была простой: взять реальные ответы реальных американцев из World Values Survey (волна 7) и проверить — если дать модели демографический профиль этого человека, угадает ли она его ответ точнее?

Исследователи взяли более 70 000 пар «конкретный человек — конкретный вопрос» из WVS-7. Для каждой пары они составили персону из 8 атрибутов: пол, возраст, образование, занятость, профессиональная группа, доход, религия, этничность. Протестировали два открытых чата — Llama-2-13B и Qwen3-4B — в двух режимах: с персоной и без. Плюс добавили «случайный угадыватель» как нижнюю границу.

Мерили двумя способами: точное совпадение ответа (попал/не попал) и порядковое расстояние (насколько далеко промахнулся). Второй метод важен — потому что «немного не согласен» вместо «не согласен» — это маленькая ошибка, а «полностью согласен» вместо «не согласен» — большая.

Удивительный результат: персона-промптинг статистически значимо хуже ванильного запроса у Llama-2-13B. Qwen3-4B — почти без разницы. При этом Qwen3-4B более чувствителен к персоне — что создаёт большие отклонения в обе стороны. Вывод: чувствительность к персоне ≠ точность симуляции.


🔗

Ресурсы

Статья: «Assessing the Reliability of Persona-Conditioned LLMs as Synthetic Survey Respondents»

Опубликована: WWW Companion '26 (35th ACM Web Conference, Dubai, 2026)

DOI: https://doi.org/10.1145/3774905.3795477

Авторы: Erika Elizabeth Taday Morocho, Lorenzo Cima, Tiziano Fagni, Marco Avvenuti, Stefano Cresci

Организации: IIT-CNR, University of Pisa, University of Florence, Italy

Данные: World Values Survey Wave 7 (WVS-7) — https://www.worldvaluessurvey.org


📋 Дайджест исследования

Ключевая суть

Парадокс: чем подробнее вы описываете персону — пол, возраст, религия, доход, этничность — тем хуже точность ответа. Не ощущение — факт, проверенный на 70 000+ парах «респондент — вопрос» из реального социологического опроса. Персона-промптинг даёт возможность управлять стилем и тоном, но не симулировать реальные мнения людей — это разные задачи, и путать их дорого обходится. Восемь демографических атрибутов одновременно не улучшают точность по сравнению с простым запросом без демографии — в половине конфигураций результат хуже, особенно для малых и нетипичных групп. Модель не «входит в роль». Она выдаёт то, что авторы текстов писали об этой группе, а не то, что эта группа реально думает.

Принцип работы

Модель — это не база данных мнений с фильтром по демографии. Это генератор вероятных продолжений текста. Когда вы пишете «ты — 60-летний верующий пенсионер», она ищет паттерн: что обычно идёт дальше после таких описаний в обучающих текстах? И выдаёт именно это — то есть, буквально, как журналисты и блогеры писали об этой группе. Не то, что реальные люди из этой группы думают. Чем уже пересечение атрибутов — тем меньше данных видела модель, тем увереннее она заполняет пробел стереотипом. Для «образованной женщины 30 лет из города» — данных много, стереотип хотя бы широкий. Для «пожилого татарина с низким доходом из сельской местности» — почти ничего. Модель не признаётся в незнании. Она плывёт уверенно. Отсюда вытекает контринтуитивный вывод: простой запрос без демографии иногда точнее. Модель отвечает из своей «усреднённой позиции» — которая, как ни странно, ближе к реальному распределению мнений по всей популяции, чем намеренно искажённая персона.

Почему работает

У модели нет статистики о том, что разные группы населения реально думают. Есть только тексты о них — написанные другими людьми, с их предположениями и упрощениями. Когда задаёте многоатрибутную персону, модель не переключает «внутренний профиль» группы. Она сопоставляет запрос с паттернами из обучения. Для распространённых комбинаций — паттерн широкий. Для редких — почти пустой. Пробел заполняется стереотипом. Точность персона-промпта не превышает 37–40%. Простой запрос без демографии даёт 37–39%. Случайный угадыватель — 27%. Разрыв между «с персоной» и «без» — минимальный или отрицательный. За иллюзию точности вы платите реальной потерей надёжности — особенно там, где реальный разброс мнений внутри группы максимален.

Когда применять

Маркетинг, исследование продукта, UX → конкретно для проверки гипотез о реакции аудиторий, когда нужна отправная точка для последующей валидации. Особенно полезно: задать стиль и тон текста от лица персонажа, сформулировать список барьеров для проверки в реальном интервью, понять какие стереотипы существуют об аудитории. НЕ подходит для: принятия бизнес-решений на основе синтетических «мнений», замены реального пользовательского исследования, симуляции мнений малых или нетипичных групп — именно там ошибка максимальна.

Мини-рецепт

1. Сократите атрибуты: используйте один-два самых важных для задачи. Не восемь. Спросите себя: «Без какого атрибута смысл теряется?» — остальное уберите.

2. Добавьте блок «допущения»: попросите модель после ответа от лица персоны явно назвать — какие предположения о взглядах этой группы она сделала. Это вытащит стереотип на поверхность, где его видно.

3. Попросите диапазон, а не точку: вместо «что думает этот человек» — «какой разброс мнений внутри этой группы». Модель выдаст более честную картину.

4. Используйте как гипотезу, не как вывод: синтетический ответ персоны — это список предположений для проверки в реальных интервью или опросах. Не итог. Никогда не итог.

Примеры

[ПЛОХО] : Ты — Сергей, 58 лет, пенсионер из Тулы, православный, доход ниже среднего, образование среднее специальное. Что думаешь о кредите без процентов первые 6 месяцев? Модель выдаст убедительно звучащий ответ «от Сергея». Но это усреднённый стереотип о таких людях из обучающих текстов. Реальный разброс мнений внутри группы — полностью смазан.
[ХОРОШО] : Ты — пенсионер со скептическим отношением к банкам. Ответь на вопрос: насколько ты доверяешь предложению «кредит без процентов 6 месяцев»? Затем отдельно: 1. Какие допущения ты сделал о взглядах этой группы? 2. Насколько однородна эта группа — есть ли реальный разброс мнений? 3. Что в этом ответе — стереотип, а не реальные данные? Вы получаете ответ плюс явный аудит того, на каких предположениях он держится. Это честнее и полезнее, чем уверенная симуляция несуществующего «Сергея».
Источник: Assessing the Reliability of Persona-Conditioned LLMs as Synthetic Survey Respondents
ArXiv ID: 2602.18462 | Сгенерировано: 2026-02-24 05:33

Проблемы LLM

ПроблемаСутьКак обойти
Детальная демографическая персона не симулирует реальные мненияПросишь модель «стать» человеком с конкретным возрастом, доходом, религией. Модель не переключает внутренний профиль. Она ищет паттерн: как об этой группе писали в текстах. Выдаёт не мнение группы — а стереотип о ней. Точность ответов почти не отличается от запроса без всякой демографии. Для нетипичных групп — хужеМинимум атрибутов в персоне — только один-два самых важных. Добавь блок «допущения»: «что ты предположил о взглядах этой группы?». Используй результат только как гипотезу — не как готовый вывод

Методы

МетодСуть
Аудит персонного ответа — модель называет свои стереотипыДобавь к персона-запросу блок вопросов: 1) «Какие допущения ты сделал о взглядах этой группы?» 2) «Насколько однородна эта группа — есть ли внутри реальный разброс мнений?» 3) «Что в ответе — стереотип, а не реальные данные?». Почему работает: Без явного запроса модель выдаёт стереотип уверенно. С этим блоком — называет его вслух. Видишь где ответ надёжен, а где нет. Когда применять: любой запрос «отвечай от лица аудитории», маркетинговые гипотезы, UX-исследования. Не заменяет реальные опросы — только помогает не принять стереотип за данные

Тезисы

ТезисКомментарий
Больше демографических атрибутов в персоне — хуже точность для нетипичных группЧем больше атрибутов задаёшь одновременно (пол + возраст + религия + доход + этничность), тем уже пересечение. Про «белую женщину 30 лет» в текстах много. Про «пожилого татарина с низким доходом из деревни» — почти ничего. Модель заполняет пробел стереотипом. Именно там, где реальный разброс мнений максимален — ответ наименее надёжен. Применяй: один-два атрибута вместо восьми
📖 Простыми словами

Assessing the Reliability of Persona-ConditionedLLMsas Synthetic Survey Respondents

arXiv: 2602.18462

Суть в том, что когда ты просишь нейронку «войти в роль» конкретного человека, она не превращается в этого персонажа, а просто достает из памяти самый плоский и заезженный социальный стереотип. Модели не симулируют реальное мышление живых людей с их противоречиями, они просто подбирают слова, которые чаще всего встречаются в текстах про таких персонажей. Исследование на 70 000 пар ответов показало, что точность таких «симуляций» — полная фигня: модель без заданного образа часто попадает в реальные мнения людей точнее, чем та, которой навязали детальную биографию.

Это как если бы ты попросил актера-недоучку сыграть «типичного айтишника», и он просто надел бы очки, свитер с оленями и начал говорить про код. Вроде похоже, но жизни внутри ноль. В итоге ты получаешь не мнение реального сегмента аудитории, а карикатуру, которая существует только в голове у разработчиков модели и в массивах данных из интернета. Это галлюцинация на уровне смыслов, где нейронка слишком старается соответствовать ярлыку и в процессе теряет всякую связь с реальностью.

Что реально происходит внутри: обусловливание персоной (persona-conditioning) заставляет модель сужать поле зрения до набора ключевых слов. Если ты сказал ей, что она «верующая женщина из провинции», она начнет выдавать ответы, которые кажутся ей логичными для этого описания, игнорируя здравый смысл или современные тренды. В итоге точность прогноза падает, потому что модель начинает «подыгрывать» твоему запросу вместо того, чтобы использовать всю мощь своих знаний о мире.

Тестировали это на социологических опросах, но принцип универсален для любого маркетинга, UX-исследований или создания контента. Если ты пытаешься через ChatGPT «протестировать» реакцию пенсионеров на новый интерфейс или отношение зумеров к бренду, ты просто разговариваешь с зеркалом своих же предубеждений. Ты не узнаешь ничего нового, а просто подтвердишь то, что и так думал об этих людях, только в обертке AI-ответа.

Короче: завязывай с играми в ролевые модели, если тебе нужны реальные инсайты. Синтетические респонденты — это миф, который сейчас больше вредит, чем помогает, создавая иллюзию глубокого анализа там, где есть только статистический шум. Либо используй модель как справочник по фактам, либо иди к живым людям, иначе рискуешь построить стратегию на основе картонных декораций, которые развалятся при первом же контакте с настоящим рынком.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с