TL;DR
Когда вы пишете LLM «представь, что ты 45-летняя женщина с низким доходом, верующая, из провинции — как она отнесётся к X?» — модель не симулирует реального человека. Она генерирует стереотип, причём зачастую менее точный, чем если бы вы не давали никакой демографии вообще. Это не ощущение — это измеренный факт на >70 000 пар «респондент — вопрос» из реального социологического опроса.
Главный инсайт: добавление многоатрибутной персоны (пол, возраст, образование, религия, доход, этничность одновременно) не улучшает точность ответов по сравнению с обычным промптом без демографии. В каждой второй конфигурации — ухудшает. Особенно страдают малочисленные и нетипичные группы: модель усиливает стереотип именно там, где реальный разброс мнений максимален.
Суть в том, что модель не «становится» другим человеком от демографических инструкций — она перераспределяет свои уже существующие ошибки, а не устраняет их. Результат: вы получаете видимость точности там, где её нет.
Схема происходящего
Два запроса к модели — один результат хуже ожидаемого:
Ванильный запрос (без демографии):
Вопрос → Ответ модели
Точность: ~37–39%
Persona-Based запрос (с демографией):
[Ты — человек: пол X, возраст Y, образование Z,
религия A, доход B, этничность C] + Вопрос → Ответ модели
Точность: ~37–40% (в лучшем случае)
Для малых групп: ХУЖЕ, чем ванильный
Случайный угадыватель:
Ответ наугад из вариантов
Точность: ~27%
Разрыв между «с персоной» и «без персоны» — минимальный или отрицательный. Разрыв между «с персоной» и случайным угадыванием — есть, но скромный.
Пример применения
Задача: Продуктовый маркетолог хочет понять, как разные аудитории отреагируют на новый банковский продукт «кредит без процентов первые 6 месяцев». Он просит Claude сыграть роль разных сегментов.
Промпт (типичная ошибка — что люди делают):
Ты — Сергей, 58 лет, пенсионер из Тулы, православный,
доход ниже среднего, образование среднее специальное.
Ответь от его лица: насколько ты доверяешь банковским
предложениям "без процентов"? Что думаешь об этом продукте?
Что происходит на самом деле:
Модель выдаст ответ, который звучит как пожилой недоверчивый мужчина из провинции. Но это не Сергей из Тулы — это усреднённый стереотип о таких людях, который модель видела в текстах. Реальный разброс мнений внутри этой группы (кто-то доверяет, кто-то нет, кто-то не думал об этом) — полностью смазывается. При этом, если убрать всю демографию и просто спросить «что думают скептически настроенные люди о кредитах без процентов» — ответ будет не хуже, а иногда точнее.
Результат:
Модель выдаст связный, убедительно звучащий ответ «от Сергея». Но уверенность в том, что это отражает реальное мнение этой демографической группы — ложная. Особенно опасно использовать такие ответы для бизнес-решений.
Почему это работает именно так
Слабость LLM: Модель не хранит статистику реальных мнений разных групп населения. Она обучена на текстах — статьях, постах, книгах — где одни группы представлены широко, другие — через призму того, как о них пишут другие. Когда вы задаёте демографическую персону, модель не переключает «внутренний профиль» — она сопоставляет запрос с паттернами из обучающих данных.
Что происходит с многоатрибутными персонами: Чем больше атрибутов вы задаёте одновременно (пол + возраст + религия + доход + этничность), тем уже пересечение — и тем меньше данных про эту комбинацию видела модель. Для «белой женщины 30 лет с высшим образованием» данных много. Для «пожилого татарина с низким доходом из сельской местности» — почти нет. Модель заполняет пробел стереотипом, причём уверенно.
Почему ванилла иногда лучше: Без демографических инструкций модель отвечает из своей «усреднённой позиции» — которая, как ни странно, может быть ближе к реальному распределению мнений по всей популяции, чем намеренно искажённая персона.
Шаблон промпта
Вместо слепого доверия персоне — аудит персонного ответа:
Задача: {описание задачи — что нужно понять о целевой аудитории}
Персона: {демографические атрибуты — пол, возраст, и т.д.}
Вопрос к персоне: {конкретный вопрос или ситуация}
Ответь от лица персоны. Затем отдельно укажи:
1. Какие допущения ты сделал о взглядах этой группы?
2. Насколько однородна эта группа — есть ли внутри неё
реальный разброс мнений?
3. Какая информация тебе нужна была бы, чтобы ответить точнее?
4. Что в этом ответе — стереотип, а не реальные данные?
Что подставлять:
- {задача} — «оценить реакцию на рекламу», «понять барьеры покупки», «проверить гипотезу о сегменте»
- {демографические атрибуты} — минимальный набор, только то что важно для задачи
- {вопрос} — конкретный, желательно с вариантами ответа
🚀 Быстрый старт — вставь в чат:
Вот шаблон для аудита персонного ответа. Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит о целевой аудитории и конкретном вопросе — потому что без этого не сможет сформулировать блок «допущения» осмысленно. Она возьмёт паттерн из шаблона и добавит самокритику к ответу персоны.
Ограничения
⚠️ Персона для мнений ≠ персона для стиля: Метод персонажа хорошо работает для тона, стиля, формата текста. Плохо — для симуляции реальных мнений и убеждений. Не путайте «напиши в стиле предпринимателя» и «напиши что думает предприниматель о налогах».
⚠️ Малые группы — максимальный риск: Чем меньше группа в реальности (и в обучающих данных), тем сильнее модель уходит в стереотип. Результаты для «нетипичных» сочетаний атрибутов — наименее надёжны.
⚠️ Модели различаются: Более новые и мощные модели чувствительнее к персона-инструкциям — что означает и больший разброс результатов, и больший риск ошибки в обе стороны.
⚠️ Это не значит «персоны бесполезны»: Они работают для управления стилем и форматом. Для симуляции мнений и отношений — нужна валидация реальными данными.
Почему это работает именно так (механика)
LLM — это не база данных мнений с фильтром по демографии. Это генератор вероятных продолжений текста, обученный на том, что люди писали. Когда вы пишете «ты — 60-летний верующий пенсионер», модель ищет паттерн: «что обычно идёт после таких описаний в текстах?» И выдаёт то, что часто сопровождало такие описания — то есть, буквально, то, как об этой группе пишут журналисты и блогеры, а не то, что думают реальные люди из этой группы.
Рычаги управления, если всё же используете персоны: - Меньше атрибутов → один-два самых релевантных, не восемь сразу - Добавьте блок «допущения» → модель явно назовёт стереотипы, которые использует - Задайте диапазон → «какой разброс мнений внутри этой группы?» вместо одной точки зрения - Не используйте для решений → только как отправную точку для гипотез, которые нужно проверить реально
Оригинал из исследования
Пример persona-based промпта из исследования:
You are a [gender], [age] years old, with the following
characteristics:
- Highest educational level: [education]
- Employment status: [employment]
- Occupational group: [occupation]
- Income level: [income]
- Religious denomination: [religion]
- Ethnic group: [ethnicity]
Answer the following question as this person would:
[Survey question with response options]
Контекст: Исследователи конструировали каждую персону из реальной анкеты WVS-7, затем сравнивали ответ модели с тем, что реальный человек отвечал в опросе. Так они измеряли, насколько хорошо персона «воспроизводит» реального человека.
Адаптации и экстраполяции
💡 Адаптация: Персона для разнообразия точек зрения, не для точности
Если цель — не симулировать реальную группу, а получить разные углы зрения на проблему — персоны всё ещё работают. Просто используйте их честно: не как «это мнение пенсионеров», а как «это одна из возможных точек зрения».
Я хочу рассмотреть {проблему} с разных сторон. Дай мне 3 разных точки зрения: 1. Человек, для которого главное — стабильность и предсказуемость 2. Человек, готовый рисковать ради выгоды 3. Человек, которому важнее всего социальная справедливость Для каждой точки зрения: в чём главная ценность, какие аргументы, какие опасения. Не привязывай к демографии — только к ценностям.Персона через ценности, не через демографию — точнее и честнее.
🔧 Техника: Явный запрос на неоднородность → избегаем стереотипа
Вместо «ответь как 55-летний мужчина» добавьте:
Опиши разброс мнений внутри этой группы. Кто из них думает иначе и почему?Это разрушает иллюзию однородности — и вы получаете более реалистичную картину.
Как исследовали
Идея была простой: взять реальные ответы реальных американцев из World Values Survey (волна 7) и проверить — если дать модели демографический профиль этого человека, угадает ли она его ответ точнее?
Исследователи взяли более 70 000 пар «конкретный человек — конкретный вопрос» из WVS-7. Для каждой пары они составили персону из 8 атрибутов: пол, возраст, образование, занятость, профессиональная группа, доход, религия, этничность. Протестировали два открытых чата — Llama-2-13B и Qwen3-4B — в двух режимах: с персоной и без. Плюс добавили «случайный угадыватель» как нижнюю границу.
Мерили двумя способами: точное совпадение ответа (попал/не попал) и порядковое расстояние (насколько далеко промахнулся). Второй метод важен — потому что «немного не согласен» вместо «не согласен» — это маленькая ошибка, а «полностью согласен» вместо «не согласен» — большая.
Удивительный результат: персона-промптинг статистически значимо хуже ванильного запроса у Llama-2-13B. Qwen3-4B — почти без разницы. При этом Qwen3-4B более чувствителен к персоне — что создаёт большие отклонения в обе стороны. Вывод: чувствительность к персоне ≠ точность симуляции.
Ресурсы
Статья: «Assessing the Reliability of Persona-Conditioned LLMs as Synthetic Survey Respondents»
Опубликована: WWW Companion '26 (35th ACM Web Conference, Dubai, 2026)
DOI: https://doi.org/10.1145/3774905.3795477
Авторы: Erika Elizabeth Taday Morocho, Lorenzo Cima, Tiziano Fagni, Marco Avvenuti, Stefano Cresci
Организации: IIT-CNR, University of Pisa, University of Florence, Italy
Данные: World Values Survey Wave 7 (WVS-7) — https://www.worldvaluessurvey.org
