3,583 papers
arXiv:2605.10659 74 11 мая 2026 г. FREE

Цифровые персонажи LLM: когда симуляция аудитории работает, а когда нет

КЛЮЧЕВАЯ СУТЬ
Модель звучит одинаково уверенно — когда права и когда врёт. Это главная ловушка цифровых персонажей. Метод позволяет надёжно симулировать реакцию аудитории на ценностные сообщения и позиционирование — если строить персонажа правильно. Фишка: демография — самый слабый рычаг точности. Главное — конкретные прошлые высказывания по близким темам. Не 'интересуется политикой', а реальная позиция по похожему вопросу. Чем точнее совпадение по смыслу — тем точнее персонаж.
Адаптировать под запрос

TL;DR

LLM хорошо имитирует усреднённую позицию аудитории по вопросам о ценностях, политике, семье и религии — но плохо предсказывает ответы конкретного человека и совсем не справляется с субъективными вопросами о личности и образе жизни. Это не баг одной модели — это системное свойство всех LLM.

Когда спрашиваешь Claude «как отреагирует моя целевая аудитория на это предложение?» — модель неплохо угадывает общее распределение мнений, но ошибается в каждом конкретном человеке и теряется, если аудитория неоднородная. Причина: LLM выучивает устойчивые паттерны из текстов в интернете — политические взгляды, религиозные позиции, демографически предсказуемое поведение. Но индивидуальный жизненный опыт, привычки досуга, самооценка — этого в текстах нет в нужном объёме.

Переломный инсайт: персонаж работает лучше, если дать модели не только демографию, но и конкретные прошлые высказывания и мнения этого человека по похожим темам. Чем ближе предыдущие ответы к текущему вопросу — тем точнее имитация.


🔬

Схема метода

Это не одна техника, а иерархия надёжности персонажей — четыре уровня, каждый следующий точнее:

УРОВЕНЬ 1: Только демография
Возраст, пол, доход, город → слабая точность

УРОВЕНЬ 2: Демография + профиль
Краткое описание взглядов, ценностей, истории → лучше

УРОВЕНЬ 3: Профиль + похожие прошлые ответы (по словам)
Находим прошлые высказывания где есть похожие слова → ещё лучше

УРОВЕНЬ 4: Профиль + семантически близкие прошлые ответы
Находим прошлые высказывания по смыслу (не по словам) → лучший результат

Всё выполняется в одном промпте.

Дополнительный фильтр: прежде чем симулировать — определи тип вопроса:

Бинарный вопрос (да/нет) или малый выбор? → доверять можно
Вопрос связан с ценностями / демографией? → доверять можно
Субъективная самооценка / опыт / досуг? → не доверять
Нужно предсказать конкретного человека? → не доверять

🚀

Пример применения

Задача: Ты запускаешь курс по инвестициям для аудитории 35–50 лет, Москва и Питер, с доходом выше среднего. Хочешь понять — как аудитория отреагирует на фрейминг «инвестиции как способ обрести независимость от государства».

Промпт:

Ты — цифровой персонаж, представляющий типичного представителя аудитории.

ДЕМОГРАФИЯ:
- Возраст: 38–48 лет
- Город: Москва или Санкт-Петербург
- Доход: 200–400 тысяч рублей в месяц
- Занятость: наёмный руководитель среднего звена или предприниматель

ЦЕННОСТНЫЕ МАРКЕРЫ (известны из прошлых высказываний аудитории):
- Доверяет финансовым инструментам больше, чем государственным программам
- Считает, что пенсионная система ненадёжна
- Следит за курсом доллара и новостями экономики
- Читает Telegram-каналы про личные финансы

ЗАДАЧА:
Ответь на следующие вопросы так, как ответил бы этот человек:

1. Насколько фраза «инвестируй, чтобы не зависеть от государства» звучит убедительно? (оцени 1–5)
2. Что в этом сообщении вызывает у тебя доверие?
3. Что вызывает скептицизм или раздражение?
4. Как бы ты переформулировал это послание, чтобы оно звучало честнее?

Отвечай от первого лица, коротко и прямо.

Результат: Модель выдаст условную позицию типичного представителя — оценку по шкале, конкретные возражения, альтернативные формулировки. Это будет распределённый взгляд, а не мнение реального человека. Используй как первый черновик для гипотез — не как финальный ответ.


🧠

Почему это работает

Слабость LLM: модель не знает конкретного человека. Она знает паттерны из миллионов текстов — как обычно ведут себя люди с похожими характеристиками. Поэтому индивидуальный прогноз — лотерея, а популяционное распределение — рабочая оценка.

Сильная сторона LLM: модель отлично усваивает стабильные социальные паттерны — политические позиции, религиозные взгляды, ценности, демографически предсказуемое поведение. Эти вещи хорошо отражены в текстах интернета, которые модель видела при обучении.

Как метод использует это: если дать модели не просто демографию, а конкретные прошлые высказывания по похожим темам — она перестаёт угадывать из общего паттерна и начинает экстраполировать от конкретного человека. Чем релевантнее прошлые ответы — тем точнее прогноз. Это называют retrieval-augmented persona — персонаж с памятью.

Рычаги управления промптом: - Тип вопроса → бинарный да/нет надёжнее, чем шкала 1–10, шкала надёжнее, чем открытый вопрос - Ценностный маркер → чем конкретнее прошлые высказывания (не "интересуется политикой", а конкретная позиция) — тем точнее - Домен → ценности/политика/семья → доверяй, досуг/личность/самооценка → проверяй на реальных людях - Уровень вывода → популяционный ("как большинство вашей аудитории") надёжнее, чем индивидуальный ("как именно этот человек")


📋

Шаблон промпта

Ты — цифровой персонаж. Отвечай на вопросы как представитель {описание_аудитории}.

ДЕМОГРАФИЯ:
{возраст, пол, город, доход, занятость}

ИЗВЕСТНЫЕ ВЗГЛЯДЫ И ПОЗИЦИИ:
{конкретные прошлые высказывания, убеждения, ценности — 3-5 пунктов}
Пример: «Считает, что X», «Высказывался про Y так: ...», «Доверяет Z больше, чем W»

ПОХОЖИЕ ПРОШЛЫЕ ОТВЕТЫ ПО ТЕМЕ:
{если есть — вставь реальные цитаты или позиции аудитории по близким вопросам}

ВОПРОСЫ:
{список вопросов — предпочтительно бинарные или шкальные}

Отвечай от первого лица. Не нейтральничай. Давай конкретную позицию.
Уточни: это типичная позиция для такой аудитории, а не мнение реального человека.

Что подставлять: - {описание_аудитории} — краткий архетип: "35-летний менеджер из Екатеринбурга" - {известные взгляды} — чем конкретнее, тем лучше; это главный рычаг точности - {похожие прошлые ответы} — если есть реальные отзывы, интервью, комментарии аудитории — вставь их сюда - {вопросы} — бинарные или шкала 1–5 работают лучше открытых


🚀 Быстрый старт — вставь в чат:

Вот шаблон для создания цифрового персонажа (симуляция аудитории). 
Адаптируй под мою задачу: {твоя задача}. 
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит про характеристики аудитории, известные взгляды и тип вопросов — потому что без конкретных ценностных маркеров персонаж будет усреднённым и предсказуемым.


⚠️

Ограничения

⚠️ Индивидуальное предсказание: Персонаж ненадёжен для предсказания мнения конкретного человека — только для распределения мнений группы.

⚠️ Субъективные домены: Вопросы про личность, образ жизни, досуг, самооценку — модель угадывает плохо. Проверяй на реальных людях.

⚠️ Редкие сегменты: Если твоя аудитория нестандартная или неоднородная — симуляция будет тянуть к большинству и игнорировать меньшинство.

⚠️ Кластерная структура: Даже если персонаж угадывает распределения — он не сохраняет связи между ответами. Нельзя делать сегментацию аудитории на основе LLM-симуляции.

⚠️ Иллюзия точности: Ответы звучат уверенно, даже когда ошибаются. Всегда проверяй на небольшой выборке реальных людей перед тем как опираться на симуляцию для решений.


🔍

Как исследовали

Идея была строгой: взять реальных людей с историей ответов и проверить, может ли LLM предсказать их же будущие ответы — не абстрактного среднестатистического респондента, а именно этих конкретных людей.

Исследователи взяли LISS panel — нидерландскую продольную панель из 6 276 человек. Для каждого участника: демография (34 переменные) + история ответов до 2023 года → строили цифровой персонаж. Затем просили LLM предсказать ответы тех же людей на опросы 2023–2024 годов. Персонаж никогда не видел эти ответы — чистый прогноз.

Тестировали 4 архитектуры персонажей × 3 модели (GPT, Gemini, Claude Haiku) × 2 набора вопросов = 12 настроек. Проверяли шесть уровней точности: угадал ли конкретный ответ, угадал ли паттерн человека, совпало ли распределение по группе, нет ли перекоса по демографии, сохранилась ли кластерная структура.

Самое интересное: модель не так важна, как архитектура персонажа. Retrieval-based персонажи (с релевантными прошлыми ответами) стабильно лучше во всём. А вот кластерная структура аудитории — то, как люди группируются по типам — не восстанавливается ни одним персонажем. Это прямое предупреждение против использования LLM-симуляций для сегментации.

Справедливое ограничение: исследование на нидерландцах, и тестировали только закрытые вопросы (да/нет, шкалы). Открытые ответы не тестировались — там лучше или хуже, неизвестно.


💡

Адаптации и экстраполяции

1. Тест надёжности перед применением

Есть реальные отзывы или интервью аудитории? Проверь персонажа перед использованием:

🔧 Калибровка персонажа → понимаешь, где можно доверять

Я дам тебе профиль персонажа и несколько вопросов, 
на которые я уже знаю реальные ответы аудитории.

[профиль персонажа]

Ответь на эти вопросы:
[5–10 вопросов с известными тебе ответами]

После ответов — я скажу, насколько точно. 
Это поможет понять, где персонаж надёжен для моей аудитории.

Если совпало 70%+ — можешь доверять этому домену. Если меньше — корректируй профиль или проверяй на реальных людях.

2. Явное разделение: "типичный" vs "все типы"

Исследование показало: персонажи тянутся к большинству и теряют редкие сегменты. Запрашивай явно:

🔧 Множественные персонажи → видишь неоднородность аудитории

Опиши реакцию на {сообщение} для трёх типов аудитории:
1. Типичный большинство — [профиль]
2. Скептик / критик — [профиль]  
3. Энтузиаст / ранний последователь — [профиль]

Для каждого: позиция, главное возражение, триггер для действия.

Вместо одного усреднённого ответа получаешь спектр — включая тех, кого LLM обычно сглаживает.


🔗

Ресурсы

When Can Digital Personas Reliably Approximate Human Survey Findings? — Mumin Jia, Divya Sharma, Yilin Chen, Jairo Diaz-Rodriguez. Department of Mathematics and Statistics, York University, Toronto; Department of Biostatistics, University Health Network, Toronto. Preprint 2025.

LISS Panel (Longitudinal Internet Studies for the Social Sciences) — centerdata.nl


📋 Дайджест исследования

Ключевая суть

Модель звучит одинаково уверенно — когда права и когда врёт. Это главная ловушка цифровых персонажей. Метод позволяет надёжно симулировать реакцию аудитории на ценностные сообщения и позиционирование — если строить персонажа правильно. Фишка: демография — самый слабый рычаг точности. Главное — конкретные прошлые высказывания по близким темам. Не 'интересуется политикой', а реальная позиция по похожему вопросу. Чем точнее совпадение по смыслу — тем точнее персонаж.

Принцип работы

Персонажи работают по иерархии. Четыре уровня — каждый следующий точнее предыдущего. Уровень 1: только демография — слабо. Уровень 2: демография + описание взглядов — лучше. Уровень 3: добавь прошлые высказывания по близким словам — ещё лучше. Уровень 4: добавь прошлые высказывания по смыслу, не по словам — лучший результат. Большинство застревает на уровне 1 — и винит модель, хотя проблема в промпте. Плюс фильтр по типу вопроса: бинарные и шкальные надёжны, открытые — черновик. Домен тоже важен: ценности и политика работают, досуг и самооценка — нет.

Почему работает

LLM учится на текстах интернета. Политические позиции, религиозные взгляды, ценности — там отлично представлены. Личный опыт, привычки, самооценка — почти нет. Поэтому модель уверенно предсказывает паттерны группы — и теряется на индивидуальных. Прошлые высказывания по близким темам меняют режим работы: с 'угадывания из паттернов' на 'экстраполяцию от конкретного человека'. Это и есть причина, почему уровень 4 бьёт уровень 1. Модель перестаёт тянуть к усреднённому большинству — и начинает идти от конкретики.

Когда применять

Тестирование ценностных сообщений и позиционирования → идеально для бинарных вопросов и шкал 1–5 про убеждения, политику, религию, семью, финансовое поведение. Особенно когда нужна первая гипотеза до запуска реального опроса — сэкономишь время и деньги. НЕ подходит: индивидуальное предсказание ('что ответит именно этот человек'), вопросы про образ жизни и досуг, нестандартные или неоднородные сегменты аудитории. И никогда — для сегментации аудитории: персонаж угадывает распределение, но не сохраняет связи между ответами разных людей.

Мини-рецепт

1. Проверь тип вопроса: бинарный ('да/нет') или шкала 1–5? Если хочешь открытый — относись к результату как к черновику гипотезы, не как к ответу.
2. Проверь домен: ценности, политика, семья, финансовые убеждения — доверяй. Личность, досуг, самооценка — проверяй на реальных людях.
3. Собери контекст: найди реальные высказывания аудитории по близким темам. Цитаты из отзывов, интервью, комментариев в соцсетях — это главный рычаг точности.
4. Построй персонажа по уровням: демография + конкретные взгляды (не 'интересуется X', а 'считает, что X потому что Y') + прошлые высказывания по смыслу близкой темы.
5. Уточни уровень вывода: проси оценить 'типичную позицию для такой аудитории', не 'что ответит конкретный человек'.
6. Сверь с реальностью: прежде чем опираться на результат — прогони тот же вопрос через 3–5 живых людей из аудитории. Это не отменяет метод, это его проверка.

Примеры

[ПЛОХО] : Ты — менеджер 38 лет из Москвы с доходом 300 тысяч. Как ты отреагируешь на сообщение 'инвестируй ради независимости от государства'?
[ХОРОШО] : Ты — цифровой персонаж, типичный представитель аудитории. Демография: 38–48 лет, Москва, доход 200–400 тыс./мес., наёмный руководитель среднего звена. Известные взгляды: считает пенсионную систему ненадёжной, следит за курсом доллара, доверяет личным инвестициям больше государственных программ, читает Telegram-каналы про личные финансы. Прошлые высказывания по близкой теме: 'государство думает о себе, не обо мне', 'держу часть сбережений в валюте на всякий случай'. Вопрос: оцени по шкале 1–5, насколько убедительна фраза 'инвестируй ради независимости от государства'. Что вызывает доверие? Что раздражает? Говори от первого лица, конкретно. Уточни: это типичная позиция для такой аудитории, а не мнение реального человека.
Источник: When Can Digital Personas Reliably Approximate Human Survey Findings?
ArXiv ID: 2605.10659 | Сгенерировано: 2026-05-12 09:28

Проблемы LLM

ПроблемаСутьКак обойти
Персонаж звучит уверенно — но говорит за группу, не за человекаПросишь модель изобразить конкретного человека. Получаешь уверенный ответ от первого лица. Кажется — вот мнение этого человека. На деле — это среднее по группе похожих людей. Конкретный человек с такой демографией может думать иначе. Модель не предупреждает об этомИспользуй персонажа только для оценки позиции группы. В запросе пиши: "какова типичная позиция такой аудитории". Не пиши: "что думает этот человек". Для предсказания конкретного человека — проверяй на реальных людях

Методы

МетодСуть
Фильтр перед симуляцией — проверь, стоит ли доверять ответуПрежде чем запускать персонажа, задай себе два вопроса. Первый: какой тип вопроса? Бинарный (да/нет) или шкальный (1–5) доверять. Открытый ("расскажи о себе") проверять. Второй: о чём вопрос? Ценности, политика, религия, семья доверять. Досуг, личность, образ жизни, самооценка не доверять. Оба вопроса вместе дают оценку надёжности до запуска. Экономит время на бесполезных симуляциях
Прошлые высказывания вместо демографии — главный рычаг точностиСтандартный персонаж: возраст, пол, доход, город. Это слабая база — модель угадывает из общего паттерна. Добавь в запрос конкретные прошлые слова этой аудитории: реальные отзывы, позиции, цитаты из интервью по близким темам. Правило: чем ближе прошлые высказывания к текущему вопросу по смыслу — тем точнее ответ. Синтаксис: ИЗВЕСТНЫЕ ПОЗИЦИИ АУДИТОРИИ: "Считает X", "Высказывалась о Y так: ...". Без прошлых высказываний персонаж тяготеет к усреднённому большинству и игнорирует особенности сегмента
📖 Простыми словами

When Can Digital Personas Reliably Approximate Human Survey Findings?

arXiv: 2605.10659

Нейросети не умеют читать мысли конкретного человека, они работают как статистическое зеркало общества. Когда ты просишь модель изобразить «цифровую персону», она не лезет в голову к реальному индивиду, а вычисляет усредненный вектор мнений на основе миллионов текстов из обучающей выборки. Это фундаментальная механика: LLM отлично схватывают коллективные установки — политику, религию, отношение к семье — потому что об этом написаны терабайты данных. Но как только дело доходит до личных привычек или субъективного выбора бренда зубной пасты, модель начинает гадать, потому что в её базе нет уникального жизненного опыта, только общие паттерны.

Это как пытаться предсказать погоду: ты можешь с высокой точностью сказать, что в июле в Сочи будет жарко, но абсолютно бесполезно гадать, пойдет ли дождь в 14:15 над конкретной скамейкой в парке. Популяционный прогноз — это климат, он работает. Индивидуальный прогноз — это конкретная туча, и здесь нейросеть лажает. Формально она выдаст ответ, но это будет просто галлюцинация, основанная на стереотипах, а не на реальности.

Чтобы выжать из этого пользу, нужно использовать иерархию надёжности. Если ты просто скажешь «представь, что ты либерал», получишь картонную куклу. Но если добавить демографический контекст (возраст, город, доход) и психографический профиль (ценности и страхи), точность резко растет. Например, при оценке реакции на новый финансовый продукт модель выдаст адекватный срез мнений целой группы, но если спросить её, «купит ли этот курс Иван Иванович из Химок», она просто вежливо соврет.

Тестировали это на социологических опросах, но принцип применим везде: от маркетинга до политики. Цифровые двойники — это не замена реальным людям, а мощный фильтр для проверки идей на уровне масс. Если твоя стратегия проваливается на уровне «усредненного москвича 40 лет», то в реальности она тем более не взлетит. Это идеальный инструмент для предварительной калибровки, который экономит бюджет на фокус-группах, отсекая заведомо провальные гипотезы.

Короче: забудь про попытки предсказать поведение конкретного юзера — это полный облом. Используй LLM как генератор синтетических толп, чтобы понять общие тренды и реакцию на ценностные триггеры. Групповые ценности предсказуемы, личные капризы — нет. Кто поймет эту границу, тот перестанет кормить нейросеть бессмысленными промптами и начнет получать данные, которые реально коррелируют с рынком.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с