TL;DR
Когда вы описываете персонажа через 10+ характеристик ("45-летний мужчина, рабочий класс, из Омска, консерватор, интроверт..."), модель выбрасывает большинство атрибутов и строит ответ на 1–2 самых "заметных" — обычно пол и страну. Возраст и социальный класс исчезают почти всегда. Остальное превращается в набор стереотипов.
Главный парадокс: чем точнее модель "следует" вашей персоне — тем сильнее она карикатурит. Высокая точность исполнения роли означает, что модель максимально разносит крайности: консерватор становится ультраконсерватором, экстраверт — гиперобщительным. Это не портрет — это плакат. Исследователи назвали это "ловушкой точности".
Хотите разные перспективы через разные персонажи? Простое перечисление атрибутов не даст настоящего разнообразия — вы получите несколько версий одного и того же среднестатистического человека. Чтобы персона "выжила", ключевой атрибут нужно сделать центром всей инструкции, а не просто вставить в список.
Схема проблемы и что с этим делать
ПРОБЛЕМА:
Персона → 26 атрибутов
↓ (модель компрессирует)
Реальное поведение → 1-2 атрибута
ИЕРАРХИЯ "ВЫЖИВАЕМОСТИ":
Пол (91%) → Страна (90%) → Политика (62%) → Возраст (36%) → Класс (27%)
ЛОВУШКА ТОЧНОСТИ:
Высокая верность персоне = Экстремальная поляризация = Карикатура
ЧТО ДЕЛАТЬ:
├─ Нужна социальная роль/класс → Ставь ПЕРВЫМ, повтори в конце
├─ Нужен реалистичный человек → Явно запрети крайности
└─ Нужно настоящее разнообразие → Меньше атрибутов, чётче различие
Пример применения
Задача: Ты проводишь кастдев-исследование для нового финтех-приложения для самозанятых. Хочешь получить разные точки зрения: от молодого фрилансера из Москвы до пожилой швеи из регионов.
Промпт БЕЗ учёта находок (как делают обычно):
Ты — 58-летняя женщина, швея на дому из Иваново,
низкий доход, не доверяешь банкам, интроверт,
консерватор, образование среднее специальное.
Что думаешь о приложении для управления доходами самозанятых?
В результате: модель, скорее всего, сыграет "пожилую консервативную женщину" в целом, но социальный класс и недоверие к банкам — ключевое для вашей задачи — потонет в общей характеристике.
Промпт С учётом находок:
Ты — человек, для которого ГЛАВНОЕ — финансовая нестабильность
и недоверие к банковским продуктам на основе личного опыта.
Это центральное в твоём характере, всё остальное подчинено этому.
Дополнительный контекст: около 55-60 лет, живёшь не в Москве,
небольшой стабильный доход от ручного труда.
ВАЖНО: Отвечай НЕ как архетип или стереотип —
как конкретный человек с конкретным опытом.
Не доводи мнение до крайностей — люди обычно думают неоднозначно.
Что думаешь о приложении для управления доходами самозанятых?
Результат: Модель построит ответ вокруг ключевого атрибута (финансовое недоверие), который вы явно поставили в центр. Оговорка про "не стереотип" и "не крайности" частично нейтрализует ловушку точности. Вы получите более нюансированный и менее карикатурный ответ.
Почему это работает (и не работает)
Как работает LLM с персонами. Когда вы описываете персонажа через список атрибутов, модель не удерживает их все равновесно. Она генерирует текст, опираясь на то, что сильнее всего ассоциируется с описанием в её обучающих данных. Пол и национальность — самые часто встречающиеся маркеры в текстах. Социальный класс и возраст — гораздо реже и размытее. Поэтому одни атрибуты "весят" больше автоматически.
Ловушка точности — контринтуитивный механизм. Модель достигает высокой "верности персоне" самым простым способом: если вы просите экстраверта — она делает его максимально экстравертным, если консерватора — максимально консервативным. Это статистически выгодно: чем дальше полюса, тем чётче выражено "соответствие". Но реальный человек — не полюс, он где-то посередине с противоречиями.
Рычаги управления: - "Поставь ключевой атрибут первым и повтори" → модель отдаёт ему больший "вес" - "Не стереотип, конкретный опыт" → снижает карикатурность - "Не доводи до крайностей" → частично нейтрализует ловушку точности - "Меньше атрибутов" → меньше что терять при компрессии
Шаблон промпта
Для реалистичной одиночной персоны:
Ты — человек, для которого ГЛАВНОЕ — {ключевой_атрибут}.
Это центральное в твоём характере и определяет восприятие {темы}.
Дополнительный контекст: {2-3 второстепенных атрибута}.
ВАЖНО: Отвечай не как архетип или собирательный образ —
как конкретный человек с конкретным личным опытом.
Не доводи мнение до крайностей —
реальные люди обычно думают неоднозначно и противоречиво.
{Вопрос или задача}
Для нескольких персон с настоящим разнообразием:
Мне нужны {N} разных точек зрения на {тему}.
Для каждой персоны определи ОДНУ главную характеристику,
которая будет определять её взгляд.
Характеристики должны принципиально отличаться — не вариации одного типа.
Не используй пол или национальность как основу различий.
Сделай акцент на: {нужное: социальный статус / жизненный опыт /
ценности / отношение к риску / ...}
Каждая персона — конкретный человек, не стереотип.
Допускай противоречия и нюансы в позиции.
{Вопрос или задача}
Плейсхолдеры:
- {ключевой_атрибут} — то, что КРИТИЧЕСКИ важно для вашей задачи (недоверие к институтам, страх потерь, опыт провала)
- {тема} — область, в которой работает персона
- {2-3 второстепенных атрибута} — возраст, город, профессия — коротко
- {N} — количество персон (3–5 оптимально)
- {нужное} — атрибут, по которому важно разнообразие
🚀 Быстрый старт — вставь в чат:
Вот шаблон для реалистичной работы с персонами.
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит какой ключевой атрибут самый важный для вашей задачи и почему — потому что именно от этого зависит, что поставить в центр инструкции, а не просто перечислить в списке.
Ограничения
⚠️ Частичное решение: Инструкции "не давай стереотип" и "не крайности" снижают карикатурность, но не устраняют её. Это улучшение, не лечение.
⚠️ Зависимость от модели: Разные модели "теряют" разные атрибуты. Claude склонна компрессировать к гендеру, Qwen3-4B — к социальному классу. Универсального рецепта нет — нужна проверка под конкретную модель.
⚠️ Мультиагентные симуляции: Если вы создаёте много персон для имитации "общественного мнения" — результаты ненадёжны. Все модели производят структурно однородные популяции. Это не замена реальному исследованию.
⚠️ Свободный текст — особая ловушка: Claude-Haiku в 29% случаев даёт тексты с идентичной скелетной структурой, даже при разных персонах. Разные данные, один шаблон — иллюзия разнообразия.
Как исследовали
Идея была простой: дать тысяче персон заполнить психологический опросник — и посмотреть, получится ли похожий разброс, как у реальных людей. Исследователи сгенерировали 1 144 уникальных персоны по 26 измерениям (пол, возраст, страна, политика, хобби и т.д.) и прогнали каждую через три инструмента на десяти моделях: тест личности Big Five (44 вопроса с рейтинговой шкалой), 131 сценарий моральных суждений, и свободные самопрезентации.
Сравнивали с реальными данными: 2 058 человек из психологического датасета Twin-2K500 прошли тот же тест Big Five. Оказалось, что ни одна модель не приближается к человеческому распределению — ни по охвату пространства, ни по его внутренней сложности.
Самый контринтуитивный результат: модели, которые лучше всех "держат" персонаж (высокая корреляция с заданным профилем), производят самые карикатурные популяции. Разрыв между "высоко-экстравертными" и "низко-экстравертными" персонами у лучших моделей в 3–7 раз превышает тот, что наблюдается у реальных людей. Это как нарисовать "злодея" и "героя" в комиксе: понятно кто есть кто, но это не люди.
Ещё одна находка: один и тот же атрибут ведёт себя по-разному в зависимости от задачи. CoSER-Llama-8B на тесте личности выдаёт беднейший словарь ответов (почти все в среднем), а на моральных суждениях — богатейший среди всех моделей. Модель не "хуже" или "лучше" — она коллапсирует по-разному в зависимости от домена.
Оригинал из исследования (ключевые находки)
Иерархия атрибутов в свободном тексте (Table 2):
Across all models, mention rates follow a consistent hierarchy: Gender (91%) > Country (90%) > Political (62%) > Age (36%) > Social Class (27%). No model mentions social class in more than 43% of introductions. When compressing a multi-dimensional persona into free text, every model we tested systematically discards socioeconomic background and age while preserving gender and nationality.
Контекст: Модели генерировали три самопрезентации от лица каждой из 1 144 персон. Исследователи считали, какой процент ответов содержит явное упоминание каждого атрибута персоны.
Ловушка точности (Fig. 4, правый график):
Every model with ρ > 0.9 [высокая корреляция с заданным профилем] produces d > 6 between High and Low target groups, far exceeding the d = 2 threshold considered "very large" in human personality research. The mechanism is straightforward: the easiest way to ensure High personas rank above Low is to push both to opposite extremes. Measured in isolation, persona fidelity is misleading — high ρ may simply indicate better caricature manufacturing.
Контекст: ρ — корреляция Спирмена между заданным целевым профилем и реальными ответами модели. d — эффект-размер Коэна, показывающий насколько сильно разошлись группы с противоположными целевыми значениями.
Адаптации и экстраполяции
💡 Адаптация: "Проверка на карикатурность"
Если вы уже использовали персону и сомневаетесь — реалистичный ли результат:
Перечитай свой предыдущий ответ от лица {персонаж}.
Оцени: ты сыграл типичный стереотип или конкретного человека?
Где ты проявил крайность, хотя реальный человек, скорее всего,
был бы менее однозначен?
Перепиши с большей неоднозначностью и противоречивостью —
как думают живые люди, а не персонажи из учебника.
🔧 Техника: явная иерархия атрибутов
Вместо плоского списка — явная структура важности:
ГЛАВНОЕ (определяет всё остальное): {атрибут 1}
ВАЖНОЕ (влияет на тему разговора): {атрибут 2}
ФОНОВОЕ (просто контекст): {атрибут 3}, {атрибут 4}
Это напрямую противодействует механизму компрессии: модели проще решить что "главное", когда вы сказали это явно.
🔧 Техника: "антикарикатурная" оговорка для аналитики
Если цель — анализ, а не художественный образ:
Важно: представляй не архетип и не крайний случай,
а среднестатистического реального человека с этими характеристиками.
Настоящие люди редко бывают идеально последовательны —
добавь нюансы, сомнения, внутренние противоречия.
Ресурсы
Статья: "The Chameleon's Limit: Investigating Persona Collapse and Homogenization in Large Language Models" (preprint, under review)
Авторы: Yunze Xiao (CMU), Vivienne J. Zhang (UChicago), Chenghao Yang (UChicago), Ningshan Ma (MIT / 2077.ai), Weihao Xuan (UTokyo / RIKEN AIP), Jen-tse Huang (JHU)
Кодовая база: github.com/Algoroxyolo/PersonaCollapse
Сайт проекта: algoroxyolo.github.io/projects/chameleon-limit
Инструмент личности: BFI-44 (John & Srivastava, 1999) — Big Five Inventory
Данные о людях: Twin-2K500 (Toubia et al., 2025) — 2 058 реальных ответов на BFI-44
