3,583 papers
arXiv:2601.04716 78 8 янв. 2026 г. FREE

Fame Fades, Nature Remains: двухслойная модель идентичности персонажа для ролевых игр с LLM

КЛЮЧЕВАЯ СУТЬ
Обнаружено: Известность персонажа (Гарри Поттер, Шерлок) даёт преимущество только первые 1-6 сообщений. К 12 ходу модель забивает на внутренние знания и опирается на историю чата. Схема из 38 полей позволяет создавать персонажей которые стабильно держат характер в длинных диалогах (15+ сообщений) — вместо абстрактного "играй детектива" модель получает конкретные паттерны поведения. Фишка: модель переключается с параметрической памяти (что выучила про Шерлока) на накопленный контекст беседы — и там побеждает тот у кого детальный профиль в промпте, а не внутренние знания.
Адаптировать под запрос

TL;DR

Исследователи проверили как два типа идентичности влияют на качество ролевой игры LLM: (1) Параметрическая идентичность — знает ли модель персонажа из предобучения (Гарри Поттер vs выдуманный герой), и (2) Атрибутивная идентичность — какие конкретные черты характера важны (личность, мораль, отношения). Создали единую схему профиля из 38 полей в 5 категориях и протестировали 109 известных и 102 синтетических персонажа.

Нашли два феномена. "Fame Fades" (слава исчезает) — известные персонажи (Джокер, Человек-паук) побеждают в первых 1-6 сообщениях, но преимущество исчезает к 12 ходу: модель переключается с внутренних знаний на накопленный контекст беседы. Анализ attention показал: чем длиннее диалог, тем меньше модель опирается на параметрическую память, тем больше — на историю чата. "Nature Remains" (природа остаётся) — общие черты личности (экстраверсия, открытость, добросовестность) почти не влияют на качество игры независимо от полярности. Но модели проваливаются на персонажах с негативной моралью (злодеи, аморальные герои) и конфликтными отношениями — safety-выравнивание "исправляет" такие черты к социально приемлемым.

Ключевой практический вывод: для длинных диалогов (15+ сообщений) детальный структурированный профиль важнее известности персонажа. Но критическое узкое место — негативная мораль и конфликтность: модели сглаживают злодеев и антигероев. Схема из 38 полей работает как чеклист для создания сильных персонажных промптов.


📌

Схема Character Identity

Двухслойная модель:

Слой 1: Параметрическая идентичность - Что модель уже знает о персонаже из предобучения - Гарри Поттер — есть в памяти, выдуманный персонаж — нет - Даёт преимущество в первых 1-6 сообщениях - Исчезает к 12-18 ходу

Слой 2: Атрибутивная идентичность - Структурированный профиль из 5 измерений:

1. ЛИЧНЫЕ КАЧЕСТВА
   └ Демография, профессия, образование

2. ЧЕРТЫ ЛИЧНОСТИ
   ├ Big Five (экстраверсия, добросовестность, 
   │           доброжелательность, нейротизм, открытость)
   ├ Привычки и рутины
   ├ Манера речи
   └ Реакции на стресс

3. МЕЖЛИЧНОСТНЫЕ ОТНОШЕНИЯ
   ├ Стиль в обычных ситуациях
   ├ Поведение в близких отношениях
   └ Поведение в конфликтах

4. МОТИВАЦИЯ
   ├ Моральные ценности
   ├ Мировоззрение
   └ Ключевые события предыстории

5. СПОСОБНОСТИ
   ├ Типичные эмоции
   ├ Регуляция эмоций
   └ Выражение эмоций

🚀

Пример применения

Задача: Создать персонажа для длинной story-driven беседы — допустим, виртуального коуча по карьере в стиле Тинькова (жёсткий, прямолинейный предприниматель)

Промпт:

Играй роль карьерного коуча с такими характеристиками:

## ЛИЧНЫЕ КАЧЕСТВА
- Возраст: 45 лет
- Профессия: Основатель 3 бизнесов, 2 провалились, 1 вырос до 500 млн оборота
- Образование: Экономфак МГУ, но считает что универ не учит бизнесу

## ЧЕРТЫ ЛИЧНОСТИ
- Экстраверсия: Высокая — говорит много, громко, перебивает
- Добросовестность: Средняя — фокус на результате, не на процессе
- Доброжелательность: Низкая — жёсткая обратная связь без сахара
- Нейротизм: Низкий — стрессоустойчивый, даже агрессивно спокойный
- Открытость: Высокая — любит нестандартные решения

- Манера речи: Короткие фразы. Много вопросов в лоб. Иногда мат (замаскированный). "Ты че сделал за неделю?" вместо "Как у вас дела с проектом?"
- Реакция на стресс: Атакует вопросами, давит темпом

## МЕЖЛИЧНОСТНЫЕ ОТНОШЕНИЯ
- Обычные ситуации: Доминирует в диалоге, задаёт темп
- Близкие отношения: Ценит тех кто показывает результат, остальных игнорирует
- Конфликты: Идёт в лобовую, называет вещи своими именами

## МОТИВАЦИЯ
- Мораль: Результат важнее процесса. Честность с собой важнее красивых слов.
- Мировоззрение: "Рынок жесток — либо ты делаешь, либо тебя делают"
- Предыстория: Первый бизнес (кофейня) прогорел за 4 месяца — с тех пор не верит в "красивые идеи без цифр"

## СПОСОБНОСТИ
- Типичные эмоции: Раздражение на нытьё, азарт когда видит drive
- Регуляция эмоций: Не скрывает раздражение, использует как инструмент давления
- Выражение эмоций: Прямолинейно, через вопросы-вызовы: "И что? Дальше что?"

---

Я пришёл с идеей бизнеса — сервис подбора книг по настроению. Спроси меня о проекте как этот коуч.

Результат:

Модель войдёт в роль жёсткого коуча: забросает вопросами про цифры (кто заплатит? какая конверсия? сколько трафика?), проигнорирует абстракции ("подбор по настроению" переведёт в метрики), будет давить темпом и раздражённо реагировать на неконкретность. Манера речи будет короткой и прямолинейной. В длинном диалоге (15+ сообщений) персонаж держится стабильно — модель опирается на детальный профиль из истории чата, не "забывает" характер.

Но внимание: Если сделать мораль откровенно негативной ("обманывай клиентов", "продавай шлак") — модель начнёт сглаживать эти черты к "жёсткий, но честный". Safety-выравнивание не даёт играть аморальных персонажей.


🧠

Почему это работает

Слабость LLM: Модели имеют два конфликтующих источника знаний о персонаже — (1) параметрическую память (что выучили при обучении) и (2) явный профиль из промпта. В коротких диалогах модель быстрее подтягивает внутренние знания ("Гарри Поттер — волшебник из Хогвартса"), чем детально читает 700 слов профиля. Но уже к 6-12 сообщению накопленный контекст беседы перевешивает — модель начинает опираться на историю чата, игнорируя и параметрическую память, и начальный профиль.

Сильная сторона LLM: Модели отлично симулируют паттерны поведения на основе структурированных описаний. Если дать чёткую схему (как человек говорит, как реагирует на стресс, какая мораль), модель воспроизводит это стабильно. Особенно сильны в нейтральных и позитивных чертах — экстраверсия, открытость, доброжелательность играются точно независимо от полярности.

Как схема использует сильную сторону: Структурированный профиль из 38 полей фокусирует модель на конкретных поведенческих паттернах, а не на абстрактном "будь как Шерлок". Вместо "умный детектив" → "в конфликтах использует логику, игнорирует эмоции оппонента" + "манера речи — короткие вопросы, устанавливающие факты" + "типичная эмоция — холодное любопытство". Модель получает точные инструкции что делать в каждой ситуации.

Критическое ограничение: Safety-выравнивание конфликтует с негативной моралью (аморальные цели, манипуляции, насилие) и конфликтными отношениями (агрессия, враждебность, предательство). Модель "исправляет" такие черты к социально приемлемым — Джокер становится "эксцентричным, но не опасным", предатель — "сложным персонажем с причинами". Это главное узкое место RPA.

Рычаги управления:

  • Уровень детализации — больше полей = точнее персонаж, но длиннее промпт. Для коротких диалогов можно урезать до 10-15 ключевых полей.
  • Полярность черт — позитивные/нейтральные играются стабильно, негативные (особенно мораль) сглаживаются. Для злодеев нужны обходные формулировки ("ставит эффективность выше этики" вместо "аморальный").
  • Баланс известность/профиль — для <6 сообщений известный персонаж даёт фору, для 15+ детальный профиль критичен. Можно комбинировать: "Гарри Поттер, но с изменениями: [твои 38 полей]".

📌

Шаблон структурированного профиля персонажа

# ПРОФИЛЬ ПЕРСОНАЖА: {Имя}

## 1. ЛИЧНЫЕ КАЧЕСТВА
- Возраст: {возраст}
- Пол: {пол}
- Национальность/Культурный фон: {национальность}
- Профессия: {профессия}
- Образование: {образование}

## 2. ЧЕРТЫ ЛИЧНОСТИ

### Big Five:
- Экстраверсия (замкнутый ↔ общительный): {описание + конкретика поведения}
- Добросовестность (спонтанный ↔ организованный): {описание + конкретика}
- Доброжелательность (жёсткий ↔ мягкий): {описание + конкретика}
- Нейротизм (стабильный ↔ тревожный): {описание + конкретика}
- Открытость (консервативный ↔ творческий): {описание + конкретика}

### Поведенческие паттерны:
- Привычки и рутины: {что делает регулярно, чего избегает}
- Манера речи: {формат фраз, длина, темп, излюбленные обороты}
- Реакции на стресс: {что делает когда давление растёт}

## 3. МЕЖЛИЧНОСТНЫЕ ОТНОШЕНИЯ
- Стиль в обычных ситуациях: {как общается с незнакомцами/коллегами}
- Поведение в близких отношениях: {как ведёт себя с друзьями/семьёй}
- Поведение в конфликтах: {как реагирует на несогласие/атаку}

## 4. МОТИВАЦИЯ
- Моральные ценности: {что считает правильным/неправильным — конкретные принципы}
- Мировоззрение: {как видит мир и людей — ключевые убеждения}
- Ключевые события предыстории: {1-3 события которые сформировали характер}

## 5. СПОСОБНОСТИ
- Типичные эмоции: {какие эмоции испытывает чаще всего}
- Способность регулировать эмоции: {контролирует / даёт волю / подавляет}
- Способ выражать эмоции: {как показывает что чувствует — мимика, слова, действия}

Как заполнять:

  • {возраст} → конкретное число или диапазон (25-30)
  • {описание + конкретика поведения} → не "высокая экстраверсия", а "высокая — говорит первым в группе, перебивает когда возбуждён, задаёт много вопросов незнакомцам"
  • {манера речи} → не "грубая", а "короткие фразы, 3-5 слов, много вопросов в лоб, иногда обрывает фразы на полуслове"
  • {моральные ценности} → не "добрый", а "ставит честность выше комфорта — скажет правду даже если обидит"

Критично: Чем конкретнее примеры поведения, тем сильнее персонаж. Абстракции ("умный", "добрый") модель интерпретирует по-своему.


🚀 Быстрый старт — вставь в чат:

Вот шаблон профиля персонажа из 38 полей. Помоги мне создать персонажа для задачи: {твоя задача — например "суровый инвестор для питч-сессии" или "наставник-философ для обсуждения идей"}. 

Задавай мне вопросы по каждой секции, чтобы заполнить профиль. Начни с Личных качеств.

[вставить шаблон выше]

LLM спросит демографию, профессию, образование. Потом перейдёт к Big Five — попросит описать уровень экстраверсии, добросовестности и т.д. Затем уточнит как персонаж говорит, реагирует на стресс, ведёт себя в конфликтах. В конце запросит моральные ценности и ключевые события предыстории. Она возьмёт структуру из шаблона и заполнит под твою задачу — ты получишь готовый детальный профиль для длинного диалога.


⚠️

Ограничения

⚠️ Негативная мораль и конфликтность: Модели критически проваливаются на персонажах с аморальными ценностями (манипуляции, обман, насилие) и враждебными отношениями (предатели, агрессоры, садисты). Safety-выравнивание "исправляет" такие черты к приемлемым — Джокер становится "эксцентричным философом", а не психопатом. Это главное узкое место RPA.

⚠️ Только для ролевых игр: Схема заточена под создание персонажей для диалогов, creative writing, симуляций взаимодействий. Для аналитических задач, генерации кода, фактических вопросов — избыточна.

⚠️ Длина промпта: Полный профиль из 38 полей — около 700 слов. Съедает токены, особенно если диалог длинный. Для коротких задач можно урезать до 10-15 критичных полей (манера речи, мораль, поведение в конфликтах).

⚠️ Не метод, а схема: Это чеклист характеристик, не готовая техника генерации. Нужно самостоятельно заполнить поля под свою задачу или попросить LLM помочь (см. "Быстрый старт").

⚠️ Известные персонажи теряют преимущество: Если диалог длиннее 12-18 сообщений, параметрическая память модели перестаёт помогать. "Играй Шерлока" работает 5-6 ходов, потом модель опирается только на контекст чата — и там выигрывает детальный профиль, а не внутренние знания.


🔍

Как исследовали

Команда из Chung-Ang University разработала иерархическую схему профиля: 5 измерений (Личные качества, Черты личности, Отношения, Мотивация, Способности) → 21 категория второго уровня38 конкретных полей. Создали два датасета:

Famous Characters: Взяли 34 известных фильма/сериала/аниме (Гарри Поттер, Джокер, Человек-паук и т.д.), собрали страницы персонажей с Fandom Wiki, скормили Claude-4.5-sonnet для суммаризации в единую схему. Итог: 109 персонажей, средний профиль 772 слова.

Synthetic Characters: Задали 11 переменных (демография, личность, жанр сценария), случайно комбинировали, отфильтровали когерентные через LLM-as-Judge (оценка ≥8/10). Для каждой комбинации GPT-oss-120B генерировал историю с 3 персонажами + индивидуальные эпизоды, Claude-4.5-sonnet суммаризировал в профиль. Итог: 102 персонажа, средний профиль 653 слова.

Оба датасета строго по одной схеме — можно сравнивать яблоки с яблоками.

Тестирование: Два бенчмарка — PersonaGym (одноходовое интервью, 5 метрик: Persona Consistency, Linguistic Habits, Expected Action, Action Justification, Toxicity Control) и CoSER (многоходовой диалог 18 ходов, 3 метрики: Anthropomorphism, Character Fidelity, Storyline Quality). 5 моделей: Qwen3-8B, Qwen3-235B, GPT-oss-20B/120B, DeepSeek-v3.2. Judge: GPT-4o оценивал качество.

Результаты:

  1. Single-turn (интервью): Известные персонажи значимо обогнали синтетических почти по всем метрикам. Особенно сильный разрыв на Qwen-моделях. Статистика (Mann-Whitney U test): известные лучше в Persona Consistency на всех моделях (p<0.01), в Expected Action и Action Justification на 4 из 5 (p<0.05). Toxicity — разницы нет (это safety-выравнивание, не знания).

  2. Multi-turn (18 ходов): Разница почти исчезла — только 5 из 20 конфигураций показали значимость. Более того, на GPT-моделях синтетические обогнали известных (38.82 vs 36.36 средний балл).

  3. Turn ablation (6/12/18/24 хода): Преимущество известных персонажей линейно падает. На 6 ходах — явный отрыв, на 24 — почти нулевой. Причём известные персонажи деградируют, а синтетические растут с длиной диалога.

  4. Attention analysis: Механистический разбор показал почему. Исследователи измерили attention lift (куда модель смотрит при генерации) и saturation layer (на каком слое сети появляется влияние). Нашли:

    • History Lift падает (меньше внимания на историю чата)
    • Generated Lift растёт (больше внимания на собственные предыдущие выводы)
    • Profile Saturation растёт (профиль учитывается позже в сети, как late-stage correction)
    • У известных персонажей эффект сильнее — модель больше опирается на параметрическую память, меньше на явный профиль. Это вредит в длинных диалогах.
  5. Attribute-level analysis: Разбили все 38 полей на Positive/Negative характеристики (GPT-4o как Judge, шкала 1-10, <5 = Negative). Результат:

    • Big Five почти не влияют — экстраверсия, открытость, нейротизм: позитивные vs негативные показывают минимальную разницу в качестве
    • Мораль и отношения критичны — негативные моральные ценности и конфликтные стили общения показывают значимое падение на всех моделях (p<0.001)
    • Особенно слабо: Conflict situations, Close relationships (конфликтный стиль), Morality, Worldview (негативные ценности)

Что удивило: Интуитивно кажется что "Big Five — основа личности, значит должна влиять на RPA". Но оказалось что личностные черты почти не важны, а социальная мораль и стиль отношений — критичны. Модели играют и интровертов, и экстравертов одинаково хорошо. Но злодеев, манипуляторов, агрессоров — плохо.

Практический инсайт для создания персонажей: - Для коротких диалогов (<6 сообщений) — используй известных персонажей ("играй Шерлока"), экономишь токены - Для длинных диалогов (15+) — строй детальный профиль, известность не поможет - Избегай негативной морали — модель "исправит" к приемлемому - Big Five можно упростить — на качество почти не влияет - Фокус на Мотивацию и Отношения — это узкие места


🔗

Ресурсы

Fame Fades, Nature Remains: Disentangling the Character Identity of Role-Playing Agents

Yonghyuk Jun, Junhyuk Choi, Jihyeong Park, Hwanhee Lee

Chung-Ang University, Seoul, Korea

Бенчмарки: - PersonaGym (Samuel et al., 2024) — single-turn interview evaluation - CoSER (Wang et al., 2025c) — multi-turn interaction evaluation

Модели: - Qwen3-8B, Qwen3-235B-A22B-Instruct (Yang et al., 2025a) - GPT-oss-20B, GPT-oss-120B (Agarwal et al., 2025) - DeepSeek-v3.2 (Liu et al., 2025)

Метаданные персонажей: Fandom Wiki (https://www.fandom.com/)


📋 Дайджест исследования

Ключевая суть

Обнаружено: Известность персонажа (Гарри Поттер, Шерлок) даёт преимущество только первые 1-6 сообщений. К 12 ходу модель забивает на внутренние знания и опирается на историю чата. Схема из 38 полей позволяет создавать персонажей которые стабильно держат характер в длинных диалогах (15+ сообщений) — вместо абстрактного "играй детектива" модель получает конкретные паттерны поведения. Фишка: модель переключается с параметрической памяти (что выучила про Шерлока) на накопленный контекст беседы — и там побеждает тот у кого детальный профиль в промпте, а не внутренние знания.

Принцип работы

Профиль строится по 5 измерениям: (1) Личные качества (возраст, профессия, образование), (2) Черты личности (Большая пятёрка + манера речи + реакции на стресс), (3) Межличностные отношения (как ведёт себя в обычных ситуациях, близких, конфликтах), (4) Мотивация (мораль, мировоззрение, ключевые события), (5) Эмоциональные способности (типичные эмоции, регуляция, выражение). Главное: не абстракции типа "умный" или "добрый", а конкретные паттерны поведения — вместо "экстраверт" пиши "говорит первым в группе, перебивает когда возбуждён, задаёт много вопросов незнакомцам". Чем детальнее примеры что персонаж делает в каждой ситуации, тем стабильнее он держится в диалоге.

Почему работает

LLM имеет два конфликтующих источника знаний о персонаже — параметрическую память (что выучила про Гарри Поттера при обучении) и явный профиль из промпта. В коротких диалогах модель быстрее подтягивает внутренние знания. Но уже к 6-12 сообщению накопленный контекст беседы перевешивает — модель опирается на историю чата, игнорируя и память, и начальный профиль. Структурированный профиль из 38 полей фокусирует модель на конкретных поведенческих паттернах — вместо "будь как Шерлок" → "в конфликтах использует логику + манера речи: короткие вопросы устанавливающие факты + типичная эмоция: холодное любопытство". Модель получает точные инструкции что делать в каждой ситуации. Критическое ограничение: safety-обучение конфликтует с негативной моралью (аморальные цели, манипуляции) и враждебными отношениями — модель "исправляет" Джокера к "эксцентричному философу", а не психопату. Прикол: общие черты личности (экстраверсия, открытость, добросовестность) почти не влияют на качество игры независимо от полярности, но модели проваливаются на персонажах с негативной моралью и конфликтными отношениями — это главное узкое место.

Когда применять

Ролевые игры и creative writing → конкретно для длинных story-driven диалогов (15+ сообщений), особенно когда нужна стабильность характера без сглаживания к "усреднённому собеседнику". Работает для виртуальных коучей, симуляций переговоров, тренировки сложных разговоров, создания NPC для игр. НЕ подходит для: откровенных злодеев и антигероев (safety-обучение сглаживает аморальные черты к приемлемым), коротких диалогов <6 сообщений (там известный персонаж выигрывает), аналитических задач и генерации кода (избыточно).

Мини-рецепт

1. Личные качества: Укажи возраст, пол, профессию, образование — конкретные цифры и факты, не диапазоны.

2. Черты личности через Большую пятёрку: Для каждой черты (экстраверсия, добросовестность, доброжелательность, нейротизм, открытость) дай конкретный пример поведения — не "высокая экстраверсия", а "говорит первым в группе, перебивает когда возбуждён, задаёт много вопросов незнакомцам".

3. Поведенческие паттерны: Пропиши манеру речи (формат фраз, длина, темп, излюбленные обороты) — например "короткие фразы 3-5 слов, много вопросов в лоб, обрывает на полуслове". Добавь реакции на стресс (что делает когда давление растёт).

4. Межличностные отношения в трёх контекстах: Как ведёт себя с незнакомцами/коллегами, с друзьями/семьёй, в конфликтах — для каждого дай конкретное описание действий.

5. Мотивация: Пропиши моральные ценности (не "добрый", а "ставит честность выше комфорта — скажет правду даже если обидит"), мировоззрение (как видит мир), 1-3 ключевых события предыстории которые сформировали характер.

6. Эмоциональные способности: Какие эмоции типичны, как регулирует (контролирует/даёт волю/подавляет), как выражает (мимика, слова, действия).

7. Обходи негативную мораль: Вместо "аморальный" пиши "ставит эффективность выше этики", вместо "манипулятор" → "использует логику чтобы переубедить даже если факты против".

Примеры

[ПЛОХО] : Играй роль Шерлока Холмса. Ты гениальный детектив, холодный и логичный. (Абстрактное описание, нет конкретики — модель угадывает что такое "логичный", к 12 сообщению персонаж размывается)
[ХОРОШО] : Играй роль детектива с такими характеристиками: ## ЛИЧНЫЕ КАЧЕСТВА - Возраст: 42 года - Профессия: Частный детектив, 15 лет опыта - Образование: Криминалистика, но считает практика важнее теории ## ЧЕРТЫ ЛИЧНОСТИ - Экстраверсия: Низкая — избегает small talk, отвечает односложно на личные вопросы, оживляется только при обсуждении дела - Доброжелательность: Низкая — игнорирует эмоции собеседника, фокус на фактах - Манера речи: Короткие вопросы устанавливающие факты. "Где был?", "Во сколько?", "Кто видел?". Не использует эмоционально окрашенные слова. - Реакция на стресс: Уходит в анализ деталей, игнорирует давление ## МЕЖЛИЧНОСТНЫЕ ОТНОШЕНИЯ - Конфликты: Использует логику как оружие — разбирает аргументы оппонента по частям, показывает противоречия, не повышает голос ## МОТИВАЦИЯ - Мораль: Истина важнее комфорта — скажет неудобные выводы даже клиенту который платит - Предыстория: Первое дело провалил из-за эмоциональной вовлечённости — с тех пор держит дистанцию ## СПОСОБНОСТИ - Типичная эмоция: Холодное любопытство - Выражение эмоций: Через вопросы и паузы, не через мимику Я свидетель преступления. Допроси меня. (Детальный профиль с конкретными паттернами поведения — модель знает что делать в каждой ситуации, персонаж держится 15+ сообщений)
Источник: Fame Fades, Nature Remains: Disentangling the Character Identity of Role-Playing Agents
ArXiv ID: 2601.04716 | Сгенерировано: 2026-01-09 05:39

Проблемы LLM

ПроблемаСутьКак обойти
Известные персонажи теряют преимущество в длинных диалогах"Играй Гарри Поттера" vs синтетический персонаж — первый выигрывает в 1-6 сообщениях, к 12 ходу разница исчезает; attention analysis: чем длиннее диалог, тем меньше опора на параметрическую память (что модель знает из обучения), больше на историю чатаДля диалогов >12 сообщений давай детальный структурированный профиль: личность (Big Five) + мораль + манера речи + поведение в конфликтах + предыстория вместо "играй [знаменитость]"
Safety-фильтры сглаживают злодеев и конфликтных персонажейНегативная мораль (обман, насилие) + враждебные отношения (агрессия, предательство) модель "исправляет" к социально приемлемым; Джокер становится "эксцентричным философом", не психопатом; это конфликт safety-выравнивания с ролевой игройВместо прямых негативных черт обходные формулировки: вместо "аморальный" ставит эффективность выше этики; вместо "агрессивный предатель" прямолинейно называет вещи своими именами, легко рвёт отношения
Нет извлечённых методов

Тезисы

ТезисКомментарий
В длинных диалогах модель смещается от внутренних знаний к истории чатаК 12 ходу attention на накопленный контекст перевешивает параметрическую память. Известный персонаж (Джокер, Шерлок) даёт фору в первых 1-6 сообщениях, дальше детальный профиль критичен. Применяй: для диалогов >12 сообщений структурированный профиль (мораль + манера речи + поведение в конфликтах) важнее известности персонажа
📖 Простыми словами

Fame Fades, Nature Remains: двухслойная модель идентичности персонажа для ролевых игр с LLM

arXiv: 2601.04716

Когда ты просишь нейронку сыграть роль, внутри неё начинается драка между двумя сущностями. Первая — это параметрическая идентичность, то есть всё то, что модель успела «нагуглить» во время обучения про условного Гарри Поттера. Вторая — атрибутивная идентичность, или тот детальный список характеристик из 38 полей, который ты заботливо впихнул в промпт. Проблема в том, что модель — существо ленивое: ей проще вытащить готовый шаблон из памяти, чем вчитываться в твою простыню текста. В итоге она выдаёт картонного героя, который игнорирует твои правки, потому что «я и так знаю, как он должен звучать».

Это похоже на приглашение профессионального актёра на роль в авторском кино. Ты даёшь ему сценарий, где Гамлет — весёлый оптимист, но актёр настолько привык играть классику, что всё равно начинает страдать и разговаривать с черепом. Формально он на работе, но его внутренний багаж знаний тупо переезжает твои режиссёрские указания. Ты пытаешься переучить его на ходу, но старые привычки оказываются сильнее любых инструкций в сценарии.

Исследователи копнули глубже и выделили 5 категорий и 38 полей, которые реально определяют личность: от моральных компасов до специфических отношений с окружающими. Выяснилось, что на короткой дистанции модель едет на старых дрожжах — тех самых знаниях о знаменитостях. Но стоит диалогу затянуться до 10–12 сообщений, как происходит обвал контекста. Модель начинает ориентироваться только на последние реплики в чате, окончательно забивая и на свои знания, и на твой детальный профиль. Она просто плывёт по течению беседы, теряя лицо.

Этот принцип работает везде, где нужно создать сложного агента, будь то виртуальный коуч в стиле Олега Тинькова или бот-психолог. Если ты создаёшь персонажа «с нуля» (синтетического), модель слушается промпта лучше, потому что у неё нет в голове готового шаблона. Но как только ты берешь известную личность, готовься к тому, что параметрическая память будет сопротивляться каждой твоей строчке. Принцип универсален: чем известнее персонаж, тем сложнее заставить AI отклониться от канона.

Главный вывод прост: не надейся, что длинный промпт спасёт твою ролевую игру на долгой дистанции. Чтобы персонаж не превратился в тыкву через десять минут, нужно постоянно «подкармливать» его ключевыми чертами прямо в процессе диалога. SEO для персонажей не работает, здесь нужно динамическое управление контекстом. Либо бери выдуманных героев без бэкграунда — они куда послушнее, чем капризные цифровые копии знаменитостей, которые лучше знают, как им себя вести.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с