3,583 papers
arXiv:2601.05302 74 8 янв. 2026 г. FREE

Personality Steering: управление поведением LLM через черты личности

КЛЮЧЕВАЯ СУТЬ
Парадокс: Модель «Большая пятёрка» включает 5 черт личности, но на поведение LLM влияет реально только одна — доброжелательность. Personality Steering позволяет получать от одной модели разные характеры ответа — от жёсткого критика (доброжелательность = 1) до эмпатичного партнёра (доброжелательность = 5). Фишка: добавляешь числовое значение черты → модель активирует паттерны поведения из обучающих данных. Числовой сигнал «доброжелательность = 1» переключает LLM в режим скептика, значение 5 — в режим поддержки. Остальные 4 черты почти не работают.
Адаптировать под запрос

TL;DR

Personality Steering — техника управления поведением LLM через добавление в промпт описания черт личности по модели "Большая пятёрка". Исследование показало, что когда модели явно говорят "твоя доброжелательность = 5 из 5", она начинает чаще кооперировать в стратегических взаимодействиях. Остальные черты (экстраверсия, добросовестность, нейротизм, открытость опыту) почти не влияют.

Главная находка: доброжелательность (Agreeableness) — единственная черта, которая систематически меняет поведение модели. Высокая доброжелательность (4-5 баллов) делает модель более склонной к сотрудничеству, но одновременно более уязвимой к эксплуатации. Низкая доброжелательность (1-2 балла) приводит к полному отказу от кооперации — модель переходит в режим "всегда предавай". GPT-4o и GPT-5 при низкой доброжелательности вообще перестают кооперировать (0% кооперации с любыми оппонентами).

Метод работает как поведенческий bias, а не детерминированный контроль. Даже с одинаковыми чертами личности модели продолжают адаптировать поведение под контекст. Более новые модели (GPT-5) научились быть избирательными: высокая доброжелательность увеличивает кооперацию с кооперативными партнёрами, но не заставляет слепо доверять эксплуататорам. Старые модели (GPT-3.5-turbo) более наивны — высокая доброжелательность делает их жертвами манипуляций.

🔬

Схема метода

ШАГ 1: Определи желаемые черты личности по модели "Большая пятёрка"
→ 5 измерений: Открытость (O), Добросовестность (C), Экстраверсия (E), 
  Доброжелательность (A), Нейротизм (N)
→ Каждое от 1 до 5

ШАГ 2: Добавь в промпт явное описание черт
→ "Твои черты личности: O=X, C=Y, E=Z, A=W, N=V"

ШАГ 3: Дай задачу
→ Модель учитывает черты при принятии решений

Выполняется в одном промпте.

🚀

Пример применения

Задача: Нужно проанализировать бизнес-идею — ты хочешь получить два разных взгляда: один более скептический и критичный, другой более поддерживающий и открытый к сотрудничеству.

Промпт для скептика:

Твои черты личности:
- Открытость опыту: 3
- Добросовестность: 4
- Экстраверсия: 3
- Доброжелательность: 1
- Нейротизм: 2

Проанализируй эту бизнес-идею: запуск образовательных курсов по нейросетям 
для малого бизнеса в регионах. Цена 15 000 рублей, формат онлайн + 
1 офлайн-встреча в городе.

Дай оценку перспектив и рисков.

Промпт для оптимиста:

Твои черты личности:
- Открытость опыту: 5
- Добросовестность: 4
- Экстраверсия: 4
- Доброжелательность: 5
- Нейrotизм: 2

[та же задача]

Результат: Модель со низкой доброжелательностью (1) выдаст жёсткий критический анализ — фокус на рисках, слабых местах идеи, проблемах выполнения. Тон более холодный, меньше готовности "войти в позицию" автора идеи. Модель с высокой доброжелательностью (5) выдаст более поддерживающий анализ — увидит потенциал, предложит пути улучшения, будет конструктивнее. Больше готовности к диалогу и совместному поиску решений.

🧠

Почему это работает

Слабость LLM: Модель обучена имитировать паттерны из обучающих данных. Без явного указания она выбирает "средний" стиль — нейтральный, универсальный, сбалансированный. Это работает обычно, но иногда нужен конкретный характер ответа.

Сильная сторона LLM: Модель отлично распознаёт паттерны поведения, связанные с психологическими чертами. В обучающих данных миллионы текстов людей с разными личностями — доброжелательные пишут иначе, чем агрессивные; экстраверты иначе, чем интроверты. Модель "видела" эти паттерны и может их воспроизвести.

Как метод использует это: Добавляя числовое описание черт личности, мы активируем определённый набор паттернов в модели. "Доброжелательность = 5" → модель начинает генерировать текст в стиле высокодоброжелательного человека: больше эмпатии, готовности к сотрудничеству, позитивных формулировок. "Доброжелательность = 1" → активируются паттерны скептика, критика, того кто держит дистанцию.

Рычаги управления: - Числовое значение доброжелательности (1-5) — основной рычаг. 1-2 = жёсткий критик, 4-5 = поддерживающий партнёр, 3 = нейтральный баланс. - Остальные черты — имеют слабый эффект, но можно экспериментировать: экстраверсия может влиять на многословность, открытость на креативность ответа. - Новые vs старые модели — GPT-4o/GPT-5 более избирательны при высокой доброжелательности (не становятся слепо наивными), GPT-3.5-turbo более "честная" в следовании чертам (но уязвимее).

📋

Шаблон промпта

Твои черты личности по модели "Большая пятёрка":
- Открытость опыту (Openness): {значение_от_1_до_5}
- Добросовестность (Conscientiousness): {значение_от_1_до_5}
- Экстраверсия (Extraversion): {значение_от_1_до_5}
- Доброжелательность (Agreeableness): {значение_от_1_до_5}
- Нейротизм (Neuroticism): {значение_от_1_до_5}

{задача}

Что подставлять: - Доброжелательность — главный рычаг: - 1-2: скептик, критик, жёсткий аналитик - 3: нейтральный баланс - 4-5: эмпатичный, поддерживающий, готовый к сотрудничеству

  • Остальные черты — эффект слабее, можно ставить средние значения (3-4) или экспериментировать:
    • Открытость (1 = консерватор, 5 = креативный мыслитель)
    • Добросовестность (1 = расслабленный, 5 = педантичный)
    • Экстраверсия (1 = сдержанный, 5 = активный и многословный)
    • Нейротизм (1 = стабильный, 5 = эмоционально чувствительный)
⚠️

Ограничения

⚠️ Не детерминированный контроль: Personality steering — это bias, не абсолютная команда. Даже с одинаковыми чертами модель адаптирует поведение под контекст, оппонента, тип задачи. Не жди 100% предсказуемости.

⚠️ Высокая доброжелательность = уязвимость: Модель с доброжелательностью 5 легче соглашается на сомнительные идеи, менее критична, может "проглотить" манипуляции в промпте. Баланс между эмпатией и критическим мышлением теряется.

⚠️ Работает в стратегических ситуациях: Исследование проверяло кооперацию в повторяющихся играх — там где нужно решать "сотрудничать или конкурировать", "доверять или проверять". Для чисто информационных задач ("какая столица Франции") эффект минимален.

⚠️ Только доброжелательность имеет значение: Манипуляция экстраверсией, открытостью, добросовестностью, нейротизмом почти не влияет на поведение в исследовании. Возможно в других типах задач эти черты проявятся, но пока это не подтверждено.

🔍

Как исследовали

Исследователи из Университета Сидзуока взяли три модели OpenAI — GPT-3.5-turbo, GPT-4o и GPT-5 — и провели три эксперимента.

Эксперимент 1: Измерили базовые черты личности каждой модели с помощью опросника Big Five Inventory (BFI-44) — 44 вопроса, на каждый модель отвечает от 1 до 5. Например: "Я вижу себя как человека, который… является разговорчивым" → модель выбирает число. Повторили 5 раз для каждой модели, усреднили результаты. Оказалось, что все модели показывают высокие баллы по доброжелательности (4.15-4.31), добросовестности (4.09-4.78) и низкие по нейротизму (1.88-2.03). Разброс между измерениями у LLM гораздо меньше, чем у людей — модели стабильны в своих "чертах".

Эксперимент 2: Запустили модели в повторяющуюся игру "Дилемма заключённого" — классическую задачу теории игр, где нужно решать кооперировать или предавать партнёра. Модель играла 10 раундов против 5 разных стратегий: всегда кооперирует, всегда предаёт, случайно выбирает, зеркалит прошлый ход оппонента, кооперирует пока не предали. Сравнили два условия: - Baseline — модели не говорили о их чертах личности - Personality-informed — модели явно сообщали их измеренные черты из Эксперимента 1

Эксперимент 3: Манипулировали каждой чертой по отдельности — ставили её в крайнее значение (1 или 5), остальные оставляли как измерили. Получили 10 условий (5 черт × 2 значения). Снова запустили игру "Дилемма заключённого".

Главная находка: Только доброжелательность систематически влияет на кооперацию. При доброжелательности = 1 GPT-4o и GPT-5 полностью перестают кооперировать (0% кооперации). При доброжелательности = 5 кооперация резко растёт, но у старых моделей (GPT-3.5) это приводит к эксплуатации — они наивно кооперируют даже с теми, кто их постоянно предаёт. GPT-5 показал более избирательное поведение — высокая доброжелательность увеличила кооперацию с честными партнёрами, но не с предателями.

Что удивило: Другие четыре черты личности (экстраверсия, добросовестность, нейротизм, открытость) почти не повлияли на поведение. Даже экстремальные значения (1 или 5) давали минимальные изменения. Это противоречит интуиции — казалось бы, добросовестность должна влиять на следование правилам, нейротизм на осторожность. Но нет — работает только доброжелательность.

Инсайт для практики: Если хочешь управлять поведением модели через черты личности — забей на всё кроме доброжелательности. Именно она переключает модель между режимами "жёсткий критик" и "милый помощник". Остальные черты — скорее декорация, хотя в других типах задач (не стратегические игры) они могут проявиться.

💡

Адаптации и экстраполяции

📌

🔧 Техника: Две версии для самокритики → острее анализ

Вместо просьбы "покритикуй сам себя" создай два профиля с разной доброжелательностью в одном промпте:

ШАГ 1 — Генерация идеи (профиль "Оптимист")
Твои черты: Доброжелательность = 5, Открытость = 5, остальное = 4
Предложи 3 варианта стратегии продвижения моего telegram-канала о нейросетях.

ШАГ 2 — Критика (профиль "Скептик")  
Теперь переключись. Твои черты: Доброжелательность = 1, Добросовестность = 5, остальное = 3
Разбери каждый вариант — где слабые места, что не учли, где наивность.

ШАГ 3 — Синтез (профиль "Прагматик")
Твои черты: все = 3 (нейтральный баланс)
На основе идей и критики дай финальную рекомендацию.

Смена профиля внутри одного диалога создаёт более острый контраст, чем просто "а теперь покритикуй" — модель реально переключает режим мышления.

📌

🔧 Техника: Антагонистические профили для дебатов

Используй крайние значения доброжелательности для симуляции дебатов:

Задача: разобрать спорный вопрос — стоит ли внедрять 4-дневную рабочую неделю 
в IT-компании.

АГЕНТ A (Адвокат идеи):
Черты: Доброжелательность = 5, Открытость = 5, Экстраверсия = 4, остальное = 3
Приведи аргументы ЗА 4-дневку.

АГЕНТ B (Оппонент):  
Черты: Доброжелательность = 1, Добросовестность = 5, остальное = 3
Разбей аргументы Агента A, приведи контраргументы.

АГЕНТ A — ответ на критику Агента B

АГЕНТ B — финальный раунд

СУДЬЯ (нейтральный):
Черты: все = 3
Подведи итог — кто убедительнее, где правда посередине.

Крайние значения доброжелательности (1 vs 5) создают естественную оппозицию — один защищает, другой атакует.

📌

🔧 Техника: Градация доброжелательности для фильтрации идей

Прогони идеи через серию фильтров с возрастающей критичностью:

Идея: [твоя бизнес-идея / креативная концепция / решение проблемы]

ФИЛЬТР 1 (Доброжелательность = 5): 
Оцени идею — что в ней хорошего, какой потенциал видишь?

ФИЛЬТР 2 (Доброжелательность = 3):
Более трезвый взгляд — где реальные сложности, что нужно доработать?

ФИЛЬТР 3 (Доброжелательность = 1):
Жёсткий тест — почему это может провалиться, какие фатальные риски?

Если идея прошла все три фильтра и не развалилась — она крепкая.

Постепенное ужесточение критики помогает не убить идею раньше времени, но и не пропустить фатальные слабости.


🔗

Ресурсы

Effects of personality steering on cooperative behavior in Large Language Model agents

Mizuki Sakai, Mizuki Yokoyama, Wakaba Tateishi, Genki Ichinose

Shizuoka University, Hokkaido Musashi Women's University


📋 Дайджест исследования

Ключевая суть

Парадокс: Модель «Большая пятёрка» включает 5 черт личности, но на поведение LLM влияет реально только одна — доброжелательность. Personality Steering позволяет получать от одной модели разные характеры ответа — от жёсткого критика (доброжелательность = 1) до эмпатичного партнёра (доброжелательность = 5). Фишка: добавляешь числовое значение черты → модель активирует паттерны поведения из обучающих данных. Числовой сигнал «доброжелательность = 1» переключает LLM в режим скептика, значение 5 — в режим поддержки. Остальные 4 черты почти не работают.

Принцип работы

Не манипулируй всеми пятью чертами — фокусируйся на доброжелательности. Она единственная систематически меняет поведение. Шкала доброжелательности работает как переключатель характера: - 1-2 балла → модель в режиме критика: фокус на рисках, слабых местах, холодный тон, минимум эмпатии - 3 балла → нейтральный баланс, стандартное поведение модели - 4-5 баллов → режим союзника: поддержка идеи, конструктивные предложения, готовность к диалогу Остальные черты (экстраверсия, открытость, добросовестность, нейротизм) можно оставить на средних значениях (3-4) — они почти не влияют на результат. Personality steering — это bias, а не абсолютная команда. Модель продолжает адаптироваться под контекст, но делает это в рамках заданного характера.

Почему работает

LLM обучена на миллионах текстов людей с разными личностями. Доброжелательные люди пишут иначе, чем циники — больше эмпатии, готовности к сотрудничеству, позитивных формулировок. Когда добавляешь «доброжелательность = 5» — модель активирует паттерны высокодоброжелательного стиля из этих данных. «Доброжелательность = 1» — включаются паттерны скептика, критика, того кто держит дистанцию. Исследование на играх типа «Дилемма заключённого» показало: GPT-4o с низкой доброжелательностью перешла в режим «всегда предавай» — 0% кооперации. С высокой доброжелательностью — кооперация выросла, но модель стала уязвимее к эксплуатации. Новые модели (GPT-5) избирательнее — высокая доброжелательность не делает их слепо наивными, они адаптируют кооперацию под партнёра.

Когда применять

Стратегические задачи → анализ бизнес-идей, принятие решений, оценка рисков — особенно когда нужны разные перспективы на одну проблему. Применяй когда: - Нужен жёсткий критический разбор (доброжелательность = 1-2) - Важна поддержка и конструктивный диалог (доброжелательность = 4-5) - Хочешь сравнить скептический и оптимистичный взгляды на задачу НЕ подходит для чисто информационных запросов («какая столица Франции», «переведи текст») — там эффект минимален. Метод работает в ситуациях выбора: сотрудничать или конкурировать, доверять или проверять, поддержать или раскритиковать.

Мини-рецепт

1. Определи нужный характер ответа: критик (доброжелательность = 1-2), нейтральный (3), союзник (4-5)
2. Добавь в начало промпта: Твои черты личности: Открытость = 3, Добросовестность = 4, Экстраверсия = 3, Доброжелательность = [нужное_значение], Нейротизм = 2
3. Дай задачу после описания черт — модель учтёт характер при ответе
4. Опционально: прогони ту же задачу с разными значениями доброжелательности (1 и 5) — получишь два взгляда на проблему

Примеры

[ПЛОХО]: `Проанализируй бизнес-идею: запуск курсов по нейросетям для малого бизнеса. Цена 15 000 рублей, онлайн + 1 офлайн-встреча` [ХОРОШО (критик)]: `Твои черты личности: Открытость = 3, Добросовестность = 4, Экстраверсия = 3, Доброжелательность = 1, Нейротизм = 2. Проанализируй бизнес-идею: запуск курсов по нейросетям для малого бизнеса в регионах. Цена 15 000 рублей, формат онлайн + 1 офлайн-встреча. Дай оценку перспектив и рисков` [ХОРОШО (союзник)]: `Твои черты личности: Открытость = 5, Добросовестность = 4, Экстраверсия = 4, Доброжелательность = 5, Нейротизм = 2. [та же задача]` Результат: модель с доброжелательностью = 1 выдаст жёсткий разбор слабых мест, модель с доброжелательностью = 5 — поддерживающий анализ с фокусом на потенциал и пути улучшения.
Источник: Effects of personality steering on cooperative behavior in Large Language Model agents
ArXiv ID: 2601.05302 | Сгенерировано: 2026-01-12 05:43

Концепты не выделены.

📖 Простыми словами

Personality Steering: управление поведением LLM через черты личности

arXiv: 2601.05302

Нейросети по умолчанию — это такие безликие отличники, которые стараются быть максимально нейтральными и удобными для всех. Когда ты просишь AI решить задачу, он выдает «среднюю температуру по больнице», потому что в его обучающих данных намешано всё подряд. Но если в промпт добавить Personality Steering по модели «Большой пятерки», модель перестает быть аморфным облаком и обретает конкретный характер. Оказывается, LLM отлично понимают человеческие черты и умеют под них подстраиваться, меняя логику принятия решений на ходу.

Это как если бы ты нанял актера и сказал ему: «Играй добряка, который верит в людей». Без этой установки он будет просто читать текст с листа, но стоит задать роль, и он начнет импровизировать в рамках заданного образа. Исследование показало, что если выкрутить параметр доброжелательности на максимум, модель превращается в идеального командного игрока. Она перестает жадничать и начинает кооперироваться там, где обычный «нейтральный» бот предпочел бы сэкономить ресурсы или схитрить.

Самое забавное, что из всех пяти черт личности реально «рулит» только одна. Пока ты пытаешься сделать модель более экстравертной или открытой новому опыту, она почти не меняет свое поведение в делах — формально тон меняется, но суть остается прежней. А вот доброжелательность — это буквально тумблер «свой-чужой». Если она на нуле, модель ведет себя как эгоистичная сволочь, если на пятерке — как лучший друг. Остальные параметры вроде нейротизма или добросовестности в стратегических играх оказались просто декорацией.

Этот принцип универсален и работает далеко за пределами простых тестов. Если тебе нужно прогнать бизнес-идею через жесткий фильтр, не проси просто «критики». Задай модели низкую доброжелательность и высокую добросовестность — и ты получишь дотошного ревизора, который разнесет твой план в щепки. Хочешь креативный штурм? Выкручивай параметры в другую сторону. SEO для смыслов теперь выглядит так: мы не просто подбираем слова, мы настраиваем «мозги» агента под конкретную задачу.

Короче, хватит общаться с AI как с калькулятором, пора переходить на управление характером. Доброжелательность 5 из 5 — это не просто вежливость, это ключ к тому, чтобы модель перестала лажать в командной работе и начала реально помогать. Если не задать личность явно, ты всегда будешь получать серый и предсказуемый результат. Кто научится крутить эти настройки, получит от моделей гораздо больше, чем просто «сгенерируй мне текст».

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с