TL;DR
Personality Steering — техника управления поведением LLM через добавление в промпт описания черт личности по модели "Большая пятёрка". Исследование показало, что когда модели явно говорят "твоя доброжелательность = 5 из 5", она начинает чаще кооперировать в стратегических взаимодействиях. Остальные черты (экстраверсия, добросовестность, нейротизм, открытость опыту) почти не влияют.
Главная находка: доброжелательность (Agreeableness) — единственная черта, которая систематически меняет поведение модели. Высокая доброжелательность (4-5 баллов) делает модель более склонной к сотрудничеству, но одновременно более уязвимой к эксплуатации. Низкая доброжелательность (1-2 балла) приводит к полному отказу от кооперации — модель переходит в режим "всегда предавай". GPT-4o и GPT-5 при низкой доброжелательности вообще перестают кооперировать (0% кооперации с любыми оппонентами).
Метод работает как поведенческий bias, а не детерминированный контроль. Даже с одинаковыми чертами личности модели продолжают адаптировать поведение под контекст. Более новые модели (GPT-5) научились быть избирательными: высокая доброжелательность увеличивает кооперацию с кооперативными партнёрами, но не заставляет слепо доверять эксплуататорам. Старые модели (GPT-3.5-turbo) более наивны — высокая доброжелательность делает их жертвами манипуляций.
Схема метода
ШАГ 1: Определи желаемые черты личности по модели "Большая пятёрка"
→ 5 измерений: Открытость (O), Добросовестность (C), Экстраверсия (E),
Доброжелательность (A), Нейротизм (N)
→ Каждое от 1 до 5
ШАГ 2: Добавь в промпт явное описание черт
→ "Твои черты личности: O=X, C=Y, E=Z, A=W, N=V"
ШАГ 3: Дай задачу
→ Модель учитывает черты при принятии решений
Выполняется в одном промпте.
Пример применения
Задача: Нужно проанализировать бизнес-идею — ты хочешь получить два разных взгляда: один более скептический и критичный, другой более поддерживающий и открытый к сотрудничеству.
Промпт для скептика:
Твои черты личности:
- Открытость опыту: 3
- Добросовестность: 4
- Экстраверсия: 3
- Доброжелательность: 1
- Нейротизм: 2
Проанализируй эту бизнес-идею: запуск образовательных курсов по нейросетям
для малого бизнеса в регионах. Цена 15 000 рублей, формат онлайн +
1 офлайн-встреча в городе.
Дай оценку перспектив и рисков.
Промпт для оптимиста:
Твои черты личности:
- Открытость опыту: 5
- Добросовестность: 4
- Экстраверсия: 4
- Доброжелательность: 5
- Нейrotизм: 2
[та же задача]
Результат: Модель со низкой доброжелательностью (1) выдаст жёсткий критический анализ — фокус на рисках, слабых местах идеи, проблемах выполнения. Тон более холодный, меньше готовности "войти в позицию" автора идеи. Модель с высокой доброжелательностью (5) выдаст более поддерживающий анализ — увидит потенциал, предложит пути улучшения, будет конструктивнее. Больше готовности к диалогу и совместному поиску решений.
Почему это работает
Слабость LLM: Модель обучена имитировать паттерны из обучающих данных. Без явного указания она выбирает "средний" стиль — нейтральный, универсальный, сбалансированный. Это работает обычно, но иногда нужен конкретный характер ответа.
Сильная сторона LLM: Модель отлично распознаёт паттерны поведения, связанные с психологическими чертами. В обучающих данных миллионы текстов людей с разными личностями — доброжелательные пишут иначе, чем агрессивные; экстраверты иначе, чем интроверты. Модель "видела" эти паттерны и может их воспроизвести.
Как метод использует это: Добавляя числовое описание черт личности, мы активируем определённый набор паттернов в модели. "Доброжелательность = 5" → модель начинает генерировать текст в стиле высокодоброжелательного человека: больше эмпатии, готовности к сотрудничеству, позитивных формулировок. "Доброжелательность = 1" → активируются паттерны скептика, критика, того кто держит дистанцию.
Рычаги управления: - Числовое значение доброжелательности (1-5) — основной рычаг. 1-2 = жёсткий критик, 4-5 = поддерживающий партнёр, 3 = нейтральный баланс. - Остальные черты — имеют слабый эффект, но можно экспериментировать: экстраверсия может влиять на многословность, открытость на креативность ответа. - Новые vs старые модели — GPT-4o/GPT-5 более избирательны при высокой доброжелательности (не становятся слепо наивными), GPT-3.5-turbo более "честная" в следовании чертам (но уязвимее).
Шаблон промпта
Твои черты личности по модели "Большая пятёрка":
- Открытость опыту (Openness): {значение_от_1_до_5}
- Добросовестность (Conscientiousness): {значение_от_1_до_5}
- Экстраверсия (Extraversion): {значение_от_1_до_5}
- Доброжелательность (Agreeableness): {значение_от_1_до_5}
- Нейротизм (Neuroticism): {значение_от_1_до_5}
{задача}
Что подставлять: - Доброжелательность — главный рычаг: - 1-2: скептик, критик, жёсткий аналитик - 3: нейтральный баланс - 4-5: эмпатичный, поддерживающий, готовый к сотрудничеству
- Остальные черты — эффект слабее, можно ставить средние значения (3-4) или экспериментировать:
- Открытость (1 = консерватор, 5 = креативный мыслитель)
- Добросовестность (1 = расслабленный, 5 = педантичный)
- Экстраверсия (1 = сдержанный, 5 = активный и многословный)
- Нейротизм (1 = стабильный, 5 = эмоционально чувствительный)
Ограничения
⚠️ Не детерминированный контроль: Personality steering — это bias, не абсолютная команда. Даже с одинаковыми чертами модель адаптирует поведение под контекст, оппонента, тип задачи. Не жди 100% предсказуемости.
⚠️ Высокая доброжелательность = уязвимость: Модель с доброжелательностью 5 легче соглашается на сомнительные идеи, менее критична, может "проглотить" манипуляции в промпте. Баланс между эмпатией и критическим мышлением теряется.
⚠️ Работает в стратегических ситуациях: Исследование проверяло кооперацию в повторяющихся играх — там где нужно решать "сотрудничать или конкурировать", "доверять или проверять". Для чисто информационных задач ("какая столица Франции") эффект минимален.
⚠️ Только доброжелательность имеет значение: Манипуляция экстраверсией, открытостью, добросовестностью, нейротизмом почти не влияет на поведение в исследовании. Возможно в других типах задач эти черты проявятся, но пока это не подтверждено.
Как исследовали
Исследователи из Университета Сидзуока взяли три модели OpenAI — GPT-3.5-turbo, GPT-4o и GPT-5 — и провели три эксперимента.
Эксперимент 1: Измерили базовые черты личности каждой модели с помощью опросника Big Five Inventory (BFI-44) — 44 вопроса, на каждый модель отвечает от 1 до 5. Например: "Я вижу себя как человека, который… является разговорчивым" → модель выбирает число. Повторили 5 раз для каждой модели, усреднили результаты. Оказалось, что все модели показывают высокие баллы по доброжелательности (4.15-4.31), добросовестности (4.09-4.78) и низкие по нейротизму (1.88-2.03). Разброс между измерениями у LLM гораздо меньше, чем у людей — модели стабильны в своих "чертах".
Эксперимент 2: Запустили модели в повторяющуюся игру "Дилемма заключённого" — классическую задачу теории игр, где нужно решать кооперировать или предавать партнёра. Модель играла 10 раундов против 5 разных стратегий: всегда кооперирует, всегда предаёт, случайно выбирает, зеркалит прошлый ход оппонента, кооперирует пока не предали. Сравнили два условия: - Baseline — модели не говорили о их чертах личности - Personality-informed — модели явно сообщали их измеренные черты из Эксперимента 1
Эксперимент 3: Манипулировали каждой чертой по отдельности — ставили её в крайнее значение (1 или 5), остальные оставляли как измерили. Получили 10 условий (5 черт × 2 значения). Снова запустили игру "Дилемма заключённого".
Главная находка: Только доброжелательность систематически влияет на кооперацию. При доброжелательности = 1 GPT-4o и GPT-5 полностью перестают кооперировать (0% кооперации). При доброжелательности = 5 кооперация резко растёт, но у старых моделей (GPT-3.5) это приводит к эксплуатации — они наивно кооперируют даже с теми, кто их постоянно предаёт. GPT-5 показал более избирательное поведение — высокая доброжелательность увеличила кооперацию с честными партнёрами, но не с предателями.
Что удивило: Другие четыре черты личности (экстраверсия, добросовестность, нейротизм, открытость) почти не повлияли на поведение. Даже экстремальные значения (1 или 5) давали минимальные изменения. Это противоречит интуиции — казалось бы, добросовестность должна влиять на следование правилам, нейротизм на осторожность. Но нет — работает только доброжелательность.
Инсайт для практики: Если хочешь управлять поведением модели через черты личности — забей на всё кроме доброжелательности. Именно она переключает модель между режимами "жёсткий критик" и "милый помощник". Остальные черты — скорее декорация, хотя в других типах задач (не стратегические игры) они могут проявиться.
Адаптации и экстраполяции
🔧 Техника: Две версии для самокритики → острее анализ
Вместо просьбы "покритикуй сам себя" создай два профиля с разной доброжелательностью в одном промпте:
ШАГ 1 — Генерация идеи (профиль "Оптимист")
Твои черты: Доброжелательность = 5, Открытость = 5, остальное = 4
Предложи 3 варианта стратегии продвижения моего telegram-канала о нейросетях.
ШАГ 2 — Критика (профиль "Скептик")
Теперь переключись. Твои черты: Доброжелательность = 1, Добросовестность = 5, остальное = 3
Разбери каждый вариант — где слабые места, что не учли, где наивность.
ШАГ 3 — Синтез (профиль "Прагматик")
Твои черты: все = 3 (нейтральный баланс)
На основе идей и критики дай финальную рекомендацию.
Смена профиля внутри одного диалога создаёт более острый контраст, чем просто "а теперь покритикуй" — модель реально переключает режим мышления.
🔧 Техника: Антагонистические профили для дебатов
Используй крайние значения доброжелательности для симуляции дебатов:
Задача: разобрать спорный вопрос — стоит ли внедрять 4-дневную рабочую неделю
в IT-компании.
АГЕНТ A (Адвокат идеи):
Черты: Доброжелательность = 5, Открытость = 5, Экстраверсия = 4, остальное = 3
Приведи аргументы ЗА 4-дневку.
АГЕНТ B (Оппонент):
Черты: Доброжелательность = 1, Добросовестность = 5, остальное = 3
Разбей аргументы Агента A, приведи контраргументы.
АГЕНТ A — ответ на критику Агента B
АГЕНТ B — финальный раунд
СУДЬЯ (нейтральный):
Черты: все = 3
Подведи итог — кто убедительнее, где правда посередине.
Крайние значения доброжелательности (1 vs 5) создают естественную оппозицию — один защищает, другой атакует.
🔧 Техника: Градация доброжелательности для фильтрации идей
Прогони идеи через серию фильтров с возрастающей критичностью:
Идея: [твоя бизнес-идея / креативная концепция / решение проблемы]
ФИЛЬТР 1 (Доброжелательность = 5):
Оцени идею — что в ней хорошего, какой потенциал видишь?
ФИЛЬТР 2 (Доброжелательность = 3):
Более трезвый взгляд — где реальные сложности, что нужно доработать?
ФИЛЬТР 3 (Доброжелательность = 1):
Жёсткий тест — почему это может провалиться, какие фатальные риски?
Если идея прошла все три фильтра и не развалилась — она крепкая.
Постепенное ужесточение критики помогает не убить идею раньше времени, но и не пропустить фатальные слабости.
Ресурсы
Effects of personality steering on cooperative behavior in Large Language Model agents
Mizuki Sakai, Mizuki Yokoyama, Wakaba Tateishi, Genki Ichinose
Shizuoka University, Hokkaido Musashi Women's University
