TL;DR
Персоны в промптах работают как поведенческие приоры — они задают фокус внимания и стиль принятия решений, но не гарантируют качество. Исследование Brown University показало: одна и та же медицинская роль улучшает точность модели на 20% в экстренных случаях, но снижает её на 10% в рутинных задачах. Персоны эффективны в узком контексте, для которого «заточены», и деградируют за его пределами.
Главная находка — персоны не работают монотонно. Более экспертная роль ≠ лучший результат. Модель с персоной "врач скорой помощи" отлично триажирует критические случаи (инсульт, боль в груди), но даёт худшее качество для обычных вопросов вроде "какие витамины пить при усталости". Причина: персона создаёт фокус на определённый контекст, и этот фокус вредит за его пределами. Исследователи также проверили "стили взаимодействия" ("смелый врач" vs "осторожный врач") — оказалось, они не дают надёжного контроля над поведением, эффект зависит от модели.
Решение — подбирать персону под конкретный контекст задачи, а не под широкий домен. Вместо универсального "врача" или "бизнес-консультанта" используй узкую роль: "врач скорой" для экстренных случаев, "терапевт поликлиники" для рутинных; "антикризисный управляющий" для критических бизнес-решений, "операционный директор" для стабильного роста.
Схема эффекта
Широкая персона ("врач", "консультант")
↓
Применена к разным контекстам
↓
Эффективна в одних ❌ Деградирует в других
Узкая персона под контекст ("врач скорой", "терапевт")
↓
Применена к соответствующей задаче
↓
Высокое качество ✅
↓
Применена к несоответствующей задаче
↓
Низкое качество ❌
Пример применения
Задача: Оценить решение о масштабировании бизнеса. У тебя кофейня в спальном районе Москвы, приносит стабильно 100 тысяч рублей в месяц чистыми. Появилась возможность открыть вторую точку в соседнем районе — вложить 1.5 млн рублей, окупаемость по расчётам около года.
Неоптимальный промпт (венчурная логика для стабильного бизнеса):
Ты венчурный инвестор, специализация — ранние стадии
высокорисковых проектов в сфере технологий и ритейла.
Горизонт инвестиций 5-7 лет, цель — возврат 10x от вложений.
Оцени решение об открытии второй кофейни:
- Текущая точка: 100к/мес чистыми, работает 2 года
- Инвестиции в новую: 1.5 млн
- Окупаемость: ~12 месяцев
- Локация: спальный район, конкурентов мало
Стоит ли открывать?
Оптимальный промпт (операционная логика для малого бизнеса):
Ты операционный директор небольшой сети кофеен (5-7 точек),
специализация — постепенное масштабирование малого бизнеса
с контролем операционных и финансовых рисков.
Оцени решение об открытии второй кофейни:
- Текущая точка: 100к/мес чистыми, работает 2 года
- Инвестиции в новую: 1.5 млн
- Окупаемость: ~12 месяцев
- Локация: спальный район, конкурентов мало
Стоит ли открывать?
Результат:
Первый промпт может дать неадекватно агрессивный совет — венчурная логика толкает к риску ради кратного роста, модель может посоветовать "открыть сразу 3-5 точек" или "искать инвесторов для резкого масштабирования". Второй даёт взвешенную оценку с фокусом на устойчивость: модель проверит операционные риски (сможешь ли управлять двумя точками, есть ли команда, как контролировать качество), финансовый буфер, сезонность спроса — что адекватнее для малого бизнеса.
Почему это работает
LLM не "знают" врачебную практику или бизнес-стратегии в буквальном смысле — они генерируют текст по паттернам, усвоенным из обучающих данных. Персона в промпте активирует определённое подмножество паттернов: "врач скорой" связан с текстами про экстренную диагностику, тревожные симптомы, риски промедления. Эти паттерны хорошо работают для критических случаев, но создают избыточную тревожность для рутинных вопросов — модель "видит" риски там, где их нет.
Универсальная экспертная роль ("врач", "консультант") недостаточно специфична — модель одновременно активирует паттерны разных контекстов, что размывает фокус. Узкая роль ("врач скорой", "операционный директор") создаёт чёткий фокус, но работает только в соответствующем контексте. За его пределами фокус становится шорами — модель упускает важные аспекты.
Рычаги управления:
Специфичность роли — чем уже роль, тем сильнее фокус. "Врач" → "терапевт" → "терапевт поликлиники с опытом амбулаторной диагностики". Узкая роль даёт резкий эффект, но требует точного попадания в контекст.
Контекст задачи в описании роли — добавь контекст прямо в персону: "специализация — первичная диагностика" vs "специализация — экстренная кардиология". Это явно задаёт фокус модели.
Стили взаимодействия ("смелый", "осторожный") — исследование показало, что они ненадёжны. Эффект непредсказуем и зависит от модели. Не используй стили как механизм контроля риска — лучше меняй саму роль.
Шаблон паттерна
Для критических/экстренных контекстов:
Ты {узкая роль с фокусом на критичность}, специализация — {описание
работы с высокими рисками/срочными решениями}.
Задача: {описание критической ситуации}
Оцени {что нужно оценить} с точки зрения рисков и срочности.
Подставь конкретную роль: "врач скорой помощи", "антикризисный управляющий", "адвокат по уголовным делам".
Для рутинных/стабильных контекстов:
Ты {узкая роль с фокусом на рутинную практику}, специализация —
{описание работы со стандартными случаями/плановыми задачами}.
Задача: {описание рутинной ситуации}
Оцени {что нужно оценить} с точки зрения стандартных подходов и долгосрочной устойчивости.
Подставь роль: "врач-терапевт поликлиники", "операционный директор", "корпоративный юрист".
Правило выбора персоны:
- Определи тип контекста задачи (критический/срочный vs рутинный/плановый)
- Выбери узкую роль, которая специализируется именно на этом контексте
- Не используй ту же персону для других контекстов — лучше поменяй роль
Ограничения
⚠️ Нет готовой карты ролей: Исследование показало проблему, но не дало исчерпывающего списка "какая роль для какого контекста". Тебе нужно самому думать о специфике задачи и подбирать роль. Универсального алгоритма нет.
⚠️ Стили взаимодействия ненадёжны: "Смелый" vs "осторожный", "агрессивный" vs "консервативный" — эти модификаторы дают непредсказуемый эффект, который зависит от конкретной модели. В одних моделях "осторожный врач" действительно осторожнее, в других — наоборот. Не полагайся на стили для контроля поведения.
⚠️ Эффект может быть резким: Узкая персона вне своего контекста может дать значительную деградацию качества (до -10% и больше). Не используй "врача скорой" для всех медицинских вопросов, "антикризисного управляющего" для всех бизнес-решений.
Как исследовали
Команда из Brown University и University of Tübingen взяла 5 медицинских LLM (включая разные версии HuatuoGPT-o1 и MedGemma) и проверила как разные персоны влияют на поведение. Протестировали 1667 медицинских случаев двух типов: экстренные (инсульт, ТИА) и рутинные (первичная помощь, профилактика). Персоны вводили через system prompt одной фразой: "You are a {роль}".
Измеряли не только точность, но и калибровку (насколько уверенность модели соответствует реальной точности), консистентность (совпадают ли внутренние предпочтения модели с тем, что она генерирует), склонность к риску (как часто модель выбирает "экстренный" вариант) и чувствительность к риску (какие ошибки чаще — гипердиагностика vs недодиагностика).
Что удивило: эффект оказался контекстно-зависимым и немонотонным. Исследователи ожидали, что более экспертные персоны дают лучший результат везде — но получили противоположное. "Врач скорой" улучшал точность на 20 процентных пунктов для экстренных случаев (с ~65% до ~85%), но снижал на 10 п.п. для рутинных (с ~70% до ~60%). Калибровка следовала тому же паттерну. Если бы оценивали только агрегированную точность — эффекты бы взаимно погасились, и казалось бы что персоны "немного помогают". Только стратифицированная оценка по типам задач показала настоящую картину.
LLM-судьи (GPT-4o, большие версии HuatuoGPT) предпочитали медицинские персоны по безопасности и полезности. Но когда показали те же ответы реальным клиницистам (два врача с 10+ лет опыта, один недавний выпускник), обнаружилось: врачи умеренно согласны по безопасности (Cohen's κ = 0.43), но имеют низкую уверенность в оценке качества рассуждений в 95.9% случаев. Это показывает: персоны действительно влияют на воспринимаемую безопасность, но их влияние на качество мышления субъективно и неоднозначно даже для экспертов.
Вывод исследования: персоны — это поведенческие приоры, а не гарантии безопасности или качества. Они вводят контекстно-зависимые компромиссы, которые нужно учитывать при выборе.
Ресурсы
The Persona Paradox: Medical Personas as Behavioral Priors in Clinical Language Models
Tassallah Abdullahi, Shrestha Ghosh, Hamish S Fraser, Daniel León Tramontini, Adeel Abbasi, Ghada Bourjeily, Carsten Eickhoff, Ritambhara Singh
Brown University (США), University of Tübingen (Германия)
Код исследования
