3,583 papers
arXiv:2601.05376 76 8 янв. 2026 г. FREE

Контекстно-специфичные персоны: почему универсальная экспертная роль не работает

КЛЮЧЕВАЯ СУТЬ
Логика подсказывает: чем экспертнее роль в промпте, тем лучше результат. Эксперименты показали обратное. Одна медицинская роль: +20% точности для экстренных случаев, -10% для рутинных. Персоны работают как поведенческие приоры — задают фокус внимания модели на определённый контекст. Вне этого контекста фокус превращается в шоры. Метод позволяет контролировать точность через подбор узкой роли под задачу: не 'врач' для всех вопросов, а 'врач скорой' для экстренных и 'терапевт поликлиники' для рутинных.
Адаптировать под запрос

TL;DR

Персоны в промптах работают как поведенческие приоры — они задают фокус внимания и стиль принятия решений, но не гарантируют качество. Исследование Brown University показало: одна и та же медицинская роль улучшает точность модели на 20% в экстренных случаях, но снижает её на 10% в рутинных задачах. Персоны эффективны в узком контексте, для которого «заточены», и деградируют за его пределами.

Главная находка — персоны не работают монотонно. Более экспертная роль ≠ лучший результат. Модель с персоной "врач скорой помощи" отлично триажирует критические случаи (инсульт, боль в груди), но даёт худшее качество для обычных вопросов вроде "какие витамины пить при усталости". Причина: персона создаёт фокус на определённый контекст, и этот фокус вредит за его пределами. Исследователи также проверили "стили взаимодействия" ("смелый врач" vs "осторожный врач") — оказалось, они не дают надёжного контроля над поведением, эффект зависит от модели.

Решение — подбирать персону под конкретный контекст задачи, а не под широкий домен. Вместо универсального "врача" или "бизнес-консультанта" используй узкую роль: "врач скорой" для экстренных случаев, "терапевт поликлиники" для рутинных; "антикризисный управляющий" для критических бизнес-решений, "операционный директор" для стабильного роста.

📌

Схема эффекта

Широкая персона ("врач", "консультант")
         ↓
Применена к разным контекстам
         ↓
Эффективна в одних ❌ Деградирует в других


Узкая персона под контекст ("врач скорой", "терапевт")
         ↓
Применена к соответствующей задаче
         ↓
Высокое качество ✅ 
         ↓
Применена к несоответствующей задаче
         ↓
Низкое качество ❌
🚀

Пример применения

Задача: Оценить решение о масштабировании бизнеса. У тебя кофейня в спальном районе Москвы, приносит стабильно 100 тысяч рублей в месяц чистыми. Появилась возможность открыть вторую точку в соседнем районе — вложить 1.5 млн рублей, окупаемость по расчётам около года.

Неоптимальный промпт (венчурная логика для стабильного бизнеса):

Ты венчурный инвестор, специализация — ранние стадии 
высокорисковых проектов в сфере технологий и ритейла. 
Горизонт инвестиций 5-7 лет, цель — возврат 10x от вложений.

Оцени решение об открытии второй кофейни:
- Текущая точка: 100к/мес чистыми, работает 2 года
- Инвестиции в новую: 1.5 млн
- Окупаемость: ~12 месяцев
- Локация: спальный район, конкурентов мало

Стоит ли открывать?

Оптимальный промпт (операционная логика для малого бизнеса):

Ты операционный директор небольшой сети кофеен (5-7 точек), 
специализация — постепенное масштабирование малого бизнеса 
с контролем операционных и финансовых рисков.

Оцени решение об открытии второй кофейни:
- Текущая точка: 100к/мес чистыми, работает 2 года
- Инвестиции в новую: 1.5 млн
- Окупаемость: ~12 месяцев
- Локация: спальный район, конкурентов мало

Стоит ли открывать?

Результат:

Первый промпт может дать неадекватно агрессивный совет — венчурная логика толкает к риску ради кратного роста, модель может посоветовать "открыть сразу 3-5 точек" или "искать инвесторов для резкого масштабирования". Второй даёт взвешенную оценку с фокусом на устойчивость: модель проверит операционные риски (сможешь ли управлять двумя точками, есть ли команда, как контролировать качество), финансовый буфер, сезонность спроса — что адекватнее для малого бизнеса.

🧠

Почему это работает

LLM не "знают" врачебную практику или бизнес-стратегии в буквальном смысле — они генерируют текст по паттернам, усвоенным из обучающих данных. Персона в промпте активирует определённое подмножество паттернов: "врач скорой" связан с текстами про экстренную диагностику, тревожные симптомы, риски промедления. Эти паттерны хорошо работают для критических случаев, но создают избыточную тревожность для рутинных вопросов — модель "видит" риски там, где их нет.

Универсальная экспертная роль ("врач", "консультант") недостаточно специфична — модель одновременно активирует паттерны разных контекстов, что размывает фокус. Узкая роль ("врач скорой", "операционный директор") создаёт чёткий фокус, но работает только в соответствующем контексте. За его пределами фокус становится шорами — модель упускает важные аспекты.

Рычаги управления:

  • Специфичность роли — чем уже роль, тем сильнее фокус. "Врач" → "терапевт" → "терапевт поликлиники с опытом амбулаторной диагностики". Узкая роль даёт резкий эффект, но требует точного попадания в контекст.

  • Контекст задачи в описании роли — добавь контекст прямо в персону: "специализация — первичная диагностика" vs "специализация — экстренная кардиология". Это явно задаёт фокус модели.

  • Стили взаимодействия ("смелый", "осторожный") — исследование показало, что они ненадёжны. Эффект непредсказуем и зависит от модели. Не используй стили как механизм контроля риска — лучше меняй саму роль.

📌

Шаблон паттерна

Для критических/экстренных контекстов:

Ты {узкая роль с фокусом на критичность}, специализация — {описание 
работы с высокими рисками/срочными решениями}.

Задача: {описание критической ситуации}

Оцени {что нужно оценить} с точки зрения рисков и срочности.

Подставь конкретную роль: "врач скорой помощи", "антикризисный управляющий", "адвокат по уголовным делам".

Для рутинных/стабильных контекстов:

Ты {узкая роль с фокусом на рутинную практику}, специализация — 
{описание работы со стандартными случаями/плановыми задачами}.

Задача: {описание рутинной ситуации}

Оцени {что нужно оценить} с точки зрения стандартных подходов и долгосрочной устойчивости.

Подставь роль: "врач-терапевт поликлиники", "операционный директор", "корпоративный юрист".

Правило выбора персоны:

  1. Определи тип контекста задачи (критический/срочный vs рутинный/плановый)
  2. Выбери узкую роль, которая специализируется именно на этом контексте
  3. Не используй ту же персону для других контекстов — лучше поменяй роль
⚠️

Ограничения

⚠️ Нет готовой карты ролей: Исследование показало проблему, но не дало исчерпывающего списка "какая роль для какого контекста". Тебе нужно самому думать о специфике задачи и подбирать роль. Универсального алгоритма нет.

⚠️ Стили взаимодействия ненадёжны: "Смелый" vs "осторожный", "агрессивный" vs "консервативный" — эти модификаторы дают непредсказуемый эффект, который зависит от конкретной модели. В одних моделях "осторожный врач" действительно осторожнее, в других — наоборот. Не полагайся на стили для контроля поведения.

⚠️ Эффект может быть резким: Узкая персона вне своего контекста может дать значительную деградацию качества (до -10% и больше). Не используй "врача скорой" для всех медицинских вопросов, "антикризисного управляющего" для всех бизнес-решений.

🔍

Как исследовали

Команда из Brown University и University of Tübingen взяла 5 медицинских LLM (включая разные версии HuatuoGPT-o1 и MedGemma) и проверила как разные персоны влияют на поведение. Протестировали 1667 медицинских случаев двух типов: экстренные (инсульт, ТИА) и рутинные (первичная помощь, профилактика). Персоны вводили через system prompt одной фразой: "You are a {роль}".

Измеряли не только точность, но и калибровку (насколько уверенность модели соответствует реальной точности), консистентность (совпадают ли внутренние предпочтения модели с тем, что она генерирует), склонность к риску (как часто модель выбирает "экстренный" вариант) и чувствительность к риску (какие ошибки чаще — гипердиагностика vs недодиагностика).

Что удивило: эффект оказался контекстно-зависимым и немонотонным. Исследователи ожидали, что более экспертные персоны дают лучший результат везде — но получили противоположное. "Врач скорой" улучшал точность на 20 процентных пунктов для экстренных случаев (с ~65% до ~85%), но снижал на 10 п.п. для рутинных (с ~70% до ~60%). Калибровка следовала тому же паттерну. Если бы оценивали только агрегированную точность — эффекты бы взаимно погасились, и казалось бы что персоны "немного помогают". Только стратифицированная оценка по типам задач показала настоящую картину.

LLM-судьи (GPT-4o, большие версии HuatuoGPT) предпочитали медицинские персоны по безопасности и полезности. Но когда показали те же ответы реальным клиницистам (два врача с 10+ лет опыта, один недавний выпускник), обнаружилось: врачи умеренно согласны по безопасности (Cohen's κ = 0.43), но имеют низкую уверенность в оценке качества рассуждений в 95.9% случаев. Это показывает: персоны действительно влияют на воспринимаемую безопасность, но их влияние на качество мышления субъективно и неоднозначно даже для экспертов.

Вывод исследования: персоны — это поведенческие приоры, а не гарантии безопасности или качества. Они вводят контекстно-зависимые компромиссы, которые нужно учитывать при выборе.

🔗

Ресурсы

The Persona Paradox: Medical Personas as Behavioral Priors in Clinical Language Models

Tassallah Abdullahi, Shrestha Ghosh, Hamish S Fraser, Daniel León Tramontini, Adeel Abbasi, Ghada Bourjeily, Carsten Eickhoff, Ritambhara Singh

Brown University (США), University of Tübingen (Германия)

Код исследования


📋 Дайджест исследования

Ключевая суть

Логика подсказывает: чем экспертнее роль в промпте, тем лучше результат. Эксперименты показали обратное. Одна медицинская роль: +20% точности для экстренных случаев, -10% для рутинных. Персоны работают как поведенческие приоры — задают фокус внимания модели на определённый контекст. Вне этого контекста фокус превращается в шоры. Метод позволяет контролировать точность через подбор узкой роли под задачу: не 'врач' для всех вопросов, а 'врач скорой' для экстренных и 'терапевт поликлиники' для рутинных.

Принцип работы

Не используй универсальную экспертную роль ('врач', 'бизнес-консультант') для всех задач домена. Подбирай узкую роль под тип контекста. Критическая ситуация → 'врач скорой' или 'антикризисный управляющий'. Рутинная задача → 'терапевт поликлиники' или 'операционный директор'. Широкая роль размывает фокус — модель тянет паттерны разных контекстов одновременно (экстренность + рутина), результат проседает для обоих.

Почему работает

LLM не 'знают' врачебную практику — они генерируют текст по паттернам из обучающих данных. Персона активирует подмножество этих паттернов. 'Врач скорой' тянет тексты про экстренную диагностику, тревожные симптомы, риски промедления. Это работает для инсульта. Но создаёт избыточную тревожность для 'какие витамины пить' — модель видит риски там, где их нет. Узкая роль даёт чёткий фокус только в своём контексте — вне его фокус превращается в шоры. Цифры из исследования: 'врач скорой помощи' показал +20% точности для критических случаев vs -10% для рутинных вопросов. Универсальная роль 'врач' недостаточно специфична — активирует паттерны сразу для многих контекстов, что размывает результат.

Когда применять

Для задач где важен контекст принятия решений → особенно когда одна широкая роль должна работать в разных ситуациях (экстренные vs рутинные диагнозы, бизнес-кризис vs стабильный рост, судебный спор vs договорное право). НЕ подходит если у тебя нет чёткого понимания контекста задачи, или задача действительно требует широкой экспертизы без узкой специализации.

Мини-рецепт

1. Определи тип контекста задачи: Это критическая/срочная ситуация или рутинная/плановая? Высокие риски или стандартный случай?
2. Выбери узкую роль под этот контекст: Не 'консультант', а 'антикризисный управляющий' для кризиса или 'операционный директор' для стабильности. Не 'врач', а 'врач скорой' или 'терапевт поликлиники'.
3. Добавь специализацию в описание роли: Ты {узкая роль}, специализация — {конкретный контекст работы}. Например: Ты терапевт районной поликлиники, специализация — первичная амбулаторная диагностика частых жалоб.
4. Меняй роль при смене контекста: Не используй 'врача скорой' для всех вопросов — для рутины бери другую роль.

Примеры

[ПЛОХО]: `Ты опытный врач. У меня болит голова уже 3 дня, что делать?` [ХОРОШО]: `Ты врач-терапевт районной поликлиники, специализация — первичная амбулаторная диагностика частых жалоб. У меня болит голова уже 3 дня, характер боли тупой, усиливается к вечеру. Что может быть причиной?` [ПЛОХО]: `Ты бизнес-консультант. Стоит ли мне открыть вторую кофейню? Первая приносит 100к/мес, вторая потребует 1.5 млн вложений.` [ХОРОШО]: `Ты операционный директор небольшой сети кофеен (5-7 точек), специализация — постепенное масштабирование малого бизнеса с контролем операционных и финансовых рисков. Оцени решение об открытии второй точки: текущая даёт 100к/мес чистыми, новая потребует 1.5 млн, окупаемость около 12 месяцев.`
Источник: The Persona Paradox: Medical Personas as Behavioral Priors in Clinical Language Models
ArXiv ID: 2601.05376 | Сгенерировано: 2026-01-12 05:35

Проблемы LLM

ПроблемаСутьКак обойти
Широкая экспертная роль даёт нестабильное качествоПишешь "ты опытный врач" или "ты бизнес-консультант". Ожидаешь улучшения. Получаешь лотерею: в одних задачах модель работает лучше, в других — хуже чем вообще без роли. Широкая роль активирует слишком много разных паттернов. "Врач" = терапевт + хирург + врач скорой + психиатр. Модель смешивает все контексты. Фокус размытИспользуй узкую роль под тип задачи. Не "врач", а "врач скорой помощи" для экстренных случаев. Или "терапевт поликлиники" для рутинных вопросов. Не "консультант", а "антикризисный управляющий" для критических решений. Или "операционный директор" для стабильного роста

Методы

МетодСуть
Контекстно-специфичные персоны — точный фокус под задачуВместо универсальной роли подбирай узкую персону под тип контекста. Шаги: (1) Определи тип: критический/срочный или рутинный/плановый. (2) Выбери узкую роль для этого типа. (3) Меняй роль при смене контекста. Синтаксис критического: Ты {узкая роль с фокусом на критичность}, специализация — {работа с рисками/срочными решениями}. Синтаксис рутинного: Ты {узкая роль с фокусом на рутину}, специализация — {стандартные случаи/плановые задачи}. Почему работает: Персона активирует подмножество паттернов из обучающих данных. Узкая роль = чёткий фокус. "Врач скорой" тянет тексты про экстренную диагностику и критичность. "Терапевт поликлиники" — про амбулаторную практику. Работает: Задача попадает в специализацию роли. Не работает: Задача выходит за рамки — фокус становится шорами. Не используй "врача скорой" для вопросов про витамины

Тезисы

ТезисКомментарий
Персона задаёт фокус внимания, а не уровень качестваПерсона не делает модель "умнее" или "экспертнее". Она активирует определённое подмножество паттернов — создаёт фокус. "Врач скорой" фокус на экстренную диагностику, тревожные симптомы, риски промедления. Этот фокус помогает в критических случаях (боль в груди, инсульт). Модель быстро выделяет опасные признаки. Но тот же фокус вредит в рутинных вопросах (витамины при усталости). Модель видит несуществующие риски. Становится избыточно тревожной. Применяй: Не ожидай волшебства от персоны. Думай о ней как о фильтре. Что попадает в фокус? Что отсекается? Подбирай фокус под задачу
Узкая персона сильна в своём контексте и деградирует вне егоЧем уже специализация, тем сильнее фокус. Сильный фокус = высокое качество в нужном контексте + резкое падение за пределами. "Врач скорой" отлично сортирует критические случаи. Но даёт худший результат для обычных медицинских вопросов. Узкая роль активирует узкое подмножество паттернов. Эти паттерны работают в своей области (экстренная диагностика). Но создают искажения вне её. Модель ищет критичность там, где её нет. Применяй: Не используй одну узкую персону для разных типов задач. Меняй роль при смене контекста: "врач скорой" для экстренных "терапевт поликлиники" для рутинных
📖 Простыми словами

Контекстно-специфичные персоны: почему универсальная экспертная роль не работает

arXiv: 2601.05376

Когда ты просишь нейронку «представь, что ты опытный хирург», ты не делаешь её умнее, ты просто переключаешь её в режим поведенческого приора. Модель не начинает внезапно понимать медицину глубже, она просто активирует специфический набор шаблонов из своей памяти. Это работает как фильтр внимания: если ты задал роль врача скорой, модель начинает искать в симптомах смертельную опасность, потому что именно так пишут в учебниках по экстренной помощи. Проблема в том, что этот фильтр жестко привязан к контексту, и если задача не совпадает с ролью, модель начинает безбожно лажать.

Это как нанять на должность администратора в тихую библиотеку профессионального вышибалу из ночного клуба. Формально он профи, но его навыки заточены под конфликт и агрессию. Там, где нужно просто прошептать «тише, пожалуйста», он видит угрозу и начинает заламывать руки читателям. В итоге в критической ситуации (драка в баре) он эффективнее на 20%, но в мирной рутине он — полный провал, который только портит атмосферу и снижает общую адекватность системы на 10%.

Исследователи из Brown University доказали это на цифрах: медицинские персоны работают как узкозаточенный инструмент. В экстренных кейсах точность растет, потому что модель фокусируется на главном, но в обычных задачах наступает деградация. Модель становится «тревожной» и начинает видеть патологию там, где её нет, просто потому что роль обязывает. Персональный парадокс заключается в том, что чем сильнее ты сужаешь роль для одной задачи, тем бесполезнее она становится для всего остального.

Этот принцип универсален и работает далеко за пределами медицины, будь то юриспруденция или бизнес-аналитика. Если ты просишь AI оценить риск расширения кофейни из роли «агрессивного венчурного инвестора», он проигнорирует стабильность и потащит тебя в авантюру. Если выберешь роль «осторожного бухгалтера», он задушит любую идею роста. LLM — это зеркало паттернов, и если паттерн роли не совпадает с реальностью задачи, ты получаешь не экспертное мнение, а предвзятый мусор.

Короче: хватит верить, что магическая фраза «ты эксперт в X» — это универсальная таблетка для качества. Это инструмент калибровки, который может как починить, так и сломать логику ответа. Используй персоны только там, где контекст задачи на 100% совпадает с ролью, иначе рискуешь получить галлюцинации на пустом месте. Либо модель решит проблему, либо создаст новую там, где её никогда не было.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с