TL;DR
Механика role-play в LLM: При формулировке роли наречие ("работай точно") влияет на поведение модели сильнее, чем прилагательное ("точный работник"). Исследователи через activation patching — технику, которая отслеживает как информация передаётся внутри модели — выяснили, что информация о роли кодируется в ранних слоях почти независимо от самой задачи.
Главная находка: Замена всего трёх слов в описании роли меняет качество работы модели в 5 раз (метрика nDCG от 0.1 до 0.5). Например, "expert assistant that ranks accurately" работает стабильнее чем "accurate expert assistant". Позитивные роли ("careful", "expert") дают более предсказуемый результат, чем негативные ("sloppy", "confused"). Причина: роль закрепляется в модели рано и напрямую влияет на финальное поведение, почти не пересекаясь с контентом самого запроса.
Иерархия компонентов роли: Тестируя шаблон "You are a/an {прилагательное} assistant that {модальный глагол} work {наречие}", исследователи нашли: наречие несёт главный сигнал (accurately, carefully), прилагательное — поддержку (expert, reliable), а модальный глагол (can, will) почти не влияет. Это объясняет, почему фокус на действии ("ранжируй точно") работает сильнее фокуса на статусе ("точный ранжировщик").
Пример применения
⚠️ Ограничения метода: Исследование проводилось на задачах ранжирования документов. Эффект может различаться в других доменах, но принцип формулировки роли универсален.
Задача: Проверка договора перед подписанием. Нужно найти все риски и подводные камни — работа требует предельной внимательности.
Промпт A (фокус на статус):
Ты опытный юрист. Проверь этот договор на риски.
[текст договора]
Промпт B (фокус на действие):
Ты юрист. Читай внимательно каждый пункт, ищи скрытые риски, проверяй формулировки на двусмысленность. Вот договор:
[текст договора]
Результат: Промпт B даст более детальный анализ с конкретными замечаниями к формулировкам. Модель сфокусируется на процессе проверки (читай внимательно, ищи, проверяй), а не просто на роли "опытный юрист". Вы увидите разбор по пунктам с указанием потенциальных рисков в каждом.
Почему это работает
Слабость LLM: Абстрактные роли ("опытный эксперт") дают модели слишком много свободы интерпретации. Одна и та же роль может сработать по-разному в зависимости от контекста.
Сильная сторона LLM: Модели отлично следуют конкретным инструкциям о действиях. Чем точнее описано КАК работать — тем стабильнее результат.
Как работает: Информация о роли кодируется в ранних слоях модели и почти не взаимодействует с содержанием запроса (query/document). Это значит, что роль работает как установка поведения, которая применяется ко всему последующему процессу. Наречие конкретизирует ЭТУ установку ("работай точно"), в то время как прилагательное остаётся абстрактным ("точный работник" — а что это значит на практике?).
Рычаги управления:
- Наречия — главный рычаг силы роли. Меняй их для разного стиля работы: "внимательно" vs "быстро", "критично" vs "поддерживающе"
- Конкретизация действий — добавляй глаголы для усиления: "проверяй каждый пункт", "ищи противоречия"
- Позитивность формулировки — позитивные роли стабильнее. Вместо "не будь поверхностным" → "анализируй глубоко"
Формула применения
Вместо абстрактной роли через прилагательное:
❌ Ты {прилагательное} {роль}
Формулируй роль через конкретные действия:
✅ Ты {роль}. {Глагол_1} {наречие_1}, {глагол_2} {наречие_2}
Примеры трансформации:
| Было (статус) | Стало (действие) |
|---|---|
| Ты критичный аналитик | Ты аналитик. Анализируй критично, ищи слабые места |
| Ты внимательный редактор | Ты редактор. Читай внимательно, проверяй каждую деталь |
| Ты креативный копирайтер | Ты копирайтер. Пиши ярко, удивляй формулировками |
Пояснение: Подставь свою роль и 2-3 конкретных действия с наречиями. Наречия должны отражать КАК именно нужно выполнять работу.
Ограничения
⚠️ Домен исследования: Эффект проверен на задачах ранжирования документов (IR). В других доменах (генерация текста, анализ, код) разница может быть менее драматичной.
⚠️ Чувствительность к формулировке: Даже позитивные роли могут дать разный результат в зависимости от конкретных слов. Негативные роли ("неопытный", "медленный") ведут себя непредсказуемо — иногда даже лучше базового промпта без роли.
⚠️ Языковая специфика: Исследование на английском. Прямой перенос конструкции "assistant that works accurately" в русский звучит неестественно. Адаптируй принцип: фокус на действие через глагол + наречие.
Как исследовали
Исследователи создали шаблон роли с тремя изменяемыми слотами: {прилагательное} {модальный глагол} {наречие}. Например: "You are a talented assistant that can rank passages carefully". Сгенерировали 300 вариантов (10 прилагательных × 3 модальных × 10 наречий), разделённых на позитивные ("expert", "carefully") и негативные ("confused", "poorly").
Тестировали на LLaMA-3.1-8B-Instruct в задачах ранжирования документов (MS MARCO, TREC DL 2019). Качество измеряли метрикой nDCG@10 — насколько хорошо модель ставит релевантные документы в топ-10.
Ключевой метод — activation patching: Запускали модель дважды — с позитивной ролью ("expert") и негативной ("confused"). Затем подменяли активации (внутренние состояния модели) из позитивного запуска в негативный на разных слоях. Если подмена восстанавливала качество — значит, в этом слое/компоненте закодирована информация о роли.
Удивительная находка: Роль кодируется в ранних слоях (0-13 из 32) и почти не взаимодействует с query и document. Это значит, что роль работает отдельно от задачи — она устанавливает общий паттерн поведения, который потом применяется к любому контенту.
Иерархия компонентов: Отдельно патчили каждый тип токена (прилагательное, модальный глагол, наречие). Наречие дало максимальное восстановление качества, прилагательное — среднее, модальный глагол — почти ноль. Это доказывает, что наречие несёт главный сигнал роли.
Эффект проверили на других моделях (Mistral-7B, Qwen2.5-7B) и датасете (Natural Questions) — паттерн сохранился, хотя конкретные слои взаимодействия немного различались.
Ресурсы
How role-play shapes relevance judgment in zero-shot LLM rankers
arXiv preprint, 2025
Код исследования
Авторы: Yumeng Wang, Jirui Qi, Catherine Chen, Panagiotis Eustratiadis, Suzan Verberne
Leiden University, University of Groningen, Brown University, University of Amsterdam
