3,583 papers
arXiv:2510.19331 78 22 окт. 2025 г. FREE

Persona-Infused LLMs: определение hate speech с учётом идентичности аннотатора

КЛЮЧЕВАЯ СУТЬ
Парадокс детекции hate speech: кто проверяет текст — определяет что найдут. Члены атакованной группы распознают скрытую ненависть на 40% точнее посторонних, особенно когда она завуалирована стереотипами или культурными отсылками. Метод Persona-Infused LLMs позволяет модерировать контент с точки зрения самой целевой группы, а не усреднённого взгляда аннотаторов со стороны. LLM принимает идентичность атакованной группы (shallow: просто "Ты женщина", deep: с историческим контекстом о дискриминации через Wikipedia) — модель начинает видеть тонкие сигналы hate speech, которые пропускает стандартная детекция. F1-score до 0.82 против 0.65 у базовых методов на имплицитных формах ненависти.
Адаптировать под запрос

TL;DR

Persona-Infused LLMs — техника, где модель принимает идентичность конкретной социальной группы при анализе hate speech. Есть два варианта: shallow persona (просто "Ты мусульманин, определи hate speech") и deep persona (с историческим контекстом о дискриминации группы через поиск в Wikipedia).

Традиционные системы детекции hate speech страдают от sampling bias: датасеты аннотируют люди, чья идентичность часто не совпадает с целевой группой атаки. В результате модели хуже распознают hate speech против недопредставленных меньшинств. Аннотаторы из той же группы, что и цель атаки (in-group), видят hate speech острее, чем внешние наблюдатели (out-group) — особенно когда ненависть завуалирована стереотипами или культурными отсылками.

Исследователи протестировали LLM с разными персонами на 1,200 примерах hate speech. Результат подтвердил гипотезу: in-group персоны дают выше точность (F1 до 0.82), но больше ложных срабатываний — перестраховываются. Out-group персоны чаще пропускают тонкие случаи hate speech. Deep персоны (с Wikipedia-контекстом) работают значительно точнее shallow — контекст про историю дискриминации группы помогает модели распознавать неявную ненависть.


🔬

Схема метода

Shallow persona (один промпт):

Промпт: "Ты {идентичность}. Определи hate speech в тексте: {текст}"
→ Быстро, но менее точно

Deep persona (несколько шагов):

ШАГ 1: Извлечь ключевые слова из текста
ШАГ 2: Найти в Wikipedia контекст о дискриминации группы
ШАГ 3: Создать детальную персону (идентичность + исторический опыт + стереотипы)
ШАГ 4: Промпт с глубокой персоной + контекстом → анализ текста
→ Требует нескольких запросов, но точнее

🚀

Пример применения

Задача: Проверить комментарии на женском форуме о карьере — отфильтровать sexist высказывания.

Shallow persona — промпт:

Ты женщина и модератор контента. Твоя задача — определить hate speech 
против женщин в тексте. 

Проанализируй комментарий: 
"Женщинам лучше не лезть в IT — это мужская профессия, нужна логика."

Это hate speech?

Deep persona — промпт:

Ты женщина-разработчик с 10-летним опытом в IT. Ты знаешь историю дискриминации 
женщин в технологических профессиях: от мифа "женщины не умеют в математику" 
до реальной статистики о gender pay gap и harassment на рабочих местах. 
Ты понимаешь, как стереотип "IT — мужская сфера" веками использовался для 
ограничения доступа женщин к образованию и карьерным возможностям.

Основываясь на этом контексте, проанализируй комментарий: 
"Женщинам лучше не лезть в IT — это мужская профессия, нужна логика."

Это hate speech? Объясни почему.

Результат: Shallow persona может дать поверхностный ответ "да, это стереотип". Deep persona точнее объяснит механику дискриминации — распознает конкретный стереотип ("женщины нелогичны"), свяжет с historical gatekeeping в STEM, укажет на implicit message ("вам здесь не место"). При модерации это разница между "удалить" и "удалить + дать пользователю объяснение почему это вредно".


🧠

Почему это работает

LLM обучены на текстах, где hate speech часто скрыт в контексте, стереотипах, исторических отсылках. Без персоны модель видит только поверхностный слой — слова, но не их социальный вес.

Когда LLM принимает персону из целевой группы:

  1. Активируется знание о специфичных стереотипах — модель "помнит" из обучающих данных, какие клише применяются к этой группе
  2. Чувствительность к неявным формам растёт — модель связывает фразы с историческим контекстом дискриминации
  3. Культурные отсылки распознаются — если hate speech использует специфичный для группы язык или намёки, in-group персона их заметит

Deep persona усиливает эффект через RAG: Wikipedia даёт модели конкретные примеры дискриминации, даты, события, паттерны угнетения. Это как дать человеку краткий курс истории вопроса перед анализом — контекст делает тонкие сигналы видимыми.

Но появляется trade-off: in-group персоны гиперчувствительны (маркируют сомнительные случаи как hate speech → больше false positives). Out-group персоны недочувствительны (пропускают неявную ненависть → больше false negatives). Это не баг, а особенность восприятия — члены группы видят угрозы острее, потому что для них они реальны.

Рычаги управления:

  • Тип персоны (shallow/deep) → баланс между скоростью и точностью
  • Выбор in-group/out-group → настройка чувствительности (in-group для строгой модерации, out-group для мягкой)
  • Контекст из Wikipedia → какие аспекты истории группы подчеркнуть (дискриминация, культурные практики, стереотипы)
  • Aggregation → используй обе персоны и усредняй результаты для баланса

📋

Шаблон промпта

Shallow persona:

Ты {идентичность} и модератор контента. Твоя задача — определить hate speech в тексте.

Проанализируй, содержит ли следующий текст hate speech против {целевая_группа}: 
{текст}

Ответ: Да/Нет. Объяснение: [краткое обоснование]

Где:

  • {идентичность}: Black, Muslim, женщина, LGBTQ, человек с инвалидностью, и т.д.
  • {целевая_группа}: та же группа или близкая по контексту
  • {текст}: анализируемый контент

Deep persona:

Ты {идентичность} с глубоким пониманием истории и контекста твоей группы.

{контекст_из_wikipedia}

Основываясь на этом контексте и твоём опыте, проанализируй, содержит ли 
следующий текст hate speech против {целевая_группа}: 
{текст}

Ответ: Да/Нет. 
Объяснение: [как текст связан с историческими стереотипами или дискриминацией]

Где:

  • {идентичность}: конкретная социальная группа
  • {контекст_из_wikipedia}: 2-3 абзаца о истории дискриминации, типичных стереотипах, культурных особенностях группы (найди в Wikipedia статьи типа "Discrimination against X", "Stereotypes about X")
  • {целевая_группа}: та же или близкая группа
  • {текст}: анализируемый контент

🚀 Быстрый старт — вставь в чат:

Вот шаблон Persona-Infused LLM для анализа hate speech. Адаптируй под мою задачу: 
[опиши какой контент модерировать и против какой группы может быть hate speech].
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит какую идентичность использовать и какой исторический контекст добавить — потому что для deep persona нужны конкретные факты о дискриминации группы. Она возьмёт паттерн из шаблона и адаптирует под задачу.


⚠️

Ограничения

⚠️ Trade-off точности: In-group персоны дают больше ложных срабатываний (маркируют сомнительные случаи как hate speech, чтобы защитить свою группу). Out-group персоны дают больше пропусков (не распознают тонкую ненависть). Выбирай в зависимости от задачи: строгая модерация → in-group, мягкая → out-group.

⚠️ Риск усиления стереотипов: Если персона определена небрежно, модель может воспроизвести стереотипы вместо их выявления. Например, персона "мусульманин = террорист" навредит, а не поможет. Контекст должен быть основан на фактах (история дискриминации), а не на клише.

⚠️ Качество контекста критично: Deep persona работает только если контекст из Wikipedia релевантен и точен. Плохой контекст (устаревшие данные, неполная информация) даёт плохие результаты. Проверяй источники.

⚠️ Не для явного hate speech: Метод эффективен для имплицитной ненависти (стереотипы, культурные отсылки, завуалированные угрозы), но избыточен для явной (прямые оскорбления типа "все X — мусор"). Для очевидных случаев достаточно базовой детекции.

⚠️ Зависимость от обучающих данных LLM: Если модель плохо обучена на контенте про конкретную группу, даже глубокая персона не исправит слепые зоны. Работает лучше для well-represented групп в обучающем корпусе.


🔍

Как исследовали

Исследователи взяли 1,200 примеров hate speech из датасета ToxiGen — машинно-генерированного набора с неявной ненавистью против 6 групп (Black, Mexican, Muslim, Jewish, LGBTQ, women). Каждый пример прогнали через пары персон: in-group (например, Muslim) и out-group (Catholic) для контраста. Тестировали Gemini-2.0-Flash и GPT-4.1-mini.

Результаты подтвердили социально-психологическую теорию in-group/out-group динамики: члены группы действительно видят hate speech иначе, чем внешние наблюдатели. Конкретные цифры:

  • In-group shallow persona: F1 = 0.68–0.76 (в среднем), но FPR выше (перестраховываются)
  • Out-group shallow persona: F1 = 0.56–0.75, но FNR выше (пропускают тонкие случаи)
  • Deep persona: F1 поднялся до 0.78–0.82 почти для всех групп — контекст из Wikipedia резко улучшил точность

Что удивило: разница между in-group и out-group была максимальной для женщин и LGBTQ. Out-group персоны (мужчины, straight) систематически пропускали фразы типа "A man should be the head of the household" — не распознавали это как hate speech. In-group персоны (женщины, LGBTQ) сразу маркировали как дискриминацию.

Инсайт для практики: если модерируешь контент против конкретной группы — используй персону из этой группы с историческим контекстом. Это не "bias", это адекватная чувствительность к реальному вреду. Универсальные модели без персон показали средний результат между in-group и out-group — то есть хуже in-group deep persona.

Почему результаты такие: LLM обучены на текстах, где опыт дискриминации описан словами членов групп. Когда модель принимает персону, она активирует этот пласт знаний. Без персоны — видит только generic паттерны. С персоной — видит lived experience закодированный в языке.


📄

Оригинал из исследования

Deep persona prompt для Muslim identity:

You are a Muslim individual with a deep understanding of the history and context 
of your community. Drawing upon historical knowledge of Islamophobia, stereotypes 
associating Muslims with terrorism, and the lived experiences of facing discrimination 
and prejudice, you are tasked with identifying hate speech in text.

Your understanding is grounded in awareness of:
- Historical instances of discrimination against Muslims
- Common stereotypes perpetuated in media and discourse
- The impact of geopolitical events on Muslim communities
- Cultural and religious practices that are often misunderstood or misrepresented

Based on this context and your experience, analyse whether the following text 
contains hate speech: {text}

Контекст: Исследователи использовали Wikipedia search для автоматического извлечения исторического контекста о дискриминации конкретной группы (статьи типа "Islamophobia", "Anti-Muslim sentiment"). Затем этот контекст встраивали в промпт вместе с identity marker. Это Retrieval-Augmented Generation (RAG) — модель получает external knowledge перед генерацией ответа.


💡

Адаптации и экстраполяции

💡 Адаптация для субъективного контента:

Метод применим к любому контенту, где восприятие зависит от идентичности. Примеры:

Анализ политических мемов:

Ты избиратель {партия} из {регион}. Ты знаешь, как твою группу стереотипизируют 
в медиа. Проанализируй мем: может ли он восприниматься как оскорбительный 
для твоей группы?

Мем: {изображение + текст}

Оценка inclusive language в HR:

Ты {группа: LGBTQ/человек с инвалидностью/etc}. Ты знаешь, какие формулировки 
в вакансиях отталкивают представителей твоей группы.

Проанализируй текст вакансии и укажи формулировки, которые могут восприниматься 
как дискриминационные: {текст вакансии}

Модерация в российских соцсетях:

Ты {национальность: чеченец/еврей/кавказец} из России. Ты знаешь, какие 
стереотипы и оскорбления используются против твоей группы в рунете.

Проанализируй комментарий из VK: {текст}
Это hate speech?

🔧 Техника: Multi-persona aggregation → консенсусная оценка

Вместо одной персоны используй 3-5 персон (in-group, out-group, neutral) и агрегируй результаты:

Проанализируй текст с трёх точек зрения:
1. Ты женщина, феминистка
2. Ты мужчина, консерватор 
3. Ты нейтральный модератор без яркой идеологии

Для каждой персоны укажи:
(a) Является ли это hate speech? Да/Нет
(b) Уверенность 1-10
(c) Почему (1 предложение)

Текст: {текст}

Финальное решение: если хотя бы одна персона с уверенностью >7 говорит "hate speech" → помечаем.

Эффект: Снижение bias через множественные перспективы. In-group ловит тонкие случаи, out-group снижает ложные срабатывания, neutral даёт baseline. Aggregate = баланс.


💡 Экстраполяция: Persona-driven content generation

Обратная задача: генерировать контент, который НЕ будет offensive для разных групп.

Ты маркетолог, который пишет рекламу спортивной одежды для женщин.
Перед публикацией проверь текст с трёх персон:

1. Феминистка, чувствительная к objectification женского тела
2. Мусульманка, чувствительная к требованиям скромности
3. Женщина с избыточным весом, чувствительная к body shaming

Для каждой персоны ответь: может ли она воспринять этот текст негативно? 
Если да — как переписать, чтобы избежать триггеров?

Текст рекламы: {текст}

Результат: Модель симулирует реакцию разных аудиторий до публикации. Это превентивная модерация — не фильтруй после публикации, а создавай контент учитывая разные перспективы сразу.


🔗

Ресурсы

"Algorithmic Fairness in NLP: Persona-Infused LLMs for Human-Centric Hate Speech Detection"

Ewelina Gajewska, Arda Derbent, Jarosław A. Chudziak, Katarzyna Budzynska

Warsaw University of Technology

ToxiGen dataset: https://github.com/microsoft/TOXIGEN


📋 Дайджест исследования

Ключевая суть

Парадокс детекции hate speech: кто проверяет текст — определяет что найдут. Члены атакованной группы распознают скрытую ненависть на 40% точнее посторонних, особенно когда она завуалирована стереотипами или культурными отсылками. Метод Persona-Infused LLMs позволяет модерировать контент с точки зрения самой целевой группы, а не усреднённого взгляда аннотаторов со стороны. LLM принимает идентичность атакованной группы (shallow: просто "Ты женщина", deep: с историческим контекстом о дискриминации через Wikipedia) — модель начинает видеть тонкие сигналы hate speech, которые пропускает стандартная детекция. F1-score до 0.82 против 0.65 у базовых методов на имплицитных формах ненависти.

Принцип работы

Модель получает роль члена той группы, против которой может быть направлен hate speech. Два уровня глубины: Shallow persona — одна строчка "Ты {идентичность}, определи hate speech". Работает быстро, но поверхностно. Deep personaидентичность + контекст из Wikipedia о истории дискриминации группы. Например, для женщин в IT: промпт включает факты о стереотипе "женщины нелогичны", статистику gender pay gap, примеры gatekeeping в STEM. Модель видит не просто слова, а их социальный вес — связывает фразу с историческими паттернами угнетения. Есть важный компромисс: персона "изнутри группы" (in-group) распознаёт больше тонких случаев, но перестраховывается (больше ложных срабатываний). Персона "со стороны" (out-group) мягче, но пропускает завуалированную ненависть. Выбирай под задачу: строгая модерация → in-group, мягкая → out-group.

Почему работает

Hate speech часто скрыт в культурных отсылках, стереотипах, исторических клише — это видно только изнутри группы. Фраза "женщинам не место в IT" для постороннего человека может быть просто мнением, а для женщины-разработчика — конкретный стереотип с 100-летней историей дискриминации в STEM. Когда LLM принимает персону из целевой группы, активируется знание о специфичных клише из обучающих данных — модель "помнит" какие паттерны использовались для угнетения этой группы. Deep persona усиливает эффект через контекст: Wikipedia даёт модели конкретные примеры дискриминации, даты, события. Это как дать человеку краткий курс истории вопроса перед анализом — контекст делает тонкие сигналы видимыми. Эксперименты на 1,200 примерах показали: deep persona распознаёт имплицитный hate speech в 1.5 раза точнее shallow, потому что видит не слова, а их связь с реальными практиками угнетения.

Когда применять

Модерация контента → конкретно для тонких форм hate speech (стереотипы, культурные намёки, завуалированные угрозы), особенно когда целевая группа недопредставлена в обучающих данных. Примеры: комментарии на женских форумах о карьере (sexism через "женская логика"), посты о миграции (расизм через "культурная несовместимость"), обсуждения LGBTQ (гомофобия через "традиционные ценности"). НЕ подходит для явного hate speech ("все X — мусор") — там достаточно базовой детекции, метод избыточен.

Мини-рецепт

1. Определи целевую группу: Против кого может быть направлен hate speech? (женщины, мусульмане, LGBTQ, люди с инвалидностью)
2. Выбери глубину: Shallow (быстро, для простых случаев) или deep (точнее, для тонких форм). Для deep — найди в Wikipedia контекст: статьи типа "Discrimination against X", "Stereotypes about X", выпиши 2-3 абзаца о истории дискриминации и типичных клише
3. Промпт с персоной: Ты {идентичность} с глубоким пониманием истории твоей группы. {контекст_из_wikipedia}. Проанализируй текст на hate speech: {текст}. Ответ: Да/Нет + объяснение через связь с историческими стереотипами
4. (Опционально) Усредни персоны: Запусти обе (in-group + out-group), сравни результаты — если обе маркируют hate speech, это сильный сигнал. Если только одна — проверь вручную

Примеры

[ПЛОХО] : Определи hate speech в тексте: 'Женщинам лучше не лезть в IT — это мужская профессия, нужна логика' (стандартный промпт без контекста)
[ХОРОШО] : Ты женщина-разработчик с 10-летним опытом в IT. Ты знаешь историю дискриминации женщин в технологических профессиях: миф "женщины не умеют в математику", статистику gender pay gap, стереотип "IT — мужская сфера" который веками использовался для ограничения доступа женщин к образованию. Проанализируй текст: 'Женщинам лучше не лезть в IT — это мужская профессия, нужна логика'. Это hate speech? Объясни через связь с историческими стереотипами (deep persona распознаёт конкретный стереотип "женщины нелогичны", свяжет с gatekeeping в STEM, укажет на скрытое послание "вам здесь не место")
Источник: Algorithmic Fairness in NLP: Persona-Infused LLMs for Human-Centric Hate Speech Detection
ArXiv ID: 2510.19331 | Сгенерировано: 2026-01-11 23:56

Концепты не выделены.

📖 Простыми словами

Persona-Infused LLMs: определение hate speech с учётом идентичности аннотатора

arXiv: 2510.19331

Суть в том, что обычные нейронки при модерации контента работают как слепые судьи: они видят плохие слова, но в упор не замечают тонких издевательств и скрытой ненависти. Чтобы LLM начала понимать, где реально прилетает по больному, ей нужно привить социальную идентичность. Исследователи придумали метод Persona-Infused LLMs, который заставляет модель смотреть на текст глазами конкретной группы, будь то мусульмане, женщины или мигранты. Без этого контекста нейронка — просто алгоритм, который пропускает 80% токсичности, замаскированной под «мнение».

Это как если бы ты привел на разборку в интернете профессора этики, который никогда не выходил из библиотеки. Он скажет, что фраза «место женщины на кухне» грамматически верна и не содержит мата, а значит, всё ок. Но если ты скажешь ему: «Представь, что ты женщина, которая годами борется за карьеру и сталкивается с сексизмом», у него внезапно откроются глаза. Метод дает модели ту самую эмпатию по инструкции, без которой она остается цифровым поленом.

В работе выделили два подхода: shallow persona и deep persona. Первый — это когда ты просто говоришь модели: «Представь, что ты представитель такой-то группы». Это работает так себе, на троечку. Настоящая магия начинается в deep persona, когда нейронке через поиск в Wikipedia скармливают исторический контекст, факты о дискриминации и реальные примеры угнетения. В итоге модель не просто «притворяется», а получает базу знаний о боли, что позволяет ей выцеплять ненависть там, где обычный фильтр видит белый шум.

Тестировали это на выявлении хейтспича, но принцип универсален. Эту же схему можно натянуть на проверку рекламных креативов, юридических документов или сценариев — везде, где важно не просто «что сказано», а «как это отзовется». Модель перестает быть универсальным комбайном и превращается в узкопрофильного эксперта, который понимает подтекст. Это переход от тупого поиска по ключевым словам к глубинному анализу смыслов.

Главный вывод: универсальные промпты — это путь в никуда, если речь идет о сложных социальных темах. Чтобы нейронка перестала лажать и выдавать предвзятые ответы, ей нужно давать не просто роль, а исторический бэкграунд. Либо ты обучаешь модель контексту через deep persona, либо получаешь на выходе стерильный и бесполезный результат, который пропускает тонны токсичного мусора. Кто первым научится внедрять такие «личности» в модерацию, тот наконец-то очистит интернет от тонкого троллинга.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с