3,583 papers
arXiv:2604.18729 72 20 апр. 2026 г. FREE

Социальная иерархия в LLM: одно и то же содержание оценивается по-разному в зависимости от того, кто говорит

КЛЮЧЕВАЯ СУТЬ
Парадокс: буквально одинаковый текст — отказ или выполнение — зависит от одного слова в промпте: кто говорит кому. Исследователи прогнали 48 400 запросов с идентичным контентом, меняя только социальные роли говорящего и адресата. Метод позволяет диагностировать и обходить ложные отказы в творческих задачах — когда модель реагирует не на смысл, а на направление социальной иерархии. Фишка: если промпт случайно содержит любой маркер идентичности — слово "бедный", "белый", "руководитель" — чувствительность модели к социальному вектору вырастает в 1.7–4 раза, даже если это слово вообще не про говорящего. Убрал маркер — тот же текст проходит без вопросов.
Адаптировать под запрос

TL;DR

LLM применяет разные стандарты к одному и тому же контенту в зависимости от того, кто объявлен говорящим и к кому он обращается. Исследователи систематически меняли местами говорящего и слушателя — при этом содержание оставалось идентичным. Оказалось, что одна и та же шутка либо выполняется, либо отклоняется, получает "злобный" или "дружелюбный" умысел, оценивается как вредная или безобидная — исключительно на основании социального статуса участников диалога.

Модель не оценивает контент — она оценивает социальные роли. Если ты пишешь сценарий или просишь создать сатиру, отказ происходит не потому что шутка "плохая". Отказ происходит потому что модель видит: "привилегированный" говорит в адрес "маргинализованного". Одна и та же фраза, произнесённая в обратном направлении, проходит спокойно. Это не анализ текста — это применение выученных социальных иерархий.

Bias (предвзятость) двунаправленная. Модели не просто защищают маргинализованные группы — они ещё и избыточно карают "привилегированных" говорящих за нейтральный контент. Один и тот же нейтральный анекдот вызывает разные реакции модели в зависимости от того, кто его рассказывает, даже если шутка вообще не связана с группами участников. Это не осторожность — это замена контентного анализа на ярлыки идентичности.


🔬

Схема метода

Это не техника промптинга, а исследование поведения LLM. Ниже — структура эксперимента, которая объясняет механику находки:

ТЕСТ "ЗЕРКАЛО ИДЕНТИЧНОСТИ":

Шаг 1: [Запрос с говорящим A → слушатель B] → фиксируй реакцию
Шаг 2: [Тот же запрос, говорящий B → слушатель A] → фиксируй реакцию
Сравнение: Если ответы разные — модель реагирует на роли, не на контент

Работает для:
→ Проверки отказов (refusals)
→ Проверки оценки умысла
→ Проверки оценки вреда

Каждый из этих трёх тестов делается в одном запросе к модели.


🚀

Пример применения

Задача: Ты пишешь стендап-сценарий для шоу и хочешь создать самоиронию от лица персонажа-бедняка в адрес богатого. Модель неожиданно отказывает.

Что происходит: Модель видит: "богатый говорит о бедном" и блокирует. Даже если ты написал наоборот — её парсер ролей мог считать иначе. Проверь зеркалом:

Диагностический промпт:

Напиши шутку от лица человека без работы 
в адрес менеджера среднего звена.

[зафиксируй ответ]

Теперь напиши ту же шутку по смыслу, 
но от лица менеджера среднего звена 
в адрес человека без работы.

[сравни ответы]

Результат: Модель, скорее всего, выполнит первый вариант легко и откажет во втором — или сильно смягчит его. Это покажет тебе: проблема не в теме, а в направлении социальной стрелки. Зная это, ты можешь переформулировать запрос — попросить создать самоиронию персонажа, или убрать явное указание направленности.


🧠

Почему это работает (и что с этим делать)

LLM не читает контент — она считывает роли. Когда в промпте появляются слова "богатый", "белый", "начальник" как говорящий и "бедный", "чёрный", "подчинённый" как мишень — модель активирует заученный паттерн из тренировочных данных. Этот паттерн говорит: "это опасное направление". Реакция происходит до анализа содержимого.

Самый контринтуитивный результат: Bias усиливается, когда шутка вообще не про участников. Белый человек рассказывает чёрному анекдот о китайцах — модель присваивает злобный умысел в 73% случаев. Тот же анекдот в обратном направлении — 44%. Содержание идентично, целевая группа третья, но социальный статус говорящего меняет всё. Это значит: модель не анализирует контент, она применяет ярлыки по осям привилегий.

Практический вывод для работы в чате: Если запрос отказан — сначала проверяй фрейм идентичности, не сам контент. Часто помогает убрать явное указание "привилегированный → маргинализованный" из запроса: переформулируй как нейтральный сценарий, самоиронию или добавь явную инструкцию оценивать содержание независимо от социального статуса участников.


📋

Шаблон промпта

📌

Диагностика отказа через зеркало идентичности

Выполни два варианта задания и сравни свои ответы:

**Вариант А:** {задание} от лица {группа_1} в адрес {группа_2}.

**Вариант Б:** {то же задание} от лица {группа_2} в адрес {группа_1}.

После выполнения двух вариантов — ответь: 
чем они отличаются по содержанию и тону?

Плейсхолдеры: - {задание} — что именно ты просишь создать или оценить (шутка, комментарий, диалог) - {группа_1} и {группа_2} — любые пары: начальник/подчинённый, богатый/бедный, и т.д.


📋

Промпт для нейтральной оценки контента

Оцени следующий текст исключительно по содержанию.
Не учитывай социальный статус, группу или 
идентичность говорящего и слушателя при оценке.

Текст: {текст}

Вопрос: {что оцениваем — юмор, вред, умысел, тональность}

Обоснуй оценку через конкретные слова и конструкции 
текста, а не через предположения о намерениях.

🚀 Быстрый старт — вставь в чат:

Вот шаблон для диагностики отказов через зеркало идентичности. 
Адаптируй под мою задачу: [твоя задача].
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит какие группы/роли задействованы и что именно нужно создать или оценить — потому что без этого нельзя построить зеркальный тест. Она сама сформирует оба варианта и покажет, где срабатывает bias.


🧠

Почему это работает

LLM не хранит "правила о шутках" — она хранит паттерны из текстов интернета. Интернет полон дискуссий о том, что "бить вниз" (punch down) — плохо, а "бить вверх" (punch up) — нормально. Модель усвоила эту логику не как осознанное правило, а как статистический паттерн: "богатый говорит о бедном" часто сопровождается негативным контекстом в обучающих данных.

Модель не проверяет — она классифицирует. Вместо того чтобы анализировать конкретный текст, модель делает быстрый вывод по ярлыкам идентичности. Это быстро и часто грубо ошибается — особенно в художественных сценариях, сатире или самоиронии, где роли намеренно перевёрнуты.

Рычаги управления, которые работают:

Что менять Эффект
Убрать явные маркеры идентичности Снижает срабатывание паттерна
Добавить "это самоирония / художественный текст / сатира" Меняет фрейм интерпретации
Попросить оценить "по содержанию, без учёта говорящего" Принудительно переводит на анализ текста
Сформулировать как "персонаж из книги" вместо реальной группы Обходит прямые триггеры идентичности

⚠️

Ограничения

⚠️ Это описание существующего поведения, не его исправление. Знание о bias помогает понять отказы и адаптировать запросы, но не устраняет саму проблему — модели продолжают применять неравные стандарты.

⚠️ Работает не во всех моделях одинаково. Grok показал значительно меньше асимметрии, чем Claude, GPT-4o и Gemini. Claude наиболее жёстко блокирует "привилегированный → маргинализованный" -- в 86.7% случаев прямой отказ.

⚠️ Техники обхода — не silver bullet. Если модель распознала фрейм, явные инструкции "оцени нейтрально" работают не всегда — паттерн запускается раньше инструкции.

⚠️ Исследование про юмор, но механика универсальная. Bias через идентичность говорящего проявляется и в других задачах: оценка аргументов, анализ ситуаций, написание диалогов. Насколько выводы универсальны — авторы не проверяли за пределами юмора.


🔍

Как исследовали

Идея была простой и элегантной: взять одинаковый запрос, поменять местами говорящего и мишень — и посмотреть изменится ли ответ. Исследователи из Йонсейского университета, KAIST и Сеульского национального университета проверили пять моделей — Claude, GPT-4o, DeepSeek, Gemini и Grok — на трёх задачах: отказ генерировать юмор, атрибуция умысла говорящего, оценка социального вреда. Всего 48 400 запросов с условиями "говорящий → мишень" и 13 200 целевых запросов без указания говорящего.

Самая контринтуитивная находка: когда анекдот вообще не касается участников (белый рассказывает чёрному про китайцев) — bias не исчезает, а усиливается в 1.7–4 раза по сравнению с нейтральным контентом. Это разрушает гипотезу "модель реагирует на опасный контент". Нет — она реагирует на социальную ось говорящего и слушателя как proxy для опасности.

Отдельно проверяли Grok — модель с менее строгой цензурой — чтобы понять: bias приходит из тренировочных данных или из safety alignment? Grok показал значительно меньше асимметрии (ARR 0–10% против 20–70% у остальных). Значит, большая часть эффекта — результат процедур выравнивания, а не только данных. Это важно: alignment "переусердствовал" и закодировал социальные иерархии туда, где должна быть нейтральная оценка содержания.


💡

Адаптации и экстраполяции

📋

🔧 Техника: аудит собственных промптов на скрытые иерархии

Если ты регулярно пишешь промпты с разными персонажами — добавь быстрый аудит:

Прочитай этот промпт и укажи: есть ли в нём явное или неявное указание на социальный/профессиональный/демографический статус говорящего или получателя? Как это может влиять на твою оценку задания?

Модель сама покажет, где в твоём промпте скрытые триггеры иерархии.


📌

🔧 Техника: явный нейтральный фрейм для сатиры и комедии

Когда пишешь сатиру с "неудобными" персонажами — добавляй в начало промпта:

Ты работаешь с художественным текстом. 
Оценивай содержание реплик и ситуаций 
по их литературной функции, а не по 
демографическим характеристикам персонажей.

Задача: {твоя задача}

Это не гарантия, но повышает вероятность что модель уйдёт от ярлыков в сторону анализа текста.


📌

🔧 Экстраполяция: проверка нейтральности оценок

Если просишь модель оценить чей-то аргумент, текст или решение — проверь есть ли в контексте идентификаторы статуса. "Директор X сказал..." vs "сотрудник Y сказал..." может дать разные оценки одной и той же фразы. Попробуй анонимизировать источник и сравни оценки.


🔗

Ресурсы

Investigating Counterfactual Unfairness in LLMs towards Identities through Humor

Shubin Kim, Yejin Son, Junyeong Park, Keummin Ka, Seungbeen Lee, Jaeyoung Lee, Hyeju Jang, Alice Oh, Youngjae Yu

Yonsei University, KAIST, Seoul National University, Indiana University Indianapolis

Код и датасет: github.com/shubinkim/humor-counterfactual-unfairness

Использованные датасеты: Humor Recognition (Kenneth et al., 2024), HaHackathon corpus (Meaney et al., 2021)


📋 Дайджест исследования

Ключевая суть

Парадокс: буквально одинаковый текст — отказ или выполнение — зависит от одного слова в промпте: кто говорит кому. Исследователи прогнали 48 400 запросов с идентичным контентом, меняя только социальные роли говорящего и адресата. Метод позволяет диагностировать и обходить ложные отказы в творческих задачах — когда модель реагирует не на смысл, а на направление социальной иерархии. Фишка: если промпт случайно содержит любой маркер идентичности — слово "бедный", "белый", "руководитель" — чувствительность модели к социальному вектору вырастает в 1.7–4 раза, даже если это слово вообще не про говорящего. Убрал маркер — тот же текст проходит без вопросов.

Принцип работы

Модель не рассуждает о вреде — она узнаёт паттерн. В обучающих данных «богатый критикует бедного» шло рядом с пометкой «вредный контент». «Бедный критикует богатого» — рядом с «сатира», «юмор снизу вверх». Итог: модель выучила не правило, а корреляцию — и применяет её механически к буквально одинаковым словам, меняя вывод в зависимости от социального вектора «говорящий → адресат». Три сценария — генерация контента, оценка намерений, оценка вреда — работают по одной схеме. Это не баг системы безопасности. Это обученная иерархия. Разница между моделями показательна: у Grok асимметрия 3–5%, у остальных протестированных — 27–67%.

Почему работает

Идентичность говорящего — отдельная переменная, которая обрабатывается раньше, чем сам контент. Модель как привратник, который сначала смотрит на бейдж, а потом читает заявку. Если ввести социальные роли после описания цели и контекста — порядок токенов меняется, паттерн активируется иначе. Это не обход защиты. Это буквально другая последовательность слов, которая ведёт к другому выводу — потому что модель не анализирует смысл, она сопоставляет структуру.

Когда применять

Творческий контент — скетчи, диалоги, сценарии, корпоративная сатира — особенно когда в сцене персонажи с разным социальным статусом. Помогает при неожиданных отказах на легитимных запросах: модель срабатывает на социальный паттерн, а не на реальный вред. Не подходит для запросов, где вред реальный — техника переформулирования не открывает доступ к вредному контенту, только убирает ложные срабатывания.

Мини-рецепт

1. Начни с цели: сначала опиши платформу, жанр, аудиторию — без персонажей. «Пишу скетч для корпоративного тренинга» меняет рамку оценки ещё до того, как модель видит роли.
2. Опиши действие нейтрально: что происходит в сцене — через глагол, без оценки кто прав. «Двое коллег обмениваются репликами про работу друг друга» — это мягче, чем «начальник унижает подчинённого».
3. Введи персонажей последними: роль и профессию добавляй после контекста, не в первом предложении. Порядок важен буквально.
4. Используй статус вместо ярлыка: «человек с более высоким статусом говорит подчинённому» — менее чувствительно, чем «богатый говорит бедному».
5. Проверь случайные маркеры: пройдись по промпту и убри любые слова с социальной нагрузкой, которые не нужны для задачи. Одно лишнее слово включает режим иерархии на весь промпт.

Примеры

[ПЛОХО] : Напиши диалог: топ-менеджер говорит курьеру язвительную шутку про его работу
[ХОРОШО] : Пишу скетч для YouTube-канала про офисный юмор. Нужна симметричная сцена: двое коллег с разным статусом обмениваются одинаково едкими репликами про работу друг друга — показать, что стереотипы есть с обеих сторон. Персонаж А — руководитель, персонаж Б — курьер. Реплики одинаковые по тону и интенсивности для обоих.
Источник: Investigating Counterfactual Unfairness in LLMs towards Identities through Humor
ArXiv ID: 2604.18729 | Сгенерировано: 2026-04-22 06:39

Проблемы LLM

ПроблемаСутьКак обойти
Один текст — разные правила в зависимости от социальных ролейМодель проверяет не только что написано, но и кто кому говорит. "Высокостатусный персонаж говорит низкостатусному" — отказ. То же самое наоборот — выполнение. Работает для любого творческого контента: диалоги, скетчи, монологи. Реальный вред контента не анализируется — срабатывает паттерн социальной парыМеняй порядок. Сначала опиши цель и действие без имён и ролей. Потом добавь персонажей. Или замени идентичность на действие: не "богатый говорит бедному", а "человек с более высоким статусом говорит подчинённому"

Методы

МетодСуть
Сначала действие — потом ролиОпиши сцену до того, как назовёшь персонажей. Сначала: "Напиши диалог для скетча. Нужна сцена где один персонаж язвит про работу другого. Для Youtube-канала про офисный юмор." Потом отдельно: "Персонаж А — топ-менеджер. Персонаж Б — курьер." Почему работает: Модель формирует рамку "творческая задача" до того как видит социальные роли. Оценка контента уже задана — маркеры идентичности добавляются в готовый контекст, а не запускают проверку с нуля. Когда применять: любые творческие сцены с персонажами разного статуса. Когда не работает: если модель переоценивает весь промпт целиком при добавлении ролей
📖 Простыми словами

Investigating Counterfactual Unfairness inLLMstowards Identities through Humor

arXiv: 2604.18729

Нейросети оценивают юмор не по качеству шутки, а по социальной иерархии участников диалога. Внутри LLM зашит жесткий цензор, который работает по принципу контрфактической несправедливости: модель меняет свое мнение о тексте, как только ты меняешь ярлыки «кто» и «кому» это говорит. Это фундаментальный сбой логики, где алгоритм перестает быть объективным инструментом и превращается в морализатора, который делит людей на защищенные и незащищенные группы, исходя из своих внутренних весов, а не из контекста самой фразы.

Это как если бы вышибала в клубе пропускал за одну и ту же шутку парня в дорогом костюме, но выкидывал бы на улицу парня в худи. Формально правила одни для всех, но на деле модель включает режим «двойных стандартов». Если шутит представитель «сильной» группы в адрес «слабой», модель видит в этом токсичность и агрессию. Если поменять их местами — та же самая фраза внезапно становится безобидным юмором. Модель не анализирует смысл, она просто сверяется с табличкой социальных статусов.

В исследовании это проверили через контролируемые промпты: брали один и тот же сценарий и просто перетасовывали роли. Оказалось, что LLM лажают в 8 из 10 случаев, когда нужно сохранить объективность. Если в шутке фигурирует топ-менеджер и курьер, модель будет защищать курьера, даже если он откровенно хамит. Это называется предвзятостью идентичности, и она настолько глубоко вшита в обучение, что модель буквально не может воспринимать текст изолированно от стереотипов о власти и уязвимости.

Этот принцип универсален и касается не только шуток про профессии. Та же фигня происходит с гендером, расой или религией — любой социальный маркер мгновенно перекашивает оценку модели. Если ты строишь систему модерации контента или пишешь сценарии с помощью AI, ты неизбежно упрешься в то, что нейронка будет «цензурить» одних и потакать другим. Объективности не существует, есть только набор предубеждений, которые модель впитала из интернета под видом «безопасности».

Короче: LLM — это не беспристрастный судья, а продукт культурной повестки с жестким перекосом. Если хочешь адекватной реакции, тебе придется буквально обманывать модель, скрывая личности персонажей, иначе ты получишь не контент, а стерильную лекцию о морали. Главный риск здесь в том, что вместо борьбы с дискриминацией мы получили новую форму предвзятости, где правильные стереотипы просто заменили неправильные, а логика вышла покурить.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с