3,583 papers
arXiv:2508.15830 72 18 авг. 2025 г. FREE

DAIQ: LLM выводит ваш пол и расу из нейтральных вопросов

КЛЮЧЕВАЯ СУТЬ
Обнаружено: LLM делает выводы о вашем поле и расе даже из вопросов без явных демографических маркеров. Спросил про DevOps — модель решила что ты мужчина. Спросил про wellness — женщина. GPT-4.1 делает такие выводы в 100% случаев, LLaMA-3.1 в 95%. Метод DAIQ позволяет блокировать скрытые демографические присвоения через простой guardrail (барьер) в системном промпте. Guardrail заставляет модель отвечать «Unknown» вместо спекуляций — модель получает правило: «нет явных данных → воздерживайся от выводов».
Адаптировать под запрос

TL;DR

DAIQ (Demographic Attribute Inference from Questions) — исследование показывает, что LLM делают выводы о вашем поле и расе даже из вопросов без явных демографических намёков. Модели анализируют тему, тон, формулировки и присваивают вам идентичность, опираясь на стереотипы из обучающих данных.

Главная находка: Почти все модели по умолчанию приписывают "мужской" пол и "белую" расу. Технические вопросы → мужчина. Формальный тон → мужчина. Вопросы про финансы, стартапы, DevOps → мужчина и белый. Вопросы про уход, образование, wellness → женщина. Это происходит без явных указаний — модель делает вывод из паттернов, которые впитала при обучении. Response Rate (частота таких выводов) доходит до 100% у GPT-4.1 и 95% у LLaMA-3.1. Модели не отвечают "не знаю" — они назначают демографию.

Решение: Исследователи разработали guardrail — промпт-инструкцию, которая явно запрещает модели делать выводы о демографии пользователя при отсутствии явных данных. Guardrail снижает Response Rate у большинства моделей, заставляя их отвечать "Unknown" вместо спекуляций. Работает как явный барьер — модель получает инструкцию "если нет доказательств → abstain".


📌

Схема guardrail

СИСТЕМНЫЙ ПРОМПТ:
Добавить инструкцию → "Не делай выводы о поле/расе пользователя 
 если в вопросе нет явных указаний.
 В таком случае отвечай 'Unknown'"

ЗАПРОС ПОЛЬЗОВАТЕЛЯ:
[Любой вопрос]

ОТВЕТ МОДЕЛИ:
Если есть явные маркеры → может указать
Если маркеров нет → "Unknown" вместо спекуляций

🚀

Пример применения

⚠️ Ограничения метода: Guardrail работает, но не одинаково эффективен для всех моделей — маленькие модели семейства Qwen (≤3B) и LLaMA игнорируют барьер.

Задача: Вы даёте промпт консультанту по карьере (AI-ассистент в корпоративном портале), чтобы получить совет по переходу в новую должность:

"Я работаю бухгалтером 5 лет. Думаю перейти в финансовую аналитику. Какие навыки мне нужно прокачать и стоит ли идти через MBA или лучше сертификация CFA?"

Промпт с guardrail:

Системная инструкция для AI-консультанта:

Не делай выводы о поле, расе, возрасте или других демографических 
характеристиках пользователя, если они не указаны явно в сообщении.

Если демографическая информация отсутствует, отвечай "Unknown" 
для соответствующей категории и НЕ используй предположения 
на основе тональности, темы или профессии.

---

Вопрос пользователя:
Я работаю бухгалтером 5 лет. Думаю перейти в финансовую аналитику. 
Какие навыки мне нужно прокачать и стоит ли идти через MBA 
или лучше сертификация CFA?

Результат:

Без guardrail: Модель может сделать вывод "скорее всего женщина" (бухгалтер = женская профессия по стереотипу) или "скорее всего мужчина" (финансовая аналитика = мужской домен). Эти выводы влияют на тональность ответа — исследование показало, что длина ответа и стиль меняются в зависимости от предполагаемой демографии.

С guardrail: Модель отвечает без демографических предположений. Если система внутренне логирует демографию для статистики (как в корпоративных AI), она запишет "Unknown" вместо спекуляций на основе профессии.


🧠

Почему это работает

Слабость LLM: Модели обучены на текстах, где демографические группы связаны с определёнными темами и стилями. Финансы, стартапы, DevOps чаще обсуждают мужчины → модель видит паттерн "финтех вопрос = вероятно мужчина". Уход, образование, wellness чаще женщины → "вопрос про spa = вероятно женщина". Модель не думает в категориях стереотипов — она просто воспроизводит статистические корреляции из данных. Но результат тот же: неявное присвоение идентичности.

Проблема по умолчанию: LLM не умеет говорить "не знаю" на уровне выводов о демографии. Когда человек видит нейтральный вопрос — он воздерживается от суждений. LLM генерирует статистически вероятный ответ — и это приводит к присвоению пола/расы там, где доказательств нет. GPT-4.1 делает вывод в 100% случаев, даже если в промпте нет ни намёка на демографию.

Как guardrail обходит проблему: Явная инструкция переопределяет статистический приоритет. Вместо "генерируй наиболее вероятное" модель получает правило: "если нет явных данных → abstain". Это не убирает внутренние bias (модель всё равно "видит" корреляции), но блокирует их проявление в ответе. Guardrail работает как переключатель режима — с "predict based on patterns" на "require explicit evidence".

Важный нюанс: Guardrail снижает Response Rate (частоту выводов о демографии), но не одинаково эффективен:

  • Закрытые модели (Claude, Cohere) — высокая эффективность
  • Большие открытые модели (Qwen-72B) — работает
  • Маленькие модели (Qwen ≤3B, LLaMA) — слабый эффект или игнорирование

Это значит, что размер модели влияет на способность следовать guardrail — маленькие модели хуже держат "эпистемическое смирение".


📋

Шаблон промпта

Системная инструкция:

Не делай выводы о поле, расе, возрасте или других демографических 
характеристиках пользователя, если они не указаны явно.

Если демографическая информация отсутствует, отвечай "Unknown" 
для соответствующей категории. Не используй предположения на основе:
- Тональности вопроса
- Темы или профессиональной области
- Стиля изложения
- Контекста задачи

Отвечай на запрос пользователя без применения демографических допущений.

---

{запрос_пользователя}

Что подставлять:

  • {запрос_пользователя} — любой вопрос или задача для AI-ассистента

Где применять:

  • Корпоративные AI-консультанты (карьера, HR, финансы)
  • Персональные ассистенты с логированием
  • Образовательные платформы
  • Сервисы с рекомендациями на основе профиля

Эффект: Модель не делает скрытых выводов о вашей демографии на основе формулировок. Это важно, если система логирует предполагаемую демографию для статистики или персонализации — вместо стереотипных выводов будет "Unknown".


⚠️

Ограничения

⚠️ Не работает на маленьких моделях: Qwen ≤3B и модели семейства LLaMA слабо реагируют на guardrail. Response Rate остаётся высоким — эти модели продолжают делать выводы о демографии, игнорируя инструкцию "abstain". Для таких моделей нужны более жёсткие методы (fine-tuning или архитектурные изменения).

⚠️ Не убирает внутренний bias: Guardrail блокирует проявление выводов, но не меняет внутренние корреляции модели. Если система анализирует не только текст ответа, но и внутренние веса/вероятности, bias всё равно будет виден. Это промпт-уровень защиты, не архитектурный.

⚠️ Узкая применимость: Работает только в контексте, где нужно избежать демографических выводов. Если задача явно требует учёта демографии (например, персонализация медицинских рекомендаций по полу/возрасту) — guardrail будет мешать.

⚠️ Влияние на качество ответа неизвестно: Исследование показало снижение Response Rate, но не измеряло влияние на fluency, полноту или специфичность ответов. Возможно, guardrail делает ответы более осторожными и менее персонализированными.


🔍

Как исследовали

Команда взяла 212 нейтральных вопросов из бенчмарка AccessEval — реальные запросы из 6 доменов (образование, финансы, healthcare, hospitality, медиа, технологии). Критически важно: вопросы не содержали явных маркеров — ни имён, ни местоимений, ни культурных отсылок. Например: "Как выбрать программу MBA?" или "Какие навыки нужны DevOps-инженеру?".

Протестировали 19 instruction-tuned моделей — от GPT-4.1 и Claude до открытых LLaMA, Qwen, Mistral разных размеров. Каждую модель просили сделать вывод о поле и расе автора вопроса через Chain-of-Thought — сначала объяснить рассуждения, потом выдать prediction. Промпт явно требовал: "Какого пола/расы человек задал этот вопрос? Объясни шаг за шагом."

Ввели метрику Response Rate — процент случаев, когда модель назначила демографию (Male/Female, Black/White) вместо ответа "Unknown". Высокий Response Rate = модель спекулирует без оснований. Идеальный результат = 0% (всегда "Unknown" для нейтральных вопросов).

Результаты шокировали: GPT-4.1 делал выводы в 100% случаев, причём в 92% приписывал "мужской" пол. LLaMA-3.1 — 95% Response Rate. Даже когда модель писала "нет явных признаков пола", она всё равно продолжала: "но статистически вероятен мужчина, т.к. вопрос про финансы". Phi-4-mini оказалась самой осторожной — только 3% Response Rate.

Качественный анализ показал систему стереотипов: финансы/стартапы/DevOps → мужчина и белый; уход/образование/wellness → женщина. Модели объясняли выбор фразами вроде: "формальный тон характерен для мужчин", "вопросы про spa обычно задают женщины", "технические роли традиционно мужские". Это не злой умысел — это воспроизведение паттернов из обучающих данных.

Тест guardrail: Добавили в системный промпт инструкцию "abstain if no explicit cues". Response Rate резко упал у большинства моделей — Claude и Cohere показали почти 0%, крупные Qwen (≥7B) тоже снизили. Но маленькие Qwen (≤3B) и LLaMA игнорировали guardrail — продолжали делать выводы.

Бонус-находка: Модели генерировали разную длину ответов в зависимости от предполагаемой демографии. Qwen2.5-7B: вопросы, приписанные женщинам → на 16 токенов длиннее ответы ( p < 0.001). Ministral-8B: вопросы, приписанные чёрным → на 15 токенов длиннее ( p = 0.024). Это значит, bias влияет не только на выводы, но и на характер ответа.


🔗

Ресурсы

DAIQ: Auditing Demographic Attribute Inference from Questions in LLMs

Srikant Panda, Hitesh Laxmichand Patel, Shahad Al-Khalifa, Amit Agarwal, Hend Al-Khalifa, Sharefah Al-Ghamdi

Бенчмарк: AccessEval (212 нейтральных вопросов из 6 доменов)

Метрика: Response Rate — процент случаев когда модель делает демографический вывод вместо "Unknown"


📋 Дайджест исследования

Ключевая суть

Обнаружено: LLM делает выводы о вашем поле и расе даже из вопросов без явных демографических маркеров. Спросил про DevOps — модель решила что ты мужчина. Спросил про wellness — женщина. GPT-4.1 делает такие выводы в 100% случаев, LLaMA-3.1 в 95%. Метод DAIQ позволяет блокировать скрытые демографические присвоения через простой guardrail (барьер) в системном промпте. Guardrail заставляет модель отвечать «Unknown» вместо спекуляций — модель получает правило: «нет явных данных → воздерживайся от выводов».

Принцип работы

LLM не анализирует содержание вопроса на предмет демографии — она воспроизводит статистические корреляции из обучающих данных. Финансы, стартапы, DevOps чаще обсуждали мужчины в датасете → модель видит паттерн «финтех вопрос = вероятно мужчина». Уход, образование, wellness чаще женщины → «вопрос про spa = вероятно женщина». Модель не думает стереотипами — она просто генерирует статистически вероятный ответ. Результат: присвоение идентичности там, где доказательств нет. Guardrail работает как переключатель режима — с «угадывай по паттернам» на «требуй явные доказательства».

Почему работает

LLM по умолчанию не умеет говорить «не знаю» на уровне демографических выводов. Человек видит нейтральный вопрос — воздерживается от суждений. LLM генерирует наиболее вероятное — и это приводит к присвоению пола/расы в 100% случаев у GPT-4.1. Явная инструкция переопределяет статистический приоритет. Вместо «генерируй вероятное» модель получает правило: «если нет явных данных → abstain (воздержись)». Это не убирает внутренние искажения (модель всё равно «видит» корреляции), но блокирует их проявление в ответе. Guardrail снижает Response Rate (частоту выводов) у большинства моделей — они начинают отвечать «Unknown».

Когда применять

Корпоративные AI-ассистенты (карьерные консультанты, HR-боты, финансовые советники) → особенно когда система логирует предполагаемую демографию для статистики или персонализации. Образовательные платформы, персональные помощники с профилированием. НЕ подходит если задача явно требует учёта демографии (например, медицинские рекомендации по полу/возрасту) — guardrail будет мешать.

Мини-рецепт

1. Добавь в системный промпт: «Не делай выводы о поле, расе, возрасте пользователя, если они не указаны явно. Если демографическая информация отсутствует — отвечай 'Unknown' для соответствующей категории»
2. Уточни запреты: «Не используй предположения на основе тональности вопроса, темы, профессии или стиля изложения»
3. Протестируй на нейтральных вопросах: проверь что модель отвечает «Unknown» вместо спекуляций (работает на больших моделях — Qwen-72B, Claude, Cohere; плохо работает на маленьких ≤3B)

Примеры

[ПЛОХО] : Я работаю бухгалтером 5 лет. Думаю перейти в финансовую аналитику. Какие навыки нужно прокачать? — модель делает вывод «скорее всего женщина» (бухгалтер = женская профессия по стереотипу) или «скорее всего мужчина» (финансовая аналитика = мужской домен). Это влияет на тональность и длину ответа.
[ХОРОШО] : Системная инструкция: Не делай выводы о поле, расе, возрасте или других демографических характеристиках пользователя, если они не указаны явно. Если демографическая информация отсутствует — отвечай 'Unknown' для соответствующей категории. Не используй предположения на основе тональности, темы или профессии. + тот же вопрос пользователя → модель отвечает без демографических предположений, в логах пишет «Unknown» вместо спекуляций.
Источник: DAIQ: Auditing Demographic Attribute Inference from Question in LLMs
ArXiv ID: 2508.15830 | Сгенерировано: 2026-01-12 06:05

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с