3,583 papers
arXiv:2509.09735 82 10 сент. 2025 г. FREE

Discrimination by LLMs: когда модель предвзята и как это обойти

КЛЮЧЕВАЯ СУТЬ
Обнаружено: GPT-3.5 и GPT-4o предвзяты в бинарных решениях, но нейтральны в суммаризации тех же текстов. При решении 'Да/Нет' (найм, кредит) разница между демографическими группами доходит до 10-20%. Метод позволяет снизить дискриминацию в автоматизированных решениях через переключение типа задачи. Фишка: вместо 'принять решение' → 'суммируй факты' — предвзятость пропадает. Модель объективна при отборе информации, но склонна к стереотипам при выборе Да/Нет.
Адаптировать под запрос

TL;DR

Когда LLM дискриминирует. GPT-3.5 и GPT-4o систематически предпочитают одни демографические группы другим при принятии бинарных решений (Да/Нет), но остаются нейтральными при суммаризации текстов. В решениях модели склонны выбирать женщин против мужчин, молодых против пожилых, афроамериканцев против европейцев — даже при идентичных запросах, отличающихся только именем или возрастом кандидата.

Главная находка. Предвзятость проявляется сильнее когда демография указана явно ("45-летняя женщина афроамериканского происхождения") против имплицитно (просто имя "Latoya"). Разница доходит до 10-20% вероятности положительного решения между группами. Но при суммаризации тех же текстов — никакой предвзятости. Модель объективно выбирает факты, не склоняясь к одной стороне. Это значит: тип задачи критически важен. Просишь решить → получаешь предвзятость. Просишь суммировать → получаешь нейтральность.

Как снизить предвзятость. Добавление инструкций о равенстве + указание роли эксперта + пошаговое руководство по принятию решения снижает разрыв между группами на 27% в среднем. Это работает лучше в GPT-4o, чем в GPT-3.5. Паттерны предвзятости сохраняются между английским и голландским языками, но голландские промпты показывают на 46% бо́льшую разницу между группами.


📌

Принципы для работы с LLM

📌

1. Меняй тип задачи

Вместо: "Стоит ли нанять этого кандидата?"

Лучше: "Суммируй факты о квалификации кандидата"

Вместо: "Одобрить заявку на кредит?"

Лучше: "Перечисли аргументы за и против одобрения"

Суммаризация безопаснее принятия решений — модель нейтральна при отборе фактов, но предвзята при выборе между Да/Нет.

📌

2. Избегай явной демографии

Если информация о поле, возрасте, национальности не критична — не упоминай. Явное указание "45-летний турок" усиливает предвзятость в 2-3 раза по сравнению с просто именем.

📌

3. Добавь инструкции о равенстве

Когда демография важна и её нельзя скрыть — усиль промпт защитными инструкциями.


📋

Шаблон промпта для снижения предвзятости

Ты — эксперт в объективном {тип решения: оценка кандидатов/одобрение заявок/etc}.

Твоя задача — принять решение полностью независимо от демографических характеристик (возраст, пол, национальность, этническое происхождение). Твой ответ должен быть идентичным независимо от этих параметров.

Используй следующий процесс мышления:

1. Строго определи релевантную информацию, полностью свободную от демографических влияний
2. Оцени эту информацию объективно, опираясь только на факты
3. Прими решение исключительно на основе этой информации
4. Проверь — изменился бы твой ответ при другой демографии? Если да — пересмотри решение

{твоя задача и контекст}

Ответь строго "Да" или "Нет" с кратким обоснованием.

Что подставлять:

  • {тип решения} — область принятия решения (HR, финансы, юридические вопросы)
  • {твоя задача и контекст} — конкретный запрос с описанием ситуации

🚀

Примеры применения

📋 Дайджест исследования

Ключевая суть

Обнаружено: GPT-3.5 и GPT-4o предвзяты в бинарных решениях, но нейтральны в суммаризации тех же текстов. При решении 'Да/Нет' (найм, кредит) разница между демографическими группами доходит до 10-20%. Метод позволяет снизить дискриминацию в автоматизированных решениях через переключение типа задачи. Фишка: вместо 'принять решение' → 'суммируй факты' — предвзятость пропадает. Модель объективна при отборе информации, но склонна к стереотипам при выборе Да/Нет.

Принцип работы

Не полагайся на модель в бинарных решениях если есть демография. Просишь 'стоит ли нанять' → модель выбирает по стереотипам (женщин чаще мужчин, молодых чаще пожилых). Переключи задачу: не 'принять решение', а 'суммировать факты'. Модель становится нейтральной — просто выбирает релевантные данные без предпочтений. Если демографию нельзя скрыть — усиль промпт защитными инструкциями: роль эксперта + пошаговый процесс + явная установка игнорировать возраст/пол/национальность.

Почему работает

Модель обучена на данных с социальными стереотипами. При выборе Да/Нет она активирует эти паттерны. Явное указание демографии ('45-летний турок') усиливает предвзятость в 2-3 раза — модель фокусируется на этих атрибутах. При суммаризации модель работает иначе: она выбирает факты по релевантности, а не по предпочтениям. Механизм защиты: роль эксперта + пошаговая проверка снижают разрыв между группами на 27%. Это работает как внешний фильтр — модель обязана обосновать каждый шаг.

Когда применять

Автоматизация HR, финансов, юридических оценок → конкретно для бинарных решений с участием людей (одобрить заявку, нанять кандидата, выдать разрешение), особенно когда в данных есть имена, возраст, национальность. НЕ подходит для креативных задач без демографии (генерация текстов, анализ абстрактных данных).

Мини-рецепт

1. Переформулируй задачу: вместо 'стоит ли нанять?' → 'суммируй квалификацию кандидата'. Вместо 'одобрить заявку?' → 'перечисли аргументы за и против'.

2. Убери явную демографию: если возраст/пол/национальность не критичны — не указывай в промпте. Это снижает предвзятость в 2-3 раза.

3. Усиль промпт защитой: добавь роль эксперта, установку игнорировать демографию, пошаговый процесс проверки. Шаблон: <роль>эксперт в объективном найме. Решение независимо от возраста/пола/национальности. Пошаговый процесс: 1) определи релевантную информацию 2) оцени объективно 3) прими решение 4) проверь — изменится ли при другой демографии?

Примеры

[ПЛОХО] : Проанализируй резюме. Кандидат: Мария, 52 года, опыт в продажах 15 лет. Стоит ли её нанять на позицию менеджера?
[ХОРОШО] : Ты — эксперт в объективном найме. Твоё решение независимо от возраста, пола, национальности. Процесс: 1) определи релевантные навыки 2) оцени соответствие позиции 3) прими решение 4) проверь — изменится ли при другой демографии? Суммируй квалификацию кандидата для позиции менеджера: [вставь резюме]. Ответь Да/Нет с обоснованием.
Источник: Discrimination by LLMs: Cross-lingual Bias Assessment and Mitigation in Decision-Making and Summarisation
ArXiv ID: 2509.09735 | Сгенерировано: 2026-01-12 01:40

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с