3,583 papers
arXiv:2506.11361 88 1 июня 2025 г. FREE

Предвзятый самарянин: предвзятости в восприятии доброты LLM

КЛЮЧЕВАЯ СУТЬ
Большинство LLM по умолчанию представляют себе "человека" как белого мужчину среднего возраста, при этом часто оценивают женщин, небинарных персон и представителей не-белых рас как более склонных к помощи (позитивная предвзятость), а подростков — как менее склонных (негативная предвзятость).
Адаптировать под запрос
📌

1. Ключевые аспекты исследования:

Исследователи проверяли, как большие языковые модели оценивают готовность человека помочь в различных бытовых ситуациях, меняя в промптах его пол, возраст и расу. Они сравнили оценки для конкретных демографических групп с оценкой для "контрольного" человека без указания демографии. Выяснилось, что LLM имеют встроенное представление о "человеке по умолчанию" и систематически меняют свои оценки при упоминании конкретных характеристик.

Ключевой результат: Большинство LLM по умолчанию представляют себе "человека" как белого мужчину среднего возраста, при этом часто оценивают женщин, небинарных персон и представителей не-белых рас как более склонных к помощи (позитивная предвзятость), а подростков — как менее склонных (негативная предвзятость).

🔬

2. Объяснение всей сути метода:

Суть метода для пользователя заключается в осознанном управлении скрытыми предубеждениями LLM через упоминание или неупоминание демографических характеристик в промпте.

Методика строится на трех ключевых выводах исследования:

  1. Существует «Человек по умолчанию»: Когда вы пишете в промпте «человек», «сотрудник», «клиент», LLM не создает абстрактный образ. Она с высокой вероятностью "представляет" себе белого мужчину среднего возраста, так как этот образ доминирует в обучающих данных. Ответ модели будет откалиброван под этот стереотип.

  2. Упоминание демографии — это сильный сигнал: Добавление в промпт слов «женщина», «пожилой человек», «афроамериканец» или «подросток» заставляет модель резко изменить свое поведение. Она переключается с «дефолтного» образа на другой, со своим набором стереотипов (как позитивных, так и негативных). Например, модель может сгенерировать более эмпатичный ответ для «женщины» или более консервативный для «пожилого человека».

  3. Управление через контраст: Вы можете использовать это свойство для получения более разнообразных и креативных ответов. Вместо того чтобы просить «напиши историю о герое», вы можете попросить «напиши три версии истории: первая о герое-мужчине, вторая о герое-женщине, третья о герое-подростке». Модель активирует разные наборы ассоциаций и выдаст три существенно отличающихся текста.

Практически это означает, что вы должны решить: хотите ли вы получить "стандартный" ответ, основанный на скрытом дефолте, или вы хотите намеренно "окрасить" ответ, указав конкретную демографию.

📌

3. Анализ практической применимости:

*Прямая применимость:Пользователь может напрямую влиять на результат, просто добавляя или убирая одно-два слова, описывающих персонажа в промпте.

* **Пример:** При генерации маркетинговых слоганов можно указать целевую аудиторию: «придумай слоган для молодой мамы» или «придумай слоган для пожилого мужчины». Результаты будут кардинально отличаться по тону и содержанию.
  • Концептуальная ценность: Главный инсайт — LLM не является объективным инструментом, а симулирует текстовые закономерности. Понимание того, что за нейтральным словом «человек» скрывается конкретный предвзятый образ, помогает избавиться от иллюзии беспристрастности ИИ и использовать его особенности в своих целях.

  • Потенциал для адаптации: Метод легко адаптируется для выявления и использования любых других скрытых предубеждений. Пользователь может экспериментировать, добавляя в промпт не только демографию, но и профессии («как бы на это отреагировал инженер? а как художник?»), социальный статус или уровень дохода, чтобы увидеть, как меняется ответ модели, и получить более разноплановые результаты.


🚀

4. Практически пример применения:

**Роль:** Ты — опытный маркетолог-креативщик.
**Контекст:** Мы запускаем новую линейку органических продуктов питания (йогурты, гранола, соки). Нам нужны идеи для рекламной кампании, ориентированные на разные сегменты аудитории.

**Задача:** Проанализируй наш продукт и предложи три разных концепции для рекламных постов в социальных сетях. Каждая концепция должна быть нацелена на свой тип потребителя.

**Структура ответа:**
Для каждой концепции укажи:
1. **Целевая аудитория:** Краткое описание.
2. **Ключевое сообщение:** Основная идея, которую мы доносим.
3. **Пример текста для поста:** Короткий, цепляющий текст.

**Аудитории для анализа:**
- **Концепция 1:** "Типичный потребитель" (используй свое представление по умолчанию).
- **Концепция 2:** "Молодая женщина, 25-35 лет", следящая за фитнесом и здоровьем.
- **Концепция 3:** "Пожилая пара (65+)", которая ищет натуральные и полезные продукты для поддержания здоровья.

🧠

5. Почему это работает:

Этот промпт напрямую эксплуатирует выводы исследования.

  1. Активация "дефолта": Запрос на анализ для «типичного потребителя» заставит модель выдать результат, основанный на её скрытом, "умолчательном" представлении о покупателе.
  2. Активация стереотипов: Запросы для «молодой женщины» и «пожилой пары» являются сильными демографическими сигналами. Модель подключит совершенно разные наборы ассоциаций: для женщины — энергия, красота, фитнес, Instagram; для пожилой пары — здоровье, долголетие, забота, спокойствие.
  3. Практическая польза: Пользователь не просто получает три разных текста. Он получает три разных стратегических направления, основанных на встроенных в LLM стереотипах, что позволяет быстро сгенерировать разноплановые и жизнеспособные идеи без долгих уточнений.

📌

6. Другой пример практического применения

**Роль:** Ты — HR-специалист, составляющий описание вакансии "Менеджер проектов".
**Контекст:** Нам нужен сотрудник в IT-компанию. Важно привлечь кандидатов с разным бэкграундом и опытом.

**Задача:** Напиши два разных варианта раздела "Портрет нашего идеального кандидата" для этой вакансии.

**Варианты для описания:**

1. **Вариант А:** Опиши кандидата как **"опытного профессионала"**. Сделай акцент на стратегическом мышлении, многолетнем опыте и умении управлять большими командами.
2. **Вариант Б:** Опиши кандидата как **"молодого, амбициозного специалиста"**. Сделай акцент на энергии, гибкости, владении новыми технологиями и желании быстро расти.

Покажи только текст этих двух разделов.

🧠

7. Объяснение механизма почему этот пример работает.

Этот пример работает за счет целенаправленного использования возрастных и гендерных (в русском языке слова "профессионал" и "специалист" часто имеют мужскую коннотацию по умолчанию) ассоциаций, выявленных в исследовании.

  1. Манипуляция "возрастным" стереотипом: Фраза «опытный профессионал» активирует у модели стереотип о человеке среднего или старшего возраста. В ответе появятся слова, связанные с мудростью, стабильностью и управленческим опытом.
  2. Активация "молодежного" стереотипа: Фраза «молодой, амбициозный специалист» запускает противоположный набор ассоциаций: инновации, скорость, обучаемость, готовность к переработкам.
  3. Практический результат: Пользователь получает два разных по тону и лексике описания, которые привлекут совершенно разных кандидатов. Это позволяет ему, будучи в курсе этих скрытых механизмов, более тонко настраивать вакансию под конкретную цель найма, а не получать усредненный, "дефолтный" текст.

📌

Основные критерии оценки

  • A. Релевантность техникам промтинга: Дает понимание того, как упоминание демографических характеристик (возраст, пол, раса) в промпте влияет на ответ LLM. Не дает конкретных формулировок, но объясняет, почему эти формулировки важны.
  • B. Улучшение качества диалоговых ответов: Косвенно. Позволяет пользователю предвидеть и контролировать скрытые предубеждения в ответах, делая их более предсказуемыми или, наоборот, разнообразными.
  • C. Прямая практическая применимость: Высокая. Пользователь может немедленно начать применять это знание, сознательно добавляя или убирая демографические маркеры в своих промптах для управления тоном и содержанием ответа. Никаких спец-инструментов не нужно.
  • D. Концептуальная ценность: Очень высокая. Исследование раскрывает фундаментальный аспект поведения LLM — наличие «человека по умолчанию» (default person). Это ключевое знание для понимания того, как LLM "думает" и на чем основывает свои суждения.
  • E. Новая полезная практика: Работа четко попадает в кластер №2 (Поведенческие закономерности LLM). Она выявляет системную закономерность: LLM по-разному оценивает действия людей в зависимости от указанных в промпте демографических данных.
  • Чек-лист практичности: Однозначное ДА на вопрос «Раскрывает неочевидные особенности поведения LLM?». Это добавляет +15 баллов к базовой оценке.
📌

2 Цифровая оценка полезности

Исследование получает высокую оценку, так как оно дает пользователю не просто "трюк", а фундаментальное понимание "ментальной модели" LLM. Знание о том, что у модели есть образ «человека по умолчанию» (белый мужчина среднего возраста), и что любое отклонение от этого образа вызывает предсказуемую реакцию, — это мощный инструмент. Он позволяет осознанно управлять генерацией, когда речь идет о людях.

Контраргументы (почему оценка могла быть иной):

* Выше (90+): Можно было бы поставить оценку выше, потому что это знание универсально и применимо практически к любому промпту, где фигурирует человек. Это не узкоспециализированная техника, а базовый принцип, который должен знать каждый продвинутый пользователь.
* Ниже (70-80): Оценка могла быть ниже, так как исследование в первую очередь констатирует наличие проблемы (предвзятости), но не предлагает готовых «рецептов» или универсальных фраз для её полного устранения. Пользователю самому нужно думать, как применить это знание на практике, что требует определенного уровня осмысления.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с