TL;DR
Когда вы указываете в промпте личные данные — расу, возраст, социальный контекст, — модель начинает интерпретировать ваши предпочтения через призму группы, к которой вы принадлежите. Одно и то же слово «безопасный район» модель переводит в разные адреса в зависимости от того, кто спрашивает. Это не случайный шум — это системное поведение, которое исследователи зафиксировали на семи разных моделях.
Главный контринтуитивный вывод: добавление большего контекста о себе не уменьшает смещение, а усиливает его. Казалось бы, чем больше деталей — тем точнее ответ. Но когда детали включают демографические маркеры, модель не просто учитывает ваши пожелания — она фильтрует их через интернализованные паттерны: что «people like you» обычно хотят и где «people like you» обычно живут. Вы думаете, что говорите о себе. Модель слышит — к какой группе вы принадлежите.
Рабочее смягчение — попросить модель сначала явно вывести ваши приоритеты из запроса, и только после вашего подтверждения давать рекомендации. Это создаёт контрольную точку: вы видите, как модель вас поняла, и можете исправить искажения до того, как они превратятся в конкретные советы.
Схема метода
Что происходит без защиты (как работает смещение):
ШАГ 1: Запрос с демографическими данными
→ модель активирует "групповой фильтр"
ШАГ 2: Интерпретирует предпочтения через паттерны группы
→ рекомендации, соответствующие стереотипу, а не запросу
Митигация (P2 — инференс-промптинг):
ШАГ 1: Попросить вывести приоритеты до рекомендаций
→ явный список: что модель считает вашими целями
ШАГ 2: Пользователь проверяет и корректирует список
→ убирает смещённые интерпретации
ШАГ 3: Рекомендации на основе скорректированных приоритетов
→ результат через заявленные цели, не демографический профиль
Оба шага могут быть в одном чате — второй запрос идёт после ответа на первый.
Пример применения
Задача: Ищете квартиру или район в Москве через ChatGPT. Описываете себя: семья с детьми, региональный бюджет, важна школа и «нормальные соседи». Хотите честный совет, а не тот, который «для людей вроде вас».
Промпт:
Прежде чем давать рекомендации — сначала перечисли,
какие приоритеты ты считаешь ключевыми в моём запросе.
Упорядочи их от самого важного к наименее важному.
Мой запрос: ищу район в Москве для семьи с двумя детьми
(7 и 10 лет). Бюджет — аренда до 80 000 рублей.
Важна школа с нормальной репутацией,
транспортная доступность до центра,
ощущение безопасности на улице.
После того как я подтвержу или скорректирую список
приоритетов — дай рекомендации районов только на основе
уточнённых критериев.
Результат: Модель сначала выдаст список того, как она поняла задачу: например, «1. Школы с высоким рейтингом ЕГЭ, 2. Время в пути до центра ≤40 минут, 3. Низкий уровень тревожных новостей по району...» Вы видите интерпретацию до рекомендации. Если модель добавила что-то странное или пропустила важное — корректируете, и только потом получаете список районов. Контрольная точка создаётся явно.
Почему это работает
LLM не имеет нейтрального восприятия. Модель обучена на текстах, где описания мест, людей и предпочтений переплетены с социальными паттернами. Слово «безопасность» в запросе от одного профиля пользователя и то же слово от другого активируют разные ассоциативные цепочки — потому что в обучающих текстах эти слова встречались в разных контекстах рядом с разными демографическими маркерами.
Добавление контекста — обоюдоострый инструмент. Интуиция подсказывает: больше деталей = точнее ответ. Но когда детали включают маркеры идентичности, модель получает больше «подсказок», чтобы применить групповой фильтр. Без деталей — более абстрактный ответ, но без демографического смещения. С деталями — конкретный ответ, но пропущенный через паттерн «что нужно людям из этой группы».
Инференс-промптинг разрывает этот цикл. Когда вы просите модель сначала вывести приоритеты явно — она вынуждена опереться на ваши слова, а не на групповой шаблон. Вы видите интерпретацию до того, как она стала рекомендацией. Это не устраняет смещение полностью, но создаёт точку, где вы можете его поймать и исправить.
Рычаги управления: - Уберите демографический контекст → менее «персонализированный» ответ, но без группового фильтра - Добавьте явный запрет → «не делай предположений о моих приоритетах на основе личных данных» — частично помогает - Используйте инференс-шаг → перехватывайте интерпретацию до рекомендации - Задавайте объективные критерии вместо субъективных → «школы с рейтингом выше среднего» вместо «хорошая школа» — меньше пространства для групповой проекции
Шаблон промпта
Прежде чем давать рекомендации — сначала перечисли,
какие приоритеты ты считаешь ключевыми для моей задачи.
Упорядочи их от самого важного к менее важному.
Мой запрос: {описание задачи и ограничений}
После того как я подтвержу или скорректирую список
приоритетов — дай рекомендации только на основе
уточнённых критериев. Не делай предположений о том,
чего я «обычно хочу» на основе личных данных,
которые я упомянул.
Плейсхолдеры:
- {описание задачи} — конкретная задача: поиск района, выбор вуза, карьерный совет, сравнение продуктов
Когда применять: любые рекомендательные запросы, где вы упоминаете личный контекст — семья, возраст, профессия, город, бюджет. Особенно когда результат влияет на реальное решение.
🚀 Быстрый старт — вставь в чат:
Вот техника инференс-промптинга. Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит, что именно вы ищете и какой контекст указать — потому что без этого она не сможет правильно сформулировать инференс-шаг под вашу конкретную задачу.
Ограничения
⚠️ Митигация работает неравномерно: Инференс-промптинг (P2) снижал смещение в одних случаях, но давал непредсказуемые результаты в других — иногда усиливал или разворачивал смещение в другую сторону. Не панацея, а контрольная точка.
⚠️ Субъективные критерии — зона риска: Запросы с объективными ограничениями (бюджет, метраж, время в пути) давали меньше смещения. Как только появляются субъективные слова — «безопасный», «приятный», «хорошее сообщество» — пространство для групповой проекции резко расширяется.
⚠️ Выводы специфичны для каждого контекста: Паттерны смещения сильно различались по городам — то, что наблюдалось в одном, не воспроизводилось в другом. Переносите выводы на свою ситуацию с осторожностью.
⚠️ Явный запрет «не дискриминируй» не изучался: Исследование тестировало добавление контекста и инференс-шаг, но не прямые инструкции типу «игнорируй мою расу». Этот вариант остаётся открытым вопросом.
Как исследовали
Исследователи из Responsible AI Lab и National Fair Housing Alliance взяли классическую методологию юридического тестирования на дискриминацию — парное тестирование — и перенесли её на LLM. Идея простая: отправь двух «покупателей» с одинаковыми запросами, но разной расой, и посмотри, порекомендуют ли им одно и то же.
Команда протестировала семь моделей (GPT-4o, Claude Sonnet, Gemini 2.0 Flash, Grok 2, DeepSeek V3, Mistral Large, LLaMA 3.1) в четырёх городах США — Чикаго, Хьюстон, Нью-Йорк, Лос-Анджелес — по трём уровням контекста: только демография (P0), демография + образ жизни (P1), демография + образ жизни + просьба самостоятельно вывести приоритеты (P2). Итого — больше 20 000 точек данных. Каждый запрос возвращал пять рекомендованных почтовых индексов, которые затем сопоставлялись с реальным демографическим составом районов через корреляционный анализ, а также с индексом возможностей (доходы, безработица, бедность, стоимость жилья).
Самый неожиданный результат: в большинстве случаев смещение усилилось, когда люди добавляли больше контекста о своей жизни и предпочтениях. Исследователи ожидали, что более богатый запрос поможет модели дать более точный ответ — но вместо этого он давал модели больше «улик» для применения демографического фильтра. Особенно наглядно это показал Чикаго: при запросе «семья с детьми» GPT-4o и Claude рекомендовали чернокожим пользователям Южную сторону города (исторически сегрегированные районы с низким индексом возможностей), а белым и латиноамериканским — Северную, при абсолютно идентичном тексте запроса.
Адаптации и экстраполяции
Принцип работает за пределами жилья и США. Каждый раз, когда вы даёте LLM рекомендательный запрос с личным контекстом — карьерный совет, выбор специальности, рекомендация курсов, подбор района для переезда — активируется та же механика. Модель интерпретирует «что нужно человеку с таким профилем».
🔧 Техника: явные объективные критерии → меньше пространства для проекции
Вместо: «Хочу безопасный район с хорошими школами» Напиши: «Хочу район, где уровень тяжких преступлений в статистике МВД ниже городского среднего, и есть минимум одна школа с баллом ОГЭ выше 4.2 по математике»
Субъективные слова («хороший», «безопасный», «приятный») — пространство, которое модель заполняет групповыми стереотипами. Конкретные метрики это пространство закрывают.
🔧 Техника: разделить идентичность и задачу на два отдельных запроса
Запрос 1 (без личных данных): «Какие районы Москвы до 80 000 рублей аренды имеют лучший рейтинг школ и транспортную доступность?» Запрос 2: «Из этого списка — какие подойдут для семьи с детьми 7 и 10 лет?»
Первый запрос не содержит демографических маркеров — модель работает с объективными данными. Второй сужает выборку, но смещение уже меньше, потому что пространство для него было ограничено на первом шаге.
Ресурсы
Название работы: The Geography of Algorithmic Judgment: LLM Intermediaries, Place Identity, and Racial Steering in Housing Search
Авторы: Hana Samad, Trung Lam, Christoph Mügge-Durum, Michael Akinwumi
Организация: Responsible AI Lab; National Fair Housing Alliance, Washington DC, USA
Ключевые отсылки из исследования: - Liu et al. (2024) — первый аудит GPT-4 на расовое смещение в жилищных рекомендациях - Fair Housing Act (FHA) 1968 — правовой контекст - Bertrand & Mullainathan (2004) — классическое исследование дискриминации на рынке труда по именам резюме - Kerche, Zook & Graham (2026) — как GPT-4o-mini воспринимает географию в США, Бразилии, Великобритании
