3,583 papers
arXiv:2606.15914 72 14 июня 2026 г. FREE

Невидимая передача предвзятости: AI-ассистент незаметно навязывает стереотипы через ваш текст — и как это остановить

КЛЮЧЕВАЯ СУТЬ
Один и тот же студент, одна и та же задача — но предвзятый системный промпт в AI переворачивает результат: 71% стереотипных рекомендаций против 39% при нейтральном ассистенте. Причём студенты после эксперимента говорили, что AI на них не влиял. Метод нейтрального промпта позволяет использовать AI как буфер против собственных интуитивных суждений — нейтрально настроенный ассистент снижает предвзятость ниже уровня человека без AI вообще (39% против 45% у тех, кто писал сам). Фишка асимметрии: предвзятый AI не накачивает описания мужчин — он аккуратно вычищает деловой язык из текстов про женщин. Убирает инициативу, достижения, целеустремлённость. Добавляет заботу и командность. Пользователь видит паттерн и воспроизводит его — не замечая, что что-то произошло.
Адаптировать под запрос

TL;DR

Если в AI-ассистенте заложен предвзятый системный промпт — вы неосознанно воспроизведёте его предубеждения в своём тексте. Исследователи проверили это экспериментально: студенты, писавшие через предвзятый AI, закончили тем, что рекомендовали женщинам «женские» профессии в 70% случаев — против 39% у тех, кто работал с нейтральным AI. При этом сами студенты не замечали, что на них повлияли.

Главная находка неочевидная: эффект работает асимметрично. Предвзятый AI не накачивает мужские описания «пробивными лидерами» — он подавляет деловой язык в текстах про женщин. Из описания убирается инициатива, достижения, целеустремлённость — и вместо этого появляются забота, поддержка, командная работа. Это незаметно. Никто прямо не говорит «опиши её помягче» — AI просто делает акценты, а автор подхватывает паттерн.

Хорошая новость: нейтрально настроенный AI не просто не вредит — он активно снижает предвзятость ниже уровня человека без AI. Студенты с нейтральным ассистентом давали меньше стереотипных рекомендаций, чем те, кто писал вообще без AI. Это значит: правильный промпт — это инструмент защиты, а не только источник риска.


🔍

Схема эксперимента

УСЛОВИЕ 1 — Без AI
Студент пишет сам → базовый уровень стереотипов (45% стереотипных рекомендаций)

УСЛОВИЕ 2 — Нейтральный AI
Системный промпт: "Оценивай только показанные навыки, без демографических стереотипов"
→ Студент пишет с AI → стереотипы СНИЖАЮТСЯ (39%)

УСЛОВИЕ 3 — Предвзятый AI
Системный промпт: ориентируй на «мужские» профессии для мужчин, «женские» для женщин
→ Студент пишет с AI → стереотипы РАСТУТ (71%)

МЕХАНИЗМ ПЕРЕДАЧИ:
Предвзятый AI → подавляет деловой язык в текстах про женщин
→ Студент видит паттерн → воспроизводит в своём тексте
→ Не замечает влияния

🚀

Пример применения

Задача: Ты HR в IT-компании. Используешь ChatGPT, чтобы помочь с написанием отзывов на кандидатов после собеседования. Хочешь убедиться, что твои отзывы оценивают людей честно — без неосознанных перекосов.

Промпт:

Ты — ассистент для написания оценок кандидатов.

Твоя задача: помогать формулировать профессиональные отзывы по итогам интервью.

Правила:
— Опирайся только на конкретные примеры, факты и поведение из интервью
— Не используй характеристики, основанные на поле, возрасте, внешности или других демографических признаках
— Для каждого кандидата применяй одинаковые критерии оценки
— Если замечаешь, что мой черновик содержит размытые оценки без фактов — спроси, какой конкретный пример за этим стоит

Критерии оценки для нашей роли: [вставь свои критерии — например, "технические навыки, скорость обучения, работа в команде, самостоятельность"]

Мой черновик отзыва: [вставь текст]

Результат: Ассистент будет задавать вопросы на конкретику там, где ты написал что-то расплывчатое ("позитивный человек", "хорошо впишется в команду") — и поможет заменить это на факты из интервью. Побочный эффект: ты сам начнёшь замечать, когда пишешь по ощущению, а не по доказательствам.


🧠

Почему это работает

LLM не выдаёт нейтральный текст по умолчанию. В обучающих данных мужчины чаще описываются через достижения и инициативу, женщины — через отношения и поддержку. Эти паттерны есть в модели. Без явных инструкций модель следует им автоматически — даже если явно предвзятого системного промпта нет.

Влияние работает через то, что показывают, а не через то, что говорят. Никто не пишет «оцени её хуже». AI просто выбирает, какие фразы подставить, какие аспекты выделить. Пользователь видит эти акценты — и принимает их за ориентир. Это называется прайминг: когда контекст незаметно настраивает то, что ты производишь дальше.

Нейтральный промпт — это не просто отсутствие предвзятости, а активная инструкция. Когда AI явно получает команду «оценивай только по показанным навыкам» — он переключается на другой паттерн генерации. Он помогает пользователю держаться в зоне фактов. Это объясняет, почему нейтральный AI дал лучший результат, чем работа без AI вообще: модель стала буфером против интуитивных суждений.

Рычаги управления: - Добавь в промпт список конкретных критериев → AI будет оценивать по ним, а не по стересотипным ассоциациям - Добавь инструкцию "задавай вопросы, если мой текст не опирается на конкретный факт" → AI становится фактчекером твоей же предвзятости - Убери из своего промпта любые демографические детали, нерелевантные задаче → снизишь вероятность активации стереотипных паттернов в модели


📋

Шаблон промпта

Ты — ассистент для {тип задачи: оценка/написание рекомендации/анализ/обратная связь}.

Принцип работы:
— Опирайся только на конкретные факты, примеры и поведение из {источник: интервью / текста / описания}
— Не используй характеристики, связанные с {укажи категорию: полом / возрастом / другими демографическими признаками}
— Применяй одинаковые критерии к каждому {объекту оценки: кандидату / тексту / проекту}
— Если в моём черновике есть расплывчатая оценка без фактической основы — укажи на неё и спроси, какой пример за ней стоит

Критерии оценки: {перечисли 3–5 конкретных критерия}

Мои материалы: {вставь текст, заметки, черновик}

Что подставлять: - {тип задачи} — оценка кандидата, написание рекомендательного письма, ревью текста, перформанс-ревью - {источник} — интервью, портфолио, рабочий пример, тест - {объекту оценки} — кандидату, сотруднику, тексту, работе - {критерии} — конкретно под роль: "скорость обучения, самостоятельность, качество аргументации"

🚀 Быстрый старт — вставь в чат:

Вот шаблон нейтральной оценки без демографической предвзятости. 
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить все поля.

[вставить шаблон выше]

LLM спросит про тип задачи и критерии оценки — потому что без них она не сможет применить принцип "только по фактам". Она адаптирует структуру и вернёт рабочий промпт под твой контекст.


⚠️

Ограничения

⚠️ Эффект виден на групповом уровне, не на индивидуальном: Эксперимент показал разницу между группами из 40+ человек. Один конкретный текст может быть предвзятым или нет по множеству других причин — исследование не даёт инструмента для диагностики отдельного случая.

⚠️ Нейтральность промпта не гарантирована: Нейтральный AI в эксперименте всё равно давал мужчинам «мужские» профессии в 67% случаев против 60% у женщин — незначительная разница, но не ноль. Нейтральный промпт снижает предвзятость, но не устраняет полностью.

⚠️ Не все задачи одинаково чувствительны: Исследование проверяло задачу с явной демографической переменной (пол биографии). Для задач, где нет чёткого критерия «правильного» ответа (оценка творчества, характера), метод измерения не работает так же чисто.

⚠️ Осведомлённость — не защита: Студентов спрашивали после эксперимента — видели ли они что-то необычное, влиял ли AI на их выбор. Большинство отвечали «нет». Знание о существовании предвзятости в AI само по себе не делает вас иммунными — нужна конкретная инструкция в промпте.


🔍

Как исследовали

Идея была простой: берём две одинаковые биографии студента — меняем только имя и местоимение (мужское/женское). Просим написать план карьеры. Смотрим, что изменится в тексте.

123 студента разбили на три группы: первая писала без AI, вторая работала с нейтрально настроенным Llama-3.3-70B, третья — с тем же Llama, но с скрытым системным промптом, который ориентировал на «мужские» профессии для мужчин и «женские» для женщин. Студентам сказали только то, что изучается "как люди пишут с AI и без него". О гендерном фокусе сообщили уже после сдачи — чтобы участники не подстраивали поведение.

Тексты измеряли двумя метриками. Первая — разрыв деловой активности (agentic gap): насколько в тексте про мужчину больше фраз типа "инициировал", "достиг", "принял решение" по сравнению с текстом про женщину. Вторая — совпадение с гендерным стереотипом профессии: соответствует ли рекомендованная профессия тому, что статистически считается "мужской" или "женской" по данным Бюро труда США.

Самый неожиданный результат: нейтральный AI дал меньше стереотипных рекомендаций, чем контрольная группа без AI вообще (39% против 45%). Это говорит о том, что структурированные, основанные на критериях подсказки от AI могут действительно корректировать человеческую интуицию в лучшую сторону — не только ухудшать её.


💡

Адаптации и экстраполяции

🔧 Техника: Явный аудит предвзятости — попроси AI проверить твой черновик

Не нужно ждать, пока AI будет "нейтрально настроен" заранее. Напиши черновик сам — потом попроси AI сыграть роль аудитора.

Прочитай мой текст ниже и найди места, где:
— Одни характеристики описаны через конкретные достижения, а другие — через личные качества ("добрый", "ответственный") без примеров
— Рекомендации или оценки могут быть связаны с демографией, а не с фактами
— Один субъект описан в активных глаголах ("инициировал", "построил"), а другой — в пассивных ("ему помогли", "она участвовала")

Укажи конкретные предложения и поясни, что там вызывает вопрос.

Мой текст: {черновик}

🔧 Техника: Тест "поменяй имя" для своих текстов

Принцип из исследования можно применить для самоаудита:

Ниже два варианта одного текста. Я заменил имя и местоимение с мужского на женское (или наоборот). 
Найди места, где текст звучит по-разному — не в смысле факта, а в смысле тона, акцентов, ожиданий.

Версия А: {текст с мужским именем}
Версия Б: {тот же текст с женским именем}

Что изменилось? Есть ли места, которые стоит выровнять?

Это работает для рекомендательных писем, отзывов на сотрудников, описаний вакансий, ревью на работы.


🔗

Ресурсы

Работа: Contaminated Collaboration: Measuring Gender Bias Transfer in LLM-Assisted Student Writing

Авторы: Ariyan Hossain, Kazi Kamruzzaman Rabbi, Farig Sadeque, S M Taiabul Haque — BRAC University, Dhaka, Bangladesh

Связанные работы упомянутые в статье: - Wan et al. (2023) — LLMs produce gender-biased recommendation letters from gender-swapped biographies - Fisher et al. (2025) — политически предвзятые LLM смещают мнения пользователей - Williams-Ceci et al. (2026) — автодополнение AI меняет взгляды пользователей без их осведомлённости - Baumler and Daumé III (2026) — стереотипы в co-written нарративах сохраняются даже при антистереотипных подсказках


📋 Дайджест исследования

Ключевая суть

Один и тот же студент, одна и та же задача — но предвзятый системный промпт в AI переворачивает результат: 71% стереотипных рекомендаций против 39% при нейтральном ассистенте. Причём студенты после эксперимента говорили, что AI на них не влиял. Метод нейтрального промпта позволяет использовать AI как буфер против собственных интуитивных суждений — нейтрально настроенный ассистент снижает предвзятость ниже уровня человека без AI вообще (39% против 45% у тех, кто писал сам). Фишка асимметрии: предвзятый AI не накачивает описания мужчин — он аккуратно вычищает деловой язык из текстов про женщин. Убирает инициативу, достижения, целеустремлённость. Добавляет заботу и командность. Пользователь видит паттерн и воспроизводит его — не замечая, что что-то произошло.

Принцип работы

Механика называется прайминг: контекст незаметно настраивает то, что ты производишь дальше. AI выбирает, какие фразы подставить, какие акценты расставить — ты принимаешь это за «хороший пример» и копируешь паттерн. Нейтральный промпт — это не просто отсутствие плохих инструкций. Это активная команда работать иначе. Когда модель получает «оценивай только по конкретным фактам из интервью» — она переключается. Видит расплывчатое «хорошо впишется в команду» — спрашивает, какой факт за этим стоит. Становится фактчекером твоей же предвзятости, а не её усилителем.

Почему работает

LLM обучена на миллионах текстов, где мужчин описывают через достижения и инициативу, женщин — через отношения и поддержку. Без явных инструкций модель следует этим паттернам автоматически — просто потому что они статистически привычны. Знание о проблеме не защищает. Большинство участников эксперимента были уверены, что AI на них не повлиял — и ошибались. Защита работает через структуру, а не через осведомлённость: конкретные критерии в промпте блокируют активацию стереотипных паттернов ещё до генерации. Модель не может «угадать пол подходящей профессии», если её буквально обязали держаться в зоне фактов. Разница между предвзятым и нейтральным системным промптом — 71% против 39% стереотипных рекомендаций. Только слова в инструкции.

Когда применять

HR-процессы → написание отзывов на кандидатов, перформанс-ревью (регулярная обратная связь о работе сотрудников), рекомендательные письма — особенно когда оцениваешь много людей подряд и есть риск, что оцениваешь по ощущению, а не по фактам. Образование → обратная связь студентам, характеристики, оценка письменных работ. Любой контент, где описываешь реальных людей с профессиональными характеристиками. НЕ подходит как инструмент диагностики конкретного текста — эффект виден на уровне группы в 40+ оценок, не в одном отзыве.

Мини-рецепт

1. Убери демографические детали из промпта, если они не являются критерием оценки. Пол кандидата не нужен — нужны его конкретные примеры из интервью.

2. Дай явный список критериев. Не «оцени кандидата», а «оцени по: скорость обучения, самостоятельность, качество аргументации». Без этого модель заполняет пустоту стереотипными ассоциациями.

3. Добавь инструкцию фактчекинга: Если в моём черновике есть расплывчатая оценка без конкретного примера — укажи на неё и спроси, какой факт за ней стоит.

4. Попроси применять одинаковые критерии ко всем: Используй одни и те же критерии для каждого кандидата, независимо от их демографических характеристик. Это звучит очевидно — но именно эта инструкция переключает режим генерации.

Примеры

[ПЛОХО] : Напиши профессиональный отзыв на Анну Иванову — она претендует на позицию руководителя проекта
[ХОРОШО] : Ты — ассистент для оценки кандидатов. Опирайся только на конкретные факты и примеры поведения из интервью. Не используй характеристики, связанные с полом, возрастом или внешностью. Критерии оценки: самостоятельность в принятии решений, качество коммуникации с командой, обращение с неопределённостью. Если в моём черновике есть расплывчатая оценка без конкретного факта — спроси, какой пример за ней стоит. Мой черновик: [текст]
Источник: Contaminated Collaboration: Measuring Gender Bias Transfer in LLM-Assisted Student Writing
ArXiv ID: 2606.15914 | Сгенерировано: 2026-06-16 05:33

Проблемы LLM

ПроблемаСутьКак обойти
LLM по умолчанию воспроизводит стереотипы из обучающих данныхБез явных инструкций модель следует паттернам из данных. Мужчин описывает через достижения и инициативу. Женщин — через поддержку и отношения. Никто не просит модель так делать. Она просто воспроизводит то, что чаще встречалось при обучении. Это работает против тебя в любой задаче где есть оценка людей: рекомендации, отзывы, характеристикиДай явный список критериев оценки. Добавь инструкцию: "если в моём тексте есть размытая характеристика без факта — спроси, какой пример за ней стоит". Без этих двух элементов модель заполняет пробелы стереотипами автоматически

Методы

МетодСуть
Список критериев + запрос на факты — защита от стереотиповДай модели два элемента. Первый: явный список конкретных критериев оценки ("скорость обучения, самостоятельность, качество аргументации"). Второй: инструкция "если мой текст содержит расплывчатую оценку без конкретного примера — укажи на неё и спроси, какой факт за ней стоит". Синтаксис: "Оценивай только по этим критериям: [список]. Если в моём тексте нет фактической основы — спроси: какой конкретный пример это подтверждает?" Почему работает: Список критериев не даёт модели уйти в паттерны из обучающих данных — она привязана к твоим конкретным параметрам. Запрос на факты делает модель проверщиком твоей же предвзятости. Две инструкции вместе создают буфер. Когда применять: любая оценка людей — кандидаты, сотрудники, авторы. Не工作ает: творческие оценки без чёткого критерия правильности
📖 Простыми словами

Contaminated Collaboration: Measuring Gender Bias Transfer inLLM-Assisted Student Writing

arXiv: 2606.15914

AI-ассистент работает не как пассивный текстовый редактор, а как невидимый соавтор, который незаметно подмешивает свои взгляды в твою голову. Проблема в том, что нейронки обучались на гигантских массивах текстов из интернета, где стереотипы цветут и пахнут. Когда ты просишь AI помочь с текстом, он не просто подбирает слова, он навязывает скрытую логику. Если модель привыкла, что лидерство — это про мужчин, а эмпатия — про женщин, она выстроит структуру твоего черновика именно так. Ты можешь думать, что просто правишь стиль, но на деле ты уже заглатываешь наживку и начинаешь транслировать чужие предубеждения как свои собственные.

Это как если бы ты пришел в магазин за костюмом, а консультант, мило улыбаясь, подсовывал бы тебе только те вещи, которые, по его мнению, подходят твоему социальному статусу. Ты вроде бы выбираешь сам, но твой выбор ограничен тем, что тебе принесли в примерочную. В итоге ты выходишь в том, что выбрал за тебя продавец, искренне веря, что это был твой свободный порыв. Исследование показало, что студенты, работавшие с «заряженным» AI, в два раза чаще советовали женщинам стереотипные профессии, при этом они были свято уверены, что пишут объективно. Формально они авторы, но по факту — марионетки алгоритма.

Цифры здесь просто бьют наотмашь: использование предвзятого AI заставляет людей выдавать стереотипные рекомендации в 70% случаев, тогда как с нейтральным помощником этот показатель падает до 39%. Механика проста: модель использует семантическое заражение. Она подсовывает специфические прилагательные и примеры, которые направляют твои мысли в нужную ей сторону. Если в системном промпте или базе знаний зашит перекос, он неизбежно перекочует в твой финальный документ, даже если ты считаешь себя самым непредвзятым человеком на планете.

Этот эффект — перенос предвзятости — работает везде, а не только в вопросах пола. Тестировали на студентах и карьерных советах, но принцип универсален: он выстрелит при написании HR-отзывов, юридических заключений или политических постов. Если ты используешь ChatGPT или Gemini для оценки кандидатов, AI может незаметно «слить» сильного профи просто потому, что его описание не вписалось в заложенный в модель шаблон успеха. Нейтрального AI не существует, есть только тот, чьи фильтры ты не видишь.

Короче: если ты используешь нейронку как костыль для мышления, готовься к тому, что она потащит тебя в свою сторону. Главный облом в том, что человек не способен заметить это влияние в моменте — мы слишком доверяем печатному слову на экране. Единственный выход — жестко контролировать входящие инструкции и понимать, что любой текст от AI изначально отравлен его обучающей выборкой. Либо ты правишь модель, либо модель незаметно правит твои мозги.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с