TL;DR
Одна задача, сформулированная в разных стилях (формальный язык, разговорный тон, эмоциональная окраска), даёт разные ответы от LLM. Исследование показывает что модели чувствительны к стилистическим маркерам и тону — даже когда смысл запроса одинаковый. Это проблема stability, а не только fairness.
Ключевая находка: стилистика влияет на содержание. На одном датасете разброс между группами достигал 0.28 (по шкале 0-1) — модель давала систематически разные выводы в зависимости от того, как звучит запрос. Причина — LLM реагирует на tone и подстраивает ответ под стиль автора (alignment by mimicry). Если запрос звучит неуверенно, модель акцентирует риски. Если формально — даёт консервативный анализ.
Два способа снизить разброс: (1) majority voting — сгенерировать 3-5 перефразировок запроса, взять самый частый ответ; (2) prompt neutralization — убрать стилистические маркеры из промпта перед отправкой модели. Вместе они снижают расхождение с 0.28 до 0.17-0.22.
Схема метода
Majority Voting (снижает случайный шум):
1. Создай 3-5 перефразировок исходного запроса → разная стилистика, одинаковый смысл
2. Отправь каждую модели → получи 3-5 ответов
3. Выбери выводы которые повторяются чаще всего → это мажоритарный консенсус
Prompt Neutralization (убирает стилистические якоря):
1. Определи стилистические маркеры в промпте → тон, эмоции, формальность, диалект
2. Переформулируй без этих маркеров → нейтральный промпт
3. Отправь нейтральный промпт модели → получи стабильный ответ
Оба метода работают в обычном чате, требуют нескольких запросов.
Пример применения
Задача: Ты оцениваешь бизнес-идею — маркетплейс б/у техники Apple для студентов. Хочешь честную оценку рисков, но боишься что стилистика запроса повлияет на выводы модели.
Подход:
Вместо одного запроса отправляешь три варианта:
Вариант 1 (нейтральный):
Оцени бизнес-идею: маркетплейс б/у техники Apple для студентов в России.
Комиссия 12% с продажи. Какие риски?
Вариант 2 (разговорный):
Короче, хочу запилить маркетплейс б/у айфонов для студентов. Комиссия 12%.
Как думаешь, зайдёт?
Вариант 3 (формальный):
Прошу оценить коммерческую целесообразность проекта: платформа для реализации
подержанной техники Apple целевой аудиторией 18-25 лет. Комиссия 12% от сделки.
Результат:
Модель может дать разные акценты в зависимости от тона: от "рискованно, студенты непостоянны" до "перспективно, высокий спрос". Majority voting покажет какие риски повторяются во всех трёх ответах — это самые надёжные выводы. Уникальные риски из одного варианта — скорее артефакт стилистики.
Почему это работает
Слабость: LLM обучены на текстах где стилистика коррелирует с контекстом и намерениями автора. Модель усвоила паттерн: разговорный тон → больше субъективности, формальный язык → больше осторожности. Это alignment by mimicry — модель подстраивает содержание ответа под стиль запроса.
Сильная сторона: LLM хорошо генерирует разнообразные формулировки одной мысли и находит общие паттерны между текстами.
Как метод использует это: Majority voting заставляет модель ответить на ту же задачу в разных стилях — случайные отклонения (вызванные tone) не повторяются, устойчивые выводы (основанные на семантике) проявляются в каждом варианте. Prompt neutralization убирает стилистические якоря до отправки — модель меньше полагается на tone matching, больше — на смысл.
Рычаги управления:
- Число перефразировок — 3 для быстрой проверки, 5-7 для критичных решений. Больше вариантов → надёжнее консенсус, но дороже в токенах.
- Степень нейтрализации — убрать только демографические маркеры (пол, раса) или весь эмоциональный тон. Полная нейтрализация → максимальная стабильность, но потеря контекста.
- Критерий консенсуса — "все 5 ответов совпадают" (строго) vs "3 из 5 упоминают" (мягко). Строгий критерий → меньше ложных выводов, мягкий → больше информации.
Шаблон промпта
Самый простой способ (модель делает всё сама):
Задача: {твоя задача}
Шаг 1: Создай 5 вариантов этого запроса — разная стилистика, одинаковый смысл:
- Нейтральный тон
- Разговорный стиль
- Формальный язык
- С эмоциями
- Максимально кратко
Шаг 2: Ответь на каждый вариант отдельно.
Шаг 3: Покажи какие выводы повторяются в большинстве ответов — это мажоритарный консенсус.
Prompt Neutralization (для чистого эксперимента):
Исходный запрос: {твой запрос}
Шаг 1: Определи все стилистические маркеры в запросе — тон, эмоции, формальность, диалект, демографические указатели.
Шаг 2: Переформулируй запрос убрав эти маркеры, сохранив только суть задачи.
Шаг 3: Ответь на нейтральную версию запроса.
Комбинация (самое надёжное):
Задача: {твоя задача}
1. Убери из этого запроса все стилистические маркеры — оставь только смысл
2. Создай 3 нейтральных варианта переформулировки
3. Ответь на каждый вариант
4. Покажи общие выводы из всех трёх ответов — это стабильное ядро
Замени {твоя задача} на свой запрос. Модель сама выполнит все шаги в одном ответе.
Ограничения
⚠️ Больше запросов: Majority voting требует 3-5 запросов вместо одного — это токены и время. Для рутинных задач избыточно. Используй для критичных решений где цена ошибки высока.
⚠️ Не для креатива: Если нужен разнообразный креатив (5 слоганов в разных стилях, варианты дизайна), нейтрализация убьёт вариативность. Метод для задач где нужна стабильность, не креативность.
⚠️ Субъективные задачи: На вопросах без правильного ответа ("какой цвет логотипа лучше?") метод покажет что модель непоследовательна, но не даст "правильный" ответ — только консенсус между вариациями.
⚠️ Не заменяет проверку фактов: Метод снижает шум от стилистики, но не гарантирует фактическую точность. Если модель галлюцинирует — все 5 вариантов могут повторить одну ошибку.
Ресурсы
Prompt Fairness: Sub-group Disparities in LLMs
Meiyu Zhong, Noel Teku, Ravi Tandon
University of Arizona, Department of ECE
arXiv:2024
