3,583 papers
arXiv:2511.19956 73 25 нояб. 2025 г. FREE

Prompt Fairness: как стиль формулировки влияет на качество ответов LLM

КЛЮЧЕВАЯ СУТЬ
Обнаружено: LLM меняет содержание ответа в зависимости от стиля запроса. Одна задача, три формулировки (формальная, разговорная, нейтральная) — разброс выводов до 0.28 по шкале 0-1. Модель реагирует на тон и подстраивает ответ: формальный язык → консервативные выводы, разговорный стиль → акцент на риски. Метод позволяет получать стабильные непротиворечивые ответы на критичные вопросы через консенсус между вариациями. Перефразируй запрос 3-5 раз, отправь все варианты, возьми выводы которые повторяются — это majority voting. Случайные отклонения (вызванные стилистикой) не повторяются, устойчивые выводы проявляются в каждом ответе. Разброс падает с 0.28 до 0.17-0.22.
Адаптировать под запрос

TL;DR

Одна задача, сформулированная в разных стилях (формальный язык, разговорный тон, эмоциональная окраска), даёт разные ответы от LLM. Исследование показывает что модели чувствительны к стилистическим маркерам и тону — даже когда смысл запроса одинаковый. Это проблема stability, а не только fairness.

Ключевая находка: стилистика влияет на содержание. На одном датасете разброс между группами достигал 0.28 (по шкале 0-1) — модель давала систематически разные выводы в зависимости от того, как звучит запрос. Причина — LLM реагирует на tone и подстраивает ответ под стиль автора (alignment by mimicry). Если запрос звучит неуверенно, модель акцентирует риски. Если формально — даёт консервативный анализ.

Два способа снизить разброс: (1) majority voting — сгенерировать 3-5 перефразировок запроса, взять самый частый ответ; (2) prompt neutralization — убрать стилистические маркеры из промпта перед отправкой модели. Вместе они снижают расхождение с 0.28 до 0.17-0.22.


🔬

Схема метода

Majority Voting (снижает случайный шум):

1. Создай 3-5 перефразировок исходного запроса → разная стилистика, одинаковый смысл
2. Отправь каждую модели → получи 3-5 ответов
3. Выбери выводы которые повторяются чаще всего → это мажоритарный консенсус

Prompt Neutralization (убирает стилистические якоря):

1. Определи стилистические маркеры в промпте → тон, эмоции, формальность, диалект
2. Переформулируй без этих маркеров → нейтральный промпт
3. Отправь нейтральный промпт модели → получи стабильный ответ

Оба метода работают в обычном чате, требуют нескольких запросов.


🚀

Пример применения

Задача: Ты оцениваешь бизнес-идею — маркетплейс б/у техники Apple для студентов. Хочешь честную оценку рисков, но боишься что стилистика запроса повлияет на выводы модели.

Подход:

Вместо одного запроса отправляешь три варианта:

Вариант 1 (нейтральный):

Оцени бизнес-идею: маркетплейс б/у техники Apple для студентов в России. 
Комиссия 12% с продажи. Какие риски?

Вариант 2 (разговорный):

Короче, хочу запилить маркетплейс б/у айфонов для студентов. Комиссия 12%. 
Как думаешь, зайдёт?

Вариант 3 (формальный):

Прошу оценить коммерческую целесообразность проекта: платформа для реализации 
подержанной техники Apple целевой аудиторией 18-25 лет. Комиссия 12% от сделки.

Результат:

Модель может дать разные акценты в зависимости от тона: от "рискованно, студенты непостоянны" до "перспективно, высокий спрос". Majority voting покажет какие риски повторяются во всех трёх ответах — это самые надёжные выводы. Уникальные риски из одного варианта — скорее артефакт стилистики.


🧠

Почему это работает

Слабость: LLM обучены на текстах где стилистика коррелирует с контекстом и намерениями автора. Модель усвоила паттерн: разговорный тон → больше субъективности, формальный язык → больше осторожности. Это alignment by mimicry — модель подстраивает содержание ответа под стиль запроса.

Сильная сторона: LLM хорошо генерирует разнообразные формулировки одной мысли и находит общие паттерны между текстами.

Как метод использует это: Majority voting заставляет модель ответить на ту же задачу в разных стилях — случайные отклонения (вызванные tone) не повторяются, устойчивые выводы (основанные на семантике) проявляются в каждом варианте. Prompt neutralization убирает стилистические якоря до отправки — модель меньше полагается на tone matching, больше — на смысл.

Рычаги управления:

  • Число перефразировок — 3 для быстрой проверки, 5-7 для критичных решений. Больше вариантов → надёжнее консенсус, но дороже в токенах.
  • Степень нейтрализации — убрать только демографические маркеры (пол, раса) или весь эмоциональный тон. Полная нейтрализация → максимальная стабильность, но потеря контекста.
  • Критерий консенсуса — "все 5 ответов совпадают" (строго) vs "3 из 5 упоминают" (мягко). Строгий критерий → меньше ложных выводов, мягкий → больше информации.

📋

Шаблон промпта

Самый простой способ (модель делает всё сама):

Задача: {твоя задача}

Шаг 1: Создай 5 вариантов этого запроса — разная стилистика, одинаковый смысл:
- Нейтральный тон
- Разговорный стиль  
- Формальный язык
- С эмоциями
- Максимально кратко

Шаг 2: Ответь на каждый вариант отдельно.

Шаг 3: Покажи какие выводы повторяются в большинстве ответов — это мажоритарный консенсус.

Prompt Neutralization (для чистого эксперимента):

Исходный запрос: {твой запрос}

Шаг 1: Определи все стилистические маркеры в запросе — тон, эмоции, формальность, диалект, демографические указатели.

Шаг 2: Переформулируй запрос убрав эти маркеры, сохранив только суть задачи.

Шаг 3: Ответь на нейтральную версию запроса.

Комбинация (самое надёжное):

Задача: {твоя задача}

1. Убери из этого запроса все стилистические маркеры — оставь только смысл
2. Создай 3 нейтральных варианта переформулировки  
3. Ответь на каждый вариант
4. Покажи общие выводы из всех трёх ответов — это стабильное ядро

Замени {твоя задача} на свой запрос. Модель сама выполнит все шаги в одном ответе.


⚠️

Ограничения

⚠️ Больше запросов: Majority voting требует 3-5 запросов вместо одного — это токены и время. Для рутинных задач избыточно. Используй для критичных решений где цена ошибки высока.

⚠️ Не для креатива: Если нужен разнообразный креатив (5 слоганов в разных стилях, варианты дизайна), нейтрализация убьёт вариативность. Метод для задач где нужна стабильность, не креативность.

⚠️ Субъективные задачи: На вопросах без правильного ответа ("какой цвет логотипа лучше?") метод покажет что модель непоследовательна, но не даст "правильный" ответ — только консенсус между вариациями.

⚠️ Не заменяет проверку фактов: Метод снижает шум от стилистики, но не гарантирует фактическую точность. Если модель галлюцинирует — все 5 вариантов могут повторить одну ошибку.


🔗

Ресурсы

Prompt Fairness: Sub-group Disparities in LLMs

Meiyu Zhong, Noel Teku, Ravi Tandon

University of Arizona, Department of ECE

arXiv:2024


📋 Дайджест исследования

Ключевая суть

Обнаружено: LLM меняет содержание ответа в зависимости от стиля запроса. Одна задача, три формулировки (формальная, разговорная, нейтральная) — разброс выводов до 0.28 по шкале 0-1. Модель реагирует на тон и подстраивает ответ: формальный язык → консервативные выводы, разговорный стиль → акцент на риски. Метод позволяет получать стабильные непротиворечивые ответы на критичные вопросы через консенсус между вариациями. Перефразируй запрос 3-5 раз, отправь все варианты, возьми выводы которые повторяются — это majority voting. Случайные отклонения (вызванные стилистикой) не повторяются, устойчивые выводы проявляются в каждом ответе. Разброс падает с 0.28 до 0.17-0.22.

Принцип работы

Не отправляй один запрос — создай 3-5 вариаций одной задачи в разных стилях. Каждую отправь модели отдельно. Бери выводы которые повторяются в большинстве ответов — это мажоритарный консенсус. Уникальные риски или акценты из одного варианта — скорее артефакт стилистики, а не суть проблемы. Можешь комбинировать с prompt neutralization: сначала убери все стилистические маркеры (тон, эмоции, диалект), потом перефразируй нейтральную версию. Это даёт максимальную стабильность.

Почему работает

Модель обучена на текстах где стилистика коррелирует с контекстом. LLM усвоила паттерн: разговорный тон идёт с субъективностью, формальный — с осторожностью. Модель подстраивает содержание ответа под стиль запроса — это подстройка через копирование тона. Если запрос звучит неуверенно ('как думаешь, зайдёт?'), модель акцентирует риски. Если формально ('оцените целесообразность') — даёт консервативный анализ. Majority voting заставляет модель ответить на ту же задачу в разных тональностях. Случайные отклонения не повторяются между вариантами. Устойчивые выводы (основанные на смысле, а не на форме) проявляются в каждом ответе. В эксперименте разброс снизился с 0.28 до 0.17 при использовании 5 перефразировок.

Когда применять

Критичные решения → оценка бизнес-рисков, инвестиционный анализ, медицинские выводы, юридические консультации — везде где цена ошибки высока и нужна стабильность, а не креативность. Особенно когда модель даёт противоречивые ответы на похожие запросы или ты видишь что формулировка сильно влияет на выводы. НЕ подходит для задач где нужно разнообразие: генерация слоганов в разных стилях, креативные варианты дизайна, brainstorming идей — нейтрализация убьёт вариативность.

Мини-рецепт

1. Создай 3-5 вариаций запроса: Нейтральный тон, разговорный стиль, формальный язык, с эмоциями, максимально кратко — одинаковый смысл, разная форма. Можешь попросить модель сделать это: Переформулируй этот запрос в 5 стилях: {твой запрос}

2. Отправь каждый вариант модели отдельно: Получи 3-5 ответов. Если нужна максимальная чистота — используй отдельные сессии чата (без контекста предыдущих вариантов).

3. Найди консенсус: Выпиши выводы которые повторяются в большинстве ответов — это стабильное ядро. Уникальные пункты из одного ответа — скорее артефакт стилистики. Можешь попросить модель: Вот 5 ответов на одну задачу. Покажи какие выводы повторяются в 3+ вариантах

Примеры

[ПЛОХО] : Короче, хочу запилить маркетплейс б/у айфонов для студентов. Комиссия 12%. Как думаешь, зайдёт? — один запрос в разговорном стиле. Модель может среагировать на неуверенность и переакцентировать риски.
[ХОРОШО] : Три варианта одной задачи: Вариант 1: Оцени бизнес-идею: маркетплейс б/у техники Apple для студентов. Комиссия 12%. Какие риски? Вариант 2: Короче, хочу запилить маркетплейс б/у айфонов для студентов. Комиссия 12%. Как думаешь, зайдёт? Вариант 3: Прошу оценить коммерческую целесообразность: платформа для подержанной техники Apple, ЦА 18-25 лет, комиссия 12% Отправляешь все три, смотришь какие риски повторяются во всех ответах — это надёжные выводы. Уникальные риски из одного варианта отбрасываешь как шум от стилистики.
Источник: PromptFairness: Sub-group Disparities in LLMs
ArXiv ID: 2511.19956 | Сгенерировано: 2026-01-12 19:09

Проблемы LLM

ПроблемаСутьКак обойти
Стилистика промпта меняет содержание ответаОдна задача. Формулируешь формально — получаешь осторожный анализ. Формулируешь разговорно — получаешь другие акценты. Смысл запроса одинаковый. Ответы разные. Модель реагирует на тон и подстраивает содержание под стиль. Проблема для критичных решений где нужны стабильные выводыПерефразируй запрос 3-5 раз в разной стилистике. Отправь все варианты. Возьми выводы которые повторяются чаще всего — это устойчивое ядро. Или убери стилистические маркеры (эмоции, тон, диалект) перед отправкой — оставь только суть задачи

Методы

МетодСуть
Majority voting через перефразирование — фильтр случайного шумаСоздай 3-5 вариантов запроса: нейтральный, разговорный, формальный, эмоциональный. Одинаковый смысл, разная стилистика. Отправь каждый модели. Выводы которые повторяются в большинстве ответов — это стабильное ядро. Уникальные выводы из одного варианта — скорее артефакт стилистики. Почему работает: Случайные отклонения (от tone) не повторяются между вариантами. Устойчивые выводы (от семантики) проявляются в каждом ответе. Когда да: критичные решения, нужна стабильность, цена ошибки высока. Когда нет: рутинные задачи (избыточно по токенам), нужен креатив (убьёт вариативность)

Тезисы

ТезисКомментарий
Модель подстраивает содержание под стиль запросаМеханизм: LLM обучена на текстах где стилистика коррелирует с контекстом. Разговорный тон в обучающих данных чаще встречался в субъективных текстах. Формальный язык — в осторожных анализах. Модель усвоила паттерн и воспроизводит его. Это alignment by mimicry — модель мимикрирует под предполагаемые ожидания автора запроса. Применяй: Для нейтральных выводов убирай эмоциональные маркеры и диалект из промпта. Для креатива наоборот — добавляй стилистику чтобы задать направление
📖 Простыми словами

Нейросети — это не беспристрастные калькуляторы, а зеркало текстов, на которых их учили. Проблема в том, что в этих текстах манера речи намертво сшита с социальным статусом, расой и полом. В итоге LLM лажает на ровном месте: если ты пишешь как «белый воротничок», модель тебя понимает, а если используешь сленг или специфический ритм речи, она начинает тупить и ошибаться в элементарных задачах. Это и есть prompt fairness — когда качество ответа зависит не от сути вопроса, а от того, «чей» стиль модель в нем узнала.

Это как если бы ты пришел в банк за кредитом, и менеджер отказал тебе просто потому, что ему не понравился твой акцент или худи, хотя с документами всё в полном порядке. Формально он оценивает риски, но по факту — реагирует на обертку. В исследовании это подтвердили цифрами: на одном и том же отзыве о фильме GPT выдает правильный ответ для «стандартного» стиля, но стоит добавить туда маркеры речи чернокожей женщины, как точность падает, а модель начинает видеть негатив там, где его нет.

Чтобы починить эту херню, работают два метода. Первый — нейтрализация промпта: ты просишь AI сначала переписать запрос, выкинув из него весь сленг, намеки на пол и возраст, превратив его в сухой канцелярский текст. Второй — мажоритарное голосование: генерируешь 5 разных вариантов одного вопроса, собираешь ответы и выбираешь тот, что выпадает чаще всего. Это снижает расхождение в качестве ответов с 0.28 до 0.17, что уже похоже на адекватную работу, а не на гадание по кофейной гуще.

Авторы гоняли тесты на классификации доходов и анализе отзывов, но принцип универсален. Если твой сервис работает с живыми людьми — в медицине, праве или поддержке — ты не можешь гарантировать, что все будут писать как выпускники Оксфорда. Без фильтрации стилистического мусора твоя модель будет систематически дискриминировать тех, кто «пишет не так». SEO для роботов мы освоили, теперь пора учиться делать контент, который не триггерит внутренние предрассудки моделей.

Короче: если хочешь стабильный результат от LLM, никогда не скармливай ей сырой пользовательский ввод «как есть». Нейтрализация и голосование — это обязательный фильтр, без которого ты будешь получать рандомные ошибки просто из-за того, что юзер использовал слово «yo» или «OMG». Либо ты тратишь ресурсы на 3–5 лишних генераций сейчас, либо потом мучительно объясняешь, куда делась логика и почему модель ведет себя как предвзятый сноб.

Сгенерировано: 21.12.2025 16:57 | ArXiv Data Collector

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с