3,583 papers
arXiv:2603.05651 76 5 мар. 2026 г. FREE

Хрупкость моральных суждений LLM: как форма изложения меняет вердикт

КЛЮЧЕВАЯ СУТЬ
Замените «я поссорился» на «он поссорился» — и модель изменит вердикт. Не потому что появились новые факты. Потому что сменился нарратор. Метод нейтрального пересказа позволяет получать честную оценку конфликта — без автоматического перекоса в сторону того, кто спрашивает. Попросите модель сначала пересказать историю от третьего лица, затем оценить — и вердикт становится значительно устойчивее: LLM усвоила из обучающих текстов паттерн «рассказчик от первого лица обычно прав», перевод в третье лицо обнуляет этот перекос.
Адаптировать под запрос

TL;DR

LLM меняет вывод о том, кто прав в конфликте, в зависимости от того, КАК рассказана история — не от сути произошедшего. Один и тот же конфликт, изложенный от первого лица ("я"), от третьего лица ("он/она") или с добавлением фразы "все мои друзья согласны со мной" — и вердикт меняется. Это не баг конкретной модели: так работают GPT-4.1, Claude, DeepSeek и Qwen одновременно.

Главная находка: повествовательная перспектива — это прагматический сигнал для LLM. Модель учится на человеческих текстах, где рассказчик обычно прав. Поэтому когда вы описываете конфликт от первого лица, модель автоматически "встаёт на вашу сторону" — не потому что оценила факты, а потому что интерпретирует форму. Дальше — хуже: даже небольшое добавление вроде "я обычно так и поступаю" (признание паттерна) или "все знакомые говорят, что я переборщил" (социальное доказательство) систематически сдвигают вердикт в предсказуемом направлении.

Самый мощный фактор — не то, что вы говорите, а как вы просите оценить. Структура запроса ("сначала вердикт, потом объяснение" vs "сначала объяснение") меняет исход чаще, чем содержание истории.


🔬

Схема метода

Это не один метод, а карта уязвимостей LLM-суждений + защитные техники.

ЧТО МЕНЯЕТ ВЕРДИКТ (сила влияния по убыванию):

[1] Протокол запроса          → 22-55% смены вердикта
    Как вы структурировали вопрос

[2] Смена перспективы          → 24% смены вердикта
    От чьего лица рассказана история

[3] Убеждающие добавки         → 10% смены вердикта
    Социальное доказательство, признание паттерна

[4] Поверхностные правки       → 7% смены вердикта
    Перефразирование, незначительные детали
    (= шум, не важно)

ЗАЩИТНАЯ ТЕХНИКА (применяется в одном промпте):

ШАГ 1: Изложить конфликт от первого лица (как есть)
ШАГ 2: Попросить модель переформулировать в 3-е лицо → нейтральный пересказ
ШАГ 3: Попросить оценить этот нейтральный пересказ → вердикт
ШАГ 4: (опционально) Повторить с позиции другой стороны → второй вердикт

🚀

Пример применения

Задача: Александр — владелец небольшого digital-агентства в Москве. Поссорился с подрядчиком: тот сорвал дедлайн, Александр публично высказался в общем чате клиентов, подрядчик обиделся и требует извинений. Александр хочет узнать у ChatGPT — кто прав.

Промпт:

Мне нужна нейтральная оценка конфликта. 

ВОТ МОЯ ВЕРСИЯ:
Я нанял подрядчика на задачу с дедлайном 20-го числа. Он прислал работу 
25-го без предупреждения. Я написал в общий рабочий чат, где были 
клиенты: "Прошу учесть, что дедлайны не соблюдаются — это влияет на 
всех нас". Теперь он говорит, что я его унизил публично и требует 
извинений. Он вообще-то хороший специалист, мы работаем 2 года.

СДЕЛАЙ ТАК:
1. Перескажи эту ситуацию нейтрально, от третьего лица — без оценок, 
   как журналист. Назови меня "руководитель агентства", подрядчика — 
   "фрилансер".

2. Оцени ситуацию с точки зрения руководителя агентства: 
   что он сделал верно, что — нет.

3. Оцени ситуацию с точки зрения фрилансера: 
   что он сделал верно, что — нет.

4. Дай итоговый вердикт: кто из них несёт бо́льшую ответственность 
   за конфликт и почему.

Результат:

Модель сначала выдаст нейтральный пересказ — без "я", без эмоций, только факты. Это уже снизит перекос в сторону нарратора. Затем последуют два разбора с позиций сторон — каждый найдёт как правоту, так и ошибки. В итоговом вердикте модель с вероятностью укажет на ошибку обоих: подрядчика — за срыв дедлайна без предупреждения, руководителя — за публичную критику в клиентском чате вместо личного разговора.


🧠

Почему это работает

LLM обучена на текстах, где рассказчик обычно прав. В реальных текстах — постах, блогах, форумах — люди пишут о своём опыте с позиции "я". И в большинстве случаев люди рассказывают истории так, что выглядят правой стороной. Модель усвоила этот паттерн: первое лицо → нарратор заслуживает симпатии.

Убеждающие фразы работают как ярлыки. Когда вы добавляете "все мои друзья считают, что я прав" — модель не проверяет, правда ли это. Она интерпретирует эту фразу как социальный сигнал: раз большинство согласны, значит нарратор, вероятно, прав. Это не логический вывод — это статистический паттерн из обучающих данных. Социальное доказательство против нарратора ("все говорят, что я перегнул") работает зеркально — увеличивает его вину.

Структура промпта — это невидимая рамка. Когда модель сначала выносит вердикт, а потом объясняет — она ищет обоснования под уже принятое решение. Когда сначала объясняет — процесс рассуждения может привести к другому итогу. Это не ошибка: так же работает и человеческое мышление. Но у LLM этот эффект измерим и предсказуем.

Рычаги управления: - Смени лицо повествования → попроси модель переформулировать в 3-е лицо перед оценкой - Убери убеждающие добавки → не пиши "все согласны" или "я обычно так и поступаю" — если хочешь нейтральную оценку - Попроси объяснить перед вердиктом → добавь "сначала опиши аргументы каждой стороны, потом скажи кто прав" - Задай вопрос с позиции другой стороны → "а теперь перескажи эту же историю от лица второго человека и оцени"


📋

Шаблон промпта

Мне нужна нейтральная оценка конфликта — без перекоса в мою сторону.

МОЯ ВЕРСИЯ СОБЫТИЙ:
{описание конфликта от первого лица}

СДЕЛАЙ ТАК:

1. НЕЙТРАЛЬНЫЙ ПЕРЕСКАЗ
Перескажи ситуацию от третьего лица, без оценок. 
Называй меня "{моя роль}", другую сторону — "{их роль}".

2. ПОЗИЦИЯ {моя роль}
Что сделал верно. Что сделал неверно или можно было сделать лучше.

3. ПОЗИЦИЯ {их роль}
Что сделал верно. Что сделал неверно или можно было сделать лучше.

4. ИТОГОВЫЙ ВЕРДИКТ
Кто несёт бо́льшую ответственность за конфликт и почему. 
Если виноваты оба — скажи прямо и распредели ответственность.

Что подставлять: - {описание конфликта} — расскажи как есть, от первого лица, без самоцензуры - {моя роль} — нейтральное описание: "сотрудник", "клиент", "руководитель", "партнёр" - {их роль} — аналогично: "подрядчик", "менеджер", "коллега"


🚀 Быстрый старт — вставь в чат:

Вот шаблон для нейтральной оценки конфликта. Адаптируй под мою ситуацию: 
{опиши конфликт коротко}. Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит о ролях сторон и деталях конфликта — чтобы правильно сформулировать третьи лица и рамку оценки. Она возьмёт структуру из шаблона и адаптирует под твою ситуацию.


⚠️

Ограничения

⚠️ Неустранимая неопределённость: Чем более неоднозначен конфликт (никто явно не виноват), тем сильнее любое изменение формулировки влияет на вердикт. Нейтральный пересказ снижает перекос, но не устраняет его полностью.

⚠️ Модели не согласны друг с другом: Одну и ту же ситуацию разные LLM оценивают по-разному примерно в 30% случаев. Если решение важное — проверяй в двух разных моделях.

⚠️ Структурированный промпт не гарантирует стабильность: Даже при третьем лице и структуре "объяснение → вердикт" модель всё ещё чувствительна к формулировкам. Это инструмент снижения перекоса, не его устранения.

⚠️ Расширенное мышление не помогает: Модели с "думающим" режимом (extended thinking) показали лишь поверхностное самоперепроверение — без реального изменения устойчивости суждений.


🔍

Как исследовали

Команда взяла 2 939 реальных постов с реддита r/AmItheAsshole (январь–март 2025) — живые, мессивные, неудобные межличностные дилеммы, по которым тысячи людей проголосовали за вердикт. Это не синтетические задачи — это настоящие конфликты с неочевидными ответами.

Для каждого поста они сгенерировали 11 вариантов одной и той же истории: с мелкими правками, от третьего лица, с добавлением убеждающих фраз. Ни один из вариантов не менял суть конфликта — только форму. Потом четыре модели (GPT-4.1, Claude 3.7, DeepSeek, Qwen) оценивали каждый вариант. Итого: 129 156 суждений.

Самый важный эксперимент — протокольный: авторы взяли 1200 сценариев и прогнали через три разных структуры промпта при прочих равных. Результат оказался неожиданным даже для авторов: только 35.7% сценариев получили одинаковый вердикт во всех трёх структурах. То есть протокол — как вы спрашиваете — важнее содержания в большинстве спорных случаев. Это объясняет, почему два человека, описавшие одну ситуацию в разных интерфейсах, могут получить противоположные советы.


📄

Оригинал из исследования

Пример двух убеждающих добавок (из таблицы 1):

Push Self At Fault (толкает вердикт против нарратора):
- self-condemning: "I feel like I messed up here"
- social proof:    "Most people I talked to say I overreacted"
- pattern admission: "This isn't the first time I've reacted this way"

Push Other At Fault (толкает вердикт в пользу нарратора):
- self-justifying: "I don't think I did anything wrong here"
- social proof:    "Everyone I talked to says I did the right thing"
- victim pattern:  "They've done this kind of thing before"

Контекст: Исследователи тестировали, как одна короткая фраза — добавленная в конец истории — систематически сдвигает вердикт модели. Без изменения фактов.


💡

Адаптации и экстраполяции

📌

💡 Адаптация: "Дьяволов адвокат" для важных решений

Если хочешь проверить бизнес-идею, карьерное решение или любую позицию, которую тебе важно оценить честно — используй принцип смены перспективы намеренно:

Я расскажу тебе о решении, которое хочу принять. 
Твоя задача — трижды оценить его с разных позиций.

РЕШЕНИЕ: {твоё решение / идея / план}

ОЦЕНКА 1: Ты — скептик-инвестор (например, Александр Лебедев). 
Что здесь не так? Почему это провалится?

ОЦЕНКА 2: Ты — сторонник. Лучший аргумент В ПОЛЬЗУ этого решения.

ОЦЕНКА 3: Нейтральный советник. 
Что нужно знать, прежде чем принять это решение?

📌

🔧 Техника: "Антисоциальное доказательство" → проверка реакции модели

Хочешь проверить, насколько модель реально оценивает ситуацию, а не соглашается с тобой? Добавь в промпт противоположное социальное доказательство и посмотри, изменится ли вывод:

Исходный запрос → получи вердикт.

Добавь фразу: "Хотя большинство знакомых говорят, что я был неправ." → снова получи вердикт.

Если вердикт кардинально изменился — ответ был ненадёжным и держался на форме, не на анализе.


🏗️

🔧 Техника: Структура "объяснение до вердикта" → более устойчивый ответ

Замени стандартный вопрос "что думаешь?" на:

Не давай сразу вывод. Сначала:
1. Перечисли аргументы В ПОЛЬЗУ позиции А
2. Перечисли аргументы В ПОЛЬЗУ позиции Б  
3. Теперь скажи — кто прав и почему

Это снижает вероятность того, что модель "выберет" вердикт на первых токенах и потом подгонит под него объяснение.


🔗

Ресурсы

The Fragility Of Moral Judgment In Large Language Models

Tom van Nuenen, Pratik S. Sachdeva

D-Lab, University of California, Berkeley, USA

2025 (preprint)

Датасет с дилеммами и вердиктами — на HuggingFace (после деанонимизации)

Код для воспроизведения — GitHub (ссылка в статье)

Данные: r/AmItheAsshole (Reddit API, январь–март 2025)


📋 Дайджест исследования

Ключевая суть

Замените «я поссорился» на «он поссорился» — и модель изменит вердикт. Не потому что появились новые факты. Потому что сменился нарратор. Метод нейтрального пересказа позволяет получать честную оценку конфликта — без автоматического перекоса в сторону того, кто спрашивает. Попросите модель сначала пересказать историю от третьего лица, затем оценить — и вердикт становится значительно устойчивее: LLM усвоила из обучающих текстов паттерн «рассказчик от первого лица обычно прав», перевод в третье лицо обнуляет этот перекос.

Принцип работы

Сила влияния на вердикт — по убыванию: Структура запроса (как вы просите оценить) → 22–55% смены вердикта Перспектива (от чьего лица рассказано) → 24% смены вердикта Убеждающие добавки («все согласились со мной») → 10% смены вердикта Поверхностное перефразирование → 7% (шум, можно игнорировать) Самое сильное влияние — не что вы говорите, а как просите оценить. Попросите сначала вынести вердикт — модель ищет обоснования под уже принятое решение. Попросите сначала разобрать аргументы — процесс рассуждения ведёт к другому итогу. Это не ошибка конкретной модели: так ведут себя GPT-4.1, Claude, DeepSeek и Qwen одновременно.

Почему работает

LLM обучена на текстах, где рассказчик обычно прав. Блоги, форумы, посты — люди пишут от первого лица и чаще всего выглядят правой стороной. Модель усвоила: первое лицо → нарратор заслуживает симпатии. Это не логический вывод — это статистический паттерн из обучающих данных. Когда история пересказана в третьем лице — паттерн не срабатывает, модель переходит к оценке фактов. Добавка «все мои друзья согласны» работает аналогично: не проверяется логически, а читается как социальный сигнал — значит нарратор, вероятно, прав. Зеркально работает и обратное: «все говорят, что я перегнул» — вина нарратора растёт. Модели с «думающим» режимом (расширенным анализом) ситуацию не спасают — показали лишь поверхностное самоперепроверение без реального изменения устойчивости суждений.

Когда применять

Оценка конфликтов и спорных ситуаций → конкретно для переговоров, ссор с коллегами, подрядчиками, партнёрами — особенно когда нужно понять слабые места своей позиции до разговора, а не после. Подходит и для медиации: попросить модель занять позицию другой стороны и разобрать её аргументы. НЕ подходит: если ищете поддержку и подтверждение своей правоты — метод намеренно лишает вас этого перекоса и честно укажет на ошибки.

Мини-рецепт

1. Опишите конфликт как есть — от первого лица, без самоцензуры и без попыток казаться справедливым. Пусть будет субъективно.
2. Попросите нейтральный пересказ — от третьего лица, без оценок. Назовите себя нейтрально: «руководитель», «клиент», «сотрудник». Другую сторону — аналогично.
3. Разберите аргументы каждой стороны отдельно — что сделал верно, что нет. Сначала ваша позиция, потом их.
4. Попросите вердикт в конце — кто несёт большую ответственность за конфликт и почему. Если виноваты оба — пусть скажет прямо.
5. Опционально: повторите с другой стороны — попросите пересказать ту же историю от лица второго участника и оценить заново. Расхождение вердиктов покажет, насколько неоднозначна ситуация.

Примеры

[ПЛОХО] : Я поссорился с подрядчиком, который сорвал дедлайн. Он требует извинений. Кто прав?
[ХОРОШО] : Мне нужна нейтральная оценка конфликта. МОЯ ВЕРСИЯ: Я нанял подрядчика с дедлайном 20-го. Он прислал работу 25-го без предупреждения. Я написал в общий рабочий чат с клиентами: «Прошу учесть, что дедлайны не соблюдаются». Теперь он говорит, что я его унизил публично и требует извинений. СДЕЛАЙ ТАК: 1. Перескажи ситуацию нейтрально от третьего лица — без оценок. Я = «руководитель агентства», он = «фрилансер». 2. Разбери позицию руководителя агентства: что верно, что нет. 3. Разбери позицию фрилансера: что верно, что нет. 4. Вынеси вердикт: кто несёт большую ответственность за конфликт и почему.
Источник: The Fragility of Moral Judgment in Large Language Models
ArXiv ID: 2603.05651 | Сгенерировано: 2026-03-09 04:23

Проблемы LLM

ПроблемаСутьКак обойти
Рассказ от первого лица автоматически делает рассказчика правымПишешь "я сделал X, он обиделся" — модель склоняется к твоей правоте. Не потому что оценила факты. В текстах из обучения рассказчик обычно прав. Модель усвоила этот паттерн. Работает для любой задачи где просишь оценить спор, конфликт, ситуациюПопроси модель сначала пересказать историю от третьего лица. Без оценок. Потом — оценить этот нейтральный текст. Так снимается перекос до получения вердикта
Порядок "вердикт объяснение" меняет итогПросишь дать ответ, потом аргументы — модель ищет обоснования под уже принятое решение. Просишь сначала аргументы — рассуждение может привести к другому выводу. Разница в смене вердикта: 22–55% случаев. Это самый сильный фактор из всехВсегда проси сначала описать аргументы обеих сторон. Потом — итоговый вердикт. "Сначала опиши что сделала каждая сторона верно и неверно. Потом скажи кто несёт большую ответственность"

Методы

МетодСуть
Принудительный пересказ от третьего лица перед оценкойПишешь историю от первого лица как есть. Потом просишь модель пересказать её нейтрально — от третьего лица, без оценок. И только потом просишь оценить этот пересказ. "Перескажи ситуацию от третьего лица, без оценок. Называй меня «сотрудник», другую сторону — «менеджер». Потом оцени кто прав". Почему работает: пересказ убирает нарративную перспективу. Модель оценивает события, а не рассказчика. Когда применять: любая оценка конфликта, просьба рассудить спор, анализ чужого поведения. Когда не работает: если сам пересказ получился с перекосом — итоговая оценка тоже будет смещена

Тезисы

ТезисКомментарий
Фраза "все согласны со мной" — это доказательство для моделиМодель не проверяет правду ли это. Она воспринимает социальное доказательство как статистический сигнал: раз большинство согласны — нарратор скорее прав. Это не логика. Это паттерн из обучающих данных. Работает зеркально: "все говорят что я перегнул" — увеличивает вину нарратора. Применяй: если хочешь нейтральную оценку — убери из запроса любые фразы вроде "обычно я так и поступаю" или "знакомые на моей стороне". Они предсказуемо сдвигают вердикт
📖 Простыми словами

The Fragility Of Moral Judgment InLargeLanguageModels

arXiv: 2603.05651

Суть в том, что у нейросетей напрочь отсутствует внутренний моральный компас — их «этика» держится на честном слове и статистических паттернах из интернета. Когда ты просишь GPT-4 или Claude рассудить конфликт, они не вникают в справедливость, а просто подстраиваются под то, как упакована история. Если ты поменяешь «он» на «я», вердикт модели может развернуться на 180 градусов. Это фундаментальная хрупкость моральных суждений: модель не анализирует факты, она реагирует на литературные приемы.

Это как если бы судья в суде выносил приговор не по кодексу, а по тому, у кого из адвокатов галстук симпатичнее или голос жалобнее. Формально перед ним закон, но на деле он просто ведется на дешевую драматургию. Если ты рассказываешь историю от первого лица, нейросеть автоматически записывает тебя в «хорошие парни», потому что в обучающей выборке из интернета автор текста обычно всегда прав.

Главный косяк здесь в эффекте первого лица и социальном давлении. Исследование показало, что если добавить в описание фразу «все мои друзья со мной согласны», модель тут же прогибается и подтверждает твою правоту. Работает это на всех топовых движках: GPT-4.1, Claude, DeepSeek и Qwen лажают одинаково. Они обучены быть полезными и приятными собеседниками, поэтому вместо объективного разбора выдают тебе социальное одобрение, даже если ты в истории ведешь себя как последний гад.

Тестировали это на бытовых ссорах, но принцип универсален для любых оценочных задач. Это касается модерации контента, юридических советов или корпоративных разборок. Если ИИ-ассистент решает, кто нарушил правила или кто виноват в срыве дедлайна, его вердикт — это рандом, зависящий от того, кто первым успел накатать жалобу от первого лица. Объективности в LLM нет, есть только эхо твоего собственного нарратива.

Короче: никогда не используй нейросеть как арбитра в серьезных вопросах, где замешана мораль или ответственность. Она не «думает», она просто зеркалит твою подачу. Если хочешь получить хотя бы подобие честного ответа, нужно прогонять ситуацию через разные лица и контексты, иначе ты просто получишь подтверждение своих же заблуждений. Моральный выбор AI — это фикция, которая рассыпается от замены одного местоимения.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с