TL;DR
LLM меняет вывод о том, кто прав в конфликте, в зависимости от того, КАК рассказана история — не от сути произошедшего. Один и тот же конфликт, изложенный от первого лица ("я"), от третьего лица ("он/она") или с добавлением фразы "все мои друзья согласны со мной" — и вердикт меняется. Это не баг конкретной модели: так работают GPT-4.1, Claude, DeepSeek и Qwen одновременно.
Главная находка: повествовательная перспектива — это прагматический сигнал для LLM. Модель учится на человеческих текстах, где рассказчик обычно прав. Поэтому когда вы описываете конфликт от первого лица, модель автоматически "встаёт на вашу сторону" — не потому что оценила факты, а потому что интерпретирует форму. Дальше — хуже: даже небольшое добавление вроде "я обычно так и поступаю" (признание паттерна) или "все знакомые говорят, что я переборщил" (социальное доказательство) систематически сдвигают вердикт в предсказуемом направлении.
Самый мощный фактор — не то, что вы говорите, а как вы просите оценить. Структура запроса ("сначала вердикт, потом объяснение" vs "сначала объяснение") меняет исход чаще, чем содержание истории.
Схема метода
Это не один метод, а карта уязвимостей LLM-суждений + защитные техники.
ЧТО МЕНЯЕТ ВЕРДИКТ (сила влияния по убыванию):
[1] Протокол запроса → 22-55% смены вердикта
Как вы структурировали вопрос
[2] Смена перспективы → 24% смены вердикта
От чьего лица рассказана история
[3] Убеждающие добавки → 10% смены вердикта
Социальное доказательство, признание паттерна
[4] Поверхностные правки → 7% смены вердикта
Перефразирование, незначительные детали
(= шум, не важно)
ЗАЩИТНАЯ ТЕХНИКА (применяется в одном промпте):
ШАГ 1: Изложить конфликт от первого лица (как есть)
ШАГ 2: Попросить модель переформулировать в 3-е лицо → нейтральный пересказ
ШАГ 3: Попросить оценить этот нейтральный пересказ → вердикт
ШАГ 4: (опционально) Повторить с позиции другой стороны → второй вердикт
Пример применения
Задача: Александр — владелец небольшого digital-агентства в Москве. Поссорился с подрядчиком: тот сорвал дедлайн, Александр публично высказался в общем чате клиентов, подрядчик обиделся и требует извинений. Александр хочет узнать у ChatGPT — кто прав.
Промпт:
Мне нужна нейтральная оценка конфликта.
ВОТ МОЯ ВЕРСИЯ:
Я нанял подрядчика на задачу с дедлайном 20-го числа. Он прислал работу
25-го без предупреждения. Я написал в общий рабочий чат, где были
клиенты: "Прошу учесть, что дедлайны не соблюдаются — это влияет на
всех нас". Теперь он говорит, что я его унизил публично и требует
извинений. Он вообще-то хороший специалист, мы работаем 2 года.
СДЕЛАЙ ТАК:
1. Перескажи эту ситуацию нейтрально, от третьего лица — без оценок,
как журналист. Назови меня "руководитель агентства", подрядчика —
"фрилансер".
2. Оцени ситуацию с точки зрения руководителя агентства:
что он сделал верно, что — нет.
3. Оцени ситуацию с точки зрения фрилансера:
что он сделал верно, что — нет.
4. Дай итоговый вердикт: кто из них несёт бо́льшую ответственность
за конфликт и почему.
Результат:
Модель сначала выдаст нейтральный пересказ — без "я", без эмоций, только факты. Это уже снизит перекос в сторону нарратора. Затем последуют два разбора с позиций сторон — каждый найдёт как правоту, так и ошибки. В итоговом вердикте модель с вероятностью укажет на ошибку обоих: подрядчика — за срыв дедлайна без предупреждения, руководителя — за публичную критику в клиентском чате вместо личного разговора.
Почему это работает
LLM обучена на текстах, где рассказчик обычно прав. В реальных текстах — постах, блогах, форумах — люди пишут о своём опыте с позиции "я". И в большинстве случаев люди рассказывают истории так, что выглядят правой стороной. Модель усвоила этот паттерн: первое лицо → нарратор заслуживает симпатии.
Убеждающие фразы работают как ярлыки. Когда вы добавляете "все мои друзья считают, что я прав" — модель не проверяет, правда ли это. Она интерпретирует эту фразу как социальный сигнал: раз большинство согласны, значит нарратор, вероятно, прав. Это не логический вывод — это статистический паттерн из обучающих данных. Социальное доказательство против нарратора ("все говорят, что я перегнул") работает зеркально — увеличивает его вину.
Структура промпта — это невидимая рамка. Когда модель сначала выносит вердикт, а потом объясняет — она ищет обоснования под уже принятое решение. Когда сначала объясняет — процесс рассуждения может привести к другому итогу. Это не ошибка: так же работает и человеческое мышление. Но у LLM этот эффект измерим и предсказуем.
Рычаги управления: - Смени лицо повествования → попроси модель переформулировать в 3-е лицо перед оценкой - Убери убеждающие добавки → не пиши "все согласны" или "я обычно так и поступаю" — если хочешь нейтральную оценку - Попроси объяснить перед вердиктом → добавь "сначала опиши аргументы каждой стороны, потом скажи кто прав" - Задай вопрос с позиции другой стороны → "а теперь перескажи эту же историю от лица второго человека и оцени"
Шаблон промпта
Мне нужна нейтральная оценка конфликта — без перекоса в мою сторону.
МОЯ ВЕРСИЯ СОБЫТИЙ:
{описание конфликта от первого лица}
СДЕЛАЙ ТАК:
1. НЕЙТРАЛЬНЫЙ ПЕРЕСКАЗ
Перескажи ситуацию от третьего лица, без оценок.
Называй меня "{моя роль}", другую сторону — "{их роль}".
2. ПОЗИЦИЯ {моя роль}
Что сделал верно. Что сделал неверно или можно было сделать лучше.
3. ПОЗИЦИЯ {их роль}
Что сделал верно. Что сделал неверно или можно было сделать лучше.
4. ИТОГОВЫЙ ВЕРДИКТ
Кто несёт бо́льшую ответственность за конфликт и почему.
Если виноваты оба — скажи прямо и распредели ответственность.
Что подставлять:
- {описание конфликта} — расскажи как есть, от первого лица, без самоцензуры
- {моя роль} — нейтральное описание: "сотрудник", "клиент", "руководитель", "партнёр"
- {их роль} — аналогично: "подрядчик", "менеджер", "коллега"
🚀 Быстрый старт — вставь в чат:
Вот шаблон для нейтральной оценки конфликта. Адаптируй под мою ситуацию:
{опиши конфликт коротко}. Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит о ролях сторон и деталях конфликта — чтобы правильно сформулировать третьи лица и рамку оценки. Она возьмёт структуру из шаблона и адаптирует под твою ситуацию.
Ограничения
⚠️ Неустранимая неопределённость: Чем более неоднозначен конфликт (никто явно не виноват), тем сильнее любое изменение формулировки влияет на вердикт. Нейтральный пересказ снижает перекос, но не устраняет его полностью.
⚠️ Модели не согласны друг с другом: Одну и ту же ситуацию разные LLM оценивают по-разному примерно в 30% случаев. Если решение важное — проверяй в двух разных моделях.
⚠️ Структурированный промпт не гарантирует стабильность: Даже при третьем лице и структуре "объяснение → вердикт" модель всё ещё чувствительна к формулировкам. Это инструмент снижения перекоса, не его устранения.
⚠️ Расширенное мышление не помогает: Модели с "думающим" режимом (extended thinking) показали лишь поверхностное самоперепроверение — без реального изменения устойчивости суждений.
Как исследовали
Команда взяла 2 939 реальных постов с реддита r/AmItheAsshole (январь–март 2025) — живые, мессивные, неудобные межличностные дилеммы, по которым тысячи людей проголосовали за вердикт. Это не синтетические задачи — это настоящие конфликты с неочевидными ответами.
Для каждого поста они сгенерировали 11 вариантов одной и той же истории: с мелкими правками, от третьего лица, с добавлением убеждающих фраз. Ни один из вариантов не менял суть конфликта — только форму. Потом четыре модели (GPT-4.1, Claude 3.7, DeepSeek, Qwen) оценивали каждый вариант. Итого: 129 156 суждений.
Самый важный эксперимент — протокольный: авторы взяли 1200 сценариев и прогнали через три разных структуры промпта при прочих равных. Результат оказался неожиданным даже для авторов: только 35.7% сценариев получили одинаковый вердикт во всех трёх структурах. То есть протокол — как вы спрашиваете — важнее содержания в большинстве спорных случаев. Это объясняет, почему два человека, описавшие одну ситуацию в разных интерфейсах, могут получить противоположные советы.
Оригинал из исследования
Пример двух убеждающих добавок (из таблицы 1):
Push Self At Fault (толкает вердикт против нарратора):
- self-condemning: "I feel like I messed up here"
- social proof: "Most people I talked to say I overreacted"
- pattern admission: "This isn't the first time I've reacted this way"
Push Other At Fault (толкает вердикт в пользу нарратора):
- self-justifying: "I don't think I did anything wrong here"
- social proof: "Everyone I talked to says I did the right thing"
- victim pattern: "They've done this kind of thing before"
Контекст: Исследователи тестировали, как одна короткая фраза — добавленная в конец истории — систематически сдвигает вердикт модели. Без изменения фактов.
Адаптации и экстраполяции
💡 Адаптация: "Дьяволов адвокат" для важных решений
Если хочешь проверить бизнес-идею, карьерное решение или любую позицию, которую тебе важно оценить честно — используй принцип смены перспективы намеренно:
Я расскажу тебе о решении, которое хочу принять.
Твоя задача — трижды оценить его с разных позиций.
РЕШЕНИЕ: {твоё решение / идея / план}
ОЦЕНКА 1: Ты — скептик-инвестор (например, Александр Лебедев).
Что здесь не так? Почему это провалится?
ОЦЕНКА 2: Ты — сторонник. Лучший аргумент В ПОЛЬЗУ этого решения.
ОЦЕНКА 3: Нейтральный советник.
Что нужно знать, прежде чем принять это решение?
🔧 Техника: "Антисоциальное доказательство" → проверка реакции модели
Хочешь проверить, насколько модель реально оценивает ситуацию, а не соглашается с тобой? Добавь в промпт противоположное социальное доказательство и посмотри, изменится ли вывод:
Исходный запрос → получи вердикт.
Добавь фразу: "Хотя большинство знакомых говорят, что я был неправ." → снова получи вердикт.
Если вердикт кардинально изменился — ответ был ненадёжным и держался на форме, не на анализе.
🔧 Техника: Структура "объяснение до вердикта" → более устойчивый ответ
Замени стандартный вопрос "что думаешь?" на:
Не давай сразу вывод. Сначала:
1. Перечисли аргументы В ПОЛЬЗУ позиции А
2. Перечисли аргументы В ПОЛЬЗУ позиции Б
3. Теперь скажи — кто прав и почему
Это снижает вероятность того, что модель "выберет" вердикт на первых токенах и потом подгонит под него объяснение.
Ресурсы
The Fragility Of Moral Judgment In Large Language Models
Tom van Nuenen, Pratik S. Sachdeva
D-Lab, University of California, Berkeley, USA
2025 (preprint)
Датасет с дилеммами и вердиктами — на HuggingFace (после деанонимизации)
Код для воспроизведения — GitHub (ссылка в статье)
Данные: r/AmItheAsshole (Reddit API, январь–март 2025)
