TL;DR
Медиация через LLM работает в два этапа: сначала модель оценивает конфликт — определяет справедливость аргументов, точки эскалации и эмоциональную динамику (judgment), затем генерирует сообщение, которое признаёт обеспокоенность обеих сторон и направляет к конструктиву (steering). Этот подход противопоставляет себя традиционной модерации (удаление токсичного контента), предлагая вместо этого деэскалацию — успокоение накала и возвращение к сути проблемы.
Традиционная модерация фокусируется на реакции: обнаружить и удалить. Но это не решает конфликт — просто прячет его проявления. В flame wars (затяжных перепалках в комментариях) обе стороны эмоционально вовлечены, обе видят себя правыми. Анонимность и отсутствие визуального контакта снижают самоконтроль — люди пишут резче, чем сказали бы в лицо. Удаление комментариев лишь загоняет конфликт глубже, не решая причину.
Исследователи протестировали 12 моделей (LLaMA, Qwen, GPT, Claude) на 504 реальных конфликтах из Reddit. API-модели (GPT-4.1, GPT-5, Claude 4.5) значительно обошли open-source: они лучше понимают нюансы ситуации и генерируют более сбалансированные медиирующие сообщения. Симуляция показала: после вмешательства LLM-медиатора токсичность в диалоге снижается, участники возвращаются к предмету спора.
Схема метода
ШАГ 1: Judgment (Оценка)
→ Какие аргументы справедливы, какие — переход на личности?
→ Где началась эмоциональная эскалация?
→ Что на самом деле беспокоит каждую сторону?
ШАГ 2: Steering (Медиация)
→ Сообщение, которое признаёт обе позиции
→ Снижает эмоциональный накал
→ Направляет к решению проблемы
Оба шага можно выполнить в одном промпте или разнести на два запроса для большей детализации анализа.
Пример применения
Задача: В Telegram-чате вашего ЖК разгорелся конфликт. Сосед Иван возмущён, что Пётр из квартиры над ним включает громкую музыку по вечерам. Пётр отвечает, что имеет право отдыхать после работы, и музыка не такая громкая. Переписка скатывается в обвинения: "совсем совести нет", "занудство какое-то". Вы — админ чата, хотите успокоить ситуацию, не банить участников.
Промпт:
Ты — медиатор в онлайн-конфликте. Твоя задача — деэскалировать ситуацию.
Шаг 1 (Judgment): Проанализируй конфликт:
- Какие аргументы справедливы у каждой стороны?
- Где переписка перешла с проблемы на личности?
- Что на самом деле беспокоит каждого участника?
Шаг 2 (Steering): Напиши сообщение в чат, которое:
- Признаёт обеспокоенность обеих сторон
- Снижает эмоциональный накал
- Предлагает направление для решения
Конфликт:
[вставить скриншот или текст переписки]
Результат:
Модель выдаст анализ: "Иван справедливо отмечает нарушение тишины после 23:00, но фраза 'совсем совести нет' переводит в личную атаку. Пётр прав, что имеет право на отдых, но игнорирует законные часы тишины. Реальная проблема — несогласованность по уровню шума и времени."
Затем — готовое сообщение для чата: "Иван, Пётр, вижу, что вы оба небезразличны к комфорту в доме. Иван, понимаю, что шум мешает сосредоточиться на работе. Пётр, понимаю, что хочется расслабиться после дня. Предлагаю найти середину: может, обсудить громкость или время? По закону тишина с 23:00, но можно договориться и о более комфортных для всех правилах."
Почему это работает
LLM плохи в односторонних вердиктах "кто прав, кто виноват" — такие оценки требуют контекста, которого часто нет, и культурных норм, которые модель знает неполно. Попытка судить "объективно" часто приводит к формальным, безжизненным ответам.
LLM сильны в эмпатическом понимании позиций — они умеют считывать эмоциональные сигналы, перефразировать обеспокоенность, находить общую почву. Это не требует "знания истины", а требует симуляции понимания — модель отражает каждую позицию, показывая участникам, что их услышали.
Двухэтапность структурирует процесс: сначала думай (judgment), потом говори (steering). Если модель сразу генерирует ответ, она может упустить нюансы или перекоситься в сторону одного участника. Явный анализ перед ответом заставляет модель взвесить аргументы, найти болевые точки, понять динамику эскалации — и только потом формулировать медиирующее сообщение.
Рычаги управления промптом:
- Степень детализации judgment → добавь "распиши каждый аргумент" для сложных конфликтов, убери для простых — экономия токенов
- Тон steering → укажи "официальный" для рабочих чатов, "дружелюбный" для сообществ по интересам
- Конкретика предложений → добавь "предложи 2-3 конкретных варианта решения", если хочешь не только успокоить, но и направить
- Видимость анализа → убери "Шаг 1" из итогового ответа, если хочешь только готовое сообщение, оставь, если хочешь прозрачность
Шаблон промпта
Ты — медиатор в онлайн-конфликте. Твоя задача — деэскалировать ситуацию.
Шаг 1 (Judgment): Проанализируй конфликт:
- Какие аргументы справедливы у каждой стороны?
- Где переписка перешла с проблемы на личности?
- Что на самом деле беспокоит каждого участника?
Шаг 2 (Steering): Напиши сообщение, которое:
- Признаёт обеспокоенность обеих сторон
- Снижает эмоциональный накал
- {желаемый исход: "направляет к решению" / "предлагает конкретные варианты" / "призывает к паузе"}
Конфликт: {текст переписки}
Контекст: {опционально: платформа, аудитория, правила сообщества}
Подставляй:
- {текст переписки} — скопируй сообщения конфликтующих сторон
- {желаемый исход} — что хочешь получить: просто успокоить, предложить решение, или призвать сделать паузу
- {контекст} — где происходит (рабочий чат, форум, комментарии), какие правила действуют
Ограничения
⚠️ Когда нужна модерация, а не медиация: Если конфликт включает прямые угрозы, доксинг, травлю — медиация не поможет. Здесь нужно удаление и бан. Медиация работает, когда обе стороны эмоционально вовлечены, но конфликт ещё не перешёл в откровенное насилие.
⚠️ API-модели значительно лучше open-source: В исследовании Claude 4.5 и GPT-5 показали оценки 8.4/10, в то время как LLaMA и Qwen — около 7.9-8.2/10. Open-source модели чаще упускают нюансы или генерируют менее сбалансированные сообщения.
⚠️ Осторожность в чувствительных темах: Модели заметно осторожнее в конфликтах про религию и спорт (оценки 7.8-8.0) по сравнению с играми и лайфстайлом (8.4+). В культурно или этически напряжённых темах модель может быть слишком сдержанной или формальной.
⚠️ Не заменяет человеческую медиацию: LLM помогает структурировать подход и снизить первичный накал, но сложные конфликты требуют живого диалога, понимания истории отношений и доверия к медиатору.
Как исследовали
Команда собрала 504 конфликтных треда из Reddit, охватив шесть доменов: игры, лайфстайл, религия, социальная справедливость, спорт и технологии (сабреддиты вроде r/gaming, r/Parenting, r/atheism, r/BlackLivesMatter, r/football, r/technology). Чтобы отфильтровать настоящие flame wars, каждый пост сначала оценили по шкале "накала конфликта" 0-10 через Gemini-2.5 — оставили только 7-10 баллов. Затем нашли в каждом треде двух главных спорщиков — тех, кто обменивался наибольшим количеством резких реплик. Извлекли не только их прямую переписку, но и ответы других участников в тех же ветках — чтобы сохранить полную картину эскалации.
Протестировали 12 моделей: 6 open-source (LLaMA-3.2-3B, LLaMA-3.1-8B, Qwen2.5-7B, Qwen3 разных размеров) и 6 API-based (Claude 3.5/4.5, GPT-4.1/5/5.1). Каждая модель проходила оба этапа: judgment (оценка конфликта) и steering (генерация медиирующего сообщения).
Оценивали тремя способами:
1. Principle-based evaluation — самая интересная механика. Исследователи попросили три мощные модели (GPT-5, Gemini-2.5, Claude-4.5) предложить для каждого конфликта 5-10 специфичных принципов оценки медиации. Например: "Признаёт ли сообщение обеспокоенность обеих сторон?", "Избегает ли оно морализаторства?", "Предлагает ли конкретный путь вперёд?". Затем GPT-4.1 свёл три списка в один, убрав дубликаты и противоречия. Люди проверили итоговый список, оставив только релевантные критерии. В результате — для каждого конфликта получился персонализированный чеклист качества медиации, по которому LLM-судья оценивал работу медиаторов от 1 до 10.
2. Симуляция пользователей — после генерации медиирующего сообщения его "вставляли" в конфликт (используя LLaMA-3-8B как симулятор участников) и смотрели, как изменится тон дальнейшей переписки. Замеряли: снизилась ли токсичность, стал ли тон конструктивнее, вернулись ли участники к сути проблемы.
3. Сравнение с людьми — взяли датасет человеческой медиации из предыдущих работ (включая Reddit-данные) и сопоставили LLM-медиации с человеческими по 11 метрикам: сложность предложений, читаемость, вопросы vs директивы, использование "ты"/"мы", количество токсичных слов.
Результаты удивили:
API-модели обошли open-source на 4-5% по всем метрикам. Claude 4.5-Haiku и Claude 4.5-Sonnet показали 8.41/10, GPT-5.1 — 8.36/10. LLaMA и Qwen застряли на 7.8-8.2/10. Разрыв особенно заметен в steering — API-модели генерируют более естественные, эмпатичные, сбалансированные сообщения.
Judgment и steering коррелируют — модели, которые хорошо анализируют конфликт, так же хорошо пишут медиирующие сообщения. Это значит, что обе задачи опираются на общие способности: понимание контекста, эмоционального подтекста, социальных норм. Нельзя научить модель хорошо медиировать, не научив её хорошо понимать конфликт.
Модели осторожничают в религии и спорте — оценки там на 0.3-0.5 балла ниже, чем в играх или лайфстайле. Возможно, модели распознают эти темы как культурно чувствительные и становятся сдержаннее, формальнее. Это не всегда плохо, но может делать медиацию менее живой.
Инсайт для практики: двухэтапность — не просто исследовательский дизайн, а эффективный паттерн промптинга. Модели лучше медиируют, если сначала явно анализируют ситуацию. Это подтверждает общий принцип: думай вслух перед ответом (Chain-of-Thought, но для медиации).
Адаптации и экстраполяции
🔧 Техника: Добавить третий шаг (Solution) → конкретные варианты решения
Если хочешь не только успокоить, но и направить к действию:
Шаг 3 (Solution): Предложи 2-3 конкретных варианта выхода из ситуации, которые учитывают интересы обеих сторон.
Это превращает медиацию из эмоциональной разрядки в практическое содействие.
🔧 Техника: Убрать Judgment из вывода → только готовое сообщение
Если анализ нужен только модели для подготовки, но не должен попасть в итоговый ответ:
Сначала про себя проанализируй конфликт (аргументы, эскалация, реальные беспокойства).
Затем напиши только медиирующее сообщение — без объяснения своего анализа.
Это полезно, когда ты вставляешь сообщение напрямую в чат и не хочешь, чтобы участники видели "внутреннюю кухню" модели.
🔧 Техника: Изменить тон под платформу → официальный/дружелюбный/ироничный
Контекст влияет на эффективность медиации:
Tone: {рабочий корпоративный / дружелюбный комьюнити / лёгкая ирония}
В корпоративном Slack нужна сдержанность, в Discord-сервере игроков — неформальность, в чате стендаперов — лёгкая самоирония может разрядить обстановку.
Ресурсы
From Moderation to Mediation: Can LLMs Serve as Mediators in Online Flame Wars?
Dawei Li, Abdullah Alnaibari, Muhammad Arslan, Manny Sandoval, Deborah Hall, Yasin Silva, Huan Liu
Arizona State University, Loyola University Chicago
Отсылки к предыдущим работам по детекции токсичности, онлайн-модерации и flame wars [3,11,17]; применению LLM для образования [15,16], здравоохранения [5,8]; исследованиям анонимности и групповой поляризации в онлайн-дискуссиях [4,6,14].
