3,583 papers
arXiv:2512.03005 77 2 дек. 2025 г. FREE

Медиация онлайн-конфликтов: от модерации к деэскалации через LLM

КЛЮЧЕВАЯ СУТЬ
Парадокс: удаление токсичных комментариев загоняет конфликт глубже, не решает его. В затяжных интернет-перепалках обе стороны видят себя правыми, анонимность снижает самоконтроль. Метод LLM-медиации позволяет успокоить накал без банов и удалений. Модель сначала оценивает конфликт (чьи аргументы справедливы, где началась эскалация), затем генерирует сообщение которое признаёт обе позиции — участники чувствуют что их услышали, возвращаются к диалогу. Тест на 504 реальных конфликтах из Reddit: API-модели обошли open-source 8.4/10 vs 7.9-8.2 — точнее читают нюансы.
Адаптировать под запрос

TL;DR

Медиация через LLM работает в два этапа: сначала модель оценивает конфликт — определяет справедливость аргументов, точки эскалации и эмоциональную динамику (judgment), затем генерирует сообщение, которое признаёт обеспокоенность обеих сторон и направляет к конструктиву (steering). Этот подход противопоставляет себя традиционной модерации (удаление токсичного контента), предлагая вместо этого деэскалацию — успокоение накала и возвращение к сути проблемы.

Традиционная модерация фокусируется на реакции: обнаружить и удалить. Но это не решает конфликт — просто прячет его проявления. В flame wars (затяжных перепалках в комментариях) обе стороны эмоционально вовлечены, обе видят себя правыми. Анонимность и отсутствие визуального контакта снижают самоконтроль — люди пишут резче, чем сказали бы в лицо. Удаление комментариев лишь загоняет конфликт глубже, не решая причину.

Исследователи протестировали 12 моделей (LLaMA, Qwen, GPT, Claude) на 504 реальных конфликтах из Reddit. API-модели (GPT-4.1, GPT-5, Claude 4.5) значительно обошли open-source: они лучше понимают нюансы ситуации и генерируют более сбалансированные медиирующие сообщения. Симуляция показала: после вмешательства LLM-медиатора токсичность в диалоге снижается, участники возвращаются к предмету спора.


🔬

Схема метода

ШАГ 1: Judgment (Оценка)
→ Какие аргументы справедливы, какие — переход на личности?
→ Где началась эмоциональная эскалация?
→ Что на самом деле беспокоит каждую сторону?

ШАГ 2: Steering (Медиация)
→ Сообщение, которое признаёт обе позиции
→ Снижает эмоциональный накал
→ Направляет к решению проблемы

Оба шага можно выполнить в одном промпте или разнести на два запроса для большей детализации анализа.


🚀

Пример применения

Задача: В Telegram-чате вашего ЖК разгорелся конфликт. Сосед Иван возмущён, что Пётр из квартиры над ним включает громкую музыку по вечерам. Пётр отвечает, что имеет право отдыхать после работы, и музыка не такая громкая. Переписка скатывается в обвинения: "совсем совести нет", "занудство какое-то". Вы — админ чата, хотите успокоить ситуацию, не банить участников.

Промпт:

Ты — медиатор в онлайн-конфликте. Твоя задача — деэскалировать ситуацию.

Шаг 1 (Judgment): Проанализируй конфликт:
- Какие аргументы справедливы у каждой стороны?
- Где переписка перешла с проблемы на личности?
- Что на самом деле беспокоит каждого участника?

Шаг 2 (Steering): Напиши сообщение в чат, которое:
- Признаёт обеспокоенность обеих сторон
- Снижает эмоциональный накал
- Предлагает направление для решения

Конфликт:
[вставить скриншот или текст переписки]

Результат:

Модель выдаст анализ: "Иван справедливо отмечает нарушение тишины после 23:00, но фраза 'совсем совести нет' переводит в личную атаку. Пётр прав, что имеет право на отдых, но игнорирует законные часы тишины. Реальная проблема — несогласованность по уровню шума и времени."

Затем — готовое сообщение для чата: "Иван, Пётр, вижу, что вы оба небезразличны к комфорту в доме. Иван, понимаю, что шум мешает сосредоточиться на работе. Пётр, понимаю, что хочется расслабиться после дня. Предлагаю найти середину: может, обсудить громкость или время? По закону тишина с 23:00, но можно договориться и о более комфортных для всех правилах."


🧠

Почему это работает

LLM плохи в односторонних вердиктах "кто прав, кто виноват" — такие оценки требуют контекста, которого часто нет, и культурных норм, которые модель знает неполно. Попытка судить "объективно" часто приводит к формальным, безжизненным ответам.

LLM сильны в эмпатическом понимании позиций — они умеют считывать эмоциональные сигналы, перефразировать обеспокоенность, находить общую почву. Это не требует "знания истины", а требует симуляции понимания — модель отражает каждую позицию, показывая участникам, что их услышали.

Двухэтапность структурирует процесс: сначала думай (judgment), потом говори (steering). Если модель сразу генерирует ответ, она может упустить нюансы или перекоситься в сторону одного участника. Явный анализ перед ответом заставляет модель взвесить аргументы, найти болевые точки, понять динамику эскалации — и только потом формулировать медиирующее сообщение.

Рычаги управления промптом:

  • Степень детализации judgment → добавь "распиши каждый аргумент" для сложных конфликтов, убери для простых — экономия токенов
  • Тон steering → укажи "официальный" для рабочих чатов, "дружелюбный" для сообществ по интересам
  • Конкретика предложений → добавь "предложи 2-3 конкретных варианта решения", если хочешь не только успокоить, но и направить
  • Видимость анализа → убери "Шаг 1" из итогового ответа, если хочешь только готовое сообщение, оставь, если хочешь прозрачность

📋

Шаблон промпта

Ты — медиатор в онлайн-конфликте. Твоя задача — деэскалировать ситуацию.

Шаг 1 (Judgment): Проанализируй конфликт:
- Какие аргументы справедливы у каждой стороны?
- Где переписка перешла с проблемы на личности?
- Что на самом деле беспокоит каждого участника?

Шаг 2 (Steering): Напиши сообщение, которое:
- Признаёт обеспокоенность обеих сторон
- Снижает эмоциональный накал
- {желаемый исход: "направляет к решению" / "предлагает конкретные варианты" / "призывает к паузе"}

Конфликт: {текст переписки}
Контекст: {опционально: платформа, аудитория, правила сообщества}

Подставляй: - {текст переписки} — скопируй сообщения конфликтующих сторон - {желаемый исход} — что хочешь получить: просто успокоить, предложить решение, или призвать сделать паузу - {контекст} — где происходит (рабочий чат, форум, комментарии), какие правила действуют


⚠️

Ограничения

⚠️ Когда нужна модерация, а не медиация: Если конфликт включает прямые угрозы, доксинг, травлю — медиация не поможет. Здесь нужно удаление и бан. Медиация работает, когда обе стороны эмоционально вовлечены, но конфликт ещё не перешёл в откровенное насилие.

⚠️ API-модели значительно лучше open-source: В исследовании Claude 4.5 и GPT-5 показали оценки 8.4/10, в то время как LLaMA и Qwen — около 7.9-8.2/10. Open-source модели чаще упускают нюансы или генерируют менее сбалансированные сообщения.

⚠️ Осторожность в чувствительных темах: Модели заметно осторожнее в конфликтах про религию и спорт (оценки 7.8-8.0) по сравнению с играми и лайфстайлом (8.4+). В культурно или этически напряжённых темах модель может быть слишком сдержанной или формальной.

⚠️ Не заменяет человеческую медиацию: LLM помогает структурировать подход и снизить первичный накал, но сложные конфликты требуют живого диалога, понимания истории отношений и доверия к медиатору.


🔍

Как исследовали

Команда собрала 504 конфликтных треда из Reddit, охватив шесть доменов: игры, лайфстайл, религия, социальная справедливость, спорт и технологии (сабреддиты вроде r/gaming, r/Parenting, r/atheism, r/BlackLivesMatter, r/football, r/technology). Чтобы отфильтровать настоящие flame wars, каждый пост сначала оценили по шкале "накала конфликта" 0-10 через Gemini-2.5 — оставили только 7-10 баллов. Затем нашли в каждом треде двух главных спорщиков — тех, кто обменивался наибольшим количеством резких реплик. Извлекли не только их прямую переписку, но и ответы других участников в тех же ветках — чтобы сохранить полную картину эскалации.

Протестировали 12 моделей: 6 open-source (LLaMA-3.2-3B, LLaMA-3.1-8B, Qwen2.5-7B, Qwen3 разных размеров) и 6 API-based (Claude 3.5/4.5, GPT-4.1/5/5.1). Каждая модель проходила оба этапа: judgment (оценка конфликта) и steering (генерация медиирующего сообщения).

Оценивали тремя способами:

1. Principle-based evaluation — самая интересная механика. Исследователи попросили три мощные модели (GPT-5, Gemini-2.5, Claude-4.5) предложить для каждого конфликта 5-10 специфичных принципов оценки медиации. Например: "Признаёт ли сообщение обеспокоенность обеих сторон?", "Избегает ли оно морализаторства?", "Предлагает ли конкретный путь вперёд?". Затем GPT-4.1 свёл три списка в один, убрав дубликаты и противоречия. Люди проверили итоговый список, оставив только релевантные критерии. В результате — для каждого конфликта получился персонализированный чеклист качества медиации, по которому LLM-судья оценивал работу медиаторов от 1 до 10.

2. Симуляция пользователей — после генерации медиирующего сообщения его "вставляли" в конфликт (используя LLaMA-3-8B как симулятор участников) и смотрели, как изменится тон дальнейшей переписки. Замеряли: снизилась ли токсичность, стал ли тон конструктивнее, вернулись ли участники к сути проблемы.

3. Сравнение с людьми — взяли датасет человеческой медиации из предыдущих работ (включая Reddit-данные) и сопоставили LLM-медиации с человеческими по 11 метрикам: сложность предложений, читаемость, вопросы vs директивы, использование "ты"/"мы", количество токсичных слов.

Результаты удивили:

API-модели обошли open-source на 4-5% по всем метрикам. Claude 4.5-Haiku и Claude 4.5-Sonnet показали 8.41/10, GPT-5.1 — 8.36/10. LLaMA и Qwen застряли на 7.8-8.2/10. Разрыв особенно заметен в steering — API-модели генерируют более естественные, эмпатичные, сбалансированные сообщения.

Judgment и steering коррелируют — модели, которые хорошо анализируют конфликт, так же хорошо пишут медиирующие сообщения. Это значит, что обе задачи опираются на общие способности: понимание контекста, эмоционального подтекста, социальных норм. Нельзя научить модель хорошо медиировать, не научив её хорошо понимать конфликт.

Модели осторожничают в религии и спорте — оценки там на 0.3-0.5 балла ниже, чем в играх или лайфстайле. Возможно, модели распознают эти темы как культурно чувствительные и становятся сдержаннее, формальнее. Это не всегда плохо, но может делать медиацию менее живой.

Инсайт для практики: двухэтапность — не просто исследовательский дизайн, а эффективный паттерн промптинга. Модели лучше медиируют, если сначала явно анализируют ситуацию. Это подтверждает общий принцип: думай вслух перед ответом (Chain-of-Thought, но для медиации).


💡

Адаптации и экстраполяции

🔧 Техника: Добавить третий шаг (Solution) → конкретные варианты решения

Если хочешь не только успокоить, но и направить к действию:

Шаг 3 (Solution): Предложи 2-3 конкретных варианта выхода из ситуации, которые учитывают интересы обеих сторон.

Это превращает медиацию из эмоциональной разрядки в практическое содействие.


🔧 Техника: Убрать Judgment из вывода → только готовое сообщение

Если анализ нужен только модели для подготовки, но не должен попасть в итоговый ответ:

Сначала про себя проанализируй конфликт (аргументы, эскалация, реальные беспокойства).
Затем напиши только медиирующее сообщение — без объяснения своего анализа.

Это полезно, когда ты вставляешь сообщение напрямую в чат и не хочешь, чтобы участники видели "внутреннюю кухню" модели.


🔧 Техника: Изменить тон под платформу → официальный/дружелюбный/ироничный

Контекст влияет на эффективность медиации:

Tone: {рабочий корпоративный / дружелюбный комьюнити / лёгкая ирония}

В корпоративном Slack нужна сдержанность, в Discord-сервере игроков — неформальность, в чате стендаперов — лёгкая самоирония может разрядить обстановку.


🔗

Ресурсы

From Moderation to Mediation: Can LLMs Serve as Mediators in Online Flame Wars?

Dawei Li, Abdullah Alnaibari, Muhammad Arslan, Manny Sandoval, Deborah Hall, Yasin Silva, Huan Liu

Arizona State University, Loyola University Chicago

Отсылки к предыдущим работам по детекции токсичности, онлайн-модерации и flame wars [3,11,17]; применению LLM для образования [15,16], здравоохранения [5,8]; исследованиям анонимности и групповой поляризации в онлайн-дискуссиях [4,6,14].


📋 Дайджест исследования

Ключевая суть

Парадокс: удаление токсичных комментариев загоняет конфликт глубже, не решает его. В затяжных интернет-перепалках обе стороны видят себя правыми, анонимность снижает самоконтроль. Метод LLM-медиации позволяет успокоить накал без банов и удалений. Модель сначала оценивает конфликт (чьи аргументы справедливы, где началась эскалация), затем генерирует сообщение которое признаёт обе позиции — участники чувствуют что их услышали, возвращаются к диалогу. Тест на 504 реальных конфликтах из Reddit: API-модели обошли open-source 8.4/10 vs 7.9-8.2 — точнее читают нюансы.

Принцип работы

Не "Удали токсичное → тишина", а "Оцени → признай → направь". Шаг 1 (Оценка): какие аргументы справедливы у каждой стороны, где переписка скатилась на личности, что реально беспокоит участников. Шаг 2 (Медиация): сгенерируй ответ который признаёт обеспокоенность обеих сторон, снижает эмоциональный накал, предлагает направление к решению. Ключ: не судить "кто прав", а отразить обе позиции — показать что каждого услышали.

Почему работает

LLM плохи в односторонних вердиктах "кто прав" — это требует культурного контекста которого нет полностью. Но модели сильны в эмпатическом понимании позиций — умеют считывать эмоциональные сигналы, перефразировать обеспокоенность, находить общую почву. Это не требует "знания истины", требует симуляции понимания — модель отражает каждую позицию, показывая что их услышали. Двухэтапность критична: явный анализ перед ответом заставляет модель взвесить аргументы, найти болевые точки, понять динамику эскалации — и только потом формулировать медиирующее сообщение. Симуляция показала: после вмешательства LLM-медиатора токсичность в диалоге снижается, участники возвращаются к предмету спора.

Когда применять

Управление сообществами и чатами → конкретно для деэскалации затяжных перепалок, особенно когда обе стороны эмоционально вовлечены и видят себя правыми. Работает в рабочих чатах, форумах, Telegram-сообществах, обсуждениях на Reddit. НЕ подходит для прямых угроз, публикации личных данных, травли — там нужна модерация (удаление + бан), а не медиация.

Мини-рецепт

1. Задай роль: медиатор который деэскалирует конфликт
2. Оценка: Попроси проанализировать — какие аргументы справедливы у каждой стороны, где переписка скатилась на личности, что реально беспокоит участников
3. Медиация: Попроси сгенерировать ответ который признаёт обе позиции, снижает накал, направляет к решению
4. Контекст: Подставь текст переписки + укажи платформу (рабочий чат / форум / комментарии) и правила сообщества

Примеры

[ПЛОХО] : Кто из них прав в этом споре? (Просишь вердикт — получишь формальный ответ без деэскалации)
[ХОРОШО] : Ты — медиатор в онлайн-конфликте. Проанализируй: какие аргументы справедливы у каждой стороны, где переписка перешла на личности. Затем напиши сообщение которое признаёт обе позиции и снижает накал. Конфликт: [вставить текст]. Контекст: рабочий чат, правила: конструктивная критика приветствуется, переходы на личности запрещены
Источник: From Moderation to Mediation: Can LLMs Serve as Mediators in Online Flame Wars?
ArXiv ID: 2512.03005 | Сгенерировано: 2026-01-08 22:21
📖 Простыми словами

Медиация онлайн-конфликтов: от модерации к деэскалации через LLM

arXiv: 2512.03005

AI-ассистенты больше не хотят быть просто цифровыми вышибалами, которые молча удаляют посты. Суть новой механики в том, что LLM переходит от тупой модерации к полноценной медиации. Вместо того чтобы просто стирать «токсичный» контент, модель работает как психолог-переговорщик: она сначала вскрывает корень конфликта через judgment (кто на что обиделся и где точка кипения), а затем делает steering — вбрасывает в чат сообщение, которое признает боль обеих сторон и переводит диалог из режима «сам дурак» в конструктив. Модель не ищет виноватых, она гасит пожар, пока он не спалил всю ветку комментариев.

Это как если бы в разгар пьяной драки в баре между парнями встал не огромный охранник с дубинкой, а очень вежливый и авторитетный бармен. Он не выкидывает никого на мороз, а говорит: «Парни, я понимаю, один устал, другому скучно, давайте я вам обоим налью по кружке за счет заведения, и обсудим музыку». Деэскалация работает лучше запретов, потому что она не оставляет у участников чувства несправедливости, которое обычно и заставляет их возвращаться с фейковых аккаунтов, чтобы продолжать срач.

В основе метода лежат два конкретных этапа: оценка справедливости аргументов и генерация примиряющего ответа. Исследование показывает, что LLM лажают, когда пытаются вынести финальный вердикт «кто прав», потому что у них нет контекста вашей жизни. Но они чертовски хороши в эмоциональной валидации — когда нужно написать фразу типа «я понимаю, что шум мешает отдыхать, но и право на досуг тоже важно». Модель цепляется за точки эскалации (оскорбления, переход на личности) и ювелирно их обходит, подменяя агрессию на социально приемлемые формулировки.

Хотя тестировали это на сетевых перепалках, принцип универсален. Эту схему можно внедрять в корпоративные мессенджеры, службы поддержки или даже в комментарии под сложными статьями. Везде, где есть риск, что обсуждение превратится в flame war, медиация через AI сработает лучше, чем бан-хаммер. Это переход от карательной политики к управлению атмосферой: модерация удаляет контент, медиация сохраняет сообщество.

Короче: хватит играть в судей и пытаться найти «объективную истину» там, где её нет. LLM должны не судить, а направлять диалог, признавая чувства участников. 10 из 10 конфликтов затухают быстрее, если людям дать понять, что их услышали, вместо того чтобы просто заткнуть им рот. Кто первым внедрит таких «умных миротворцев» в свои чаты, тот забудет про выгорание модераторов и бесконечные жалобы пользователей.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с