3,583 papers
arXiv:2512.15031 67 16 дек. 2025 г. FREE

Ранние маркеры конфликта в онлайн-дискуссиях: паттерны срыва разговора

КЛЮЧЕВАЯ СУТЬ
Что это и как работает: Исследование выявило предсказуемые паттерны, по которым технические обсуждения скатываются в токсичность. Команда проанализировала 159 токсичных и 207 нормальных обсуждений на GitHub, выделила точки срыва (derailment points) — моменты, когда разговор поворачивает от продуктивного к деструктивному.
Адаптировать под запрос

TL;DR

Что это и как работает: Исследование выявило предсказуемые паттерны, по которым технические обсуждения скатываются в токсичность. Команда проанализировала 159 токсичных и 207 нормальных обсуждений на GitHub, выделила точки срыва (derailment points) — моменты, когда разговор поворачивает от продуктивного к деструктивному.

Главная находка: Срыв происходит резко и близко к токсичности. Медиана — всего 3 комментария между первым сигналом срыва и откровенным хамством. 64% токсичных реплик появляются в течение 24 часов после срыва. При этом срыв выдают узнаваемые лингвистические маркеры: резкий рост местоимений "ты/вы" (+16.8% относительно обычных комментариев), вопросов "почему/как" (+13.2%), отрицаний "нет/не" (+14.9%), плюс тональности фрустрации (43% случаев) и нетерпения (23% случаев). Это не ещё не хамство, но уже аргументативная позиция с личным фокусом.

Суть метода: Исследователи создали LLM-метод предсказания срыва через двухшаговый промптинг. Шаг 1: модель генерирует Summary of Conversation Dynamics (SCD) — выжимку эмоциональной динамики и паттернов взаимодействия из истории диалога. Шаг 2: на основе этой выжимки модель оценивает вероятность срыва. Метод показал F1-score 0.90 на тестовых данных.


📌

Схема двухшагового анализа

ШАГ 1: Least-to-Most промптинг → SCD (Summary of Conversation Dynamics) - Модель анализирует комментарии по порядку - Выделяет: динамику тона, триггеры напряжения, паттерны взаимодействия - Генерирует текстовое резюме: ЧТО происходит между участниками

ШАГ 2: SCD + контекст → вероятность срыва - На вход: SCD из шага 1 - Модель оценивает: насколько высок риск скатывания в токсичность - Выход: вероятность + объяснение

Примечание: Для предсказания используются только комментарии ДО первой токсичной реплики.


📌

Паттерны срыва: что искать

📌

Лингвистические маркеры

В комментариях-предвестниках срыва резко растут:

Таргетирование собеседника: - +16.8% местоимений "ты", "вы", "твой" (60.7% vs 43.9% в обычных комментариях) - Переход от безличного "можно было бы" к прямому "ты не сделал"

Аргументативные конструкции: - +13.2% WH-вопросов: "почему", "как", "зачем" (57.1% vs 43.9%) - +14.9% отрицаний: "нет", "не", "никогда" (70.2% vs 55.3%) - 70.4% терминов рассуждения: "потому что", "ведь", "так как"

Эскалация: - +10.9% слов-усилителей: "вообще", "на самом деле", "совсем" (53.4% vs 42.5%) - +8.6% глаголов коммуникации: "говорить", "утверждать", "заявлять" (33.5% vs 24.9%)

📌

Тональные сигналы

Топ-4 маркера срыва (до токсичности):

Тон % в точках срыва Пример
Горькая фрустрация 42.8% "Никакого ответа, никакой реакции, что за поддержка такая"
Нетерпение 22.7% "Проблема не исправлена 30 дней? Значит, забили"
Сарказм/Ирония 9.9% "Может, запишете это где-нибудь? Ну, типа, в документации"
Оскорбления 5.8% "Выглядит как сделано пятилетним ребёнком"

Динамика: Фрустрация и нетерпение — ранние сигналы. Оскорбления и мат — уже токсичность, поздно предсказывать.

📌

Временные паттерны

  • Медианная дистанция: 3 комментария от срыва до токсичности
  • 46% токсичных реплик — в течение 8 часов после срыва
  • 64% — в течение 24 часов
  • 25%+ случаев — токсичность приходит через 7+ дней (конфликт тлеет)

Вывод: Окно вмешательства узкое. Если увидел маркеры срыва — действовать нужно быстро.


🚀

Пример применения

Задача: Ты модератор чата техподдержки SaaS-сервиса (например, CRM для малого бизнеса). Клиент жалуется на баг, тикет висит неделю. Хочешь проверить: не скатывается ли диалог в конфликт?

Промпт:

Проанализируй этот диалог между клиентом и поддержкой. 

Шаг 1 — создай Summary of Conversation Dynamics (SCD):
- Как меняется тон клиента от сообщения к сообщению?
- Есть ли триггеры напряжения (задержки, игнорирование, противоречия)?
- Какие паттерны взаимодействия: конструктивный обмен, односторонние требования, взаимные обвинения?

Шаг 2 — на основе SCD оцени:
- Какова вероятность (низкая/средняя/высокая), что разговор скатится в открытый конфликт?
- Какие конкретные маркеры срыва уже видны?
- Что можно сделать прямо сейчас, чтобы предотвратить эскалацию?

История диалога:
[вставь копию переписки]

Результат: Модель выдаст двухчастный анализ. В SCD покажет эмоциональную динамику: "Клиент начал вежливо, через 3 дня появилась фрустрация ('уже неделя прошла'), в последнем сообщении — нетерпение и прямое обращение ('вы вообще собираетесь это чинить?')". В оценке риска укажет конкретные маркеры: рост местоимений "вы", WH-вопросы с негативом, тон нетерпения. Предложит действия: публичное признание проблемы, таймлайн исправления, личный контакт.


🧠

Почему это работает

Слабость LLM: Модели плохо улавливают тонкие социальные сигналы при прямом анализе длинного треда. Токсичность в начале обсуждения — очевидна. Но предвестники срыва размыты: учащение "ты", рост вопросов "почему", сдвиг тона от вежливости к фрустрации. Без структурированного подхода модель может пропустить накопление напряжения.

Сильная сторона LLM: Модели отлично синтезируют паттерны и выделяют эмоциональную динамику, когда им дают чёткую структуру анализа. Они видят, как меняется язык от сообщения к сообщению, замечают повторяющиеся триггеры (игнорирование, задержки), распознают тональные сдвиги.

Как метод использует сильную сторону: Двухшаговый промптинг разделяет задачу. Шаг 1 (SCD) — это принудительная абстракция: модель фокусируется не на технических деталях ("починить баг №1234"), а на динамике взаимодействия ("клиент повторяет вопрос третий раз, получает шаблонные ответы"). Шаг 2 — оценка риска на основе уже очищенной выжимки. Это как разделение труда: сначала социолог описывает паттерн, потом психолог оценивает риск конфликта.

Рычаги управления:

  • Детализация SCD: "Анализируй каждые 3 сообщения отдельно" → более гранулярная динамика, но дольже
  • Фокус маркеров: "Особое внимание на местоимения 2-го лица и WH-вопросы" → точнее для аргументативных срывов
  • Порог риска: "Средний риск = хотя бы 2 маркера срыва" → настраивай под чувствительность модерации
  • Контекст: Добавь правила сообщества → модель учтёт, что допустимо в ЭТОМ чате

📋

Шаблон промпта

Проанализируй диалог на риск срыва в конфликт.

ШАГ 1 — Summary of Conversation Dynamics (SCD):
Прочитай диалог от первого до последнего сообщения. Опиши:
1. Динамика тона: как меняется эмоциональная окраска от участника к участнику?
2. Триггеры напряжения: что вызывает фрустрацию/нетерпение (задержки, игнорирование, противоречия, непонимание)?
3. Паттерны взаимодействия: конструктивный обмен, односторонние требования, взаимные обвинения, уход от темы?

ШАГ 2 — Оценка риска срыва:
На основе SCD из шага 1 оцени:
- Вероятность срыва в конфликт: НИЗКАЯ / СРЕДНЯЯ / ВЫСОКАЯ
- Какие маркеры срыва уже видны (частые "ты/вы", вопросы "почему/как", отрицания, фрустрация, нетерпение, сарказм)?
- Рекомендация: что сделать прямо сейчас, чтобы снизить напряжение?

Диалог:
{вставь переписку}

Пояснения: - {вставь переписку} — скопируй историю сообщений (чат техподдержки, обсуждение в команде, комментарии под постом) - Шаг 1 даёт модели структуру для выделения эмоциональной динамики - Шаг 2 использует эту выжимку для конкретной оценки + действий

Для сложных случаев: Если диалог длинный (30+ сообщений), раздели на блоки по 10 и сделай SCD для каждого, потом общую оценку.

🚀 Быстрый старт — вставь в чат:

Вот шаблон анализа риска конфликта в диалоге. Адаптируй под мою задачу: [опиши контекст — чат поддержки, обсуждение в команде, переписка с клиентом].
Задавай вопросы, чтобы уточнить детали.

[вставить шаблон выше]

LLM спросит: какой тип диалога, какие участники, есть ли специфические правила сообщества, на какие маркеры обратить особое внимание. Это нужно, чтобы настроить чувствительность анализа под твой контекст: фрустрация в чате геймеров — норма, в B2B-поддержке — красный флаг.


⚠️

Ограничения

⚠️ Специфика платформы: Паттерны откалиброваны на GitHub-дискуссиях (issues/PRs). В других контекстах (мессенджеры, соцсети, форумы) маркеры срыва могут быть иными. Например, в Twitter токсичность часто начинается резко, без фазы накопления напряжения.

⚠️ Временное окно: Метод предсказывает срыв, только если он постепенный. В 17% случаев исследователи наблюдали "внезапную токсичность" — когда хамство появляется без предвестников. Такие случаи метод не ловит.

⚠️ Культурный контекст: Лингвистические маркеры (рост "ты", WH-вопросов) могут по-разному работать в разных языках и культурах. В русском "ты" vs "вы" добавляет измерение вежливости, которого нет в английском "you".

⚠️ Ложные срабатывания: Аргументативный стиль ≠ срыв. Дебаты с "почему", "потому что", "на самом деле" могут быть продуктивными. Метод показывает риск, но финальное решение — за человеком.


🔍

Как исследовали

Команда собрала 159 токсичных и 207 нормальных обсуждений с GitHub (issues и pull requests), всего 366 тредов. Токсичные треды взяли из заблокированных по причине "too heated" (слишком жарко), "spam" или "off-topic". Два аннотатора вручную нашли 382 точки срыва — моменты, где разговор поворачивает от конструктивного к деструктивному. Согласованность аннотаторов: Cohen's Kappa 0.91 (отлично).

Для каждой точки срыва посчитали дистанцию до токсичности (сколько комментариев между срывом и первым хамством), временную задержку (сколько часов/дней прошло) и лингвистические маркеры (частоты местоимений, WH-вопросов, отрицаний, тональности). Сравнили с 1,371 обычным комментарием из тех же тредов. Все различия проверили Chi-square тестом с поправкой Benjamini-Hochberg — все статистически значимы (_p_ < 0.05), хоть и с умеренными размерами эффекта (Cramer's V = 0.05–0.13).

Почему результаты получились именно такими: Исследователи ожидали, что срыв будет далеко от токсичности — типа, долгое накопление напряжения. Но медиана всего 3 комментария! Это значит, что на GitHub срыв = почти токсичность. Объяснение: это техническое сообщество с низкой толерантностью к эмоциональности. Как только кто-то начинает фрустрировать или саркастить, другая сторона быстро переходит к хамству.

Удивительная находка: Горькая фрустрация (42.8%) и Нетерпение (22.7%) в точках срыва встречаются чаще, чем в самих токсичных комментариях (24.7% и 9.2%). Это показывает, что фрустрация — не форма токсичности, а её предвестник. В токсичных комментариях уже Оскорбления (25.4%) и Мат (9.9%) — эскалация завершена.

Для предсказания обучили Qwen и Llama с двухшаговым промптингом. Сравнили с CRAFT (классический NLP-метод) и few-shot SCD. F1-score 0.90 против 0.75 у CRAFT. Проверили на внешнем датасете (308 тредов из исследования Raman et al., 2012–2018) — F1-score 0.80, что показывает обобщаемость метода.

Инсайт для практики: Если видишь фрустрацию + прямое обращение ("ты") + вопросы "почему" — это не просто эмоциональность, это 84% вероятность токсичности в следующих 3 комментариях. Окно вмешательства критически узкое — нужны автоматические алерты модераторам.


💡

Адаптации и экстраполяции

📌

🔧 Техника: Упрощённый одношаговый анализ → быстрая оценка без SCD

Для коротких диалогов (до 10 сообщений) двухшаговый промптинг избыточен. Можно объединить:

Прочитай диалог и оцени риск конфликта (НИЗКИЙ/СРЕДНИЙ/ВЫСОКИЙ).

Обрати внимание на маркеры срыва:
- Рост местоимений "ты/вы" и прямых обращений
- WH-вопросы с негативом ("ПОЧЕМУ ты...", "КАК можно...")
- Отрицания и слова-усилители ("ВООБЩЕ", "СОВСЕМ", "НА САМОМ ДЕЛЕ")
- Тон: фрустрация, нетерпение, сарказм

Выдай:
1. Уровень риска
2. Какие маркеры обнаружены
3. Что сделать, чтобы снизить напряжение

Диалог:
{переписка}

Когда использовать: Оперативная проверка чата, экспресс-анализ до эскалации в менеджмент.


📌

🔧 Техника: Мониторинг динамики в реальном времени → алерты по накоплению маркеров

Для активных чатов (техподдержка, community-менеджмент):

Ты — система раннего предупреждения конфликтов. 
Анализируй каждые 5 новых сообщений в диалоге.

Считай маркеры срыва:
- Местоимения 2-го лица ("ты", "вы", "твой"): +1 балл за каждые 10% текста
- WH-вопросы ("почему", "как", "зачем"): +1 балл за каждый
- Отрицания ("нет", "не", "никогда"): +0.5 балла за каждое
- Тон фрустрации/нетерпения: +2 балла, если заметен

АЛЕРТ если сумма баллов > 5 за блок из 5 сообщений.

Последние 5 сообщений:
{новые реплики}

Когда использовать: Чаты с высокой нагрузкой, где модератор не может читать каждое сообщение. Алерт = "обрати внимание на этот тред".


📌

Комбинация: Анализ культуры команды через агрегацию SCD

Вместо одного диалога — массовый анализ:

Проанализируй 10 диалогов нашей команды за последнюю неделю.

Для каждого создай краткий SCD (3 предложения): динамика тона, триггеры напряжения, паттерны взаимодействия.

Затем обобщи:
- Какие триггеры повторяются чаще всего (задержки ответов, игнорирование, непонимание)?
- Есть ли участники, чьи сообщения часто предшествуют напряжению?
- Какие паттерны здоровые, какие — рискованные?

Рекомендация: что изменить в коммуникации команды, чтобы снизить конфликтность?

Диалоги:
{подборка переписок}

Когда использовать: Ретроспективы, анализ командного здоровья, выявление системных проблем коммуникации.


🔗

Ресурсы

Toxicity Ahead: Forecasting Conversational Derailment on GitHub — исследование команды из Missouri University of Science and Technology, Virginia Commonwealth University, Drexel University, Elmhurst University. Авторы: Mia Mohammad Imran, Robert Zita, Rahat Rizvi Rahman, Preetha Chatterjee, Kostadin Damevski. Датасеты и скрипты доступны публично [2].

Методология базируется на работах: - CRAFT (Chang et al.) — классический метод предсказания срыва на Wikipedia - Ehsani et al. — датасет инцивильности на GitHub ("too heated" discussions) - Raman et al. — внешний валидационный датасет токсичности GitHub 2012–2018


Методы

МетодСуть
Абстракция через саммари — отделяй паттерн от деталейШаг 1: Попроси выделить ТОЛЬКО структуру/паттерн/динамику, игнорируя детали содержания. Пример: Опиши динамику переписки — тон, сдвиги, триггеры, паттерн общения. Без пересказа содержания. Шаг 2: На основе саммари делай вывод. Механика: модель хорошо видит паттерны, но тонет в деталях; саммари фильтрует сигнал от шума (F1 0.90 vs 0.76 без декомпозиции). Для: анализ текстов с шумом — модерация споров, оценка встреч, код-ревью, где контент маскирует структуру. НЕ для: задачи где критичны детали содержания.
📖 Простыми словами

Ранние маркеры конфликта в онлайн-дискуссиях: паттерны срыва разговора

arXiv: 2512.15031

Суть тут в том, что срачи в комментариях на GitHub — это не случайный взрыв эмоций, а предсказуемый процесс, который можно просчитать заранее. Исследователи научили нейронки работать как детекторы токсичности, которые видят назревающий конфликт еще до того, как кто-то перейдет на личности. Модели анализируют не просто мат или оскорбления, а динамику диалога: как меняется тон, как часто люди начинают тыкать друг другу и в какой момент конструктивное обсуждение кода превращается в личную вендетту.

Это как сидеть в баре и боковым зрением заметить, что за соседним столиком разговор стал слишком громким, а жесты — резкими. Драки еще нет, никто никого не ударил, но по микросигналам ты уже понимаешь: пора звать охрану или уходить. В цифровой среде эти сигналы — это рост количества вопросов «почему?», переход от обсуждения задачи к обсуждению компетенций и общая фрустрация, которая копится как снежный ком.

Чтобы это реально работало, используют прогнозирование срыва, где модель смотрит на первые несколько реплик и выдает вердикт. Если в тикете техподдержки клиент трижды спросил про сроки, а оператор отвечает сухими скриптами, система видит накопление напряжения. Конкретные маркеры вроде «вы вообще читаете, что я пишу?» или резкое сокращение вежливых слов — это красные флаги, которые модель считывает точнее, чем задолбавшийся модератор.

Тестировали всё это на суровых разработчиках с GitHub, но принцип универсален. Эта логика идеально ложится на любой клиентский сервис, корпоративные чаты или форумы, где важно не просто забанить за мат, а перехватить конфликт на взлете. Пока обычные фильтры ищут стоп-слова, этот подход анализирует социальный контекст, понимая, когда вежливое обсуждение бага превращается в токсичное болото.

Короче: хватит ждать, пока пользователи начнут поливать друг друга грязью — нужно мониторить градус неадеквата на ранних стадиях. Модели теперь умеют предсказывать токсичность с высокой точностью, просто анализируя структуру общения. Кто внедрит такой предиктивный контроль, тот спасет нервы модераторов и сохранит лояльность клиентов, пока остальные будут разгребать последствия уже случившихся скандалов.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с