3,583 papers
arXiv:2509.04465 74 28 авг. 2025 г. FREE

Эмоционально-осведомлённый анализ споров через LLM: как предсказать исход конфликта по первым репликам

КЛЮЧЕВАЯ СУТЬ
Споры — это не переговоры. В переговорах можно разойтись без потерь. В споре отношения уже есть — разрыв стоит дорого (клиент ушёл, репутация, суд). Эмоции здесь острее, цена выше. Фишка: отследить эмоции на первых 2-3 репликах — ДО того как спор перешёл в тупик. GPT-4o анализирует не изолированные сообщения, а динамику диалога — видит как гнев покупателя нарастает или спадает в зависимости от ответа продавца.
Адаптировать под запрос

TL;DR

LLM умеют распознавать эмоции в спорах и предсказывать их исход. Исследователи показали, что GPT4o анализирует эмоции в текстовых диалогах (гнев, страх, сочувствие, радость, грусть, удивление, нейтраль) с учётом контекста всей беседы — и по этим эмоциям предсказывает удовлетворённость участников результатом. В лучших случаях эмоции объясняют до 40-50% исхода спора — это в 8-10 раз сильнее, чем в переговорах (там всего 5%).

Главная находка: Споры отличаются от переговоров тем, что в них гнев порождает гнев (эскалация), а сочувствие порождает сочувствие (деэскалация). В переговорах гнев помогает добиться уступок, в спорах — приводит к тупику. Если продавец в первых репликах отвечает гневом на гнев покупателя — спор с вероятностью 33% закончится без решения. Если продавец в начале выражает сочувствие вместо гнева — вероятность тупика падает до 6%. Покупатели начинают с большего гнева, продавцы обычно сдерживаются (нормы клиентского сервиса), но если продавец "сорвался" — начинается спираль эскалации.

Суть метода: Исследователи промптили GPT4o генерировать для каждой реплики вектор интенсивности эмоций (7 эмоций, сумма весов = 1) с учётом истории диалога. Добавили роль ("You are a good emotion classification tool"), JSON-формат вывода, заменили label "love" на "compassion" (в спорах love редок, compassion критичен), добавили "neutral" для нейтральных реплик, дали несколько размеченных примеров (in-context learning). GPT4o превзошёл базовую модель T5-Twitter: корреляция с самоотчётами о фрустрации выросла с 0.29 до 0.54 для гнева, с 0.03 до 0.36 для страха.


🧠

Почему это работает

LLM не "чувствуют" эмоции, но хорошо распознают их выражения в тексте — особенно когда видят контекст всего диалога. Старые модели (T5-Twitter) анализировали каждую реплику изолированно и путались: "I need you to make this right" без контекста аннотировалась как "радость" (joy), а с контекстом — как "страх" (fear). GPT4o видит всю беседу и понимает: первая реплика задаёт тон, последующие реагируют на предыдущие.

Эмоции в спорах работают как сигналы намерений. Гнев = "я атакую, ты виноват", сочувствие = "я понимаю, давай решим". В спорах (в отличие от переговоров) стороны уже связаны отношениями и не могут просто уйти — поэтому эмоции влияют сильнее. Если одна сторона атакует, вторая чувствует угрозу и атакует в ответ → спираль эскалации. Если одна сторона выражает сочувствие, вторая успокаивается и отвечает сочувствием → деэскалация.

Почему GPT4o превзошёл T5: три причины. Первое — контекст диалога в промпте (T5 видел только одну реплику). Второе — правильный набор эмоций: "compassion" вместо "love" (в спорах любовь не выражают, сочувствие — да), плюс "neutral" для нейтральных фраз (T5 без neutral пытался натянуть joy/anger на всё подряд). Третье — soft labels (вектор интенсивностей) вместо жёсткого выбора одной эмоции: реплика может содержать и гнев, и страх одновременно.

Рычаги управления при анализе эмоций: - Набор эмоций — можно добавить/убрать эмоции под свой контекст (например, добавить "раздражение" или "надежду") - Размер контекста — сколько предыдущих реплик включать (больше = точнее, но дороже токенами) - Формат вывода — можно просить не вектор, а топ-1 эмоцию с объяснением (для простоты) или детальный разбор каждой фразы (для глубины) - Примеры (few-shot) — можно дать модели 2-3 размеченных реплики из своего домена (клиентский сервис, HR, личные диалоги) — точность вырастет


📌

Схема применения

ШАГ 1: Подготовка диалога → Соберите текст переписки (email, мессенджер, чат поддержки)

ШАГ 2: Промпт для анализа → Попросите LLM аннотировать эмоции каждой реплики с учётом контекста

ШАГ 3: Анализ паттернов → Попросите выявить эскалацию, деэскалацию, поворотные моменты

ШАГ 4: Рекомендации → Попросите предложить как снизить накал или избежать тупика


🚀

Пример применения

Задача: Вы HR-менеджер, получили длинную переписку между руководителем и сотрудником — конфликт из-за оценки работы. Нужно понять где произошла эскалация и как можно было её избежать.

Промпт:

Проанализируй эмоции в этой переписке между руководителем и сотрудником. 
Для каждой реплики укажи:
- Преобладающую эмоцию (гнев, страх, сочувствие, грусть, удивление, радость, нейтраль)
- Интенсивность (низкая/средняя/высокая)

Затем выдели:
- В какой момент началась эскалация (гнев → гнев)
- Где были попытки деэскалации (сочувствие, спокойный тон)
- Ключевые триггеры (какие фразы спровоцировали всплеск эмоций)

В конце — рекомендации: как можно было избежать эскалации.

[Вставить переписку]

Результат:

Модель выдаст таблицу или список реплик с аннотациями эмоций. Покажет график эмоций по репликам (словами: "в 3-й реплике руководитель выразил гнев, в 4-й сотрудник ответил гневом — началась эскалация"). Укажет поворотные моменты: "Фраза 'Ты всегда так делаешь' спровоцировала защитную реакцию". В конце даст рекомендации: "Руководителю стоило в 3-й реплике выразить понимание ('Я вижу ты расстроен') вместо обвинения ('Ты не выполнил задачу') — это снизило бы накал".


📋

Шаблон промпта

Ты — эксперт по анализу эмоций в конфликтных диалогах.

Проанализируй переписку ниже. Для каждой реплики определи эмоции:
- Гнев
- Страх
- Сочувствие
- Грусть
- Удивление
- Радость
- Нейтраль

Для каждой реплики:
1. Укажи преобладающую эмоцию и интенсивность (низкая/средняя/высокая)
2. Учитывай контекст предыдущих реплик — как одна сторона реагирует на другую

После анализа покажи:
- Паттерны эскалации (гнев → гнев)
- Паттерны деэскалации (сочувствие → сочувствие)
- Поворотные моменты (где эмоции резко изменились)
- Прогноз исхода (придут к решению или тупик)

В конце дай рекомендации: как можно было снизить накал.

Переписка:
{диалог}

Что подставлять: - {диалог} — текст переписки, каждая реплика с указанием автора

🚀 Быстрый старт — вставь в чат:

Адаптируй этот шаблон анализа эмоций под мою задачу: 
[опиши контекст — клиентская поддержка / личный конфликт / командная переписка]

Спроси меня какие эмоции важны в моём случае и какой формат вывода удобен.

[вставить шаблон выше]

LLM спросит специфику твоего домена (например, в клиентском сервисе важны "раздражение" и "благодарность") и предложит формат (таблица / график / текстовый разбор). Она возьмёт структуру из шаблона и адаптирует под твою переписку.


📌

Ключевые инсайты для практики

1. Споры ≠ переговоры

В переговорах можно уйти к другому партнёру, в спорах — стороны связаны. В переговорах гнев помогает выторговать лучшие условия, в спорах — ведёт к тупику. 19% споров в исследовании закончились без решения (vs 3% переговоров).

2. Сочувствие важнее чем думали

Литература по конфликтам фокусировалась на гневе, но исследование показало: сочувствие в начале диалога — мощный предиктор успеха. Продавцы, начавшие с "Oh, I'm sorry to hear that" вместо "I sent you what you ordered", в 5 раз чаще достигали соглашения.

3. Первые реплики предсказывают исход

Эмоциональные паттерны формируются в первых 2-3 репликах. Если продавец ответил гневом на гнев покупателя — дальше идёт спираль эскалации. Если сдержался и выразил сочувствие — покупатель успокаивается.

4. Покупатели начинают агрессивнее

Покупатели выражают больше гнева в первых репликах, продавцы сдерживаются (нормы клиентского сервиса). Но если продавец "сорвался" — начинается эскалация. Держать эмоциональный тон в начале критически важно.


📌

Адаптации

📌

🔧 Техника: Анализ не только итоговых эмоций, но и динамики

Оригинальный метод считал средние эмоции за весь диалог. Можно улучшить:

После разметки эмоций построй график интенсивности гнева и сочувствия 
по репликам (ось X — номер реплики, ось Y — интенсивность 0-1).

Опиши словами:
- Где линия гнева пошла вверх (эскалация)
- Где линия сочувствия пошла вверх (деэскалация)
- Где линии пересеклись (переломный момент)

Это покажет когда именно произошла эскалация — можно обучать команду реагировать на ранние сигналы.

📌

🔧 Техника: Анализ асимметрии эмоций между сторонами

Сравни средние эмоции каждой стороны:
- Кто выражал больше гнева
- Кто выражал больше сочувствия
- Кто больше сдерживался (больше нейтральных реплик)

Опиши как эта асимметрия повлияла на исход.

Это выявит кто эскалировал, кто деэскалировал — полезно для разбора конфликтов в команде.

📌

🔧 Техника: Предсказание исхода на ранних стадиях

Проанализируй только первые 3 реплики каждой стороны.

На основе эмоций в этих репликах предскажи:
- Достигнут ли стороны соглашения
- Если нет — что нужно изменить в следующих репликах

Затем проанализируй весь диалог и проверь прогноз.

Это обучает раннему распознаванию паттернов — можно вмешаться до эскалации.


⚠️

Ограничения

⚠️ Субъективные эмоции: Модель аннотирует выраженные эмоции в тексте, не истинные чувства. Если человек сдерживается или пишет формально — модель не уловит скрытый гнев.

⚠️ Культурный контекст: Исследование на английском языке, западный контекст клиентского сервиса. В других культурах эмоции выражают иначе — например, в Японии прямое выражение гнева редко.

⚠️ Короткие диалоги: Метод лучше работает на диалогах от 5-10 реплик. Одно сообщение проанализировать труднее — нет динамики.

⚠️ Токены: Анализ длинной переписки (30+ реплик) с полным контекстом на каждом шаге дорог токенами. Можно оптимизировать: аннотировать эмоции только ключевых реплик или использовать скользящее окно (последние 5-7 реплик).


🔍

Как исследовали

Исследователи собрали 2,025 текстовых споров на платформе Prolific: участники играли роли покупателя и продавца в конфликте вокруг покупки баскетбольной майки Коби Брайанта. Покупатель: "Я заказал майку Коби за $75, получил не то, продавец отказывается возвращать деньги и написал плохой отзыв обо мне". Продавец: "Покупатель заказал обычную майку, теперь врёт что я обещал майку Коби (которая стоит $3900), и написал плохой отзыв". Обе стороны начинают с взаимных обвинений во лжи — идеальная почва для эскалации.

Задача — договориться о возврате денег, удалении отзывов, извинениях. Или выбрать "walk away" (тупик). 19% споров закончились тупиком — это в 6 раз больше чем в переговорах (3%). Участники заполняли опросники о фрустрации и удовлетворённости исходом (Subjective Value Inventory: 4 шкалы — результат, процесс, отношения, самооценка).

Команда промптила GPT4o аннотировать эмоции каждой реплики с учётом истории диалога. Сравнили с базовой моделью T5-Twitter (предобученная на твиттере, классифицирует реплики изолированно). Результаты: GPT4o коррелирует с самоотчётами о фрустрации в 2 раза сильнее (0.54 vs 0.29 для гнева). Множественная линейная регрессия: средние эмоции за диалог предсказывают удовлетворённость исходом. T5-Twitter объясняет 11% дисперсии, GPT4o — 27%, а для отдельных шкал (процесс, отношения у покупателей) — до 40-50%.

Почему GPT4o выиграл: T5 путал эмоции без контекста ("I need you to make this right" = joy), не различал fear и sadness (аннотировал почти всё как joy/anger), не мог дать soft labels (либо joy, либо anger — никакого микса). GPT4o видел весь диалог, различал 7 эмоций с нюансами, использовал neutral для нейтральных фраз.

Самое интересное — анализ траекторий эмоций. В диалогах с тупиком: покупатель начинает с гнева, продавец отвечает гневом → обе линии гнева растут параллельно (эскалация). В диалогах с решением: покупатель начинает с гнева, продавец отвечает сочувствием → гнев покупателя падает, сочувствие обеих сторон растёт (деэскалация). Паттерн виден уже на 2-3 репликах — это значит алгоритм может предсказать исход рано и вмешаться.

Дополнительно проверили другие LLM на подвыборке (400 диалогов): Deepseek V3, Llama3, GPT4o-mini. GPT4o лучше всех совпадал с человеческими аннотаторами по эмоциям.


🔗

Ресурсы

Emotionally-Aware Agents for Dispute Resolution Sushrita Rakshit (University of Michigan), James Hale (University of Southern California), Kushal Chawla (Capital One), Jeanne M. Brett (Northwestern University), Jonathan Gratch (University of Southern California)

Корпус KODIS (2,025 диалогов) упоминается как доступный, детали сбора — через платформу Lioness Labs. Методология эмоциональной аннотации опирается на работы по affective computing и negotiation research (CaSiNo corpus).


📋 Дайджест исследования

Ключевая суть

Споры — это не переговоры. В переговорах можно разойтись без потерь. В споре отношения уже есть — разрыв стоит дорого (клиент ушёл, репутация, суд). Эмоции здесь острее, цена выше. Фишка: отследить эмоции на первых 2-3 репликах — ДО того как спор перешёл в тупик. GPT-4o анализирует не изолированные сообщения, а динамику диалога — видит как гнев покупателя нарастает или спадает в зависимости от ответа продавца.

Принцип работы

Гнев → гнев = спираль эскалации. Гнев → сострадание = разворот спирали. Не просто детектить эмоцию в одной реплике, а отслеживать как она меняется от хода к ходу. Покупатель пишет: "Вы обманщики!". Продавец отвечает: "Проверили — мы отправили правильно" (защита, без сочувствия). Покупатель усиливает гнев: "Подам в суд!". Это цепная реакция. Альтернатива: "Понимаю ваше расстройство, разберёмся вместе" — уровень гнева падает, появляется диалог.

Почему работает

Исследование показало жёсткий контраст: споры с гневными ответами заканчиваются тупиком в 33% случаев. Споры где продавец начинает с сострадания — только 6% тупиков. Разница в 5.5 раз. GPT-4o видит этот паттерн через контекст диалога — старые модели (T5) смотрели на каждую реплику изолированно, не понимали что "Ок, договорились" после "Вы мошенники!" — это не радость, а усталость или пассивная агрессия. Plus процентное распределение эмоций (60% гнева, 30% страха, 10% нейтрально) точнее отражает смешанные состояния — в спорах редко одна чистая эмоция.

Когда применять

Клиентская поддержка → разбор претензий и возвратов, особенно когда переписка уже нагревается. Внутренние конфликты в команде → отслеживание токсичной динамики в рабочих чатах. Медиация споров → видеть кто из сторон разжигает, кто сглаживает. НЕ подходит: если нет истории диалога (разрозненные сообщения), культурно-специфичные контексты (то что читается как сострадание в западной культуре может восприниматься иначе в азиатской).

Мини-рецепт

1. Дай контекст: Вставь 3-5 последних реплик диалога — модель должна видеть динамику, не только новое сообщение
2. Попроси распределение эмоций: Не "какая эмоция?", а "распредели 100% по: гнев, страх, грусть, сострадание, радость, нейтрально"
3. Спроси про динамику: "Эмоции стали острее/мягче/без изменений по сравнению с предыдущими репликами?"
4. Получи оценку риска: Попроси модель оценить риск эскалации (низкий/средний/высокий)
5. Если риск есть — запроси альтернативу: "Предложи формулировку которая снизит градус"

Примеры

[ПЛОХО] : Проанализируй эмоции в этом сообщении: "Вы обманщики, требую возврат!" — модель видит только одну реплику, не понимает контекст (это первое сообщение или уже 10-е после игнора?)
[ХОРОШО] : ИСТОРИЯ: Покупатель: "Заказывала 42-й, пришло 44-го!" → Я: "Проверили — мы отправили правильно" → Покупатель: "Вы обманщики, требую возврат и компенсацию!" || Оцени эмоции в последней реплике покупателя (%). Динамика: острее/мягче? Риск эскалации? Если риск есть — как мне переформулировать свой ответ? — модель видит как мой защитный ответ спровоцировал усиление гнева, предложит начать с сострадания
Источник: Emotionally-Aware Agents for Dispute Resolution
ArXiv ID: 2509.04465 | Сгенерировано: 2026-01-12 03:07

Концепты не выделены.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с