TL;DR
LLM умеют распознавать эмоции в спорах и предсказывать их исход. Исследователи показали, что GPT4o анализирует эмоции в текстовых диалогах (гнев, страх, сочувствие, радость, грусть, удивление, нейтраль) с учётом контекста всей беседы — и по этим эмоциям предсказывает удовлетворённость участников результатом. В лучших случаях эмоции объясняют до 40-50% исхода спора — это в 8-10 раз сильнее, чем в переговорах (там всего 5%).
Главная находка: Споры отличаются от переговоров тем, что в них гнев порождает гнев (эскалация), а сочувствие порождает сочувствие (деэскалация). В переговорах гнев помогает добиться уступок, в спорах — приводит к тупику. Если продавец в первых репликах отвечает гневом на гнев покупателя — спор с вероятностью 33% закончится без решения. Если продавец в начале выражает сочувствие вместо гнева — вероятность тупика падает до 6%. Покупатели начинают с большего гнева, продавцы обычно сдерживаются (нормы клиентского сервиса), но если продавец "сорвался" — начинается спираль эскалации.
Суть метода: Исследователи промптили GPT4o генерировать для каждой реплики вектор интенсивности эмоций (7 эмоций, сумма весов = 1) с учётом истории диалога. Добавили роль ("You are a good emotion classification tool"), JSON-формат вывода, заменили label "love" на "compassion" (в спорах love редок, compassion критичен), добавили "neutral" для нейтральных реплик, дали несколько размеченных примеров (in-context learning). GPT4o превзошёл базовую модель T5-Twitter: корреляция с самоотчётами о фрустрации выросла с 0.29 до 0.54 для гнева, с 0.03 до 0.36 для страха.
Почему это работает
LLM не "чувствуют" эмоции, но хорошо распознают их выражения в тексте — особенно когда видят контекст всего диалога. Старые модели (T5-Twitter) анализировали каждую реплику изолированно и путались: "I need you to make this right" без контекста аннотировалась как "радость" (joy), а с контекстом — как "страх" (fear). GPT4o видит всю беседу и понимает: первая реплика задаёт тон, последующие реагируют на предыдущие.
Эмоции в спорах работают как сигналы намерений. Гнев = "я атакую, ты виноват", сочувствие = "я понимаю, давай решим". В спорах (в отличие от переговоров) стороны уже связаны отношениями и не могут просто уйти — поэтому эмоции влияют сильнее. Если одна сторона атакует, вторая чувствует угрозу и атакует в ответ → спираль эскалации. Если одна сторона выражает сочувствие, вторая успокаивается и отвечает сочувствием → деэскалация.
Почему GPT4o превзошёл T5: три причины. Первое — контекст диалога в промпте (T5 видел только одну реплику). Второе — правильный набор эмоций: "compassion" вместо "love" (в спорах любовь не выражают, сочувствие — да), плюс "neutral" для нейтральных фраз (T5 без neutral пытался натянуть joy/anger на всё подряд). Третье — soft labels (вектор интенсивностей) вместо жёсткого выбора одной эмоции: реплика может содержать и гнев, и страх одновременно.
Рычаги управления при анализе эмоций: - Набор эмоций — можно добавить/убрать эмоции под свой контекст (например, добавить "раздражение" или "надежду") - Размер контекста — сколько предыдущих реплик включать (больше = точнее, но дороже токенами) - Формат вывода — можно просить не вектор, а топ-1 эмоцию с объяснением (для простоты) или детальный разбор каждой фразы (для глубины) - Примеры (few-shot) — можно дать модели 2-3 размеченных реплики из своего домена (клиентский сервис, HR, личные диалоги) — точность вырастет
Схема применения
ШАГ 1: Подготовка диалога → Соберите текст переписки (email, мессенджер, чат поддержки)
ШАГ 2: Промпт для анализа → Попросите LLM аннотировать эмоции каждой реплики с учётом контекста
ШАГ 3: Анализ паттернов → Попросите выявить эскалацию, деэскалацию, поворотные моменты
ШАГ 4: Рекомендации → Попросите предложить как снизить накал или избежать тупика
Пример применения
Задача: Вы HR-менеджер, получили длинную переписку между руководителем и сотрудником — конфликт из-за оценки работы. Нужно понять где произошла эскалация и как можно было её избежать.
Промпт:
Проанализируй эмоции в этой переписке между руководителем и сотрудником.
Для каждой реплики укажи:
- Преобладающую эмоцию (гнев, страх, сочувствие, грусть, удивление, радость, нейтраль)
- Интенсивность (низкая/средняя/высокая)
Затем выдели:
- В какой момент началась эскалация (гнев → гнев)
- Где были попытки деэскалации (сочувствие, спокойный тон)
- Ключевые триггеры (какие фразы спровоцировали всплеск эмоций)
В конце — рекомендации: как можно было избежать эскалации.
[Вставить переписку]
Результат:
Модель выдаст таблицу или список реплик с аннотациями эмоций. Покажет график эмоций по репликам (словами: "в 3-й реплике руководитель выразил гнев, в 4-й сотрудник ответил гневом — началась эскалация"). Укажет поворотные моменты: "Фраза 'Ты всегда так делаешь' спровоцировала защитную реакцию". В конце даст рекомендации: "Руководителю стоило в 3-й реплике выразить понимание ('Я вижу ты расстроен') вместо обвинения ('Ты не выполнил задачу') — это снизило бы накал".
Шаблон промпта
Ты — эксперт по анализу эмоций в конфликтных диалогах.
Проанализируй переписку ниже. Для каждой реплики определи эмоции:
- Гнев
- Страх
- Сочувствие
- Грусть
- Удивление
- Радость
- Нейтраль
Для каждой реплики:
1. Укажи преобладающую эмоцию и интенсивность (низкая/средняя/высокая)
2. Учитывай контекст предыдущих реплик — как одна сторона реагирует на другую
После анализа покажи:
- Паттерны эскалации (гнев → гнев)
- Паттерны деэскалации (сочувствие → сочувствие)
- Поворотные моменты (где эмоции резко изменились)
- Прогноз исхода (придут к решению или тупик)
В конце дай рекомендации: как можно было снизить накал.
Переписка:
{диалог}
Что подставлять:
- {диалог} — текст переписки, каждая реплика с указанием автора
🚀 Быстрый старт — вставь в чат:
Адаптируй этот шаблон анализа эмоций под мою задачу:
[опиши контекст — клиентская поддержка / личный конфликт / командная переписка]
Спроси меня какие эмоции важны в моём случае и какой формат вывода удобен.
[вставить шаблон выше]
LLM спросит специфику твоего домена (например, в клиентском сервисе важны "раздражение" и "благодарность") и предложит формат (таблица / график / текстовый разбор). Она возьмёт структуру из шаблона и адаптирует под твою переписку.
Ключевые инсайты для практики
1. Споры ≠ переговоры
В переговорах можно уйти к другому партнёру, в спорах — стороны связаны. В переговорах гнев помогает выторговать лучшие условия, в спорах — ведёт к тупику. 19% споров в исследовании закончились без решения (vs 3% переговоров).
2. Сочувствие важнее чем думали
Литература по конфликтам фокусировалась на гневе, но исследование показало: сочувствие в начале диалога — мощный предиктор успеха. Продавцы, начавшие с "Oh, I'm sorry to hear that" вместо "I sent you what you ordered", в 5 раз чаще достигали соглашения.
3. Первые реплики предсказывают исход
Эмоциональные паттерны формируются в первых 2-3 репликах. Если продавец ответил гневом на гнев покупателя — дальше идёт спираль эскалации. Если сдержался и выразил сочувствие — покупатель успокаивается.
4. Покупатели начинают агрессивнее
Покупатели выражают больше гнева в первых репликах, продавцы сдерживаются (нормы клиентского сервиса). Но если продавец "сорвался" — начинается эскалация. Держать эмоциональный тон в начале критически важно.
Адаптации
🔧 Техника: Анализ не только итоговых эмоций, но и динамики
Оригинальный метод считал средние эмоции за весь диалог. Можно улучшить:
После разметки эмоций построй график интенсивности гнева и сочувствия
по репликам (ось X — номер реплики, ось Y — интенсивность 0-1).
Опиши словами:
- Где линия гнева пошла вверх (эскалация)
- Где линия сочувствия пошла вверх (деэскалация)
- Где линии пересеклись (переломный момент)
Это покажет когда именно произошла эскалация — можно обучать команду реагировать на ранние сигналы.
🔧 Техника: Анализ асимметрии эмоций между сторонами
Сравни средние эмоции каждой стороны:
- Кто выражал больше гнева
- Кто выражал больше сочувствия
- Кто больше сдерживался (больше нейтральных реплик)
Опиши как эта асимметрия повлияла на исход.
Это выявит кто эскалировал, кто деэскалировал — полезно для разбора конфликтов в команде.
🔧 Техника: Предсказание исхода на ранних стадиях
Проанализируй только первые 3 реплики каждой стороны.
На основе эмоций в этих репликах предскажи:
- Достигнут ли стороны соглашения
- Если нет — что нужно изменить в следующих репликах
Затем проанализируй весь диалог и проверь прогноз.
Это обучает раннему распознаванию паттернов — можно вмешаться до эскалации.
Ограничения
⚠️ Субъективные эмоции: Модель аннотирует выраженные эмоции в тексте, не истинные чувства. Если человек сдерживается или пишет формально — модель не уловит скрытый гнев.
⚠️ Культурный контекст: Исследование на английском языке, западный контекст клиентского сервиса. В других культурах эмоции выражают иначе — например, в Японии прямое выражение гнева редко.
⚠️ Короткие диалоги: Метод лучше работает на диалогах от 5-10 реплик. Одно сообщение проанализировать труднее — нет динамики.
⚠️ Токены: Анализ длинной переписки (30+ реплик) с полным контекстом на каждом шаге дорог токенами. Можно оптимизировать: аннотировать эмоции только ключевых реплик или использовать скользящее окно (последние 5-7 реплик).
Как исследовали
Исследователи собрали 2,025 текстовых споров на платформе Prolific: участники играли роли покупателя и продавца в конфликте вокруг покупки баскетбольной майки Коби Брайанта. Покупатель: "Я заказал майку Коби за $75, получил не то, продавец отказывается возвращать деньги и написал плохой отзыв обо мне". Продавец: "Покупатель заказал обычную майку, теперь врёт что я обещал майку Коби (которая стоит $3900), и написал плохой отзыв". Обе стороны начинают с взаимных обвинений во лжи — идеальная почва для эскалации.
Задача — договориться о возврате денег, удалении отзывов, извинениях. Или выбрать "walk away" (тупик). 19% споров закончились тупиком — это в 6 раз больше чем в переговорах (3%). Участники заполняли опросники о фрустрации и удовлетворённости исходом (Subjective Value Inventory: 4 шкалы — результат, процесс, отношения, самооценка).
Команда промптила GPT4o аннотировать эмоции каждой реплики с учётом истории диалога. Сравнили с базовой моделью T5-Twitter (предобученная на твиттере, классифицирует реплики изолированно). Результаты: GPT4o коррелирует с самоотчётами о фрустрации в 2 раза сильнее (0.54 vs 0.29 для гнева). Множественная линейная регрессия: средние эмоции за диалог предсказывают удовлетворённость исходом. T5-Twitter объясняет 11% дисперсии, GPT4o — 27%, а для отдельных шкал (процесс, отношения у покупателей) — до 40-50%.
Почему GPT4o выиграл: T5 путал эмоции без контекста ("I need you to make this right" = joy), не различал fear и sadness (аннотировал почти всё как joy/anger), не мог дать soft labels (либо joy, либо anger — никакого микса). GPT4o видел весь диалог, различал 7 эмоций с нюансами, использовал neutral для нейтральных фраз.
Самое интересное — анализ траекторий эмоций. В диалогах с тупиком: покупатель начинает с гнева, продавец отвечает гневом → обе линии гнева растут параллельно (эскалация). В диалогах с решением: покупатель начинает с гнева, продавец отвечает сочувствием → гнев покупателя падает, сочувствие обеих сторон растёт (деэскалация). Паттерн виден уже на 2-3 репликах — это значит алгоритм может предсказать исход рано и вмешаться.
Дополнительно проверили другие LLM на подвыборке (400 диалогов): Deepseek V3, Llama3, GPT4o-mini. GPT4o лучше всех совпадал с человеческими аннотаторами по эмоциям.
Ресурсы
Emotionally-Aware Agents for Dispute Resolution Sushrita Rakshit (University of Michigan), James Hale (University of Southern California), Kushal Chawla (Capital One), Jeanne M. Brett (Northwestern University), Jonathan Gratch (University of Southern California)
Корпус KODIS (2,025 диалогов) упоминается как доступный, детали сбора — через платформу Lioness Labs. Методология эмоциональной аннотации опирается на работы по affective computing и negotiation research (CaSiNo corpus).
