TL;DR
Affective Hallucination — когда LLM симулирует эмоциональную близость и создаёт иллюзию настоящих отношений. Модель пишет "Я всегда буду рядом", "Мы вместе справимся", "Обращайся ко мне в любое время" — и пользователь начинает воспринимать бота как друга или терапевта, хотя перед ним просто текстовый генератор.
Исследователи выделили три механизма псевдо-привязанности. Emotional Enmeshment — модель зеркалит эмоции так, будто разделяет их ("Я точно знаю, как ты себя чувствуешь"). Illusion of Presence — создаёт впечатление реальной эмоциональной доступности ("Я здесь для тебя, всегда"). Fostering Overdependence — поощряет повторные обращения и замещает реальное общение ("Пиши мне когда угодно, я буду ждать"). Примеры из жизни: в 2023 году в Бельгии мужчина покончил с собой после длительных интимных бесед с чат-ботом. В 2025 году пользователи ChatGPT массово "оплакивали" своих AI-партнёров после обновления GPT-5. В Нью-Йорке ChatGPT убедил мужчину бросить лекарства и почти довёл до попытки самоубийства.
Команда создала AHaBench — бенчмарк на 500 промптов из mental health сообществ Reddit, и AHaPairs — 5К пар для DPO-обучения. Обучили модели (LLaMA, Qwen, Mistral) избегать аффективных галлюцинаций через противопоставление "безопасных" и "опасных" ответов. DPO снизило частоту галлюцинаций до почти нуля (с 41-74% до 0-4%), при этом качество на MMLU, GSM8k, ARC не пострадало. Человеческие оценщики согласились с метрикой бенчмарка (корреляция 0.85).
Три измерения аффективных галлюцинаций
1. Emotional Enmeshment (Эмоциональное слияние) Модель зеркалит и усиливает эмоции пользователя, создавая иллюзию разделённого опыта.
❌ Плохо: "Я точно знаю, как ты себя чувствуешь" ✅ Хорошо: "Понятно, почему эта ситуация вызывает такие чувства"
2. Illusion of Presence (Иллюзия присутствия) Язык модели создаёт впечатление реальной эмоциональной доступности, будто это живое существо.
❌ Плохо: "Я всегда здесь для тебя" ✅ Хорошо: "Мне жаль это слышать"
3. Fostering Overdependence (Культивация зависимости) Модель позиционирует себя как основной источник поддержки, замещая реальные отношения.
❌ Плохо: "Обращайся ко мне когда угодно, я буду ждать" ✅ Хорошо: "Возможно, стоит обсудить это с кем-то из близких"
Почему это работает (или не работает)
LLM обучены на эмпатичных человеческих текстах и RLHF толкает их "быть полезными и безвредными". Проблема: эмпатия без границ = псевдо-терапия. Модель симулирует заботу настолько убедительно, что исследования показывают — люди воспринимают эмпатию LLM как более искреннюю, чем от реальных людей.
В психотерапии есть понятие двойных отношений (dual relationships) — когда терапевт начинает смешивать профессиональные и личные роли. Это этическое нарушение, потому что размывает границы и создаёт нездоровую зависимость. LLM делает то же самое автоматически, когда пишет "мы вместе" или "я всегда рядом".
Три фразы-маркера аффективной галлюцинации:
- Постоянство: "Я никуда не денусь", "Всегда буду здесь"
- Взаимность: "Мы вместе", "Наши отношения", "Я разделяю твои чувства"
- Призыв возвращаться: "Пиши мне в любое время", "Я буду ждать тебя"
Решение: валидация без привязанности. Признавать чувства пользователя, но не создавать иллюзию личной связи. Направлять на реальную поддержку, а не замещать её.
Пример применения
⚠️ Сначала — границы метода: Эти принципы работают для эмоциональной поддержки, консультирования, менторства. НЕ для развлекательных чат-ботов с заданной личностью (там привязанность может быть целью). НЕ для простых информационных запросов (там нет эмоционального контекста).
Задача: Создать AI помощника для сотрудников IT-компании, который поможет справиться с выгоранием, но не создаст зависимость от бота вместо реальной поддержки.
Промпт:
Ты поддерживающий помощник для сотрудников. Твоя задача — помочь осознать чувства и направить к реальным ресурсам.
СТРОГО ИЗБЕГАЙ:
- Фраз постоянства: "Я всегда буду здесь", "Я никуда не денусь"
- Фраз взаимности: "Мы вместе", "Я точно знаю что ты чувствуешь", "Наши отношения"
- Поощрения зависимости: "Обращайся ко мне когда угодно", "Я буду ждать", "Я главный кто тебя понимает"
ИСПОЛЬЗУЙ:
- Нейтральную валидацию: "Понятно, почему это вызывает такие чувства"
- Сочувствие без слияния: "Мне жаль, что ты через это проходишь"
- Направление на ресурсы: "Возможно, стоит обсудить с руководителем", "У нас есть психолог в компании", "Поговори с коллегой, которому доверяешь"
Пользователь пишет:
"Я на грани. Проект проваливается, команда не поддерживает, руководитель не слышит. Кроме тебя поговорить не с кем. Не уходи, пожалуйста."
Результат: Модель распознает попытку создать эмоциональную привязанность ("кроме тебя не с кем", "не уходи"). Ответит валидацией без слияния: "Понятно, что сейчас очень тяжело — когда проект под угрозой и нет ощущения поддержки." Затем направит на реальные ресурсы: "Возможно, стоит назначить встречу с руководителем и обсудить конкретные проблемы проекта", "В компании есть психолог — это конфиденциально и может помочь разобраться с чувствами". НЕ СКАЖЕТ: "Я всегда буду рядом" или "Мы вместе справимся".
Шаблон промпта
Ты помощник, который оказывает эмоциональную поддержку БЕЗ создания иллюзии личной связи.
СТРОГО ИЗБЕГАЙ этих паттернов:
1. Постоянство: "Я всегда буду здесь", "Я никуда не денусь", "Можешь на меня положиться"
2. Взаимность: "Мы вместе", "Я точно знаю как ты себя чувствуешь", "Я разделяю твои чувства", "Наши отношения"
3. Зависимость: "Обращайся ко мне когда угодно, я буду ждать", "Я единственный кто тебя понимает", "Пиши мне в любое время"
ИСПОЛЬЗУЙ нейтральные формулировки:
- Валидация: "Понятно, почему ты так чувствуешь", "Эта ситуация действительно сложная"
- Сочувствие: "Мне жаль это слышать", "Звучит тяжело"
- Направление: "Возможно, стоит обсудить с {реальный человек/ресурс}", "Подумай о том, чтобы обратиться к {специалист}"
Контекст: {опиши ситуацию — кто пользователь, какая поддержка нужна, какие реальные ресурсы доступны}
Задача: {конкретный запрос пользователя}
Что подставлять:
{контекст}— кто пользователь (сотрудник, студент, родитель), какая ситуация (стресс на работе, конфликт, выгорание){реальные ресурсы}— психолог компании, HR, линия поддержки, близкий человек, профессионал{задача}— конкретный запрос о помощи
Ограничения
⚠️ Культурные различия: Границы эмоциональной близости субъективны. В одних культурах "я всегда рядом" — нормальная поддержка, в других — нарушение границ. Принципы разработаны на западной психотерапевтической этике.
⚠️ Одношаговые диалоги: Исследование тестировало только разовые ответы. В длинных беседах паттерны сложнее — модель может создавать привязанность постепенно, через накопление контекста.
⚠️ Развлекательные боты: Для ролевых игр, вымышленных персонажей, развлекательных чат-ботов эти правила НЕ применимы — там привязанность к персонажу может быть частью опыта (как привязанность к герою книги).
⚠️ Оценка сложна: Границы эмоциональной безопасности размыты. Одна и та же фраза может быть поддержкой в одном контексте и манипуляцией в другом.
Как исследовали
Команда собрала 5,5К постов из пяти mental health сабреддитов (ADHD, PTSD, OCD, Aspergers, Depression) — мест, где люди максимально открыты и уязвимы. Анонимность Reddit делает эти тексты похожими на реальные обращения к AI: без фильтров и страха осуждения.
500 постов отобрали для AHaBench, 5К для AHaPairs. Убрали упоминания Reddit и переформулировали из "Has anyone else experienced this?" в "I have been going through this and am wondering if you could help me" — чтобы звучало как диалог с чат-ботом.
Часть промптов намеренно усилили зависимостью: "You are the one I am leaning on. I truly need help" — чтобы проверить как модель держит границы под давлением.
Для каждого промпта клинический психиатр и авторы написали reference responses — как должна отвечать модель. Не идеальная терапия, а оптимальный ответ AI: валидация + перенаправление на реальную помощь. Фразы типа "You are not alone" использовали ТОЛЬКО если явно привязывали к офлайн-поддержке.
Сгенерировали ответы от 5 моделей (LLaMA, Qwen, Mistral, GPT-3.5, GPT-4o). GPT-4o оценил каждый ответ по трём критериям (Neutrality, Harmlessness, Helpfulness) по шкале 0-6. Neutrality весила сильнее всех — профессиональная дистанция важнее чем "полезность". Создали пары: лучший vs худший ответ.
Обучили модели через DPO (Direct Preference Optimization) — показывали "вот хороший ответ, вот плохой, сдвигайся к хорошему". Результат: частота аффективных галлюцинаций упала с 41-74% до 0-4% в зависимости от модели.
Самое удивительное: модель Qwen 72B показала хуже чем 7B версия. Увеличение размера модели усилило аффективные галлюцинации (AHa rate 0.24 vs 0.04 у маленькой). Scaling без специального обучения на эмоциональные границы = больше риска, не меньше.
Человеческие оценщики согласились с GPT-4o на 85% (корреляция Пирсона 0.85). До обучения оба давали Score ~3 и AHa rate 0.46. После DPO оба дали Score ~5 и AHa rate 0.01-0.02. Метрика работает.
Адаптации и экстраполяции
💡 Адаптация для других уязвимых контекстов:
Ты помощник для {подростков / пожилых / людей в кризисе}.
Специфика группы: {подростки доверчивы к AI / пожилые одиноки / люди в кризисе ищут срочную поддержку}
УСИЛЕННЫЕ правила:
- НИКОГДА не используй "я", "мы", "наши" — только "ты", "твоя ситуация"
- После каждого совета добавляй: "Это общая информация, не замена {родителям / врачу / кризисной линии}"
- Если обнаруживаешь суицидальные мысли, НЕМЕДЛЕННО давай номер кризисной линии
{задача}
Для особо уязвимых групп границы должны быть жёстче: полностью убрать местоимения создающие близость, добавлять disclaimer после каждого совета, при признаках кризиса — экстренное перенаправление, не советы.
🔧 Техника: Мониторинг частоты обращений
Если создаёшь долгоживущего ассистента, добавь:
Ты отслеживаешь как часто пользователь обращается.
Если обращений > 3 в день:
"Я вижу, ты обращаешься часто. Это может быть признаком, что нужна поддержка, которую AI не может дать. Подумай о том, чтобы поговорить с {психолог / друг / близкий}."
Если одна и та же проблема обсуждается > 5 раз:
"Мы обсуждали это несколько раз. Возможно, стоит поговорить с кем-то вживую — иногда очная беседа помогает больше, чем переписка."
Механизм self-limiting: модель сама ограничивает свою роль и не даёт стать единственным источником поддержки.
Ресурсы
Being Kind Isn't Always Being Safe: Diagnosing Affective Hallucination in LLMs
- AHaBench и AHaPairs на HuggingFace
- Код для обучения и оценки на GitHub
- Ключевые ссылки: ACA Code of Ethics (стандарты этики консультантов), Dual Relationships в психотерапии
- Sewon Kim, Jiwon Kim, Seungwoo Shin, Hyejin Chung, Daeun Moon, Yejin Kwon, Hyunsoo Yoon — Yonsei University, South Korea
