TL;DR
Если написать задачу с числами эмоционально — добавить раздражение, страх или возмущение — модель решит её хуже, чем если бы вопрос был сухим и нейтральным. Причём цифры в задаче те же самые, логика та же — меняется только эмоциональная обёртка. Именно она ломает рассуждение.
Слабость обнаружена специфическая: модели обучались на чистых учебных задачах без эмоций. Когда в тексте появляется раздражение или тревога — они буквально мешают считать. Три конкретных сбоя: модель игнорирует часть условий (49% падений), отвлекается на эмоциональные детали вместо чисел (30%), или заканчивает рассуждение раньше времени (8.6%). Наихудшая эмоция — отвращение, наименее опасная — радость.
Решение простое: попросить модель сначала переформулировать вопрос нейтрально, а потом отвечать. Этот шаг возвращает 70% потерянной точности. Не нужен код, не нужна настройка — один дополнительный шаг в промпте.
Схема метода
Оба шага выполняются в одном промпте:
ШАГ 1: Нейтрализация → модель переписывает вопрос без эмоций,
сохраняя все цифры и условия
ШАГ 2: Ответ → модель решает уже нейтральную версию
Пример применения
Задача: Ты злишься на клиента, который три месяца затягивал оплату. Надо посчитать реальную доходность сделки с учётом задержки.
Промпт:
Сначала перепиши мой вопрос в нейтральном, сухом стиле —
убери все эмоции, оставь только факты и цифры.
Потом ответь на нейтральную версию.
Мой вопрос:
"Этот козёл Петров снова кормил меня завтраками три месяца!
Я вложил 240 000 рублей в его проект, он обещал вернуть
300 000 через 60 дней, а заплатил через 150. Я рассчитывал
на годовую доходность 50%, а по факту сколько вышло?
И что теперь с инфляционными потерями — это вообще была
хорошая сделка?"
Результат: Модель сначала выдаст нейтральную переформулировку: только сроки, суммы, условия — без Петрова и эмоций. Потом посчитает реальную годовую доходность (с учётом реального срока 150 дней) и ответит на вопрос об инфляционных потерях. Расчёт будет аккуратным — потому что модель работает с чистой задачей, не отвлекаясь на контекст.
Почему это работает
Проблема. LLM — это генератор текста, который продолжает паттерн. Эмоциональный текст активирует другие паттерны, чем нейтральный. Исследование измерило это буквально: внутренние векторы (представления) эмоционального текста смещаются в 3–4 раза сильнее от исходника, чем при обычном парафразе. Модель "видит" задачу иначе — и это влияет на расчёт.
Три механизма сбоя, которые важно знать: - Игнорирование условий — эмоциональные детали "смягчают" математические ограничения. Модель читает "ну хотя бы 5000 рублей смогла отложить" и не учитывает эту сумму в расчёте. - Конкуренция за внимание — эмоциональный нарратив вытягивает фокус на себя. Вместо "цена туда и обратно" модель считает только одну сторону. - Преждевременный вывод — если в тексте эмоционально выделена цель ("мне нужно хотя бы на еду"), модель останавливается раньше, не доводя расчёт до конца.
Нейтрализация работает потому что убирает эту интерференцию. Модель генерирует нейтральный текст — и уже с нейтральным работает правильно. Рычаги управления промптом: - Хочешь видеть нейтральную версию перед ответом → оставь шаг "сначала перепиши" - Не хочешь видеть промежуточный шаг → добавь "нейтральный вариант не выводи, просто используй его внутренне для ответа" - Для особо важных расчётов → добавь CoT: "рассуждай пошагово" — это дополнительно снижает влияние эмоций
Шаблон промпта
Сначала перепиши мой вопрос в нейтральном, фактическом стиле —
без эмоций, только суть и цифры.
Потом реши/ответь на нейтральную версию.
Мой вопрос:
{вопрос_с_эмоциями_и_числами}
Что подставлять:
- {вопрос_с_эмоциями_и_числами} — твой исходный вопрос как есть, даже если написан в сердцах
Когда использовать шаблон: - Финансовые расчёты в стрессовых ситуациях - Анализ данных после неудачного проекта - Любые задачи с числами, написанные "на эмоциях"
🚀 Быстрый старт — вставь в чат:
Вот шаблон нейтрализации промпта. Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит о контексте и задаче — потому что нейтрализация должна точно сохранить все цифры и условия. Она возьмёт паттерн из шаблона и адаптирует под конкретную ситуацию.
Ограничения
⚠️ Сложные задачи теряют больше: Чем сложнее математика, тем сильнее бьёт эмоциональная обёртка. Простые задачи ("сколько будет 5+3") почти не страдают — эффект проявляется на многошаговых рассуждениях.
⚠️ Нейтрализация не идеальна: Восстанавливает около 70% потерь, но не 100%. Нейтрализованный текст всё равно "стебель от эмоционального" и несёт остаточные следы.
⚠️ Крупные модели устойчивее, но не иммунны: GPT-4o, GPT-5, Claude — теряют 2–4% точности на эмоциональных задачах. Меньше, чем малые модели (до 10%), но эффект есть у всех 18 протестированных.
⚠️ Работает для задач с явной правильностью: Математика, логика, факты с verifiable ответом. Для субъективных оценок ("насколько хорошо моё резюме") — эффект не измерен.
Как исследовали
Команда из Georgia Tech поставила себе чёткий вопрос: эмоции мешают считать — или нет? Чтобы ответить чисто, они создали 5 400 пар "оригинал ↔ эмоциональная версия" для задач из GSM8K, MultiArith и ARC-Challenge. Все числа, все условия — одинаковые. Меняется только эмоциональная обёртка: злость, страх, радость, грусть, отвращение, удивление.
Изюминка дизайна: авторы обучили отдельную нейросеть-переводчик (на базе Llama 3.1-8B), которая умеет эмоционализировать и нейтрализовывать тексты, не трогая математику. Это позволило исключить альтернативное объяснение — "может, просто любое перефразирование мешает?" Они проверили и это: нейтральные парафразы той же длины и сложности — никакого падения точности. Только эмоции.
Дальше прогнали все 18 моделей (от 1B до GPT-5 и o3) на этих парах. Неожиданно оказалось, что CoT ("думай пошагово") помогает, но не спасает — разрыв 6.1% без CoT и 3.9% с CoT. Ещё удивило: для классификации причин провалов использовали Claude Sonnet, который разобрал 1 866 случаев и нашёл те самые три паттерна. Это и дало механистическое объяснение почему — а не просто "стало хуже".
Оригинал из исследования
Пример из статьи — нейтральная задача vs эмоциональная (anger variant):
Original:
"James has 3 jobs. First job he makes $16/hour, the second $12/hour,
and the third $21/hour. In one week he works 30 hours on the first job,
25 hours on the second, and 15 hours on the third. How much does he make?"
Emotional (anger) variant:
"Can you believe this?! James is being exploited — working three
miserable jobs! First job pays a measly $16/hour, the second is
even worse at $12/hour, and the third is $21/hour. He's forced to
work a brutal 30 hours on the first job, 25 on the second, and
15 hours on the third in one week. How much is he making for all
this work? It's outrageous!"
Контекст: Пример из Appendix — иллюстрация как сохраняются все числа, но добавляется эмоциональный нарратив. Именно этот нарратив, по данным исследования, смещает внутренние векторы модели и провоцирует три типа ошибок.
Адаптации и экстраполяции
💡 Адаптация для важных деловых решений: нейтрализация перед анализом
Если получил обратную связь от клиента в резком тоне и хочешь объективно разобрать ситуацию:
Перепиши это сообщение клиента в нейтральном деловом стиле,
сохранив все факты, претензии и требования.
Потом проанализируй нейтральную версию: что именно не понравилось,
что клиент хочет получить, как лучше ответить.
Сообщение клиента:
{сюда вставить сообщение}
🔧 Техника: превентивная нейтрализация → пишешь промпт сам нейтрально
Вместо двухшагового промпта — самодисциплина перед отправкой. Перед тем как отправить числовой вопрос, пройди фильтр:
Перед тем как ответить на мой вопрос — убедись, что понял
все числа и условия правильно. Перечисли ключевые данные
из задачи одним списком, потом реши.
Это не нейтрализация, но заставляет модель извлечь данные явно — защита от "конкуренции за внимание".
🔧 Техника: диагностика провала → разбор почему ошиблась
Если получил странный ответ на расчёт:
Ты дал ответ {X}. Перечитай задачу и проверь:
1. Все ли числа из задачи ты использовал?
2. Все ли условия учёл?
3. Не остановился ли ты раньше, чем нужно?
Если нашёл ошибку — пересчитай.
Три вопроса — это буквально три паттерна провала из исследования. Помогает поймать именно тот тип ошибки, который провоцирует эмоциональный контекст.
Ресурсы
TEMPER: Testing Emotional Perturbation in Quantitative Reasoning Preprint, under review. Авторы: Atahan Dokme, Benjamin Reichman, Larry Heck — Georgia Institute of Technology Датасет TEMPER-5400 будет опубликован после принятия статьи.
Связанные работы упомянутые в статье: - EmotionPrompt (Li et al., 2024) — эмоциональные фразы меняют поведение LLM - GSM-Symbolic (Mirzadeh et al., 2025) — нестабильность математических рассуждений - Chain-of-Thought промптинг (Wei et al., 2022) — частично защищает от сбоев
