TL;DR
Тон промпта влияет на точность LLM — и не так, как кажется. Большинство пользователей либо пишут нейтрально, либо стараются быть «вежливее», рассчитывая на лучший результат. Оказывается, ни то ни другое не гарантирует оптимальный ответ. Добавление любого эмоционального сигнала — даже слегка грубого — часто срабатывает лучше, чем сухой нейтральный запрос.
Нейтральный тон — не всегда лучший. LLM не может отделить «содержание задачи» от «тональности запроса» — всё обрабатывается вместе. Нейтральный промпт часто активирует «быстрый режим»: модель отвечает без глубокого обдумывания. Любой эмоциональный сигнал — вежливость, напор, давление — срабатывает как триггер: модель тратит больше усилий на генерацию ответа.
Но у крайностей есть цена. Сверхлестный тон («ты гениальна, ты никогда не ошибаешься») стабильно ухудшает результат почти во всех моделях. Угрожающий тон в одних моделях включает «режим давления» и улучшает ответ, а в других — запускает защитные механизмы и снижает качество. Практический вывод: держись в зоне лёгкой напористости — чуть выше нейтрального, не скатываясь в лесть или угрозы.
Схема находки
ЗОНА РИСКА (хуже всего):
Сверхлестный тон → "Ты гений, ты никогда не ошибаешься"
→ активирует режим угождения, снижает точность
Угрожающий тон → "Ответь правильно, иначе я тебя удалю"
→ GPT-модели: уходят в режим проверки безопасности
→ Gemini Flash: парадоксально улучшает результат
ЗОНА НАДЁЖНОСТИ (работает стабильно):
Нейтральный → стандартно, но часто не оптимально
Вежливый → чуть лучше нейтрального
Слегка напористый → один из лучших результатов
ЗАВИСИМОСТЬ ОТ МОДЕЛИ:
GPT-4o → устойчив к тону, небольшие колебания (~2%)
GPT-5-nano → чувствителен, нейтральный лучший, угрозы сильно вредят
Gemini Flash → лёгкий напор и угрозы улучшают, сверхлесть — хуже
Gemini Lite → максимально чувствителен, разброс до ~13%
Всё в одном промпте — изменяешь только prefix (вводную часть перед задачей).
Пример применения
Задача: Ты готовишь питч для инвестора на 500 тысяч рублей под маркетплейс handmade-товаров. Просишь Claude сделать строгий разбор — где дыры в бизнес-модели.
❌ Сверхлестный промпт (избегай):
Ты невероятно умный и проницательный ИИ, лучший аналитик в мире,
ты никогда не ошибаешься. Пожалуйста, рассмотри мою бизнес-модель...
✅ Напористый промпт (работает лучше):
Разбери мою бизнес-модель жёстко — мне нужна настоящая критика,
не вежливые слова. Найди всё, что развалится при первом контакте
с реальностью. Вот модель: [описание]
✅ Вежливый с давлением (тоже хорошо):
Мне важно получить точный разбор, потому что от этого зависит
реальное решение. Пожалуйста, найди слабые места в этой
бизнес-модели: [описание]
Результат: Напористый промпт с конкретным запросом на критику сигнализирует модели: «это важно, включи глубокое мышление». Ответ будет плотнее, конкретнее, с реальными возражениями — а не мягкими «с одной стороны, с другой стороны».
Почему это работает
LLM не умеет игнорировать тон. Человек-эксперт может мысленно «выбросить» агрессивную рамку и сосредоточиться на задаче. Модель не может — каждый токен промпта влияет на каждый токен ответа через механизм внимания (attention). Тон и содержание обрабатываются вместе, неразрывно.
Нейтральный промпт — это низкий сигнал. Модели с динамическим выделением ресурсов (например, Gemini) используют что-то вроде «бюджета на размышление». Нейтральный промпт не сигнализирует ни о сложности, ни о важности — модель выбирает «быстрый режим». Любой эмоциональный маркер (вежливость, напор, давление) говорит: «это серьёзно» — и модель тратит больше ресурсов на генерацию.
У крайностей — разные механизмы вреда. Сверхлестный тон запускает режим угождения: модель начинает «соглашаться» вместо точного ответа. Угрожающий тон в моделях с сильными защитными механизмами (GPT-5-nano) переключает внимание с задачи на проверку «не нарушаю ли я правила» — и точность падает. Лёгкий напор — золотая середина: сигнализирует о важности, не активируя защиты и не деформируя контент в угоду пользователю.
Рычаги управления: - Формулировка запроса → «жёсткая критика» vs «мягкие предложения» — сигнализирует об ожидаемом режиме - Явное указание на важность → «от этого зависит реальное решение» — повышает «воспринимаемую ставку» - Избегание похвалы в адрес модели → не «ты лучший», а просто задача
Шаблон промпта
{Степень директивности}: {задача}. {Указание на важность}.
Варианты для {Степень директивности}:
[НАПОРИСТЫЙ]
Мне нужен точный и жёсткий ответ, без смягчений —
[ВЕЖЛИВЫЙ С ДАВЛЕНИЕМ]
Это важно для реального решения, поэтому прошу ответить
максимально точно:
[НЕЙТРАЛЬНЫЙ + СИГНАЛ СЛОЖНОСТИ]
Задача требует тщательного анализа:
[ИЗБЕГАЙ — СВЕРХЛЕСТНЫЙ]
❌ Ты невероятно умный, ты никогда не ошибаешься, пожалуйста...
Варианты для {Указание на важность}:
- "От этого зависит реальное решение"
- "Мне нужна настоящая критика, не вежливые слова"
- "Найди всё что может пойти не так"
- (можно опустить для простых задач)
Что подставлять:
- {Степень директивности} → выбери из вариантов выше в зависимости от типа задачи
- {задача} → твой конкретный запрос
- {Указание на важность} → добавляй для сложных задач, где нужна глубина
🚀 Быстрый старт — вставь в чат:
Хочу улучшить свои промпты с точки зрения тона.
Вот мой текущий запрос: [вставь промпт].
Перепиши его в трёх вариантах: нейтральный,
напористый, вежливый с давлением.
Объясни что изменилось и зачем.
[вставить шаблон выше]
LLM спросит о характере задачи и желаемом типе ответа — потому что оптимальный тон зависит от того, нужна ли тебе критика, генерация, анализ или что-то ещё.
Ограничения
⚠️ Зависимость от модели: Одна и та же тактика работает противоположно в разных моделях. Лёгкая грубость улучшает Gemini Flash и вредит GPT-5-nano. Универсального «лучшего тона» не существует.
⚠️ Эффект потолка: Мощные модели почти нечувствительны к тону при простых задачах. Тон имеет значение прежде всего при сложных задачах на рассуждение, анализ, многошаговые решения.
⚠️ Субъективные задачи не тестировались: Исследование проводилось на вопросах с однозначным ответом (multiple-choice). Как тон влияет на качество эссе, идей или творческих задач — отдельный вопрос.
⚠️ Сверхлестный тон — надёжно плохо: Это единственный вывод, который устойчив почти во всех моделях. Если хвалишь модель перед запросом — жди менее точного ответа.
Как исследовали
Исследователи взяли два набора вопросов с однозначными ответами (multiple-choice) и перефразировали каждый вопрос в несколько вариантов с разным тоном — от «очень вежливого» до «угрожающего». Первый набор — 50 вопросов, пять уровней тона. Второй, основной — 570 вопросов из известного бенчмарка MMLU (математика, право, физика, история, 57 предметов), семь уровней тона включая экстремальные: «льстивый» и «угрожающий».
Каждую комбинацию вопрос×тон прогнали через четыре модели по 10 раз каждую и сравнили точность. Статистика строгая: парные тесты, поправка на множественные сравнения.
Самый неожиданный результат: нейтральный тон оказался худшим для Gemini Flash (все остальные тона его превзошли) и одним из лучших для GPT-5-nano. То есть одна и та же логика работает зеркально в зависимости от архитектуры. Дополнительное косвенное подтверждение: время ответа Gemini на угрожающие промпты вырастало на 40% — это признак включения «режима глубокого размышления».
Любопытная деталь: при анализе по предметам выяснилось, что профессиональное право, формальная логика и физика — наиболее чувствительные к тону предметы. Там разброс точности между тонами достигал 20%. Это косвенно подтверждает идею «бюджета на размышление»: именно задачи, где нужна строгая цепочка рассуждений, выигрывают от тона, который сигнализирует о высокой ставке.
Адаптации и экстраполяции
🔧 Техника: «Имитация высокой ставки» для задач с анализом
Если нужен глубокий разбор, а не поверхностный ответ — добавь контекст, который повышает «воспринимаемую важность» запроса:
Это решение будет принято публично и его будут критиковать эксперты.
Мне нужен максимально точный анализ, не мягкие формулировки: [задача]
Ты не угрожаешь и не льстишь — ты даёшь контекст, который сигнализирует: «включи серьёзный режим».
🔧 Техника: диагностика тона своего текущего промпта
Перед важным запросом попроси модель оценить тон:
Прочитай этот промпт и скажи: какой тон в нём доминирует —
нейтральный, льстивый, напористый, угрожающий?
Предложи как переформулировать для более точного ответа.
[вставь свой промпт]
Это метауровень: используешь LLM для оптимизации собственных запросов с учётом тональности.
Ресурсы
Mind Your Tone: Does Tone Alter LLM Performance? Om Dobariya, Akhil Kumar Pennsylvania State University, University Park Thirty-second Americas Conference on Information Systems (AMCIS), Reno, 2026
GitHub с данными и кодом: - https://github.com/OmDobariya/AMCIS_politeness_llms
Связанные работы упомянутые в статье: EmotionPrompt (Li et al., 2023), исследование вежливости и точности LLM (Yin et al., 2024)
