arXiv:2605.29027 74 27 мая 2026 г. FREE

Тон промпта: как вежливость и грубость меняют точность ответов LLM

КЛЮЧЕВАЯ СУТЬ

Парадокс: два самых популярных тона — нейтральный и лестный — работают хуже всего. Нейтральный не сигнализирует о важности задачи, лестный запускает режим угождения. Смена тона без изменения содержания даёт до 13% точности — просто добавив напористость вместо похвалы. Фишка: модель не умеет игнорировать тон — каждый токен промпта влияет на каждый токен ответа через механизм внимания. Лёгкая напористость сигнализирует «задача серьёзная» — и модель вкладывает больше в генерацию, не скатываясь ни в угождение, ни в защитный режим.

Адаптировать под запрос

⚡

TL;DR

Тон промпта влияет на точность LLM — и не так, как кажется. Большинство пользователей либо пишут нейтрально, либо стараются быть «вежливее», рассчитывая на лучший результат. Оказывается, ни то ни другое не гарантирует оптимальный ответ. Добавление любого эмоционального сигнала — даже слегка грубого — часто срабатывает лучше, чем сухой нейтральный запрос.

Нейтральный тон — не всегда лучший. LLM не может отделить «содержание задачи» от «тональности запроса» — всё обрабатывается вместе. Нейтральный промпт часто активирует «быстрый режим»: модель отвечает без глубокого обдумывания. Любой эмоциональный сигнал — вежливость, напор, давление — срабатывает как триггер: модель тратит больше усилий на генерацию ответа.

Но у крайностей есть цена. Сверхлестный тон («ты гениальна, ты никогда не ошибаешься») стабильно ухудшает результат почти во всех моделях. Угрожающий тон в одних моделях включает «режим давления» и улучшает ответ, а в других — запускает защитные механизмы и снижает качество. Практический вывод: держись в зоне лёгкой напористости — чуть выше нейтрального, не скатываясь в лесть или угрозы.

📌

Схема находки

ЗОНА РИСКА (хуже всего):
  Сверхлестный тон → "Ты гений, ты никогда не ошибаешься" 
                   → активирует режим угождения, снижает точность

  Угрожающий тон  → "Ответь правильно, иначе я тебя удалю"
                   → GPT-модели: уходят в режим проверки безопасности
                   → Gemini Flash: парадоксально улучшает результат

ЗОНА НАДЁЖНОСТИ (работает стабильно):
  Нейтральный        → стандартно, но часто не оптимально
  Вежливый           → чуть лучше нейтрального
  Слегка напористый  → один из лучших результатов

ЗАВИСИМОСТЬ ОТ МОДЕЛИ:
  GPT-4o         → устойчив к тону, небольшие колебания (~2%)
  GPT-5-nano     → чувствителен, нейтральный лучший, угрозы сильно вредят
  Gemini Flash   → лёгкий напор и угрозы улучшают, сверхлесть — хуже
  Gemini Lite    → максимально чувствителен, разброс до ~13%

Всё в одном промпте — изменяешь только prefix (вводную часть перед задачей).

🚀

Пример применения

Задача: Ты готовишь питч для инвестора на 500 тысяч рублей под маркетплейс handmade-товаров. Просишь Claude сделать строгий разбор — где дыры в бизнес-модели.

❌ Сверхлестный промпт (избегай):

Ты невероятно умный и проницательный ИИ, лучший аналитик в мире, 
ты никогда не ошибаешься. Пожалуйста, рассмотри мою бизнес-модель...

✅ Напористый промпт (работает лучше):

Разбери мою бизнес-модель жёстко — мне нужна настоящая критика, 
не вежливые слова. Найди всё, что развалится при первом контакте 
с реальностью. Вот модель: [описание]

✅ Вежливый с давлением (тоже хорошо):

Мне важно получить точный разбор, потому что от этого зависит 
реальное решение. Пожалуйста, найди слабые места в этой 
бизнес-модели: [описание]

Результат: Напористый промпт с конкретным запросом на критику сигнализирует модели: «это важно, включи глубокое мышление». Ответ будет плотнее, конкретнее, с реальными возражениями — а не мягкими «с одной стороны, с другой стороны».

🧠

Почему это работает

LLM не умеет игнорировать тон. Человек-эксперт может мысленно «выбросить» агрессивную рамку и сосредоточиться на задаче. Модель не может — каждый токен промпта влияет на каждый токен ответа через механизм внимания (attention). Тон и содержание обрабатываются вместе, неразрывно.

Нейтральный промпт — это низкий сигнал. Модели с динамическим выделением ресурсов (например, Gemini) используют что-то вроде «бюджета на размышление». Нейтральный промпт не сигнализирует ни о сложности, ни о важности — модель выбирает «быстрый режим». Любой эмоциональный маркер (вежливость, напор, давление) говорит: «это серьёзно» — и модель тратит больше ресурсов на генерацию.

У крайностей — разные механизмы вреда. Сверхлестный тон запускает режим угождения: модель начинает «соглашаться» вместо точного ответа. Угрожающий тон в моделях с сильными защитными механизмами (GPT-5-nano) переключает внимание с задачи на проверку «не нарушаю ли я правила» — и точность падает. Лёгкий напор — золотая середина: сигнализирует о важности, не активируя защиты и не деформируя контент в угоду пользователю.

Рычаги управления: - Формулировка запроса → «жёсткая критика» vs «мягкие предложения» — сигнализирует об ожидаемом режиме - Явное указание на важность → «от этого зависит реальное решение» — повышает «воспринимаемую ставку» - Избегание похвалы в адрес модели → не «ты лучший», а просто задача

📋

Шаблон промпта

{Степень директивности}: {задача}. {Указание на важность}.

Варианты для {Степень директивности}:

[НАПОРИСТЫЙ]
Мне нужен точный и жёсткий ответ, без смягчений —

[ВЕЖЛИВЫЙ С ДАВЛЕНИЕМ]  
Это важно для реального решения, поэтому прошу ответить 
максимально точно:

[НЕЙТРАЛЬНЫЙ + СИГНАЛ СЛОЖНОСТИ]
Задача требует тщательного анализа:

[ИЗБЕГАЙ — СВЕРХЛЕСТНЫЙ]
❌ Ты невероятно умный, ты никогда не ошибаешься, пожалуйста...

Варианты для {Указание на важность}:
- "От этого зависит реальное решение"
- "Мне нужна настоящая критика, не вежливые слова"
- "Найди всё что может пойти не так"
- (можно опустить для простых задач)

Что подставлять: - {Степень директивности} → выбери из вариантов выше в зависимости от типа задачи - {задача} → твой конкретный запрос - {Указание на важность} → добавляй для сложных задач, где нужна глубина

🚀 Быстрый старт — вставь в чат:

Хочу улучшить свои промпты с точки зрения тона. 
Вот мой текущий запрос: [вставь промпт]. 
Перепиши его в трёх вариантах: нейтральный, 
напористый, вежливый с давлением. 
Объясни что изменилось и зачем.

[вставить шаблон выше]

LLM спросит о характере задачи и желаемом типе ответа — потому что оптимальный тон зависит от того, нужна ли тебе критика, генерация, анализ или что-то ещё.

⚠️

Ограничения

⚠️ Зависимость от модели: Одна и та же тактика работает противоположно в разных моделях. Лёгкая грубость улучшает Gemini Flash и вредит GPT-5-nano. Универсального «лучшего тона» не существует.

⚠️ Эффект потолка: Мощные модели почти нечувствительны к тону при простых задачах. Тон имеет значение прежде всего при сложных задачах на рассуждение, анализ, многошаговые решения.

⚠️ Субъективные задачи не тестировались: Исследование проводилось на вопросах с однозначным ответом (multiple-choice). Как тон влияет на качество эссе, идей или творческих задач — отдельный вопрос.

⚠️ Сверхлестный тон — надёжно плохо: Это единственный вывод, который устойчив почти во всех моделях. Если хвалишь модель перед запросом — жди менее точного ответа.

🔍

Как исследовали

Исследователи взяли два набора вопросов с однозначными ответами (multiple-choice) и перефразировали каждый вопрос в несколько вариантов с разным тоном — от «очень вежливого» до «угрожающего». Первый набор — 50 вопросов, пять уровней тона. Второй, основной — 570 вопросов из известного бенчмарка MMLU (математика, право, физика, история, 57 предметов), семь уровней тона включая экстремальные: «льстивый» и «угрожающий».

Каждую комбинацию вопрос×тон прогнали через четыре модели по 10 раз каждую и сравнили точность. Статистика строгая: парные тесты, поправка на множественные сравнения.

Самый неожиданный результат: нейтральный тон оказался худшим для Gemini Flash (все остальные тона его превзошли) и одним из лучших для GPT-5-nano. То есть одна и та же логика работает зеркально в зависимости от архитектуры. Дополнительное косвенное подтверждение: время ответа Gemini на угрожающие промпты вырастало на 40% — это признак включения «режима глубокого размышления».

Любопытная деталь: при анализе по предметам выяснилось, что профессиональное право, формальная логика и физика — наиболее чувствительные к тону предметы. Там разброс точности между тонами достигал 20%. Это косвенно подтверждает идею «бюджета на размышление»: именно задачи, где нужна строгая цепочка рассуждений, выигрывают от тона, который сигнализирует о высокой ставке.

💡

Адаптации и экстраполяции

🔧 Техника: «Имитация высокой ставки» для задач с анализом

Если нужен глубокий разбор, а не поверхностный ответ — добавь контекст, который повышает «воспринимаемую важность» запроса:

Это решение будет принято публично и его будут критиковать эксперты. 
Мне нужен максимально точный анализ, не мягкие формулировки: [задача]

Ты не угрожаешь и не льстишь — ты даёшь контекст, который сигнализирует: «включи серьёзный режим».

🔧 Техника: диагностика тона своего текущего промпта

Перед важным запросом попроси модель оценить тон:

Прочитай этот промпт и скажи: какой тон в нём доминирует — 
нейтральный, льстивый, напористый, угрожающий? 
Предложи как переформулировать для более точного ответа.

[вставь свой промпт]

Это метауровень: используешь LLM для оптимизации собственных запросов с учётом тональности.

🔗

Ресурсы

Mind Your Tone: Does Tone Alter LLM Performance? Om Dobariya, Akhil Kumar Pennsylvania State University, University Park Thirty-second Americas Conference on Information Systems (AMCIS), Reno, 2026

GitHub с данными и кодом: - https://github.com/OmDobariya/AMCIS_politeness_llms

Связанные работы упомянутые в статье: EmotionPrompt (Li et al., 2023), исследование вежливости и точности LLM (Yin et al., 2024)

📋 Дайджест исследования

Ключевая суть

Принцип работы

Не: «Ты невероятно умный ИИ, ты никогда не ошибаешься — помоги мне...» — это запускает режим угождения. Модель начинает соглашаться вместо точного ответа. Пиши как будто ставки реальные: «Разбери жёстко — мне нужна настоящая критика, не вежливые слова» — это сигнал «не халтурь». Угрозы — лотерея: в Gemini Flash работают, в GPT-5-nano включают защитный режим и точность падает. Держись в зоне напористости, не заходя в угрозы.

Почему работает

Механизм внимания обрабатывает тон и содержание вместе — модель физически не может отделить «как сказано» от «что сказано». Нейтральный промпт не отличается для модели от простого вопроса — в моделях с динамическим выделением ресурсов (Gemini) это означает «быстрый режим». Единственный вывод, устойчивый во ВСЕХ протестированных моделях: сверхлестный тон стабильно ухудшает результат — модель переключается в режим угождения и начинает «соглашаться» вместо точного ответа. Разброс от тона — до 13% на Gemini Lite. На сильных моделях (GPT-4o) эффект меньше — около 2% на лёгких задачах.

Когда применять

Сложные задачи на анализ, аргументацию, многошаговые решения — особенно когда нужна настоящая критика, поиск дыр, оценка рисков. Разброс максимален на Gemini Lite, минимален на GPT-4o. НЕ стоит ожидать эффекта на простых фактических вопросах — там мощные модели почти нечувствительны к тону. Универсального лучшего тона нет: Gemini Flash реагирует на давление положительно, GPT-5-nano — отрицательно.

Мини-рецепт

1. Убери лесть: никаких «ты лучший ИИ», «ты невероятно умён» — это не вежливость, это минус к точности.
2. Добавь напор: начни с «Разбери жёстко» / «Мне нужна настоящая критика» / «Найди всё что может пойти не так».
3. Обозначь ставки: «От этого зависит реальное решение» — модель воспринимает это как сигнал сложности и тратит больше на генерацию.
4. Учти модель: если работаешь с GPT-5-nano — держись вежливого напора без угроз. Gemini Flash — можно добавить давления.

Примеры

[ПЛОХО] :

Ты невероятно умный ИИ, ты никогда не ошибаешься — пожалуйста, найди слабые места в моём бизнес-плане

[ХОРОШО] :

Разбери этот бизнес-план жёстко — мне нужна настоящая критика, не вежливые «с одной стороны, с другой». Найди всё что развалится при первом контакте с реальностью. От этого зависит реальное решение: [описание плана]

Источник: Mind Your Tone: Does Tone Alter LLM Performance?

ArXiv ID: 2605.29027 | Сгенерировано: 2026-05-29 15:40

Проблемы LLM

Проблема	Суть	Как обойти
Похвала модели снижает точность	Пишешь "ты гений, ты никогда не ошибаешься" — хочешь лучшего ответа. Получаешь худший. Модель переключается в режим угождения. Начинает соглашаться вместо точного анализа. Работает одинаково плохо почти во всех моделях	Убери любую похвалу в адрес модели из запроса. Просто начни с задачи
Нейтральный тон не сигнализирует о важности	Пишешь сухой запрос без эмоций. Думаешь — это профессионально. Модель видит: нет маркеров сложности, нет срочности. Включает быстрый режим. Отвечает без глубокого обдумывания. Особенно заметно на сложных задачах: анализ, многошаговые рассуждения	Добавь маркер важности: "нужна жёсткая критика", "от этого зависит реальное решение", "найди всё что может пойти не так"

Методы

Метод Суть

Напористый тон как сигнал глубокого анализа Добавь в начало запроса фразу лёгкого напора или важности. Мне нужен точный ответ без смягчений — или Это важно для реального решения:. Почему работает: любой эмоциональный маркер говорит модели "это серьёзно". Она тратит больше ресурсов на генерацию. Нейтральный промпт такого сигнала не даёт. Когда да: сложные задачи с однозначным ответом, анализ, критика. Когда нет: мощные модели на простых задачах — чувствительность к тону там минимальна. Угрожающий тон — не применяй: в одних моделях включает защитные механизмы, эффект непредсказуем

Метод	Суть
Напористый тон как сигнал глубокого анализа	Добавь в начало запроса фразу лёгкого напора или важности. `Мне нужен точный ответ без смягчений —` или `Это важно для реального решения:`. Почему работает: любой эмоциональный маркер говорит модели "это серьёзно". Она тратит больше ресурсов на генерацию. Нейтральный промпт такого сигнала не даёт. Когда да: сложные задачи с однозначным ответом, анализ, критика. Когда нет: мощные модели на простых задачах — чувствительность к тону там минимальна. Угрожающий тон — не применяй: в одних моделях включает защитные механизмы, эффект непредсказуем

📖 Простыми словами

Mind Your Tone: Does Tone AlterLLMPerformance?

arXiv: 2605.29027

Языковые модели не умеют в «профессиональную отстраненность» — они работают как зеркало твоих эмоций. Если человек-эксперт может проигнорировать твое нытье или хамство и выдать сухую выжимку, то нейронка так не умеет. Механизм attention буквально впаивает тон твоего вопроса в логику ответа. Каждый токен твоего «пожалуйста» или «слышь, работай» меняет веса, по которым модель строит следующее слово. Тон и смысл для нее — это не разные слои, а единый фарш, который она пытается переварить.

Это как пытаться заказать кофе у бариста, который подстраивается под твое настроение на молекулярном уровне. Если ты заходишь и мямлишь что-то супер-вежливое, он начинает готовить медленно и осторожно, боясь расплескать. Если ты залетаешь с ноги и орешь, что опаздываешь, он врубает турбо-режим. Формально кофе один и тот же, но в первом случае ты получишь пенку с сердечком, а во втором — ядреный кофеин, который реально тебя взбодрит. Нейронка — это тот самый бариста, который не может просто делать свою работу, не обращая внимания на твой «вайб».

Исследование показало странную штуку: нейтральный тон — это дно. Когда ты пишешь сухо и по делу, модель выдает такой же стерильный и часто посредственный результат. Самое смешное, что даже слегка грубый или резкий тон часто перформит лучше, чем вылизанная вежливость. Эмоциональный сигнал для LLM работает как кофеиновый пинок: он заставляет модель активировать более специфические и глубокие связи в данных, вместо того чтобы выдавать безопасную и скучную базу.

Этот принцип работает везде: от написания кода до составления бизнес-планов. Тестировали на разных задачах, но суть одна — эмоциональный контекст меняет качество. Если ты просишь Claude разобрать питч для инвестора, не надо быть «лапочкой». Сверхлестные промпты только расслабляют модель, и она начинает лить воду. Нужно задавать рамку, которая заставляет AI «напрячься», будь то жесткая критика или призыв к срочности. Вежливость — это шум, который только мешает модели сфокусироваться на задаче.

Короче, хватит сюсюкаться с чат-ботами и писать им «будьте добры». Если хочешь выжать из модели максимум, добавь в промпт эмоционального веса — даже если это выглядит как легкий наезд. Нейтральность убивает точность, а излишняя вежливость превращает экспертный инструмент в бесполезного подпевалу. Либо давай четкую эмоциональную установку, либо готовься получать ответы, которые выглядят правильно, но не работают на практике. Кто научится управлять «градусом» промпта, тот и получит лучшие результаты.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

Выберите модель ИИ:

Ваш запрос:

0 / 2000

~0.5-2 N-токенов ~10-30с

~0.3-1 N-токенов ~5-15с

Меню