3,583 papers
arXiv:2604.18389 72 20 апр. 2026 г. FREE

Understanding Prompt Sensitivity: математическое объяснение почему одна и та же мысль, записанная иначе, меняет ответ модели

КЛЮЧЕВАЯ СУТЬ
LLM не сближает похожие промпты — она их разгоняет. Два запроса с одним смыслом расходятся всё дальше с каждым слоем трансформера. Вот математическая причина, почему переформулированный запрос даёт другой ответ — и объяснения «модель капризничает» здесь недостаточно. Исследование позволяет понять иерархию рисков при правке промпта — и знать точно, что трогать безопасно, а что обрушит качество ответа. Контринтуитивная находка: шаблон промпта влияет на ответ сильнее, чем содержание самой задачи — шаблон длиннее и стоит первым, он давит больше на итоговый ответ. Иерархия риска от разрушительного к безопасному: опечатки → перестановка слов → замена слов → перефразирование. Опечатка в шаблоне бьёт сильнее, чем полная смена темы.
Адаптировать под запрос

TL;DR

LLM не группирует похожие промпты — она их разгоняет. В традиционных нейросетях (например, для распознавания изображений) похожие объекты сближаются внутри сети с каждым слоем. В LLM всё наоборот: два промпта с одинаковым смыслом расходятся всё дальше по мере прохождения через слои. Это и есть математическая причина, почему модель отвечает по-разному на "синонимичные" запросы.

Самая неожиданная находка: шаблон промпта влияет на ответ модели сильнее, чем сама задача. Если вы переформулировали вопрос, сохранив структуру — это менее рискованно. Если изменили структуру/обёртку промпта — модель дёргается сильнее, чем если бы вы сменили саму задачу.

Порядок опасности по убыванию: опечатки → перестановка слов → замена слов → перефразирование. Опечатки хуже паразнивирования в разы, потому что ломают внутреннюю токенизацию — модель буквально получает другой "алфавит" на входе.


📌

Схема находок

РИСК ИЗМЕНЕНИЯ ПРОМПТА (от высокого к низкому):

Опечатки (typos)             → МАКСИМАЛЬНЫЙ риск
  ↓ ломают токенизацию, модель видит другие "кусочки" слов

Перестановка слов (misalignment) → ВЫСОКИЙ риск
  ↓ переставить слова хуже, чем заменить синонимами

Замена слов в конце промпта  → СРЕДНИЙ риск
  ↓ маленькие модели чувствительнее к концу, большие — к началу

Перефразирование целыми мыслями → МИНИМАЛЬНЫЙ риск
  ↓ безопаснее всего, если нужно изменить формулировку

---

ГЛАВНАЯ НАХОДКА:

Шаблон/структура промпта  →  влияет СИЛЬНЕЕ, чем содержание задачи

🚀

Пример применения

Задача: Антон ведёт Telegram-канал про личные финансы. Каждую неделю просит ChatGPT написать разбор ETF. У него есть рабочий шаблон, но иногда он "чуть подправляет" формулировку — и удивляется, почему качество прыгает. Иногда блестяще, иногда среднее.

Промпт — аудит перед отправкой:

Перед тем как отправить промпт, проверь по списку:

1. ОПЕЧАТКИ — нет ли случайных опечаток в шаблоне (не в данных)?
   Даже одна опечатка в слове шаблона сильнее ломает ответ, чем 
   изменение самой задачи.

2. СТРУКТУРА — шаблон тот же, что работал раньше?
   Если что-то поменял в обёртке промпта — это влияет сильнее, 
   чем изменение самого вопроса.

3. ПОРЯДОК СЛОВ — ты менял местами части промпта?
   Переставить слова хуже, чем заменить их синонимами.

4. ЕСЛИ НУЖНО ИЗМЕНИТЬ — перефразируй целыми мыслями.
   Перефразирование безопаснее перестановки или опечаток.

Результат:

Это не промпт для задачи — это чек-лист для диагностики нестабильных ответов. Антон сможет определить, что именно он менял между хорошими и плохими запросами, и где искать причину скачка качества.


🧠

Почему это работает

Обычная нейросеть (для картинок) работает как таможня со стеклом: похожие объекты с каждым шагом обработки становятся ближе друг к другу. Кот и кот — одна стопка. Собака и собака — другая. Это называется кластеризация, и она нужна для точной классификации.

LLM работает иначе — она разгоняет похожие промпты. Два промпта с одним смыслом с каждым трансформерным слоем становятся дальше друг от друга во внутреннем пространстве модели. Это не баг — это особенность архитектуры: модель учит каждый пример отдельно, не формируя "классы" для похожего смысла.

Почему шаблон важнее содержания — потому что шаблон занимает больше токенов и стоит раньше в контексте. Логиты (числа, из которых формируется ответ) суммируют вклад ВСЕХ токенов. Шаблон вносит больший вклад просто потому, что его больше и он идёт первым.

Почему опечатки самые опасные — LLM работает не со словами, а с токенами (кусочками слов). Опечатка меняет токен на другой — модель буквально получает другой "материал" на входе. Перефразирование же сохраняет большинство токенов, только меняет некоторые из них на семантически близкие.


📋

Шаблон промпта

Универсальный "стабилизирующий блок" для начала промпта:

[Зафиксированный заголовок роли или задачи — не меняй между запросами]

{задача}: {содержание_задачи}

[Зафиксированные инструкции формата — не меняй между запросами]

Что подставлять: - {задача} — тип задания: "Напиши разбор", "Объясни", "Сравни" - {содержание_задачи} — сам материал: название ETF, тема, данные

Принцип: всё что обёртка — фиксируй и не трогай. Меняй только {содержание_задачи}.


🚀 Быстрый старт — вставь в чат:

Помоги мне зафиксировать стабильный шаблон промпта для повторяющейся задачи. 
Я хочу минимизировать прыжки качества между запросами. 
Задавай вопросы, чтобы понять мою задачу и помочь составить шаблон.

[вставить шаблон выше]

LLM спросит про твою повторяющуюся задачу и формат ответа — потому что чем точнее зафиксирован шаблон, тем меньше случайных изменений ты вносишь от запроса к запросу.


⚠️

Ограничения

⚠️ Только теория, без рецепта: Исследование объясняет ПОЧЕМУ возникает чувствительность, но не даёт способа её устранить. Рекомендации (фиксируй шаблон, избегай опечаток) — логические выводы, не проверенные как метод улучшения промптов.

⚠️ Зависимость от размера модели: Где именно опасно менять промпт (начало или конец) зависит от размера модели. В маленьких — конец опаснее, в больших — начало. GPT-4 и Claude — большие, правило "начало важнее" скорее всего применимо.

⚠️ Только тест-задачи с конкретным ответом: Эксперименты проводились на вопросах с однозначным правильным ответом (MCQ). Для творческих задач, где "правильного ответа" нет, выводы применимы по смыслу, но экспериментально не подтверждены.

⚠️ Не про улучшение качества: Исследование про стабильность, а не про качество. Зафиксированный шаблон даст стабильный ответ, но не обязательно лучший.


🔗

Ресурсы

Работа: Understanding the Prompt Sensitivity — Yang Liu, Chenhui Chu, Kyoto University

Код: github.com/ku-nlp/Understanding_the_Prompt_Sensitivity

Метрика: PromptSensiScore (PSS) — Zhuo et al., 2024

Датасеты: ARC Challenge, CommonSenseQA, MMLU, OpenBookQA, Alpaca


📋 Дайджест исследования

Ключевая суть

LLM не сближает похожие промпты — она их разгоняет. Два запроса с одним смыслом расходятся всё дальше с каждым слоем трансформера. Вот математическая причина, почему переформулированный запрос даёт другой ответ — и объяснения «модель капризничает» здесь недостаточно. Исследование позволяет понять иерархию рисков при правке промпта — и знать точно, что трогать безопасно, а что обрушит качество ответа. Контринтуитивная находка: шаблон промпта влияет на ответ сильнее, чем содержание самой задачи — шаблон длиннее и стоит первым, он давит больше на итоговый ответ. Иерархия риска от разрушительного к безопасному: опечатки → перестановка слов → замена слов → перефразирование. Опечатка в шаблоне бьёт сильнее, чем полная смена темы.

Принцип работы

Обычная нейросеть работает как сортировщик на почте: похожие объекты с каждым шагом сближаются — кот к коту, собака к собаке. LLM работает наоборот. Похожие промпты с каждым трансформерным слоем расходятся, а не сходятся — модель не формирует «классы» для одинакового смысла, она обрабатывает каждый токен отдельно. Почему шаблон важнее содержания: итоговый ответ складывается из вклада всех токенов. Шаблон длиннее и стоит раньше — его вклад больше. Почему опечатки самые опасные: токенизатор режет слова на кусочки. Опечатка создаёт другой токен — модель получает другой «материал» на входе, а не похожий. Перефразирование же сохраняет большинство токенов, меняя только часть на близкие по смыслу.

Почему работает

Математика проверена на 12+ моделях через разложение Тейлора — это не интуиция, а формальное доказательство. Чувствительность к промпту нарастает с глубиной сети: каждый следующий слой усиливает расхождение между похожими запросами. Неожиданный практический факт: маленькие модели чувствительнее к концу промпта, большие (GPT-4, Claude) — к его началу. В мощных моделях первые слова шаблона влияют сильнее, чем вся остальная часть запроса. Менял заголовок роли — считай, поменял всё.

Когда применять

Повторяющиеся задачи → копирайтинг, анализ, отчёты, разборы — особенно когда используешь один и тот же промпт регулярно и видишь скачки качества без видимой причины. НЕ подходит как инструмент улучшения качества — только стабилизации. Если промпт плохой по сути, фиксация шаблона даст стабильно плохой результат. И если задача каждый раз принципиально новая — здесь нет повторяющегося шаблона, который стоит фиксировать.

Мини-рецепт

1. Раздели промпт на две части: что остаётся одинаковым (шаблон) и что меняется (содержание задачи). Шаблон — это роль, инструкции формата, правила вывода. Содержание — тема, данные, объект.

2. Зафиксируй шаблон дословно — сохрани в заметки или документ. Не переписывай каждый раз «на глаз». Даже небольшая правка в структуре влияет сильнее, чем смена самой задачи.

3. Сделай переменные явными: вместо того чтобы переписывать промпт, подставляй только нужное:
<роль>аналитик ETF
<задача>Напиши разбор
<содержание>{тикер и данные}

4. Перед отправкой — быстрая проверка по убыванию риска:
— Есть опечатки в шаблоне? Исправь первым делом.
— Переставил части местами? Верни обратно.
— Если нужно изменить формулировку — перефразируй целой мыслью, не переставляй слова внутри предложения.

5. Для больших моделей (GPT-4, Claude) — начало промпта влияет сильнее конца. Роль и главная инструкция должны стоять первыми и не меняться.

Примеры

[ПЛОХО] : каждый запрос пишется заново «по памяти» — сегодня Напиши разбор ETF FXUS для моего Telegram-канала, простым языком, без воды, завтра Сделай анализ фонда FXUS, пиши понятно для новичков — кажется похоже, но шаблон другой каждый раз.
[ХОРОШО] : `` Ты финансовый аналитик для Telegram-канала про личные финансы. Аудитория — люди без профессионального образования. Задача: напиши разбор ETF. Фонд: {тикер} Данные: {что вставить} Формат: три абзаца — суть фонда, плюсы и минусы, вывод. Без жаргона. Максимум 200 слов. `` Шаблон сохранён дословно. Между запросами меняется только {тикер} и {данные} — всё остальное не трогается.
Источник: Understanding the Prompt Sensitivity — Yang Liu, Chenhui Chu, Kyoto University (2025)
ArXiv ID: 2604.18389 | Сгенерировано: 2026-04-21 06:30

Проблемы LLM

ПроблемаСутьКак обойти
Качество скачет от незаметных правок в шаблонеМеняешь "обёртку" запроса — формулировку роли, инструкцию, порядок частей. Думаешь: поправил мелочь. На деле: модель реагирует на это сильнее, чем если бы ты сменил саму задачу. Шаблон содержит больше токенов и стоит раньше в тексте. Его вклад в итоговый ответ — больший. Проблема универсальна для любой повторяющейся работы с запросамиРаздели запрос на две части: неизменяемый шаблон и сменяемое содержание задачи. Шаблон — заморозь. Меняй только {содержание} от запроса к запросу

Методы

МетодСуть
Заморозка шаблона — стабильные ответы серииРаздели запрос явно: [шаблон роли и инструкции] + {задача}: {содержание}. Всё что "обёртка" — зафиксируй и не трогай между запросами. Меняй только {содержание}. Почему работает: шаблон занимает больше токенов и стоит раньше. Это значит его вклад в ответ — больший. Если меняешь шаблон от запроса к запросу — вносишь главный источник нестабильности. Когда применять: повторяющиеся задачи одного типа — разборы, анализы, пересказы. Когда не поможет: разовые задачи, где шаблон всё равно новый каждый раз

Тезисы

ТезисКомментарий
Опечатка в шаблоне опаснее любого переформулированияМодель работает не со словами, а с токенами — кусочками слов. Опечатка меняет токен на другой. Модель буквально получает другой "материал" на входе. Переформулирование же заменяет токены на близкие по смыслу — большинство остаётся похожим. Поэтому опечатка ломает ответ сильнее, чем замена всего предложения синонимами. Применяй: проверяй шаблон на опечатки в первую очередь, когда ищешь причину плохого ответа
📖 Простыми словами

Understanding thePromptSensitivity

arXiv: 2604.18389

Нейросети для генерации текста работают совсем не так, как мы привыкли думать. В обычных моделях, которые распознают котиков на фото, похожие объекты с каждым слоем вычислений «слипаются» в одну кучу — это помогает системе понять, что перед ней именно кот, независимо от освещения. Но LLM (языковые модели) ведут себя ровно наоборот: они не сближают похожие смыслы, а разгоняют их в разные стороны. Чем глубже промпт уходит в слои нейросети, тем сильнее два почти одинаковых запроса отдаляются друг от друга математически. Это фундаментальная причина, почему малейшее изменение запятой или синонима превращает адекватный ответ в полную ахинею.

Это как если бы ты катил два шара по вершине острого хребта. В начале они лежат рядом, в паре сантиметров друг от друга, но стоит им начать движение, как один улетает в левое ущелье, а другой — в правое. Формально толчок был одинаковым, но результат — два разных мира. В LLM нет «безопасной зоны» синонимов, где смысл остается стабильным; там работает эффект бабочки, где каждое лишнее слово меняет траекторию вычислений всей махины.

В исследовании это объясняется через геометрию представлений: если в классических сетях данные группируются, то в трансформерах они разлетаются. Возьмем метод Prompt Engineering — мы пытаемся нащупать ту самую точку входа, которая не отправит модель в крутое пике. Если ты просишь «напиши отчет» или «составь сводку», для тебя это одно и то же, но для модели это две разные математические вселенные. Она не «понимает» общность задачи, она просто несется по вектору, который задали эти конкретные буквы.

Принцип универсален и касается не только текстов, но и генерации кода или картинок. Ты можешь неделями полировать идеальный шаблон для разбора финансовых рынков, но стоит коллеге заменить «проанализируй» на «изучи», и вся магия рассыпается. Это не модель «тупит», это математическая расходимость в действии. Любой сложный процесс, завязанный на LLM, критически зависит от жесткой фиксации формулировок, потому что внутри нейронки нет механизма, который бы склеивал похожие намерения в один результат.

Короче: забудь про то, что нейросеть «схватывает суть» на лету. Она — сверхчувствительный механизм, где стабильность промпта важнее, чем кажется на первый взгляд. Если нашел рабочую связку слов — не дыши на нее и не пытайся «улучшить» косметически. Любая правка ради красоты слога может выкинуть результат за борт, потому что LLM не группирует смыслы, а множит хаос при малейшем отклонении. Кто не зафиксирует свои шаблоны в граните, тот будет вечно гадать, почему вчера нейронка была гением, а сегодня выдает какую-то фигню.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с