TL;DR
Слова в промпте важнее, чем структура предложения. Если заменить слова на синонимы — модель может ответить хуже. Если переставить порядок слов или изменить синтаксис — эффект значительно меньше. Это не баг одной модели — так работают почти все современные LLM.
Боль пользователя: Вы переформулируете промпт и получаете другой результат. Непонятно почему — вроде спросили то же самое. Оказывается, замена «оцени» на «проанализируй», или «срочно» на «немедленно» — уже меняет поведение модели. Порой значительно. При этом перестановка придаточного предложения или смена порядка аргументов влияет слабее.
Объяснение: LLM распознаёт паттерны по конкретным словам и их сочетаниям, а не по смыслу предложения в целом. Модель не «понимает» что «получить» = «приобрести» = «достать» — для неё это разные токены с разными вероятностями. Синтаксис (как устроено предложение) модель улавливает лучше — здесь она видит структуру. Лексику (конкретные слова) модель помнит из обучения — и чуть другое слово уводит её на другой паттерн.
Схема метода
Это не промпт-техника с шагами — это исследование-находка. На практике из него вытекает принцип отладки промптов:
НАШЛИ ПРОБЛЕМУ: Промпт работает плохо или нестабильно
ШАБЛОН ОТЛАДКИ:
Шаг 1 — Тест лексики: замени 2-3 ключевых слова синонимами
→ смотри: ответ изменился? Это твой рычаг.
Шаг 2 — Тест структуры: переставь части предложения,
измени порядок условий
→ если изменений нет — структура ОК, дело в словах.
ВЫВОД: Если нестабильность — сначала фиксируй слова, а не порядок.
Всё в голове, без отдельных запросов — это принцип, а не алгоритм.
Пример применения
Задача: Катя пишет промпты для Telegram-канала через Claude — рерайт постов конкурентов в своём стиле. Иногда выходит хорошо, иногда канцелярит или слишком сухо. Она не понимает почему — переформулирует, но результат непредсказуем.
Промпт для диагностики лексики:
Вот мой рабочий промпт:
---
Перепиши этот текст в живом разговорном стиле для Telegram.
Убери официальщину, добавь конкретику, сохрани суть.
---
Теперь сделай 3 варианта этого промпта:
1. Оставь структуру, замени глаголы на близкие по смыслу
("перепиши" → "адаптируй" → "переработай")
2. Оставь структуру, замени прилагательные
("живом разговорном" → "неформальном дружеском" → "простом человеческом")
3. Оставь все слова, но измени порядок инструкций
Для каждого варианта объясни, что изменилось в формулировке.
Результат: Claude покажет три версии промпта. Разница между вариантами 1 и 2 (где меняются слова) будет ощутима при применении — разный тон задания ведёт к разному тону результата. Вариант 3 (та же лексика, другой порядок) даст результат ближе к оригиналу. Катя увидит: именно конкретные слова в промпте задают характер ответа. Фиксировать нужно их.
Почему это работает
Слабость LLM: Модель не строит «понимание смысла» как человек. Она предсказывает следующий токен на основе паттернов из обучения. Слово «оцени» и слово «проанализируй» — это разные статистические паттерны, даже если для нас они означают одно.
Сильная сторона LLM: Синтаксис — порядок слов, структура предложения — модель улавливает лучше, потому что грамматические конструкции более универсальны и повторяются в обучающих текстах в похожих контекстах. Слова же — конкретны, и конкретные слова ведут к конкретным паттернам ответа.
Практический вывод: Если ты нашёл рабочий промпт — зафиксируй ключевые слова и не меняй их без причины. Когда промпт не работает — экспериментируй именно со словами, не с порядком предложений. Перестановка условий даёт меньший эффект, чем точный подбор глаголов и прилагательных.
Рычаги:
- Глаголы задания (напиши / создай / сформулируй / разработай) — самый чувствительный элемент
- Прилагательные-дескрипторы (краткий / сжатый / лаконичный) — меняют стиль больше, чем кажется
- Порядок инструкций — меньший эффект, но важен при длинных промптах
- Синонимы в контексте — если вставляешь документ/текст для анализа, его перефразировка тоже влияет на ответ
Шаблон промпта
Готового шаблона из исследования нет — это находка, не техника. Но из неё вытекает шаблон отладки промпта:
У меня есть промпт, который работает нестабильно:
---
{твой промпт}
---
Помоги найти слабые места в формулировке:
1. Выдели 3-5 ключевых слов, которые сильнее всего влияют
на интерпретацию задания
2. Предложи 2-3 синонима для каждого ключевого слова —
с пояснением, как каждый вариант может изменить ответ
3. Порекомендуй наиболее точную формулировку для задачи:
{что именно ты хочешь получить на выходе}
Что подставлять:
- {твой промпт} — любой промпт, который даёт нестабильные результаты
- {что именно ты хочешь получить на выходе} — конкретный формат, тон, структура
🚀 Быстрый старт — вставь в чат:
Вот шаблон для отладки промпта через лексический анализ.
Адаптируй под мою ситуацию: [опиши задачу и проблему с промптом].
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит какой у тебя сейчас промпт и что идёт не так — потому что без оригинала нельзя найти슬абые слова. Она применит принцип лексической чувствительности и разберёт твою формулировку по словам.
Ограничения
⚠️ Контекстозависимость: Эффект от замены слов неодинаков для разных задач. На задачах типа «кто написал Войну и мир» лексика почти не влияет — ответ однозначен. На сложных, открытых задачах (анализ, генерация, следование инструкциям) — влияние максимально.
⚠️ Не про качество, а про стабильность: Иногда перефразирование синонимом улучшает результат. Исследование говорит: эффект есть, но направление непредсказуемо. Нельзя гарантировать что синоним ухудшит — он просто изменит.
⚠️ Большая модель ≠ устойчивая: Размер модели не защищает от лексической чувствительности. Это проблема архитектуры, а не масштаба — актуально для всех моделей независимо от их «мощности» на бенчмарках.
⚠️ Рейтинги моделей — ненадёжны: Если тебе важно выбрать «лучшую» модель для своей задачи — не верь лидерборду. При чуть другой формулировке вопроса модели меняются местами. Тестируй на своих реальных промптах, а не на бенчмарках.
Как исследовали
Идея была простой: взять реальные тесты для LLM, но переформулировать вопросы так, чтобы смысл остался точно таким же — и посмотреть что изменится. Команда из Берлина взяла три известных бенчмарка: MMLU (широкий тест на знания, 14 000 вопросов), SQuAD (чтение и ответы по тексту) и AMEGA (медицинские вопросы с критериями оценки). Потом создала два типа «испорченных» версий каждого вопроса: в первом варианте заменяли слова синонимами, сохраняя структуру; во втором — меняли синтаксис (активный → пассивный залог, перестановка придаточных) сохраняя слова.
Проверяли на 23 современных моделях — от крошечных до флагманских — GPT, Gemini, Llama, Mistral, Qwen, Gemma. Для каждой модели смотрели: насколько упала точность и изменилось ли место модели в рейтинге. Результат оказался неожиданно единодушным: замена слов роняла точность на 7-10 процентных пунктов на задачах в среднем, тогда как перестановка синтаксиса давала падение вдвое-втрое меньше. И это при том, что формулировки были смыслово идентичны — проверяли лингвисты.
Особенно любопытная находка: места в рейтинге моделей менялись при перефразировании сложных задач. Одна и та же модель могла быть восьмой по точности, а после перефразирования вопросов — двенадцатой. Это ставит под сомнение доверие к публичным лидербордам как инструменту выбора модели. Ещё одна неожиданность: более крупные модели оказались не более устойчивы — связи между размером и устойчивостью к перефразированию просто нет.
Адаптации и экстраполяции
💡 Адаптация для выбора формулировки в промпте: Если пишешь системный промпт для регулярной задачи — не угадывай формулировку, а протестируй несколько вариантов одного и того же глагола на реальном примере. «Напиши», «создай», «сформулируй», «подготовь» — это не просто стиль, это разные триггеры для модели.
🔧 Техника: стабилизация промпта через закрепление лексики Нашёл хорошо работающий промпт? Сохрани его дословно. При итерациях меняй только задачу, не "улучшай" формулировку — случайная замена глагола может сломать то, что работало. Создай личный «словарь рабочих слов» для каждого типа задач.
🔧 Экстраполяция в оценку ответов модели: Если модель оценивает твой текст или идею — попробуй описать одно и то же двумя наборами слов. Получи две оценки. Если они сильно расходятся — модель реагирует на слова-триггеры, а не на суть. Это помогает понять где оценка «настоящая», а где — артефакт лексики.
Ресурсы
Same Meaning, Different Scores: Lexical and Syntactic Sensitivity in LLM Evaluation
Bogdan Kostić, Conor Fallon, Julian Risch, Alexander Löser
Berliner Hochschule für Technik (BHT) & deepset GmbH, Berlin, 2025
GitHub с кодом и перефразированными датасетами: https://github.com/bogdankostic/llm-prompt-perturbation
Бенчмарки: MMLU (Hendrycks et al., 2021), SQuAD (Rajpurkar et al., 2016), AMEGA (Fast et al., 2024)
