3,583 papers
arXiv:2602.17316 74 19 фев. 2026 г. FREE

Лексическая чувствительность LLM: слова меняют ответ сильнее, чем порядок слов в предложении

КЛЮЧЕВАЯ СУТЬ
Модель не знает, что «оцени» и «проанализируй» — одно и то же. Для неё это разные токены с разными паттернами из обучения. Ответ меняется — даже если смысл просьбы тот же. Исследование даёт инструмент: когда промпт работает нестабильно — ищи проблему в конкретных словах, а не в структуре предложений. Замена синонима меняет ответ сильнее, чем перестановка частей предложения — модель улавливает грамматику стабильно, но каждое конкретное слово ведёт её по своей статистической дорожке.
Адаптировать под запрос

TL;DR

Слова в промпте важнее, чем структура предложения. Если заменить слова на синонимы — модель может ответить хуже. Если переставить порядок слов или изменить синтаксис — эффект значительно меньше. Это не баг одной модели — так работают почти все современные LLM.

Боль пользователя: Вы переформулируете промпт и получаете другой результат. Непонятно почему — вроде спросили то же самое. Оказывается, замена «оцени» на «проанализируй», или «срочно» на «немедленно» — уже меняет поведение модели. Порой значительно. При этом перестановка придаточного предложения или смена порядка аргументов влияет слабее.

Объяснение: LLM распознаёт паттерны по конкретным словам и их сочетаниям, а не по смыслу предложения в целом. Модель не «понимает» что «получить» = «приобрести» = «достать» — для неё это разные токены с разными вероятностями. Синтаксис (как устроено предложение) модель улавливает лучше — здесь она видит структуру. Лексику (конкретные слова) модель помнит из обучения — и чуть другое слово уводит её на другой паттерн.


🔬

Схема метода

Это не промпт-техника с шагами — это исследование-находка. На практике из него вытекает принцип отладки промптов:

НАШЛИ ПРОБЛЕМУ: Промпт работает плохо или нестабильно

ШАБЛОН ОТЛАДКИ:
  Шаг 1 — Тест лексики: замени 2-3 ключевых слова синонимами 
           → смотри: ответ изменился? Это твой рычаг.

  Шаг 2 — Тест структуры: переставь части предложения, 
           измени порядок условий 
           → если изменений нет — структура ОК, дело в словах.

ВЫВОД: Если нестабильность — сначала фиксируй слова, а не порядок.

Всё в голове, без отдельных запросов — это принцип, а не алгоритм.


🚀

Пример применения

Задача: Катя пишет промпты для Telegram-канала через Claude — рерайт постов конкурентов в своём стиле. Иногда выходит хорошо, иногда канцелярит или слишком сухо. Она не понимает почему — переформулирует, но результат непредсказуем.

Промпт для диагностики лексики:

Вот мой рабочий промпт:
---
Перепиши этот текст в живом разговорном стиле для Telegram. 
Убери официальщину, добавь конкретику, сохрани суть.
---

Теперь сделай 3 варианта этого промпта:
1. Оставь структуру, замени глаголы на близкие по смыслу 
   ("перепиши" → "адаптируй" → "переработай")
2. Оставь структуру, замени прилагательные 
   ("живом разговорном" → "неформальном дружеском" → "простом человеческом")
3. Оставь все слова, но измени порядок инструкций

Для каждого варианта объясни, что изменилось в формулировке.

Результат: Claude покажет три версии промпта. Разница между вариантами 1 и 2 (где меняются слова) будет ощутима при применении — разный тон задания ведёт к разному тону результата. Вариант 3 (та же лексика, другой порядок) даст результат ближе к оригиналу. Катя увидит: именно конкретные слова в промпте задают характер ответа. Фиксировать нужно их.


🧠

Почему это работает

Слабость LLM: Модель не строит «понимание смысла» как человек. Она предсказывает следующий токен на основе паттернов из обучения. Слово «оцени» и слово «проанализируй» — это разные статистические паттерны, даже если для нас они означают одно.

Сильная сторона LLM: Синтаксис — порядок слов, структура предложения — модель улавливает лучше, потому что грамматические конструкции более универсальны и повторяются в обучающих текстах в похожих контекстах. Слова же — конкретны, и конкретные слова ведут к конкретным паттернам ответа.

Практический вывод: Если ты нашёл рабочий промпт — зафиксируй ключевые слова и не меняй их без причины. Когда промпт не работает — экспериментируй именно со словами, не с порядком предложений. Перестановка условий даёт меньший эффект, чем точный подбор глаголов и прилагательных.

Рычаги: - Глаголы задания (напиши / создай / сформулируй / разработай) — самый чувствительный элемент - Прилагательные-дескрипторы (краткий / сжатый / лаконичный) — меняют стиль больше, чем кажется - Порядок инструкций — меньший эффект, но важен при длинных промптах - Синонимы в контексте — если вставляешь документ/текст для анализа, его перефразировка тоже влияет на ответ


📋

Шаблон промпта

Готового шаблона из исследования нет — это находка, не техника. Но из неё вытекает шаблон отладки промпта:

У меня есть промпт, который работает нестабильно:
---
{твой промпт}
---

Помоги найти слабые места в формулировке:

1. Выдели 3-5 ключевых слов, которые сильнее всего влияют 
   на интерпретацию задания

2. Предложи 2-3 синонима для каждого ключевого слова — 
   с пояснением, как каждый вариант может изменить ответ

3. Порекомендуй наиболее точную формулировку для задачи: 
   {что именно ты хочешь получить на выходе}

Что подставлять: - {твой промпт} — любой промпт, который даёт нестабильные результаты - {что именно ты хочешь получить на выходе} — конкретный формат, тон, структура

🚀 Быстрый старт — вставь в чат:

Вот шаблон для отладки промпта через лексический анализ. 
Адаптируй под мою ситуацию: [опиши задачу и проблему с промптом].
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит какой у тебя сейчас промпт и что идёт не так — потому что без оригинала нельзя найти슬абые слова. Она применит принцип лексической чувствительности и разберёт твою формулировку по словам.


⚠️

Ограничения

⚠️ Контекстозависимость: Эффект от замены слов неодинаков для разных задач. На задачах типа «кто написал Войну и мир» лексика почти не влияет — ответ однозначен. На сложных, открытых задачах (анализ, генерация, следование инструкциям) — влияние максимально.

⚠️ Не про качество, а про стабильность: Иногда перефразирование синонимом улучшает результат. Исследование говорит: эффект есть, но направление непредсказуемо. Нельзя гарантировать что синоним ухудшит — он просто изменит.

⚠️ Большая модель ≠ устойчивая: Размер модели не защищает от лексической чувствительности. Это проблема архитектуры, а не масштаба — актуально для всех моделей независимо от их «мощности» на бенчмарках.

⚠️ Рейтинги моделей — ненадёжны: Если тебе важно выбрать «лучшую» модель для своей задачи — не верь лидерборду. При чуть другой формулировке вопроса модели меняются местами. Тестируй на своих реальных промптах, а не на бенчмарках.


🔍

Как исследовали

Идея была простой: взять реальные тесты для LLM, но переформулировать вопросы так, чтобы смысл остался точно таким же — и посмотреть что изменится. Команда из Берлина взяла три известных бенчмарка: MMLU (широкий тест на знания, 14 000 вопросов), SQuAD (чтение и ответы по тексту) и AMEGA (медицинские вопросы с критериями оценки). Потом создала два типа «испорченных» версий каждого вопроса: в первом варианте заменяли слова синонимами, сохраняя структуру; во втором — меняли синтаксис (активный → пассивный залог, перестановка придаточных) сохраняя слова.

Проверяли на 23 современных моделях — от крошечных до флагманских — GPT, Gemini, Llama, Mistral, Qwen, Gemma. Для каждой модели смотрели: насколько упала точность и изменилось ли место модели в рейтинге. Результат оказался неожиданно единодушным: замена слов роняла точность на 7-10 процентных пунктов на задачах в среднем, тогда как перестановка синтаксиса давала падение вдвое-втрое меньше. И это при том, что формулировки были смыслово идентичны — проверяли лингвисты.

Особенно любопытная находка: места в рейтинге моделей менялись при перефразировании сложных задач. Одна и та же модель могла быть восьмой по точности, а после перефразирования вопросов — двенадцатой. Это ставит под сомнение доверие к публичным лидербордам как инструменту выбора модели. Ещё одна неожиданность: более крупные модели оказались не более устойчивы — связи между размером и устойчивостью к перефразированию просто нет.


💡

Адаптации и экстраполяции

💡 Адаптация для выбора формулировки в промпте: Если пишешь системный промпт для регулярной задачи — не угадывай формулировку, а протестируй несколько вариантов одного и того же глагола на реальном примере. «Напиши», «создай», «сформулируй», «подготовь» — это не просто стиль, это разные триггеры для модели.

🔧 Техника: стабилизация промпта через закрепление лексики Нашёл хорошо работающий промпт? Сохрани его дословно. При итерациях меняй только задачу, не "улучшай" формулировку — случайная замена глагола может сломать то, что работало. Создай личный «словарь рабочих слов» для каждого типа задач.

🔧 Экстраполяция в оценку ответов модели: Если модель оценивает твой текст или идею — попробуй описать одно и то же двумя наборами слов. Получи две оценки. Если они сильно расходятся — модель реагирует на слова-триггеры, а не на суть. Это помогает понять где оценка «настоящая», а где — артефакт лексики.


🔗

Ресурсы

Same Meaning, Different Scores: Lexical and Syntactic Sensitivity in LLM Evaluation

Bogdan Kostić, Conor Fallon, Julian Risch, Alexander Löser

Berliner Hochschule für Technik (BHT) & deepset GmbH, Berlin, 2025

GitHub с кодом и перефразированными датасетами: https://github.com/bogdankostic/llm-prompt-perturbation

Бенчмарки: MMLU (Hendrycks et al., 2021), SQuAD (Rajpurkar et al., 2016), AMEGA (Fast et al., 2024)


📋 Дайджест исследования

Ключевая суть

Модель не знает, что «оцени» и «проанализируй» — одно и то же. Для неё это разные токены с разными паттернами из обучения. Ответ меняется — даже если смысл просьбы тот же. Исследование даёт инструмент: когда промпт работает нестабильно — ищи проблему в конкретных словах, а не в структуре предложений. Замена синонима меняет ответ сильнее, чем перестановка частей предложения — модель улавливает грамматику стабильно, но каждое конкретное слово ведёт её по своей статистической дорожке.

Принцип работы

Не перестраивай предложения — меняй слова. Синтаксис (порядок, структура) модель улавливает относительно стабильно: похожие конструкции повторялись в тренировочных текстах в схожих контекстах. Лексика — уязвимое место. «Напиши», «создай», «сформулируй» — разные входные паттерны, разные вероятности на выходе. Модель предсказывает следующий токен. Она не строит карту смысла как человек — она смотрит на конкретные слова и выдаёт то, что статистически за ними следовало при обучении.

Почему работает

Слово «срочно» и слово «немедленно» встречались в обучающих данных рядом с разными фразами и контекстами. Поэтому они ведут модель по разным вероятностным цепочкам — даже если для нас это синонимы. Грамматические конструкции универсальнее: придаточное в начале или в конце фразы — это одна и та же структура, встречавшаяся в тысячах похожих текстов. Лексика конкретна: чуть другое слово буквально активирует другой паттерн. Прикол: большая модель от этого не спасает. Эффект не исчезает с ростом размера — это архитектурная особенность, а не недоработка конкретной версии.

Когда применять

Сложные открытые задачи — анализ, генерация текста, инструкции со стилем — когда результат нестабилен или не соответствует ожиданиям без видимой причины. Особенно полезно при отладке промптов, которые иногда работают хорошо, иногда выдают канцелярит или уходят не в ту сторону. НЕ подходит для фактических вопросов с однозначным ответом — там лексическая чувствительность минимальна, и перефразирование почти ничего не меняет.

Мини-рецепт

1. Найди нестабильный промпт: тот, который иногда даёт хороший результат, иногда — нет.
2. Выдели уязвимые слова: глаголы задания (напиши / создай / разработай) и прилагательные-описания (краткий / сжатый / лаконичный) — самые чувствительные точки.
3. Тестируй слова, не структуру: замени 2-3 ключевых слова синонимами. Структуру не трогай — только слова.
4. Сравни: ответ изменился — нашёл рычаг. Не изменился — уже можно менять структуру.
5. Зафиксируй рабочую формулировку: нашёл версию, которая стабильно даёт нужный результат — запиши дословно. Не перефразируй без причины.

Примеры

[ПЛОХО] : Этот промпт работает плохо, измени структуру предложений чтобы стало лучше
[ХОРОШО] : Вот мой нестабильный промпт: --- [твой промпт] --- Выдели 3-5 слов, которые сильнее всего влияют на интерпретацию задания. Для каждого предложи 2-3 синонима — с объяснением как каждый вариант изменит ответ. Порекомендуй самую точную формулировку для задачи: [что хочешь получить на выходе]
Источник: Same Meaning, Different Scores: Lexical and Syntactic Sensitivity in LLM Evaluation
ArXiv ID: 2602.17316 | Сгенерировано: 2026-02-20 10:34

Проблемы LLM

ПроблемаСутьКак обойти
Синонимы меняют ответ модели непредсказуемоПишешь «проанализируй» вместо «оцени» — ответ меняется. Смысл тот же. Но для модели это разные паттерны. Эффект непредсказуем: синоним может улучшить ответ или ухудшить. Проявляется на открытых задачах: анализ, генерация, следование инструкциям. На однозначных вопросах почти не заметноНашёл рабочий промпт — зафиксируй ключевые слова. Не меняй «оцени» на «проанализируй» просто так. Когда результат не устраивает — сначала меняй слова, а не переставляй части промпта

Методы

МетодСуть
Лексический аудит — ищи слабые слова, не структуруПромпт нестабилен? Сначала тестируй слова, не порядок предложений. Шаг 1: замени 2–3 ключевых глагола задания (напиши создай сформулируй) — смотри как меняется ответ. Шаг 2: замени прилагательные-дескрипторы (краткий сжатый лаконичный) — смотри на тон. Шаг 3: только если слова ОК — тестируй порядок частей. Почему: слова — главный рычаг влияния на ответ. Перестановка структуры даёт меньший эффект. Когда применять: любой промпт с нестабильным результатом. Когда не поможет: однозначные фактические вопросы — там лексика почти не влияет

Тезисы

ТезисКомментарий
Конкретные слова влияют на ответ сильнее, чем структура предложенияМодель предсказывает следующий токен по паттернам из обучения. Конкретное слово запускает конкретный паттерн. «Оцени» и «проанализируй» — разные паттерны, даже если для нас смысл одинаков. Синтаксис модель улавливает лучше: грамматические конструкции универсальны и повторялись в обучении в похожих контекстах. Слова — нет. Применяй: когда отлаживаешь промпт, начинай с глаголов и прилагательных. Порядок частей меняй в последнюю очередь
📖 Простыми словами

Same Meaning, Different Scores: Lexical and Syntactic Sensitivity inLLMEvaluation

arXiv: 2602.17316

Суть в том, что нейронки — это не мыслящие существа, а гигантские калькуляторы вероятностей. Когда ты скармливаешь им промпт, они не вникают в глубокий смысл твоих идей, а просто считают, какое слово должно идти следующим. Оказывается, лексика (конкретные слова) для них в разы важнее, чем синтаксис (структура предложения). Если ты поменяешь «проанализируй» на «изучи», модель может выдать совершенно другой результат, хотя для человека это одно и то же. Это фундаментальный баг архитектуры: LLM привязаны к статистическим паттернам конкретных токенов, а не к абстрактным концепциям.

Это как если бы ты пришел в бар и заказал «виски со льдом», а бармен выдал тебе шедевр, но на просьбу принести «замороженную воду с порцией скотча» он бы просто вылил тебе на голову пиво. Формально ты попросил то же самое, но у бармена в голове сработал другой триггер. Нейронка не понимает, что ты имеешь в виду, она просто реагирует на знакомые сочетания букв. Если слово «оцени» в её базе чаще встречалось в умных текстах, а «глянь» — в мусорных, то и результат будет соответствующим.

Исследователи доказали: замена синонимов роняет качество ответов гораздо сильнее, чем перестановка слов местами или изменение грамматики. Модели плевать, активный у тебя залог или пассивный, длинное предложение или короткое. Но стоит тебе заменить ключевой глагол на близкий по смыслу, как точность оценки плывет. Это не случайный глюк, а системная чувствительность, которая есть и у GPT-4, и у Claude, и у Llama. Они буквально «цепляются» за конкретные формулировки, игнорируя общую логику фразы.

Этот принцип применим везде: от написания кода до генерации постов в Telegram. Если твой промпт выдает херню, не пытайся переставлять запятые или менять порядок абзацев — это мертвому припарка. Тебе нужно перебирать именно ключевые слова и термины. Тестировали это на задачах оценки текста, но правило универсально для любого промпт-инжиниринга. Если модель тупит, значит, ты просто не попал в те «рычаги» в её памяти, которые отвечают за качественный результат.

Короче: хватит играть в лингвиста и выстраивать красивые предложения — работай как диджей с пультами, подбирая правильные лексические триггеры. Один удачный синоним даст тебе больше, чем час переписывания структуры промпта. Слова решают, синтаксис отдыхает. Если результат не нравится, меняй глаголы и существительные, пока не нащупаешь тот самый паттерн, на котором модель перестанет лажать. Кто поймет этот «код слов», тот и будет получать от AI предсказуемый результат, пока остальные гадают, почему всё сломалось.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с