arXiv:2602.17316 74 19 фев. 2026 г. FREE

Лексическая чувствительность LLM: слова меняют ответ сильнее, чем порядок слов в предложении

КЛЮЧЕВАЯ СУТЬ

Модель не знает, что «оцени» и «проанализируй» — одно и то же. Для неё это разные токены с разными паттернами из обучения. Ответ меняется — даже если смысл просьбы тот же. Исследование даёт инструмент: когда промпт работает нестабильно — ищи проблему в конкретных словах, а не в структуре предложений. Замена синонима меняет ответ сильнее, чем перестановка частей предложения — модель улавливает грамматику стабильно, но каждое конкретное слово ведёт её по своей статистической дорожке.

Адаптировать под запрос

⚡

TL;DR

Слова в промпте важнее, чем структура предложения. Если заменить слова на синонимы — модель может ответить хуже. Если переставить порядок слов или изменить синтаксис — эффект значительно меньше. Это не баг одной модели — так работают почти все современные LLM.

Боль пользователя: Вы переформулируете промпт и получаете другой результат. Непонятно почему — вроде спросили то же самое. Оказывается, замена «оцени» на «проанализируй», или «срочно» на «немедленно» — уже меняет поведение модели. Порой значительно. При этом перестановка придаточного предложения или смена порядка аргументов влияет слабее.

Объяснение: LLM распознаёт паттерны по конкретным словам и их сочетаниям, а не по смыслу предложения в целом. Модель не «понимает» что «получить» = «приобрести» = «достать» — для неё это разные токены с разными вероятностями. Синтаксис (как устроено предложение) модель улавливает лучше — здесь она видит структуру. Лексику (конкретные слова) модель помнит из обучения — и чуть другое слово уводит её на другой паттерн.

🔬

Схема метода

Это не промпт-техника с шагами — это исследование-находка. На практике из него вытекает принцип отладки промптов:

НАШЛИ ПРОБЛЕМУ: Промпт работает плохо или нестабильно

ШАБЛОН ОТЛАДКИ:
  Шаг 1 — Тест лексики: замени 2-3 ключевых слова синонимами 
           → смотри: ответ изменился? Это твой рычаг.

  Шаг 2 — Тест структуры: переставь части предложения, 
           измени порядок условий 
           → если изменений нет — структура ОК, дело в словах.

ВЫВОД: Если нестабильность — сначала фиксируй слова, а не порядок.

Всё в голове, без отдельных запросов — это принцип, а не алгоритм.

🚀

Пример применения

Задача: Катя пишет промпты для Telegram-канала через Claude — рерайт постов конкурентов в своём стиле. Иногда выходит хорошо, иногда канцелярит или слишком сухо. Она не понимает почему — переформулирует, но результат непредсказуем.

Промпт для диагностики лексики:

Вот мой рабочий промпт:
---
Перепиши этот текст в живом разговорном стиле для Telegram. 
Убери официальщину, добавь конкретику, сохрани суть.
---

Теперь сделай 3 варианта этого промпта:
1. Оставь структуру, замени глаголы на близкие по смыслу 
   ("перепиши" → "адаптируй" → "переработай")
2. Оставь структуру, замени прилагательные 
   ("живом разговорном" → "неформальном дружеском" → "простом человеческом")
3. Оставь все слова, но измени порядок инструкций

Для каждого варианта объясни, что изменилось в формулировке.

Результат: Claude покажет три версии промпта. Разница между вариантами 1 и 2 (где меняются слова) будет ощутима при применении — разный тон задания ведёт к разному тону результата. Вариант 3 (та же лексика, другой порядок) даст результат ближе к оригиналу. Катя увидит: именно конкретные слова в промпте задают характер ответа. Фиксировать нужно их.

🧠

Почему это работает

Слабость LLM: Модель не строит «понимание смысла» как человек. Она предсказывает следующий токен на основе паттернов из обучения. Слово «оцени» и слово «проанализируй» — это разные статистические паттерны, даже если для нас они означают одно.

Сильная сторона LLM: Синтаксис — порядок слов, структура предложения — модель улавливает лучше, потому что грамматические конструкции более универсальны и повторяются в обучающих текстах в похожих контекстах. Слова же — конкретны, и конкретные слова ведут к конкретным паттернам ответа.

Практический вывод: Если ты нашёл рабочий промпт — зафиксируй ключевые слова и не меняй их без причины. Когда промпт не работает — экспериментируй именно со словами, не с порядком предложений. Перестановка условий даёт меньший эффект, чем точный подбор глаголов и прилагательных.

Рычаги: - Глаголы задания (напиши / создай / сформулируй / разработай) — самый чувствительный элемент - Прилагательные-дескрипторы (краткий / сжатый / лаконичный) — меняют стиль больше, чем кажется - Порядок инструкций — меньший эффект, но важен при длинных промптах - Синонимы в контексте — если вставляешь документ/текст для анализа, его перефразировка тоже влияет на ответ

📋

Шаблон промпта

Готового шаблона из исследования нет — это находка, не техника. Но из неё вытекает шаблон отладки промпта:

У меня есть промпт, который работает нестабильно:
---
{твой промпт}
---

Помоги найти слабые места в формулировке:

1. Выдели 3-5 ключевых слов, которые сильнее всего влияют 
   на интерпретацию задания

2. Предложи 2-3 синонима для каждого ключевого слова — 
   с пояснением, как каждый вариант может изменить ответ

3. Порекомендуй наиболее точную формулировку для задачи: 
   {что именно ты хочешь получить на выходе}

Что подставлять: - {твой промпт} — любой промпт, который даёт нестабильные результаты - {что именно ты хочешь получить на выходе} — конкретный формат, тон, структура

🚀 Быстрый старт — вставь в чат:

Вот шаблон для отладки промпта через лексический анализ. 
Адаптируй под мою ситуацию: [опиши задачу и проблему с промптом].
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит какой у тебя сейчас промпт и что идёт не так — потому что без оригинала нельзя найти슬абые слова. Она применит принцип лексической чувствительности и разберёт твою формулировку по словам.

⚠️

Ограничения

⚠️ Контекстозависимость: Эффект от замены слов неодинаков для разных задач. На задачах типа «кто написал Войну и мир» лексика почти не влияет — ответ однозначен. На сложных, открытых задачах (анализ, генерация, следование инструкциям) — влияние максимально.

⚠️ Не про качество, а про стабильность: Иногда перефразирование синонимом улучшает результат. Исследование говорит: эффект есть, но направление непредсказуемо. Нельзя гарантировать что синоним ухудшит — он просто изменит.

⚠️ Большая модель ≠ устойчивая: Размер модели не защищает от лексической чувствительности. Это проблема архитектуры, а не масштаба — актуально для всех моделей независимо от их «мощности» на бенчмарках.

⚠️ Рейтинги моделей — ненадёжны: Если тебе важно выбрать «лучшую» модель для своей задачи — не верь лидерборду. При чуть другой формулировке вопроса модели меняются местами. Тестируй на своих реальных промптах, а не на бенчмарках.

🔍

Как исследовали

Идея была простой: взять реальные тесты для LLM, но переформулировать вопросы так, чтобы смысл остался точно таким же — и посмотреть что изменится. Команда из Берлина взяла три известных бенчмарка: MMLU (широкий тест на знания, 14 000 вопросов), SQuAD (чтение и ответы по тексту) и AMEGA (медицинские вопросы с критериями оценки). Потом создала два типа «испорченных» версий каждого вопроса: в первом варианте заменяли слова синонимами, сохраняя структуру; во втором — меняли синтаксис (активный → пассивный залог, перестановка придаточных) сохраняя слова.

Проверяли на 23 современных моделях — от крошечных до флагманских — GPT, Gemini, Llama, Mistral, Qwen, Gemma. Для каждой модели смотрели: насколько упала точность и изменилось ли место модели в рейтинге. Результат оказался неожиданно единодушным: замена слов роняла точность на 7-10 процентных пунктов на задачах в среднем, тогда как перестановка синтаксиса давала падение вдвое-втрое меньше. И это при том, что формулировки были смыслово идентичны — проверяли лингвисты.

Особенно любопытная находка: места в рейтинге моделей менялись при перефразировании сложных задач. Одна и та же модель могла быть восьмой по точности, а после перефразирования вопросов — двенадцатой. Это ставит под сомнение доверие к публичным лидербордам как инструменту выбора модели. Ещё одна неожиданность: более крупные модели оказались не более устойчивы — связи между размером и устойчивостью к перефразированию просто нет.

💡

Адаптации и экстраполяции

💡 Адаптация для выбора формулировки в промпте: Если пишешь системный промпт для регулярной задачи — не угадывай формулировку, а протестируй несколько вариантов одного и того же глагола на реальном примере. «Напиши», «создай», «сформулируй», «подготовь» — это не просто стиль, это разные триггеры для модели.

🔧 Техника: стабилизация промпта через закрепление лексики Нашёл хорошо работающий промпт? Сохрани его дословно. При итерациях меняй только задачу, не "улучшай" формулировку — случайная замена глагола может сломать то, что работало. Создай личный «словарь рабочих слов» для каждого типа задач.

🔧 Экстраполяция в оценку ответов модели: Если модель оценивает твой текст или идею — попробуй описать одно и то же двумя наборами слов. Получи две оценки. Если они сильно расходятся — модель реагирует на слова-триггеры, а не на суть. Это помогает понять где оценка «настоящая», а где — артефакт лексики.

🔗

Ресурсы

Same Meaning, Different Scores: Lexical and Syntactic Sensitivity in LLM Evaluation

Bogdan Kostić, Conor Fallon, Julian Risch, Alexander Löser

Berliner Hochschule für Technik (BHT) & deepset GmbH, Berlin, 2025

GitHub с кодом и перефразированными датасетами: https://github.com/bogdankostic/llm-prompt-perturbation

Бенчмарки: MMLU (Hendrycks et al., 2021), SQuAD (Rajpurkar et al., 2016), AMEGA (Fast et al., 2024)

📋 Дайджест исследования

Ключевая суть

Принцип работы

Не перестраивай предложения — меняй слова. Синтаксис (порядок, структура) модель улавливает относительно стабильно: похожие конструкции повторялись в тренировочных текстах в схожих контекстах. Лексика — уязвимое место. «Напиши», «создай», «сформулируй» — разные входные паттерны, разные вероятности на выходе. Модель предсказывает следующий токен. Она не строит карту смысла как человек — она смотрит на конкретные слова и выдаёт то, что статистически за ними следовало при обучении.

Почему работает

Слово «срочно» и слово «немедленно» встречались в обучающих данных рядом с разными фразами и контекстами. Поэтому они ведут модель по разным вероятностным цепочкам — даже если для нас это синонимы. Грамматические конструкции универсальнее: придаточное в начале или в конце фразы — это одна и та же структура, встречавшаяся в тысячах похожих текстов. Лексика конкретна: чуть другое слово буквально активирует другой паттерн. Прикол: большая модель от этого не спасает. Эффект не исчезает с ростом размера — это архитектурная особенность, а не недоработка конкретной версии.

Когда применять

Сложные открытые задачи — анализ, генерация текста, инструкции со стилем — когда результат нестабилен или не соответствует ожиданиям без видимой причины. Особенно полезно при отладке промптов, которые иногда работают хорошо, иногда выдают канцелярит или уходят не в ту сторону. НЕ подходит для фактических вопросов с однозначным ответом — там лексическая чувствительность минимальна, и перефразирование почти ничего не меняет.

Мини-рецепт

1. Найди нестабильный промпт: тот, который иногда даёт хороший результат, иногда — нет.
2. Выдели уязвимые слова: глаголы задания (напиши / создай / разработай) и прилагательные-описания (краткий / сжатый / лаконичный) — самые чувствительные точки.
3. Тестируй слова, не структуру: замени 2-3 ключевых слова синонимами. Структуру не трогай — только слова.
4. Сравни: ответ изменился — нашёл рычаг. Не изменился — уже можно менять структуру.
5. Зафиксируй рабочую формулировку: нашёл версию, которая стабильно даёт нужный результат — запиши дословно. Не перефразируй без причины.

Примеры

[ПЛОХО] :

Этот промпт работает плохо, измени структуру предложений чтобы стало лучше

[ХОРОШО] :

Вот мой нестабильный промпт:
---
[твой промпт]
---
Выдели 3-5 слов, которые сильнее всего влияют на интерпретацию задания. Для каждого предложи 2-3 синонима — с объяснением как каждый вариант изменит ответ. Порекомендуй самую точную формулировку для задачи: [что хочешь получить на выходе]

Источник: Same Meaning, Different Scores: Lexical and Syntactic Sensitivity in LLM Evaluation

ArXiv ID: 2602.17316 | Сгенерировано: 2026-02-20 10:34

Проблемы LLM

Проблема	Суть	Как обойти
Синонимы меняют ответ модели непредсказуемо	Пишешь «проанализируй» вместо «оцени» — ответ меняется. Смысл тот же. Но для модели это разные паттерны. Эффект непредсказуем: синоним может улучшить ответ или ухудшить. Проявляется на открытых задачах: анализ, генерация, следование инструкциям. На однозначных вопросах почти не заметно	Нашёл рабочий промпт — зафиксируй ключевые слова. Не меняй «оцени» на «проанализируй» просто так. Когда результат не устраивает — сначала меняй слова, а не переставляй части промпта

Методы

Метод Суть

Лексический аудит — ищи слабые слова, не структуру Промпт нестабилен? Сначала тестируй слова, не порядок предложений. Шаг 1: замени 2–3 ключевых глагола задания (напиши → создай → сформулируй) — смотри как меняется ответ. Шаг 2: замени прилагательные-дескрипторы (краткий → сжатый → лаконичный) — смотри на тон. Шаг 3: только если слова ОК — тестируй порядок частей. Почему: слова — главный рычаг влияния на ответ. Перестановка структуры даёт меньший эффект. Когда применять: любой промпт с нестабильным результатом. Когда не поможет: однозначные фактические вопросы — там лексика почти не влияет

Метод	Суть
Лексический аудит — ищи слабые слова, не структуру	Промпт нестабилен? Сначала тестируй слова, не порядок предложений. Шаг 1: замени 2–3 ключевых глагола задания (`напиши` → `создай` → `сформулируй`) — смотри как меняется ответ. Шаг 2: замени прилагательные-дескрипторы (`краткий` → `сжатый` → `лаконичный`) — смотри на тон. Шаг 3: только если слова ОК — тестируй порядок частей. Почему: слова — главный рычаг влияния на ответ. Перестановка структуры даёт меньший эффект. Когда применять: любой промпт с нестабильным результатом. Когда не поможет: однозначные фактические вопросы — там лексика почти не влияет

Тезисы

Тезис	Комментарий
Конкретные слова влияют на ответ сильнее, чем структура предложения	Модель предсказывает следующий токен по паттернам из обучения. Конкретное слово запускает конкретный паттерн. «Оцени» и «проанализируй» — разные паттерны, даже если для нас смысл одинаков. Синтаксис модель улавливает лучше: грамматические конструкции универсальны и повторялись в обучении в похожих контекстах. Слова — нет. Применяй: когда отлаживаешь промпт, начинай с глаголов и прилагательных. Порядок частей меняй в последнюю очередь

Тезис

Комментарий

Конкретные слова влияют на ответ сильнее, чем структура предложения

Модель предсказывает следующий токен по паттернам из обучения. Конкретное слово запускает конкретный паттерн. «Оцени» и «проанализируй» — разные паттерны, даже если для нас смысл одинаков. Синтаксис модель улавливает лучше: грамматические конструкции универсальны и повторялись в обучении в похожих контекстах. Слова — нет. Применяй: когда отлаживаешь промпт, начинай с глаголов и прилагательных. Порядок частей меняй в последнюю очередь

📖 Простыми словами

Same Meaning, Different Scores: Lexical and Syntactic Sensitivity inLLMEvaluation

arXiv: 2602.17316

Суть в том, что нейронки — это не мыслящие существа, а гигантские калькуляторы вероятностей. Когда ты скармливаешь им промпт, они не вникают в глубокий смысл твоих идей, а просто считают, какое слово должно идти следующим. Оказывается, лексика (конкретные слова) для них в разы важнее, чем синтаксис (структура предложения). Если ты поменяешь «проанализируй» на «изучи», модель может выдать совершенно другой результат, хотя для человека это одно и то же. Это фундаментальный баг архитектуры: LLM привязаны к статистическим паттернам конкретных токенов, а не к абстрактным концепциям.

Это как если бы ты пришел в бар и заказал «виски со льдом», а бармен выдал тебе шедевр, но на просьбу принести «замороженную воду с порцией скотча» он бы просто вылил тебе на голову пиво. Формально ты попросил то же самое, но у бармена в голове сработал другой триггер. Нейронка не понимает, что ты имеешь в виду, она просто реагирует на знакомые сочетания букв. Если слово «оцени» в её базе чаще встречалось в умных текстах, а «глянь» — в мусорных, то и результат будет соответствующим.

Исследователи доказали: замена синонимов роняет качество ответов гораздо сильнее, чем перестановка слов местами или изменение грамматики. Модели плевать, активный у тебя залог или пассивный, длинное предложение или короткое. Но стоит тебе заменить ключевой глагол на близкий по смыслу, как точность оценки плывет. Это не случайный глюк, а системная чувствительность, которая есть и у GPT-4, и у Claude, и у Llama. Они буквально «цепляются» за конкретные формулировки, игнорируя общую логику фразы.

Этот принцип применим везде: от написания кода до генерации постов в Telegram. Если твой промпт выдает херню, не пытайся переставлять запятые или менять порядок абзацев — это мертвому припарка. Тебе нужно перебирать именно ключевые слова и термины. Тестировали это на задачах оценки текста, но правило универсально для любого промпт-инжиниринга. Если модель тупит, значит, ты просто не попал в те «рычаги» в её памяти, которые отвечают за качественный результат.

Короче: хватит играть в лингвиста и выстраивать красивые предложения — работай как диджей с пультами, подбирая правильные лексические триггеры. Один удачный синоним даст тебе больше, чем час переписывания структуры промпта. Слова решают, синтаксис отдыхает. Если результат не нравится, меняй глаголы и существительные, пока не нащупаешь тот самый паттерн, на котором модель перестанет лажать. Кто поймет этот «код слов», тот и будет получать от AI предсказуемый результат, пока остальные гадают, почему всё сломалось.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

Выберите модель ИИ:

Ваш запрос:

0 / 2000

~0.5-2 N-токенов ~10-30с

~0.3-1 N-токенов ~5-15с

Меню