3,583 papers
arXiv:2605.14312 75 14 мая 2026 г. FREE

Smell-аудит инструкций: 9 типов слабого контекста, из-за которых ИИ провалит задачу

КЛЮЧЕВАЯ СУТЬ
С 10% до 80% правильных ответов — та же модель, тот же API. Просто переписали инструкции. Таксономия 9 запахов позволяет найти конкретные паттерны в промпте, из-за которых AI стабильно ломается. Расплывчатое задание — не «немного хуже», это катастрофа: LLM не читает между строк. Пробел в инструкции заполняется «средним по больнице» из обучающих данных — 70% провалов против 90% успеха. Такова цена разницы между «написано для людей, которые знают контекст» и «написано для AI».
Адаптировать под запрос

TL;DR

Одна и та же задача, одни и те же инструменты — но качество документации изменило результат с 10% до 80% успешных выполнений. Исследователи из Sidia взяли 10 идентичных API-endpoints и подключили к ним ИИ-агент дважды: сначала с оригинальными описаниями, потом с обогащёнными. Функциональность не менялась — только текстовые описания. Разрыв оказался радикальным.

ИИ срывается не там, где "не хватает мощности" — а там, где контекст слабый. В оригинальной документации агент провалился на этапе планирования в ~70% задач: не мог понять что делает инструмент, что ему передать, что получить в ответ. Описания были технически корректны, но семантически пусты — написаны для людей, которые "и так всё знают". Агент такого неявного знания не имеет.

Исследователи выделили 9 категорий "смеллов" (smell — дословно "запах", термин из практики кода) — признаков, по которым контекст разваливается. Эти категории универсальны: они одинаково работают и для API-документации, и для инструкций, которые вы даёте ИИ в чате.


🔬

Схема метода

Метод работает в одном промпте — это аудит-запрос.

ШАГ 1: Берёшь инструкцию/промпт/бриф → передаёшь в аудит-запрос
ШАГ 2: ИИ проверяет по 9 категориям смеллов → находит проблемы
ШАГ 3: ИИ объясняет каждую проблему + даёт конкретное улучшение
ШАГ 4: Ты видишь диагностический отчёт → переписываешь слабые места

Все шаги — в одном диалоге с ИИ.


🚀

Пример применения

⚠️ Сильная зона метода: Структурированные инструкции с несколькими требованиями — системные промпты, ТЗ для ИИ, брифы, шаблоны задач. Не работает для коротких импульсивных вопросов.


Задача: Ты настраиваешь GPT-ассистента для отдела маркетинга «Сбера» — пишешь системный промпт, который ИИ будет получать перед каждой задачей. Промпт написан, но результаты нестабильные: иногда отлично, иногда мимо.

Промпт:

Ты — опытный аудитор инструкций для ИИ.

Проверь мои инструкции по 9 категориям "смеллов" — признаков, 
из-за которых ИИ теряет понимание задачи:

ДОКУМЕНТАЦИОННЫЕ СМЕЛЛЫ (качество описания):
- LAZY (ленивый): Описание слишком короткое, расплывчатое или 
  использует дефолтные фразы — "обрабатывает данные", "возвращает 
  результат", "выполняет операцию". ИИ не понимает сути.
- BLOATED (раздутый): Много слов — мало смысла. Объём текста не 
  равен информационной ценности.
- TANGLED (запутанный): В одном абзаце смешаны разные темы — 
  бизнес-логика, ограничения, формат ответа, краевые случаи.
- FRAGMENTED (фрагментированный): Связанные инструкции разбросаны 
  по разным местам без явной связи между собой.

СТРУКТУРНЫЕ СМЕЛЛЫ (полнота контекста):
- INPUT (вход): Не описано что именно ИИ получает на вход — 
  формат, обязательные поля, допустимые значения, примеры.
- RESPONSE (выход): Не описан ожидаемый формат ответа — структура, 
  длина, стиль, что делать при разных условиях.
- SECURITY (ограничения): Не прописаны запреты, ограничения, 
  что делать в неожиданных ситуациях.
- PATH (именование): Названия ролей/задач/функций не отражают суть. 
  "Помощник" вместо "редактор SMM-постов для Telegram".
- METHOD (действие): Глагол действия неточный или отсутствует. 
  "Работай с текстом" вместо "сокращай текст до 280 символов".

Мои инструкции для аудита:
---
{вставь свои инструкции}
---

Для каждого найденного смелла:
1. Укажи категорию
2. Процитируй проблемный фрагмент
3. Объясни в чём проблема
4. Дай конкретное улучшение

Результат:

Модель пройдёт по каждой из 9 категорий и выдаст структурированный диагностический отчёт. Для каждого найденного смелла — цитата из твоего текста, объяснение почему это проблема, и конкретное переписанное предложение. Промпты с LAZY-смеллами ("отвечай полезно") получат конкретизированные версии. Промпты без описания выхода (RESPONSE) получат шаблон формата ответа. В финале — рейтинг уязвимости по категориям.


🧠

Почему это работает

ИИ не "понимает" контекст так, как понимаем его мы. Когда вы пишете "отвечай профессионально" — вы слышите в этом годы опыта, понимание аудитории, эстетику тона. Модель видит два слова без якорей. Она генерирует ответ по наиболее частотному паттерну для слова "профессионально" — и это может быть что угодно.

У ИИ нет неявного знания, зато есть острая чувствительность к структуре. Именно поэтому одна и та же бизнес-логика в эксперименте дала 10% успеха с тонкими описаниями — и 80% с подробными. Модель не стала умнее. Ей просто убрали туман.

Смеллы — это диагностические категории, а не оценочные суждения. LAZY — не значит "плохо написал". Это значит: у модели нет материала для различения. TANGLED — это не "сложно". Это сигнал: модель не знает какую из смешанных инструкций применять первой. Зная категорию — знаешь лечение.

Рычаги управления: - Глубина аудита → попроси проверить только 2-3 категории (например, INPUT + RESPONSE) — быстрее, фокуснее - Формат вывода → добавь "дай итоговую оценку по каждой категории от 1 до 5" — получишь скоринговую карту - Приоритизация → добавь "сначала найди самую критичную проблему" — если времени мало - Сравнение версий → передай два варианта промпта и попроси сравнить по смеллам — выберешь лучший


📋

Шаблон промпта

Ты — аудитор инструкций для ИИ.

Проверь текст по 9 категориям смеллов — признаков слабого контекста:

ДОКУМЕНТАЦИОННЫЕ:
- LAZY: расплывчато, слишком коротко, дефолтные слова
- BLOATED: много слов, мало смысла
- TANGLED: разные темы смешаны в одном блоке
- FRAGMENTED: связанные инструкции разбросаны без связи

СТРУКТУРНЫЕ:
- INPUT: не описан формат и содержание входных данных
- RESPONSE: не описан формат и структура ожидаемого ответа
- SECURITY: не прописаны ограничения и запреты
- PATH: название роли или задачи не отражает суть
- METHOD: действие сформулировано нечётко или отсутствует

Текст для аудита:
---
{инструкция / промпт / бриф / ТЗ}
---

Для каждого найденного смелла:
1. Категория
2. Цитата из текста
3. Объяснение проблемы
4. Конкретное улучшение

Плейсхолдер: {инструкция} — вставь системный промпт, инструкцию ассистенту, бриф для ИИ, шаблон задачи или любой текст, по которому ИИ должен работать.


🚀 Быстрый старт — вставь в чат:

Вот шаблон smell-аудита инструкций. Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы понять что именно аудировать.

[вставить шаблон выше]

LLM спросит какие инструкции/промпты/брифы ты хочешь проверить — потому что без этого материала аудит невозможен. Она возьмёт структуру 9 категорий из шаблона и применит к твоему конкретному тексту.


⚠️

Ограничения

⚠️ Не для коротких сообщений: Аудит работает на структурированных инструкциях — системных промптах, брифах, шаблонах, ТЗ. На вопросах типа "объясни мне про квантовую физику" смеллы неприменимы — там другая логика.

⚠️ Субъективность некоторых категорий: BLOATED и TANGLED — размытые границы. Что одному кажется "лишним", другому — необходимым контекстом. Используй как направление, не как жёсткий приговор.

⚠️ Не заменяет итерацию: Аудит покажет где слабо — но проверить улучшение всё равно нужно в деле. Смелл-чистый промпт ≠ гарантированно рабочий промпт.

⚠️ RESPONSE-смелл — системный: В оригинальном исследовании он встречался в 100% случаев. Это значит: описание ожидаемого выхода пропускают почти всегда. Проверяй в первую очередь.


🔗

Ресурсы

Making OpenAPI Documentation Agent-Ready: Detecting Documentation and REST Smells with a Multi-Agent LLM System — EASE 2026, Glasgow

Авторы: Rayfran Rocha Lima, Davi G. Assuncao Pinheiro, Thiago Medeiros de Menezes — Sidia Institute of Technology, Manaus, Бразилия

Смелл-таксономия документации базируется на: Khan et al. [11] — документационные смеллы в программном обеспечении


📋 Дайджест исследования

Ключевая суть

С 10% до 80% правильных ответов — та же модель, тот же API. Просто переписали инструкции. Таксономия 9 запахов позволяет найти конкретные паттерны в промпте, из-за которых AI стабильно ломается. Расплывчатое задание — не «немного хуже», это катастрофа: LLM не читает между строк. Пробел в инструкции заполняется «средним по больнице» из обучающих данных — 70% провалов против 90% успеха. Такова цена разницы между «написано для людей, которые знают контекст» и «написано для AI».

Принцип работы

Девять паттернов делятся на две группы. Первая — как написан текст: LAZY — слишком коротко, расплывчато; BLOATED — многословно, вода; TANGLED — в одном блоке перемешаны три разные задачи; FRAGMENTED — контекст разбросан по тексту, связи только в голове автора. Вторая — что именно описано: INPUT — входные данные без семантики и границ; RESPONSE — непонятно что и в каком формате выходит; SECURITY — нет явных ограничений и условий отказа; PATH — задача названа действием вместо результата; METHOD — инструкции противоречат друг другу. Прогоняешь промпт через каждый тип — получаешь конкретный список проблем, а не абстрактное «перепиши получше».

Почему работает

LLM не додумывает — она заполняет пробелы. Пишешь «обработай запрос» — модель генерирует что-то среднее по всем похожим задачам из обучения. Не то, что ты хотел, а то, что «обычно бывает» в похожем контексте. Чёткое задание — это не удобство, это инструмент управления тем, откуда модель берёт паттерн для ответа. Эксперимент прямой: один и тот же API с расплывчатым описанием — 70% провалов, 10% правильных вызовов. С явными целями, входами, выходами и ограничениями — 90% успеха, 80% правильных вызовов, все завершились без ошибок.

Когда применять

Системные промпты и инструкции для AI-ассистентов — особенно когда агент делает «что-то похожее, но не то». Настройка контекста для автоматизированных задач — когда результат скачет от запуска к запуску. Проверка перед запуском нового инструмента в продакшн — как критерий приёмки. НЕ подходит для разовых простых вопросов вроде «переведи текст» — аудит избыточен для одноразовых задач без повторений.

Мини-рецепт

1. Возьми промпт для проверки: любой системный промпт, инструкция для агента, длинный контекст задачи.
2. Дай модели таксономию: вставь список 9 типов запахов и попроси пройтись по каждому.
3. Задай формат ответа: для каждого найденного запаха — тип, проблемный фрагмент, объяснение в 1-2 предложениях, улучшенная версия. Если запах не найден — пишет «чисто».
4. Итеративно: после правок прогони снова. Работает как цикл — пока не получишь «чисто» по всем типам.
5. Фокусируйся по ситуации: для коротких промптов достаточно проверить LAZY и INPUT. Для системных промптов агентов — весь список.

Примеры

[ПЛОХО] : Ты помогаешь пользователям с вопросами. Отвечай понятно и профессионально.
[ХОРОШО] : Ты — аудитор промптов по таксономии запахов документации. Проверь текст ниже. Для каждого найденного запаха: 1) назови тип (LAZY / BLOATED / TANGLED / FRAGMENTED / INPUT / RESPONSE / SECURITY / PATH / METHOD), 2) процитируй проблемный фрагмент, 3) объясни в 1-2 предложениях почему это мешает AI, 4) предложи улучшенную версию. Если запах не найден — пиши «чисто» для этого типа. Таксономия: LAZY — расплывчато и кратко; BLOATED — вода и повторения; TANGLED — в одном месте смешаны разные цели; FRAGMENTED — ключевой контекст разбросан; INPUT — входные данные без семантики; RESPONSE — непонятно что и в каком формате выходит; SECURITY — нет явных ограничений; PATH — задача названа действием, а не результатом; METHOD — инструкции противоречивы. Текст для проверки: [вставь свой промпт] Первый вариант — три запаха сразу: размытая роль (LAZY), нет ограничений (SECURITY), нет описания выхода (RESPONSE). Второй — запускает полный аудит и возвращает структурированный разбор с конкретными правками.
Источник: Making OpenAPI Documentation Agent-Ready: Detecting Documentation and REST Smells with a Multi-Agent LLM System
ArXiv ID: 2605.14312 | Сгенерировано: 2026-05-15 05:42

Проблемы LLM

ПроблемаСутьКак обойти
Пробелы в инструкции модель заполняет сама — не твоим смысломПишешь "обработай запрос" или "дай ответ". Модель не угадывает что ты хотел. Она генерирует текст по всем похожим задачам из обучения. Получаешь усреднённый результат — не твой. Проявляется в любом промпте где есть размытые места: нет явного формата выхода, нет описания что нельзя, нет границ у входных данныхУбери пробелы явно. Для каждого фрагмента промпта проверь: понятно ли что входит, что выходит, что запрещено. Пиши не "передай данные" — а "передай текст жалобы от 10 до 500 слов"

Методы

МетодСуть
Аудит промпта по 9 типам слабых местПрогони любой промпт или системную инструкцию через список из 9 типов. Для каждого типа: нашёл процитируй проблему объясни почему мешает напиши улучшение. Девять типов: LAZY — слишком коротко и расплывчато; BLOATED — много слов, мало смысла; TANGLED — в одном месте смешаны разные цели; FRAGMENTED — контекст разбросан, связи только в голове автора; INPUT — входные данные без границ и смысла; RESPONSE — непонятно что и в каком формате выходит; SECURITY — нет явных ограничений и условий отказа; PATH — задача названа действием ("делай обработку") вместо результата ("ответ на жалобу"); METHOD — инструкции противоречат друг другу. Почему работает: каждый тип — это конкретный пробел. Вместо "промпт плохой" получаешь список чего именно не хватает. Когда применять: системные промпты, инструкции агентам, длинный контекст. Для разовых коротких вопросов — избыточно

Тезисы

ТезисКомментарий
Чёткость инструкции влияет на результат сильнее выбора моделиОдин и тот же API. Одна и та же модель. Одни и те же задачи. Только описание разное. Размытое — 70% провалов, 10% правильных вызовов. Чёткое — 90% успех, 80% правильных вызовов. Модель не стала лучше. Изменилось только описание. Применяй: прежде чем менять модель из-за плохих результатов — проверь промпт по таксономии запахов
📖 Простыми словами

Making OpenAPI DocumentationAgent-Ready: Detecting Documentation and REST Smells with a Multi-AgentLLMSystem

arXiv: 2605.14312

Проблема в том, что большинство API-документаций написаны для людей, которые могут догадаться, а ИИ-агенты — это буквальные исполнители. Когда модель видит эндпоинт, она не «понимает» его суть, а просто сопоставляет токены. Если описание куцее или кривое, агент начинает гадать, и точность падает в бездну. Исследование показало, что успех задачи зависит не от логики кода, а от того, насколько качественно расставлены текстовые маяки для нейронки.

Это как дать иностранцу карту города, где вместо названий улиц написано «дорога» или «проезд». Человек с местным менталитетом, может, и разберется по памяти, но гость гарантированно заблудится. В итоге вы оба стоите на одной и той же площади, но один знает, куда идти, а другой — беспомощно тычется в тупики, потому что инструкции формально есть, но они абсолютно бесполезны для навигации.

Чтобы это исправить, внедрили систему мультиагентного аудита, которая вычищает «запахи» (smells) плохой документации. Работает это так: один агент ищет логические дыры, другой — несоответствия в описании параметров, а третий проверяет, достаточно ли контекста для принятия решения. В результате простое обогащение текста без изменения единой строчки кода подняло успех выполнения задач с жалких 10% до внушительных 80%.

Этот принцип универсален для любого промпт-инжиниринга и настройки системных инструкций. Тестировали на OpenAPI, но та же логика применима к ТЗ для сотрудников, брифам или сложным цепочкам задач в LangChain. Если ты пишешь «сделай красиво» или «отвечай профессионально», ты создаешь белый шум. Модели нужны конкретные якоря и структура, иначе она выберет самый усредненный и бесполезный паттерн из своей базы.

Короче: хватит надеяться на «ум» нейронки — она настолько хороша, насколько детальна твоя документация. Разрыв в 70% эффективности доказывает, что текст — это теперь не просто справка, а критическая часть архитектуры. Либо ты вычищаешь документацию от «запахов» и неопределенности, либо твой ИИ-агент будет вечно тупить на ровном месте, пока конкуренты забирают профит.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с