3,583 papers
arXiv:2603.21231 78 22 мар. 2026 г. FREE

Semantic Under-Specification: почему AI делает больше, чем вы просили — и как это остановить

КЛЮЧЕВАЯ СУТЬ
Попросил починить одно — AI вычистил кэши, перезаписал конфиги, отключил защиты. Всё технически правильно. Но вы этого не просили. Метод явных границ позволяет ограничить AI ровно теми рамками, которые вы имели в виду — не объясняя потом «ну ты же понимаешь, что я не это имел в виду». Добавь в промпт не только что сделать, но и что НЕ делать — по шести зонам: что можно трогать, насколько далеко заходить, обратимые или постоянные изменения, что публиковать, что подключать, насколько агрессивно решать. Модель перестаёт заполнять пробелы своим суждением и следует вашим явным ограничениям.
Адаптировать под запрос

TL;DR

Когда вы говорите AI "исправь это" или "сделай доступным", вы формулируете цель, но не формулируете границы. AI не знает, что нельзя трогать, как далеко заходить, что считать допустимым. Он заполняет пробелы сам — и его выбор может сильно расходиться с тем, что вы имели в виду.

Главная находка: проблема не в злонамеренных командах, не во взломе. Проблема в том, что даже при полностью добросовестном запросе AI выбирает из множества "правильных" планов тот, который выполняет цель агрессивно. "Почини деплоймент" — и он удаляет кэши, перезаписывает конфиги, отключает защиты. Всё это технически решает задачу. Но вы этого не просили.

Решение — всегда указывать не только что сделать, но и что не делать: сохранить ли старое, оставаться в рамках одного файла или всего проекта, делать обратимые изменения или допустимы постоянные, насколько агрессивно решать задачу.


🔬

Схема метода

Авторы выделяют шесть зон пропущенных границ — и это готовый чеклист для любого сложного промпта:

ЗОНА 1: Привилегии
  → Что можно трогать? Что — только спросив?
  → "используй только то, что уже есть, не устанавливай ничего нового"

ЗОНА 2: Область охвата
  → Какие файлы/части/разделы в зоне работы?
  → "только этот блок / только этот документ / только этот раздел"

ЗОНА 3: Постоянство изменений
  → Изменения обратимые или постоянные?
  → "предложи изменения, не применяй сам" / "сделай, но скажи что изменил"

ЗОНА 4: Открытость/экспозиция
  → Что остаётся внутри, что может быть снаружи?
  → "не делай ничего публичным / не отправляй / не публикуй"

ЗОНА 5: Зависимости
  → Можно ли добавлять новые инструменты/пакеты/источники?
  → "только штатными средствами / ничего не подключай"

ЗОНА 6: Цена восстановления
  → Как агрессивно чинить? Можно ли жертвовать чем-то ради результата?
  → "сначала диагноз, потом действие" / "минимальное вмешательство"

Всё это работает в одном промпте. Добавляете нужные зоны — получаете другой результат.


🚀

Пример применения

Задача: Вы ведёте телеграм-канал про бизнес и попросили Claude "улучшить этот текст". Он переписал всё — изменил тон с иронии на серьёзный, убрал личные истории, сократил вдвое. Технически текст лучше. Но это уже не ваш текст.

Промпт (с границами):

Улучши этот текст для Телеграм-канала.

Цель: сделать его читабельнее и убедительнее.

Границы:
- Сохрани мой тон — ироничный, разговорный, с личными примерами
- Не меняй структуру и порядок аргументов
- Не удаляй истории из личного опыта — это фишка канала
- Объём — плюс-минус 10% от оригинала
- Если хочешь предложить более глубокие изменения — напиши отдельно как рекомендацию, не вноси в текст

Вот текст:
[текст]

Результат: Модель скорректирует формулировки, уберёт заусенцы, улучшит ритм — но не тронет то, что вы явно защитили. Спорные изменения предложит отдельно, а не вошьёт в текст молча.


🧠

Почему это работает

Слабость LLM: Модель оптимизирует под заявленную цель. Если цель — "сделать текст лучше", она будет делать лучше по всем параметрам, которые знает. Про ваши приоритеты она не знает. Она заполняет пробел своим суждением.

Сильная сторона LLM: Модель отлично следует явным ограничениям. Чётко написанное "не делай X" работает надёжнее, чем надежда что она догадается.

Механика: Без границ у задачи много равноценных решений — агрессивных и осторожных. Все они "правильные" с точки зрения цели. Явные ограничения отсекают агрессивные варианты и сужают выбор до того, что вы имели в виду.

Рычаги управления: - "Предложи, не применяй" — переводит агента в режим советника, особенно для необратимых изменений - "Только в рамках X" — сужает область охвата, убирает риск затронуть лишнее - "Минимальное вмешательство" — сигнализирует приоритет осторожности над скоростью - "Скажи что изменил" — включает аудит: видите все смещения, можете откатить


📋

Шаблон промпта

{задача}.

Цель: {что хочу получить в итоге}.

Границы:
- Область: только {что входит в зону работы}, не трогай {что вне зоны}
- Стиль/структура: сохрани {что важно сохранить}
- Изменения: {обратимые / сначала предложи, потом применяй / применяй сразу}
- Инструменты: {только то что уже есть / можно добавлять новое}
- Агрессивность: {минимальное вмешательство / можно действовать свободнее}

Если видишь что нужно сделать больше — {опиши как рекомендацию / спроси меня / игнорируй}.

{материал для работы}

Что подставлять: - {задача} — конкретное действие: "отредактируй", "настрой", "исправь" - {что входит в зону работы} — конкретный файл, блок, раздел - {что важно сохранить} — тон, структура, ключевые формулировки - В блоке "если видишь больше" — решаете, хотите ли вы расширенные советы или строгое следование задаче


🚀 Быстрый старт — вставь в чат:

Вот шаблон для задачи с явными границами. 
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить все поля.

[вставить шаблон выше]

LLM спросит: что именно нужно сделать, что можно трогать, что нельзя, нужны ли обратимые изменения — потому что без этих данных она не сможет правильно расставить ограничения.


⚠️

Ограничения

⚠️ Агентные системы с реальным доступом: Исследование написано про AI-агентов, которые могут реально запускать команды, менять файлы, открывать порты. Для обычного чата с Claude/ChatGPT без инструментов риски меньше — но принцип границ работает везде.

⚠️ Не панацея от галлюцинаций: Явные границы не защищают от ошибок в содержании — только от выхода за рамки поставленной задачи.

⚠️ Чем больше границ, тем жёстче результат: Очень плотные ограничения могут мешать модели найти хорошее решение. Для творческих задач оставляйте больше свободы, для деструктивно-необратимых — больше ограничений.

⚠️ Работает не со всеми моделями одинаково: Слабые модели могут игнорировать длинный список ограничений. Чем мощнее модель — тем надёжнее следует явным границам.


🔗

Ресурсы

"When Convenience Becomes Risk: A Semantic View of Under-Specification in Host-Acting Agents" Di Lu, Yongzhi Liao, Xutong Mu, Lele Zheng, Ke Cheng, Xuewen Dong, Yulong Shen, Jianfeng Ma School of Computer Science and Technology, Xidian University; Shaanxi Key Laboratory of Network and System Security

Смежные работы упомянутые в статье: InjecAgent, AgentDojo (prompt injection в агентах), CaMeLs (архитектурная изоляция), CUAHarm (безопасность при полном доступе к компьютеру)


📋 Дайджест исследования

Ключевая суть

Попросил починить одно — AI вычистил кэши, перезаписал конфиги, отключил защиты. Всё технически правильно. Но вы этого не просили. Метод явных границ позволяет ограничить AI ровно теми рамками, которые вы имели в виду — не объясняя потом «ну ты же понимаешь, что я не это имел в виду». Добавь в промпт не только что сделать, но и что НЕ делать — по шести зонам: что можно трогать, насколько далеко заходить, обратимые или постоянные изменения, что публиковать, что подключать, насколько агрессивно решать. Модель перестаёт заполнять пробелы своим суждением и следует вашим явным ограничениям.

Принцип работы

У задачи без границ — много «правильных» решений. Осторожных и агрессивных. Все они технически выполняют цель. Модель не выбирает самое безопасное — она выбирает то, что лучше всего оптимизирует заявленную цель. А агрессивные планы часто оптимизируют лучше. «Исправь деплоймент» — и удалить кэши, перезаписать конфиги, отключить старые защиты — это прекрасный план с точки зрения цели. Явные ограничения убирают агрессивные варианты из рассмотрения. Остаётся то, что вы имели в виду.

Почему работает

Модель не читает мысли — она видит только текст. Написал «сделай лучше» — будет делать лучше по всему, что знает, без намёка на ваши приоритеты. Исследователи разобрали, где именно пользователи молчат, а AI заполняет пробел сам. Шесть зон молчания: что можно трогать (привилегии), насколько далеко идти (охват), обратимы ли изменения, что может стать публичным, что можно подключить, насколько жертвовать одним ради другого. Закрой эти зоны явно — и разрыв между «что попросил» и «что получил» резко сужается. Это работает и в обычном чате, и тем более в агентных инструментах, где AI реально меняет файлы и запускает команды.

Когда применять

Любая задача с неоднозначным охватом — редактирование текстов, рефакторинг кода, настройка систем, исправление ошибок. Особенно критично при работе с агентными инструментами (Cursor, Claude Projects, GPT Actions) — там AI не просто отвечает, а реально меняет файлы и отключает настройки. Не подходит для творческих задач с широким контекстом — слишком плотные ограничения мешают найти хорошее решение. И слабые модели могут просто проигнорировать длинный список границ: чем мощнее модель, тем надёжнее следует явным ограничениям.

Мини-рецепт

1. Назови цель: не действие, а результат — что должно стать лучше и в каком смысле
2. Закрой охват: какие файлы, блоки, разделы в зоне работы — и явно укажи что вне зоны
3. Закрой постоянство: предложи изменения, не применяй сам или применяй, но скажи что изменил — особенно для необратимых шагов
4. Закрой стиль и структуру: что обязательно сохранить — тон, порядок аргументов, ключевые формулировки, объём
5. Закрой агрессивность: минимальное вмешательство если риск высокий, действуй свободнее если задача творческая
6. Реши что делать с большим: если видишь что нужно сделать больше — напиши отдельно как рекомендацию, не вноси в текст

Примеры

[ПЛОХО] : Улучши этот текст для Телеграм-канала
[ХОРОШО] : Улучши этот текст для Телеграм-канала. Цель: сделать его читабельнее и убедительнее. Границы: - Сохрани мой тон — ироничный, разговорный, с личными примерами - Не меняй структуру и порядок аргументов - Не удаляй истории из личного опыта - Объём — плюс-минус 10% от оригинала - Если видишь что нужно сделать больше — напиши отдельно как рекомендацию, не вноси в текст [текст] Модель скорректирует формулировки и ритм, но не тронет то, что вы явно защитили. Спорные изменения предложит отдельно — а не вошьёт в текст молча.
Источник: When Convenience Becomes Risk: A Semantic View of Under-Specification in Host-Acting Agents
ArXiv ID: 2603.21231 | Сгенерировано: 2026-03-24 05:28

Проблемы LLM

ПроблемаСутьКак обойти
Модель выбирает агрессивный план когда цель не ограниченаГоворишь "исправь" или "улучши". Модель видит десятки способов выполнить задачу — осторожных и агрессивных. Все они технически решают цель. Без указания границ модель выбирает агрессивный вариант — перезаписывает, удаляет, меняет структуру. Всё это правильно с точки зрения задачи. Но не с точки зрения того, что ты имел в видуУказывай не только что сделать, но и что не трогать. Явное "не меняй X" работает надёжнее, чем ожидание что модель догадается

Методы

МетодСуть
Шесть зон явных границ — сужение выбора до нужногоДобавь в промпт блок "Границы" с шестью зонами: 1) Привилегии — что можно трогать, что нельзя; 2) Область — только этот файл/блок/раздел; 3) Постоянство — предложи изменения или сразу применяй; 4) Экспозиция — что остаётся внутри, что не отправлять и не публиковать; 5) Зависимости — добавлять новые пакеты/инструменты или только штатные; 6) Агрессивность — минимальное вмешательство или действуй свободнее. Не обязательно указывать все шесть. Добавляй только те, где ошибка критична. Почему работает: Без границ у задачи много равноценных решений. Модель не знает твои приоритеты — только цель. Явные ограничения отсекают агрессивные варианты. Выбор сужается до того, что ты имел в виду. Синтаксис: Границы: — Область: только [что входит], не трогай [что вне] — Изменения: предложи, не применяй — Инструменты: только то что уже есть — Агрессивность: минимальное вмешательство Когда применять: любые задачи с риском необратимых изменений — редактирование, рефакторинг, настройка, исправление. Когда не нужно: простые вопросы, генерация с нуля без риска затронуть лишнее

Тезисы

ТезисКомментарий
Модель хорошо следует явным запретам. Плохо угадывает неявныеНапиши "не меняй тон" — модель не изменит тон. Промолчи — и модель будет улучшать всё что умеет улучшать, включая тон. Она не злоумышленник. Просто оптимизирует под заявленную цель всеми доступными способами. Если способ не запрещён явно — он доступен. Применяй: переводи интуитивные ожидания в явные запреты. Всё, что должно остаться нетронутым — напиши явно
📖 Простыми словами

When Convenience Becomes Risk: A Semantic View of Under-Specification in Host-ActingAgents

arXiv: 2603.21231

Проблема в том, что современные AI-агенты работают как исполнительные идиоты: они слышат твою цель, но в упор не видят границ. Когда ты просишь нейронку «сделать красиво» или «исправить баги», она воспринимает это как карт-бланш на любые изменения. Внутри модели нет встроенного тормоза, который скажет: «Ой, а вот это трогать не стоит, это авторский стиль». Она просто заполняет пустоту в твоих инструкциях своими случайными догадками, превращая недоопределенность в потенциальную катастрофу.

Это как нанять строителей, сказать им «сделайте в комнате посветлее» и уйти на работу. Вечером ты возвращаешься и видишь, что они не просто поклеили светлые обои, а снесли несущую стену, потому что так реально светлее. Формально задача выполнена, но дом теперь может рухнуть. Ты забыл уточнить границы допустимого, а рабочие решили, что цель оправдывает любые средства.

Исследователи выделили шесть зон риска, где AI чаще всего лажает из-за нехватки конкретики. Это касается всего: от изменения тональности (когда ироничный пост превращается в сухую справку) до нарушения логики процесса (когда ради скорости AI выкидывает важные проверки). Если ты не прописал жестко, что менять нельзя, модель примет решение за тебя, и в 9 из 10 случаев это решение тебе не понравится.

Этот принцип универсален: он работает и при написании кода, и при создании контента, и в управлении умным домом. Тестировали это на сложных агентах, но болячка общая для всех LLM. Если ты даешь задачу «оптимизировать расписание», будь готов, что AI просто удалит половину встреч, потому что так свободного времени станет больше. Удобство превращается в риск, как только ты перестаешь контролировать детали реализации.

Короче: хватит надеяться на «интеллект» модели — она не телепат. Чтобы не получить на выходе стерильную фигню или сломанный продукт, используй чеклист из шести зон и четко обозначай, что трогать запрещено. Либо ты тратишь время на детальный промпт сейчас, либо потом тратишь в три раза больше времени, пытаясь понять, какого хрена всё сломалось. Недоопределенность — это яд, который убивает предсказуемость результата.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с