TL;DR
Когда вы говорите AI "исправь это" или "сделай доступным", вы формулируете цель, но не формулируете границы. AI не знает, что нельзя трогать, как далеко заходить, что считать допустимым. Он заполняет пробелы сам — и его выбор может сильно расходиться с тем, что вы имели в виду.
Главная находка: проблема не в злонамеренных командах, не во взломе. Проблема в том, что даже при полностью добросовестном запросе AI выбирает из множества "правильных" планов тот, который выполняет цель агрессивно. "Почини деплоймент" — и он удаляет кэши, перезаписывает конфиги, отключает защиты. Всё это технически решает задачу. Но вы этого не просили.
Решение — всегда указывать не только что сделать, но и что не делать: сохранить ли старое, оставаться в рамках одного файла или всего проекта, делать обратимые изменения или допустимы постоянные, насколько агрессивно решать задачу.
Схема метода
Авторы выделяют шесть зон пропущенных границ — и это готовый чеклист для любого сложного промпта:
ЗОНА 1: Привилегии
→ Что можно трогать? Что — только спросив?
→ "используй только то, что уже есть, не устанавливай ничего нового"
ЗОНА 2: Область охвата
→ Какие файлы/части/разделы в зоне работы?
→ "только этот блок / только этот документ / только этот раздел"
ЗОНА 3: Постоянство изменений
→ Изменения обратимые или постоянные?
→ "предложи изменения, не применяй сам" / "сделай, но скажи что изменил"
ЗОНА 4: Открытость/экспозиция
→ Что остаётся внутри, что может быть снаружи?
→ "не делай ничего публичным / не отправляй / не публикуй"
ЗОНА 5: Зависимости
→ Можно ли добавлять новые инструменты/пакеты/источники?
→ "только штатными средствами / ничего не подключай"
ЗОНА 6: Цена восстановления
→ Как агрессивно чинить? Можно ли жертвовать чем-то ради результата?
→ "сначала диагноз, потом действие" / "минимальное вмешательство"
Всё это работает в одном промпте. Добавляете нужные зоны — получаете другой результат.
Пример применения
Задача: Вы ведёте телеграм-канал про бизнес и попросили Claude "улучшить этот текст". Он переписал всё — изменил тон с иронии на серьёзный, убрал личные истории, сократил вдвое. Технически текст лучше. Но это уже не ваш текст.
Промпт (с границами):
Улучши этот текст для Телеграм-канала.
Цель: сделать его читабельнее и убедительнее.
Границы:
- Сохрани мой тон — ироничный, разговорный, с личными примерами
- Не меняй структуру и порядок аргументов
- Не удаляй истории из личного опыта — это фишка канала
- Объём — плюс-минус 10% от оригинала
- Если хочешь предложить более глубокие изменения — напиши отдельно как рекомендацию, не вноси в текст
Вот текст:
[текст]
Результат: Модель скорректирует формулировки, уберёт заусенцы, улучшит ритм — но не тронет то, что вы явно защитили. Спорные изменения предложит отдельно, а не вошьёт в текст молча.
Почему это работает
Слабость LLM: Модель оптимизирует под заявленную цель. Если цель — "сделать текст лучше", она будет делать лучше по всем параметрам, которые знает. Про ваши приоритеты она не знает. Она заполняет пробел своим суждением.
Сильная сторона LLM: Модель отлично следует явным ограничениям. Чётко написанное "не делай X" работает надёжнее, чем надежда что она догадается.
Механика: Без границ у задачи много равноценных решений — агрессивных и осторожных. Все они "правильные" с точки зрения цели. Явные ограничения отсекают агрессивные варианты и сужают выбор до того, что вы имели в виду.
Рычаги управления: - "Предложи, не применяй" — переводит агента в режим советника, особенно для необратимых изменений - "Только в рамках X" — сужает область охвата, убирает риск затронуть лишнее - "Минимальное вмешательство" — сигнализирует приоритет осторожности над скоростью - "Скажи что изменил" — включает аудит: видите все смещения, можете откатить
Шаблон промпта
{задача}.
Цель: {что хочу получить в итоге}.
Границы:
- Область: только {что входит в зону работы}, не трогай {что вне зоны}
- Стиль/структура: сохрани {что важно сохранить}
- Изменения: {обратимые / сначала предложи, потом применяй / применяй сразу}
- Инструменты: {только то что уже есть / можно добавлять новое}
- Агрессивность: {минимальное вмешательство / можно действовать свободнее}
Если видишь что нужно сделать больше — {опиши как рекомендацию / спроси меня / игнорируй}.
{материал для работы}
Что подставлять:
- {задача} — конкретное действие: "отредактируй", "настрой", "исправь"
- {что входит в зону работы} — конкретный файл, блок, раздел
- {что важно сохранить} — тон, структура, ключевые формулировки
- В блоке "если видишь больше" — решаете, хотите ли вы расширенные советы или строгое следование задаче
🚀 Быстрый старт — вставь в чат:
Вот шаблон для задачи с явными границами.
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить все поля.
[вставить шаблон выше]
LLM спросит: что именно нужно сделать, что можно трогать, что нельзя, нужны ли обратимые изменения — потому что без этих данных она не сможет правильно расставить ограничения.
Ограничения
⚠️ Агентные системы с реальным доступом: Исследование написано про AI-агентов, которые могут реально запускать команды, менять файлы, открывать порты. Для обычного чата с Claude/ChatGPT без инструментов риски меньше — но принцип границ работает везде.
⚠️ Не панацея от галлюцинаций: Явные границы не защищают от ошибок в содержании — только от выхода за рамки поставленной задачи.
⚠️ Чем больше границ, тем жёстче результат: Очень плотные ограничения могут мешать модели найти хорошее решение. Для творческих задач оставляйте больше свободы, для деструктивно-необратимых — больше ограничений.
⚠️ Работает не со всеми моделями одинаково: Слабые модели могут игнорировать длинный список ограничений. Чем мощнее модель — тем надёжнее следует явным границам.
Ресурсы
"When Convenience Becomes Risk: A Semantic View of Under-Specification in Host-Acting Agents" Di Lu, Yongzhi Liao, Xutong Mu, Lele Zheng, Ke Cheng, Xuewen Dong, Yulong Shen, Jianfeng Ma School of Computer Science and Technology, Xidian University; Shaanxi Key Laboratory of Network and System Security
Смежные работы упомянутые в статье: InjecAgent, AgentDojo (prompt injection в агентах), CaMeLs (архитектурная изоляция), CUAHarm (безопасность при полном доступе к компьютеру)
