TL;DR
Большинство пользователей работают с AI реактивно — дали задачу, ждут результат, потом разбираются с последствиями. Исследователи опросили 17 профессиональных разработчиков, которые ежедневно используют AI-агентов (Claude Code, Cursor, Cline), и обнаружили: опытные пользователи контролируют AI на четырёх отдельных уровнях, не одном. И самый важный из них происходит ещё до того, как задача начата.
Главная находка: AI-агент — не поисковик, которому задаёшь запрос и смотришь результат. Без явных ограничений модель "уходит в свои дела" и делает не то, что нужно. Но проблема не в том, что AI плохо работает — проблема в том, что большинство пользователей пропускают профилактический контроль и пытаются починить ошибку только после того, как она уже случилась. Это как давать подрядчику ключи от квартиры без ТЗ, а потом удивляться ремонту.
Исследование описывает четыре фазы надзора: (1) настройка до начала задачи — жёсткие границы и контекст; (2) совместное планирование — агент объясняет план перед действием; (3) наблюдение в процессе — промежуточные проверки; (4) итоговая проверка — но умная, через суррогатные критерии, а не ручной просмотр каждой строки.
Схема метода
ФАЗА 1: A priori control — до задачи
Задай ограничения + глобальный контекст + запреты
→ Один раз создаётся, постоянно дополняется
ФАЗА 2: Co-planning — перед запуском
Попроси агента описать план ДО исполнения
→ Отдельный запрос: "Сначала объясни, как будешь решать"
ФАЗА 3: Real-time monitoring — во время
Контрольные точки на ключевых этапах
→ Промежуточные запросы: "Что сделал, что осталось, есть ли блокеры?"
ФАЗА 4: Post hoc review — после
Проверка через суррогатные критерии (не ручной аудит)
→ "Этот результат проходит тест X?" вместо "прочитай всё подряд"
Фазы 2–4 требуют отдельных сообщений. Фаза 1 — разовая настройка, которую ты пополняешь со временем.
Пример применения
Задача: Ты запускаешь небольшой онлайн-курс и просишь Claude написать полную программу — 8 модулей с темами, домашними заданиями и описаниями уроков. Обычно даёшь задачу одним сообщением и смотришь что получится.
Промпт (Фаза 1 — твой "проектный бриф", создаётся один раз):
## Контекст проекта
Я создаю онлайн-курс по {теме} для {целевая_аудитория}.
Формат платформы: {Геткурс / Тильда / другое}.
Ограничения:
— Не предлагать форматы "живых вебинаров" — курс асинхронный
— Не включать модули длиннее 45 минут
— Домашние задания — только практические, без эссе
— Тон материала: {профессиональный / дружелюбный / строгий}
Аудитория уже знает: {что знает}
Аудитория не знает: {чего не знает}
Цель курса: {результат который получит студент}
Промпт (Фаза 2 — совместное планирование):
Прежде чем писать программу курса — опиши свой план:
- Какую структуру модулей предлагаешь и почему
- Как будешь распределять сложность от модуля к модулю
- Какие допущения делаешь о моей аудитории
Жду план. После моего одобрения — приступай к написанию.
Результат: В первом ответе модель покажет структурный план — логику разбивки на модули, принцип нарастания сложности, свои допущения об аудитории. Ты увидишь направление до того, как написан первый модуль. Если что-то не так — правишь сейчас, не выбрасываешь готовый материал.
Почему это работает
Почему не работает "в лоб": AI генерирует текст, исходя из самого вероятного продолжения твоего запроса. Без явных ограничений модель заполняет пробелы своими предположениями — и они часто не совпадают с твоими. Чем длиннее задача, тем дальше уходит результат от того, что ты имел в виду.
Что модель умеет хорошо: Следовать явным инструкциям. Если ограничения и контекст прописаны заранее, модель встраивает их в каждый шаг. Проектный бриф — это не мета-комментарий, это активная часть промпта.
Как метод использует это: Четыре фазы распределяют контроль во времени. Фаза 1 убирает нежелательные направления ещё до старта. Фаза 2 делает план видимым — ты одобряешь логику, а не угадываешь её по готовому тексту. Фазы 3–4 ловят ошибки до того, как они накопились.
Рычаги управления: - Детальность проектного брифа → чем конкретнее запреты, тем меньше нежелательных сюрпризов - Момент совместного планирования → для простых задач можно пропустить; для сложных — обязательно - Суррогатные критерии в фазе 4 → вместо "прочитай всё" задай конкретный тест: "Каждый модуль содержит практическое задание? Да/Нет по каждому"
Шаблон промпта
## Проектный бриф: {название_проекта}
### Контекст
{Что это за проект. 2-3 предложения.}
### Аудитория
Знает: {что уже знает аудитория}
Не знает: {что для неё ново}
### Жёсткие ограничения (не нарушать)
— {Ограничение 1}
— {Ограничение 2}
— {Ограничение 3}
### Тон и формат
{Стиль, объём, платформа, формат вывода}
### Цель
{Что получит пользователь на выходе. Один конкретный результат.}
---
Прежде чем начать — опиши свой план решения задачи.
Жду план. Приступай только после моего подтверждения.
Задача: {конкретная_задача}
Плейсхолдеры:
- {название_проекта} — чтобы легко найти бриф позже
- {что знает / не знает аудитория} — ключевые ограничения на уровень и язык материала
- {Ограничение 1-3} — конкретные запреты: форматы, темы, подходы которые не нужны
- {конкретная_задача} — сама задача, отдельно от контекста
🚀 Быстрый старт — вставь в чат:
Вот шаблон проектного брифа для работы с AI.
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит об аудитории, ограничениях и формате — потому что без этих данных не сможет правильно заполнить бриф. Она возьмёт структуру шаблона и соберёт твой персональный проектный бриф через диалог.
Ограничения
⚠️ Фокус на разработчиках: Исследование проводилось с профессиональными разработчиками, использующими code-агентов. Перенос принципов на другие задачи требует адаптации — не все четыре фазы одинаково важны для, например, написания текстов или аналитики.
⚠️ "Хорошего достаточно": Опытные пользователи намеренно выбирают эффективный, а не идеальный надзор. Исследование честно говорит: полноценная проверка каждого шага AI невозможна на практике. Четыре фазы не гарантируют нулевых ошибок — они снижают их количество и делают ошибки поймаемыми раньше.
⚠️ Бумага доступна частично: В предоставленном тексте детально описана только фаза 1 (a priori control). Фазы co-planning, real-time monitoring и post hoc review, а также полный раздел про эвристики — упомянуты в абстракте, но не приведены полностью. Описание фаз 2–4 выше восстановлено из структуры исследования.
⚠️ Не для одноразовых запросов: Метод работает для сложных, многошаговых задач. Если тебе нужен быстрый ответ на простой вопрос — четыре фазы избыточны.
Ресурсы
Human oversight of agentic systems in practice: Examining the oversight work, challenges, and heuristics of developers using software agents
Shipi Dhanorkar, Samir Passi, Mihaela Vorvoreanu — Microsoft, США, 2025
Смежные инструменты упомянутые в исследовании: Claude Code, Cursor, Cline, GitHub Copilot, OpenHands CodeAct
