3,583 papers
arXiv:2507.14447 90 22 июля 2025 г. FREE

41% → 96% точности — разница между «угадай сам что делать» и «вот тебе план».

КЛЮЧЕВАЯ СУТЬ
41% → 96% точности — разница между «угадай сам что делать» и «вот тебе план». Routine позволяет надёжно выполнять сложные многошаговые задачи — без пропусков, самодеятельности и потери контекста на середине. Фишка: ты выносишь планирование наружу — расписываешь задачу по шагам прямо в промпте, для каждого шага указываешь конкретное действие. Модель больше не тратит ресурсы на «что мне делать дальше?» и фокусируется только на исполнении. С 41.1% до 96.3% на GPT-4o — одним структурированным промптом.
Адаптировать под запрос

Исследование представляет фреймворк "Routine" — метод предоставления LLM четкого, структурированного, пошагового плана для выполнения сложных задач, особенно тех, что требуют использования нескольких инструментов (функций). Вместо того чтобы модель сама догадывалась, что делать, ей дают подробную "инструкцию по сборке", где каждый шаг описан. Это резко снижает количество ошибок и повышает предсказуемость поведения LLM.

Ключевой результат: Предоставление LLM четкого, пошагового плана ("Routine") повышает точность выполнения сложных задач с 41.1% до 96.3% для GPT-4o.

Суть метода "Routine" для обычного пользователя заключается в том, чтобы перестать давать LLM сложные задачи одной общей фразой и начать выступать в роли "проектного менеджера", который составляет для модели подробное техническое задание.

Представьте, что вам нужно, чтобы LLM выполнил многоэтапную работу, например, проанализировал конкурентов и составил на основе этого контент-план.

  • Плохой подход (без Routine): "Проанализируй соцсети моего конкурента X и предложи контент-план для моей компании Y на следующую неделю". Модель может что-то упустить, неправильно понять приоритеты или выдать результат в неудобном формате.

  • Хороший подход (с принципами Routine): Вы самостоятельно разбиваете большую задачу на логические шаги и оформляете их в виде четкого плана прямо в промпте. Для каждого шага вы указываете его номер, название, краткое описание цели и, что самое важное, какой "инструмент" (воображаемый или реальный) модель должна использовать.

Методика для пользователя: 1. Декомпозиция: Разбейте вашу сложную задачу на 3-7 логических, последовательных шагов. 2. Структурирование: Оформите эти шаги в виде нумерованного списка. Используйте Markdown для четкости (### Шаг 1:). 3. Явные инструкции: Для каждого шага укажите: * Название: Краткое и понятное (например, "Анализ тональности конкурента"). * Описание: Что именно нужно сделать на этом шаге. * "Инструмент": Укажите, какое действие нужно совершить (например, tool: analyze_text, tool: generate_ideas, tool: format_as_table). Это помогает модели сфокусироваться на конкретной операции. 4. Передача контекста: Явно укажите, что результаты предыдущего шага должны использоваться в следующем.

Этот подход превращает LLM из "творческого гения" в "исполнительного ассистента", который точно следует вашему плану, что кардинально повышает качество и надежность результата.

  • Прямая применимость: Пользователь может немедленно начать использовать адаптированную версию "Routine" в своих промптах в любом чат-боте (ChatGPT, Claude и др.). Для этого достаточно структурировать свой запрос как пошаговый план с помощью Markdown, как показано в примерах ниже. Это не требует никаких специальных инструментов.

  • Концептуальная ценность: Исследование дает пользователю бесценное понимание: LLM лучше всего работает, когда с него снимают "когнитивную нагрузку" по планированию. Вместо того чтобы надеяться, что модель сама догадается о правильной последовательности действий, пользователь учится сам создавать эту последовательность. Это меняет подход к промптингу с "запроса" на "управление процессом".

  • Потенциал для адаптации: Метод легко адаптируется. Вместо сложной системы с разными модулями, описанной в статье, пользователь создает "систему в одном промпте". Его мозг выступает в роли "Планировщика", а LLM — в роли "Исполнителя". Промпт, написанный по методу "Routine", становится тем самым связующим звеном, которое обеспечивает надежное взаимодействие.

Ты — опытный маркетолог-аналитик. Твоя задача — помочь мне разработать контент-стратегию для моего блога о путешествиях, основываясь на анализе популярного конкурента.

**Контекст:**
*   **Мой блог:** "Путешествия налегке", фокус на бюджетных поездках и лайфхаках.
*   **Конкурент:** Популярный тревел-блог "Мир на ладони", известный своими красочными фото и дорогими турами.
*   **Цель:** Найти свою нишу и отстроиться от конкурента, предложив уникальный контент.

**Выполни следующую инструкцию (Routine) шаг за шагом:**

### **Routine: Разработка контент-стратегии**

**Шаг 1: Анализ контента конкурента**
*   **Описание:** Проанализируй гипотетические последние 10 постов блога "Мир на ладони". Определи 3-4 основные темы, которые они освещают, их тон повествования (tone of voice) и основные форматы контента (например, фотоотчеты, лонгриды, видео).
*   **Инструмент:** `analyze_competitor_content`

**Шаг 2: Определение слабых мест и возможностей**
*   **Описание:** Основываясь на анализе из Шага 1, определи, какие темы или форматы конкурент НЕ использует. Найди "слепые зоны", которые может занять мой блог "Путешествия налегке". Например, они не пишут о бюджетных маршрутах или экономии в поездках.
*   **Инструмент:** `find_gaps_and_opportunities`

**Шаг 3: Генерация идей для контента**
*   **Описание:** Используя информацию о возможностях из Шага 2 и фокус моего блога, сгенерируй 5 конкретных идей для постов. Каждая идея должна быть уникальной и подчеркивать преимущества моего блога (бюджетность, лайфхаки).
*   **Инструмент:** `generate_content_ideas`

**Шаг 4: Формирование контент-плана**
*   **Описание:** Представь 3 лучшие идеи из Шага 3 в виде таблицы контент-плана на неделю (Пн, Ср, Пт). Для каждой идеи укажи заголовок, краткое описание и формат (статья, серия сторис, короткое видео).
*   **Инструмент:** `create_content_plan_table`

**Шаг 5: Итоговое резюме**
*   **Описание:** Напиши краткое резюме (2-3 предложения), обобщающее предложенную стратегию и ее ключевое преимущество.
*   **Инструмент:** `summarize_strategy`

Этот промпт эффективен, потому что он напрямую применяет принципы из исследования "Routine":

  1. Декомпозиция задачи: Сложная задача "разработать стратегию" разбита на 5 понятных, последовательных шагов. Это снижает вероятность того, что модель что-то упустит или смешает все в кучу.
  2. Четкая структура: Использование заголовков (###), нумерации и списков (*) создает жесткую структуру, которую LLM легко парсит и следует ей. Модель понимает, что это не просто текст, а план действий.
  3. Фокусировка через "Инструменты": Указание Инструмент: ... для каждого шага, даже если это воображаемый инструмент, заставляет модель сосредоточиться на выполнении одной конкретной микро-задачи (анализ, генерация, форматирование). Это имитирует вызов функций в агентных системах и повышает надежность.
  4. Управляемый поток данных: Каждый следующий шаг неявно опирается на результат предыдущего, создавая логическую цепочку. Модель не пытается сделать все сразу, а последовательно обрабатывает информацию, что предотвращает "галлюцинации" и ошибки.
Ты — персональный ассистент по планированию мероприятий. Помоги мне организовать празднование дня рождения для друга.

**Контекст:**
*   **Имя друга:** Алексей.
*   **Количество гостей:** 10-12 человек.
*   **Бюджет:** 30 000 рублей.
*   **Интересы Алексея:** Настольные игры, крафтовое пиво, научная фантастика.
*   **Дата:** Следующая суббота.

**Пожалуйста, выполни следующий план (Routine) для организации мероприятия:**

### **Routine: План дня рождения**

**Шаг 1: Брейншторм формата мероприятия**
*   **Описание:** Учитывая интересы Алексея и количество гостей, предложи 3 разных формата проведения дня рождения (например, вечер в антикафе с настолками, поход в тематический бар, домашняя вечеринка). Кратко опиши плюсы и минусы каждого.
*   **Инструмент:** `brainstorm_formats`

**Шаг 2: Выбор и детализация локации**
*   **Описание:** Исходя из предложенных форматов в Шаге 1, выбери наиболее оптимальный по бюджету и интересам. Найди 2-3 гипотетических места в городе, которые подходят под этот формат, и сравни их по цене и атмосфере.
*   **Инструмент:** `select_and_detail_location`

**Шаг 3: Составление меню и закупки**
*   **Описание:** Для выбранной локации предложи варианты меню (закуски, напитки), которые укладываются в оставшийся бюджет. Составь список необходимых продуктов и вещей для покупки.
*   **Инструмент:** `plan_menu_and_shopping`

**Шаг 4: План развлечений**
*   **Описание:** Составь почасовой план развлечений на 4 часа, учитывая интересы Алексея. Включи в план конкретные настольные игры, музыку в стиле sci-fi и, возможно, небольшой квиз.
*   **Инструмент:** `create_entertainment_schedule`

**Шаг 5: Финальный чек-лист**
*   **Описание:** Собери все ключевые пункты (место, время, список покупок, план) в один финальный чек-лист для проверки готовности за день до мероприятия.
*   **Инструмент:** `generate_final_checklist`

Этот пример работает по тем же причинам, что и предыдущий, но здесь особенно важны следующие механики:

  1. Управление ограничениями: Бюджет, количество гостей и интересы — это жесткие ограничения. Разбивка на шаги позволяет модели последовательно применять эти ограничения на каждом этапе, а не пытаться удержать их все в "голове" одновременно. Например, бюджет сначала влияет на выбор формата (Шаг 1), затем на выбор локации (Шаг 2) и, наконец, на меню (Шаг 3).
  2. Предотвращение преждевременных выводов: Без структуры "Routine" модель могла бы сразу предложить конкретное кафе, не рассмотрев альтернативы. Пошаговый план заставляет ее сначала провести брейншторм (Шаг 1), а уже потом делать выбор (Шаг 2), что приводит к более продуманному и качественному результату.
  3. Создание артефактов: Каждый шаг производит конкретный "артефакт" (список форматов, список локаций, меню). Финальный шаг (generate_final_checklist) использует все предыдущие артефакты для создания итогового, полезного документа. Это имитирует рабочий процесс, где результаты одного этапа становятся входными данными для другого, обеспечивая высокую согласованность и полноту ответа.
📌

Основные критерии оценки

  • A. Релевантность техникам промтинга: Очень высокая. Исследование предлагает "Routine" — по сути, продвинутый и строго структурированный шаблон промпта для сложных задач.
  • B. Улучшение качества диалоговых ответов: Очень высокое. Демонстрирует колоссальный прирост точности (с 41% до 96% для GPT-4o), что напрямую транслируется в более надежные и корректные ответы в агентных сценариях.
  • C. Прямая практическая применимость: Средне-высокая. Хотя полный фреймворк с раздельными модулями и fine-tuning недоступен обычному пользователю, основной принцип — создание пошагового, структурированного плана ("Routine") внутри промпта — абсолютно применим и чрезвычайно полезен.
  • D. Концептуальная ценность: Очень высокая. Исследование блестяще иллюстрирует "ментальную модель" LLM как исполнителя, а не мыслителя. Оно доказывает, что снижение когнитивной нагрузки на модель через явные, пошаговые инструкции — ключ к надежности. Раскрывает важные ограничения: падение производительности при наличии ветвлений или "шумных" (лишних) инструкций.
  • E. Новая полезная практика (кластеризация): Работа попадает сразу в несколько ключевых кластеров:
    • №1 (Техники формулирования): "Routine" — это продвинутая форма декомпозиции и пошагового мышления.
    • №3 (Оптимизация структуры): Вся суть работы в создании оптимальной структуры промпта для сложных задач.
    • №7 (Надежность и стабильность): Основная цель и результат — резкое повышение надежности и снижение ошибок.
  • Чек-лист практичности (+15 баллов): Да, работа дает готовые конструкции, показывает, как структурировать запросы, и раскрывает неочевидные особенности поведения LLM, что напрямую ведет к повышению точности.
📌

Цифровая оценка полезности

Аргументы за высокую оценку: Исследование предоставляет не просто совет, а целую методологию "Routine", которую можно адаптировать для повседневных задач. Оно дает пользователю мощнейший инструмент для управления LLM в сложных сценариях — превращение одного большого и непонятного запроса в серию маленьких и четких шагов. Результаты (рост точности с 41% до 96%) убедительно доказывают, что этот подход — не теория, а работающая практика. Концептуальная ценность огромна: оно учит пользователя думать как "менеджер" для LLM-"исполнителя".

Контраргументы (почему оценка не 100): 1. Фокус на системах, а не на чате: Значительная часть статьи посвящена архитектуре агентных систем, fine-tuning моделей и data distillation. Эти аспекты не имеют прямой практической пользы для обычного пользователя, работающего в окне чат-бота, и могут его запутать. 2. Требуется адаптация: Пользователю нужно понять, как адаптировать идею "Routine" для одного промпта, отбросив системные детали (MCP-серверы, память и т.д.). Это требует некоторого уровня абстрактного мышления, в отличие от техник вроде "добавь фразу 'думай шаг за шагом'".

Итоговая оценка 90/100 отражает огромную практическую и концептуальную ценность основной идеи для продвинутых пользователей, которые готовы адаптировать системный подход для своих промптов.


📋 Дайджест исследования

Ключевая суть

41% → 96% точности — разница между «угадай сам что делать» и «вот тебе план». Routine позволяет надёжно выполнять сложные многошаговые задачи — без пропусков, самодеятельности и потери контекста на середине. Фишка: ты выносишь планирование наружу — расписываешь задачу по шагам прямо в промпте, для каждого шага указываешь конкретное действие. Модель больше не тратит ресурсы на «что мне делать дальше?» и фокусируется только на исполнении. С 41.1% до 96.3% на GPT-4o — одним структурированным промптом.

Принцип работы

Стандартный промпт ставит модель в позицию «одновременно планируй и делай». Она угадывает последовательность, держит в голове ограничения, следит за форматом — и где-то на этом теряет нить. Routine разделяет роли: ты — планировщик, модель — исполнитель. Каждый шаг получает название, описание и тип действия: «проанализируй», «найди пробелы», «сгенерируй идеи», «оформи таблицей». Результат шага 1 становится входными данными для шага 2. Модель идёт по рельсам — не прокладывает маршрут.

Почему работает

LLM плохо удерживает одновременно «что делать», «в каком порядке» и «какие данные уже есть». Это как попросить повара одновременно придумать рецепт, нарезать овощи и следить за огнём — что-нибудь да сгорит. Routine снимает с модели «планировочную нагрузку»: она получает готовый маршрут и тратит все ресурсы только на движение по нему. Исследование проверяло это на реальных задачах с вызовом функций. Без плана GPT-4o справляется в 41% случаев. С Routine — в 96%. Не потому что модель стала умнее — просто перестала делать две вещи сразу.

Когда применять

Задачи с тремя и более шагами — особенно когда нужно последовательно собрать данные, обработать их и оформить результат. Хорошо работает для: анализа конкурентов, планирования проектов, мультиэтапного исследования, автоматизации повторяющейся рабочей рутины, подготовки докладов и стратегий. НЕ подходит для простых одношаговых запросов — там структура только засоряет промпт и замедляет ответ.

Мини-рецепт

1. Разбей задачу на 3–7 шагов. Каждый шаг — одно конкретное действие. Не «проанализируй и предложи», а сначала «проанализируй», потом «предложи».
2. Оформи как нумерованный план с заголовками — например, ### Шаг 1: Анализ конкурента. Markdown помогает модели воспринимать это как инструкцию, а не просто текст.
3. Для каждого шага укажи три вещи: что именно делать, какое конкретное действие применить («найди пробелы», «сгенерируй 5 идей», «оформи таблицей»), что считать результатом шага.
4. Передавай данные явно: пиши «используя результаты шага 1» — не рассчитывай что модель сама догадается откуда брать информацию.
5. Заверши финальным шагом-итогом: резюме на 2–3 предложения или чек-лист. Это заставляет модель собрать всё воедино, а не обрывать ответ на полуслове.

Примеры

[ПЛОХО] : Проанализируй соцсети конкурента и составь контент-план для моего блога о путешествиях на неделю
[ХОРОШО] : Ты — маркетолог-аналитик. Выполни план шаг за шагом: ### Шаг 1: Анализ конкурента Проанализируй последние 10 постов блога «Мир на ладони». Определи 3–4 основные темы и тон. ### Шаг 2: Поиск пробелов Используя результаты шага 1 — найди темы, которые конкурент игнорирует. Особенно в теме бюджетных поездок. ### Шаг 3: Идеи для контента Из пробелов шага 2 — сгенерируй 5 конкретных идей для блога «Путешествия налегке». ### Шаг 4: Контент-план Лучшие 3 идеи из шага 3 — оформи таблицей на Пн/Ср/Пт: заголовок, описание, формат поста. ### Шаг 5: Итог Напиши 2–3 предложения: в чём ключевое отличие стратегии от конкурента.
Источник: Routine: A Structural Planning Framework for LLM Agent System in Enterprise
ArXiv ID: 2507.14447 | Сгенерировано: 2026-03-02 17:32

Проблемы LLM

ПроблемаСутьКак обойти
Модель планирует и исполняет одновременно — и то, и другое хужеДаёшь сложную задачу одной фразой. Модель сама решает: с чего начать, что важно, в каком порядке. Это дополнительная работа поверх основной. Итог: упущенные шаги, перепутанный порядок, неудобный формат. Особенно заметно когда шагов больше трёхСоставь план сам. Отдай модели только исполнение. Для каждого шага укажи: номер, цель, тип операции (analyze, generate, format). Модель не тратит ресурсы на "что делать" — только на "как делать хорошо"

Методы

МетодСуть
План с типами операций — чёткое исполнение без потерьРазбей задачу на 3–7 шагов. Каждый шаг оформи по схеме: Название Что делать Тип операции (tool: analyze_text, tool: generate_ideas, tool: format_as_table). Явно укажи: результат шага N используется в шаге N+1. Почему работает: Тип операции сужает задачу до одного действия. Модель не гадает "это анализ или генерация?". Она точно знает: сейчас только анализирую. Потом только генерирую. Когда применять: задача из 3+ шагов, нужна конкретная структура результата, важен порядок. Когда не нужно: простой одношаговый запрос
📖 Простыми словами

Routine: Структурная система планирования для LLM-агентов в корпоративной среде

arXiv: 2507.14447

Корпоративные AI-агенты сегодня — это чаще всего хаотичные чат-боты, которые пытаются решить задачу на ходу, полагаясь на чистую логику модели. Проблема в том, что в бизнесе логика «как пойдет» не катит: там нужны жесткие регламенты и предсказуемость. Исследование Routine предлагает перенести структуру из классического софта в мозги нейронок. Вместо того чтобы заставлять LLM каждый раз изобретать велосипед, ей дают структурный каркас, где каждый шаг — это не случайная мысль, а четко прописанный блок бизнес-логики.

Это как разница между стажером-самоучкой и опытным сотрудником с толстой папкой должностных инструкций. Стажер может быть гением, но он обязательно забудет проверить наличие товара на складе или накосячит с оформлением возврата, потому что «просто не подумал». Routine превращает нейронку в того самого системного сотрудника: у нее есть алгоритм действий, от которого нельзя отступать, но внутри каждого шага она сохраняет свою гибкость и сообразительность. Формально это все еще AI, но работает он как швейцарские часы.

В основе метода лежат три кита: декомпозиция задач, управление состоянием и стандартные операционные процедуры. Система не просто выплевывает текст, она разбивает сложный запрос на мелкие подзадачи, проверяет условия на каждом этапе и только потом переходит к следующему. Если на шаге «проверка оплаты» возник затык, агент не пойдет дальше фантазировать о доставке. Это жесткая фильтрация галлюцинаций через структуру — если шаг не предусмотрен схемой, модель в него просто не полезет.

Хотя авторы тестировали это на корпоративных сценариях вроде техподдержки и CRM, принцип универсален. Его можно натянуть на что угодно: от написания кода до планирования сложных путешествий. Везде, где есть повторяющийся процесс и цена ошибки выше нуля, структурное планирование выносит обычный промптинг в одну калитку. Это переход от «поговори со мной» к «выполни процесс», где AI становится не просто собеседником, а полноценным исполнительным механизмом.

Короче: эра «просто напиши хороший промпт» заканчивается, начинается эра архитектуры агентов. Если ты хочешь, чтобы AI реально работал в бизнесе, а не просто развлекал коллег, забудь про свободный полет мысли. Нужно внедрять Routine, прописывать структуру и ограничивать модель рамками процесса. Кто первым упакует хаос нейронок в структурные рельсы, тот и получит работающую автоматизацию, пока остальные будут жаловаться, что AI опять всё перепутал.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с