TL;DR
EAGLET — метод обучения глобального планировщика для LLM-агентов. Вместо того, чтобы модель одновременно думала и действовала (как в ReAct), метод разделяет процесс: сначала создаётся глобальный план на всю задачу, потом этот план передаётся исполнителю для реализации. Планировщик обучается в два этапа: сначала на синтезированных планах (SFT), потом через reinforcement learning с умной наградой.
Главная находка: LLM страдают от planning hallucinations — генерируют нереалистичные или бессмысленные действия, потому что пытаются планировать "на лету" во время выполнения задачи. Это приводит к бездумным попыткам методом тыка (brainless trial-and-error) — модель просто перебирает варианты без чёткого понимания конечной цели. Причина в том, что LLM — это авторегрессионные модели, обученные предсказывать следующий токен, а не строить долгосрочные планы. Когда задача требует 10-20 шагов, модель теряет фокус и начинает галлюцинировать.
Суть метода: EAGLET обучает отдельную модель-планировщик, которая смотрит на задачу целиком и создаёт пошаговый план до начала выполнения. План проверяется на качество через homologous consensus filtering — два исполнителя разного уровня (новичок и эксперт) пробуют следовать плану, и если план вредит хотя бы одному — его отбрасывают. Затем планировщик дополнительно обучается через RL с наградой executor capability gain — план получает высокую оценку, если помогает обоим исполнителям завершить задачу быстрее.
Схема метода
Применение готового планировщика:
ШАГ 1: Планировщик получает задачу → генерирует глобальный план
ШАГ 2: Исполнитель получает задачу + план → выполняет действия по плану
Обучение планировщика (для понимания принципов):
ЭТАП 1 (SFT):
- Синтезировать планы через продвинутую LLM (GPT-5, DeepSeek-V3.1-Think)
- Отфильтровать через Homologous Consensus Filtering
- Обучить планировщик на качественных планах
ЭТАП 2 (RL):
- Генерировать кандидат-планы
- Оценить через Executor Capability Gain Reward
- Обновить политику планировщика
Пример применения
Задача: Запускаешь digital-продукт (маркетплейс услуг для фрилансеров в регионах РФ). Нужно составить план запуска на 3 месяца: от создания MVP до первых платящих клиентов.
Промпт (Plan-and-Execute):
Я запускаю маркетплейс услуг для фрилансеров в регионах РФ.
ШАГ 1: Составь ГЛОБАЛЬНЫЙ ПЛАН на 3 месяца — от MVP до первых платящих клиентов.
Структура плана:
- Недели 1-4: [что делать]
- Недели 5-8: [что делать]
- Недели 9-12: [что делать]
ШАГ 2: Проверь план через "гомологичный консенсус":
- Оцени план с позиции НОВИЧКА (первый стартап, минимум опыта)
- Оцени план с позиции ЭКСПЕРТА (уже запускал 3+ продукта)
- Если план вредит хотя бы одному — укажи где и почему
ШАГ 3: После проверки — выдай ФИНАЛЬНЫЙ ПЛАН с учётом правок.
Критерий качества плана: план хорош, если помогает запустить продукт БЫСТРЕЕ и с МЕНЬШИМ количеством итераций/ошибок.
Результат: Модель создаст глобальный план на 3 месяца, проверит его с двух точек зрения (новичок vs эксперт), выявит слабые места и выдаст финальную версию. Ты получишь проверенный план, который учитывает риски и разные уровни навыков.
Почему это работает
Слабость LLM: Авторегрессионная природа — модель генерирует токен за токеном, не видя всей картины сразу. При долгосрочных задачах (10+ шагов) модель теряет глобальный фокус и начинает планировать локально — только на следующий шаг, не думая о финале. Это приводит к зацикливанию, бессмысленным действиям, галлюцинациям.
Сильная сторона LLM: Умеет создавать структурированные планы, если явно попросить сначала спланировать, потом выполнять. Модель хороша в декомпозиции задач, когда не отвлекается на немедленное действие.
Как метод использует сильную сторону: EAGLET разделяет планирование и исполнение. Планировщик видит всю задачу целиком и создаёт глобальный маршрут до начала работы. Исполнитель получает готовый план как карту и просто следует ему, не тратя когнитивные ресурсы на придумывание следующего шага. Это устраняет planning hallucinations — модель не может «сойти с пути», потому что путь уже задан.
Рычаги управления:
- Количество проверяющих точек зрения (в оригинале: новичок + эксперт)
- Добавь третью точку зрения: критик, скептик, оптимист
- Эффект: более тщательная проверка плана, но дольше генерация
- Критерии оценки плана (в оригинале: помогает выполнить быстрее)
- Замени на: минимум рисков, максимум обучения, баланс скорости и качества
- Эффект: план оптимизируется под твои приоритеты
- Уровни навыков проверяющих (новичок vs эксперт)
- Замени на конкретные роли: junior разработчик vs tech lead, стартапер vs венчурный инвестор
- Эффект: более целевая проверка под специфику задачи
- Горизонт планирования (в примере: 3 месяца)
- Уменьши до 2 недель для быстрых задач
- Увеличь до года для стратегических проектов
- Эффект: управление детальностью и масштабом
Шаблон промпта
Задача: {описание_задачи}
ШАГ 1 — ГЛОБАЛЬНЫЙ ПЛАН:
Составь пошаговый план на {горизонт_времени}, чтобы {конечная_цель}.
Структура плана:
- Фаза 1 ({временной_период}): [ключевые действия]
- Фаза 2 ({временной_период}): [ключевые действия]
- Фаза 3 ({временной_период}): [ключевые действия]
ШАГ 2 — ПРОВЕРКА ЧЕРЕЗ ГОМОЛОГИЧНЫЙ КОНСЕНСУС:
Оцени план с позиций:
- {роль_1}: [как этот человек видит план? что может пойти не так?]
- {роль_2}: [как этот человек видит план? что может пойти не так?]
Если план создаёт проблемы хотя бы для одной роли — укажи где именно.
ШАГ 3 — ФИНАЛЬНЫЙ ПЛАН:
С учётом проверки выдай ИТОГОВЫЙ ПЛАН.
Критерий качества: план хорош, если {критерий_успеха}.
Что подставлять:
{описание_задачи}— конкретная задача (запуск продукта, изучение навыка, решение бизнес-проблемы){горизонт_времени}— срок (2 недели, 3 месяца, год){конечная_цель}— измеримый результат (100 клиентов, выученный язык, рабочий MVP){роль_1}, {роль_2}— точки зрения для проверки (новичок/эксперт, оптимист/пессимист, исполнитель/инвестор){критерий_успеха}— метрика качества плана (минимум времени, максимум надёжности, баланс скорости и рисков)
🚀 Быстрый старт — вставь в чат:
Вот шаблон Plan-and-Execute с проверкой плана. Адаптируй под мою задачу: [твоя задача].
Задавай вопросы, чтобы заполнить все поля.
[вставить шаблон выше]
LLM спросит про горизонт времени, конечную цель, роли для проверки и критерии успеха — потому что это ключевые параметры, которые определяют качество и релевантность плана. Она возьмёт паттерн из шаблона и адаптирует под твою конкретную задачу.
Ограничения
⚠️ Для простых задач — избыточно: Если задача решается в 2-3 шага, создание глобального плана и его проверка займут больше времени, чем просто выполнение.
⚠️ Качество зависит от описания задачи: Если задача описана расплывчато или неполно, план будет абстрактным. Нужна чёткая формулировка конечной цели и контекста.
⚠️ План может устаревать: В динамичных ситуациях (быстро меняющийся рынок, непредсказуемые внешние факторы) жёсткий глобальный план может стать помехой. Нужна гибкость для адаптации.
Как исследовали
Исследователи взяли три бенчмарка долгосрочных агентских задач: ScienceWorld (научные эксперименты), ALFWorld (бытовые задачи в симуляции дома) и WebShop (покупки в интернет-магазине). Идея была простой: обучить отдельную модель-планировщик и проверить, помогает ли она стандартным исполнителям (Llama-3.1, GPT-4.1, GPT-5) работать лучше.
Сравнивали с тремя типами базовых методов: (1) Implicit planning (AgentTuning, ETO, GiGPO) — где агент учится планировать неявно через SFT или RL на траекториях выполнения; (2) Explicit planning (WKM, KnowAgent) — где агенту дают базу знаний о действиях; (3) MPO — предыдущий метод обучения планировщика, но требующий ручной модификации данных.
Ключевая метрика — average reward (средняя награда за выполнение задач). В ScienceWorld и WebShop это число от 0 до 1, показывающее степень выполнения. В ALFWorld — бинарная награда (сделал/не сделал).
Логика эксперимента: Для каждой задачи планировщик генерирует план один раз в начале. Исполнитель получает задачу + план и пытается выполнить. Результаты показали, что исполнители с планом работают лучше — в среднем +3.6 до +19.9 пунктов награды по сравнению с теми же моделями без плана. Особенно сильный эффект на сложных задачах (ScienceWorld unseen: +31.4 для Llama-3.1).
Что удивило: Даже продвинутые модели типа GPT-5 выиграли от плана (+3.6), хотя казалось бы у них уже сильные внутренние способности к планированию. Это показывает, что явное разделение планирования и исполнения даёт преимущество независимо от уровня модели.
Инсайт для практики: План не просто "подсказка" — он структурирует мышление модели и снижает когнитивную нагрузку на каждом шаге. Даже если модель умная, давая ей готовый план, ты освобождаешь её ресурсы от "думания что делать дальше" и направляешь на качественное выполнение текущего шага.
Эффективность обучения: EAGLET требует ~50 итераций RL для сходимости, в то время как прямое обучение исполнителя через RL (GiGPO) требует ~400 итераций — в 8 раз меньше. Это потому что планировщик решает более простую задачу (создать план), а не полную задачу (планировать + действовать одновременно).
Адаптации и экстраполяции
💡 Адаптация: Progressive Planning для изучения навыка
Вместо одного глобального плана на всю задачу — создавай иерархию планов разного уровня детализации.
Задача: Выучить Python с нуля до уровня junior-разработчика за 6 месяцев.
ШАГ 1 — СТРАТЕГИЧЕСКИЙ ПЛАН (уровень L1):
Создай план на 6 месяцев: 3-4 ключевые фазы обучения.
ШАГ 2 — ТАКТИЧЕСКИЕ ПЛАНЫ (уровень L2):
Для каждой фазы создай детальный план на месяц: недельные спринты.
ШАГ 3 — ПРОВЕРКА ЧЕРЕЗ КОНСЕНСУС:
Оцени ВСЮ ИЕРАРХИЮ планов с позиций:
- Самоучка (учусь сам, нет ментора)
- Опытный разработчик (10+ лет в индустрии)
Укажи где планы противоречат друг другу или создают проблемы.
ШАГ 4 — ФИНАЛЬНАЯ ИЕРАРХИЯ:
Выдай проверенные планы всех уровней.
Эффект: Стратегический план задаёт направление, тактические планы — конкретные шаги. Проверка консенсусом на всех уровнях устраняет разрывы между «что нужно выучить» и «как именно это делать».
🔧 Техника: Динамическая проверка плана через симуляцию провалов
Вместо проверки «новичок vs эксперт» — симулируй конкретные сценарии провала плана.
ШАГ 2 — ПРОВЕРКА ЧЕРЕЗ СИМУЛЯЦИЮ ПРОВАЛОВ:
Для каждой фазы плана симулируй:
1. Сценарий "Не хватило времени": что если на эту фазу уйдёт в 2 раза больше времени?
2. Сценарий "Внешний шок": что если в середине фазы потеряю доступ к ключевому ресурсу?
3. Сценарий "Изменение целей": что если требования к результату изменятся?
Для каждого сценария:
- Укажи где план ломается
- Предложи как сделать план более устойчивым
Эффект: Вместо абстрактной оценки «хорош/плох» получаешь конкретные точки уязвимости и способы их устранения. План становится более робастным к реальным рискам.
💡 Комбинация с Self-Consistency: Multi-Plan Generation
Вместо одного плана — генерируй несколько независимых планов и выбирай лучший через голосование.
ШАГ 1 — ГЕНЕРАЦИЯ ПЛАНОВ:
Создай 3 разных подхода к задаче: {задача}
План A: Консервативный (минимум рисков, максимум надёжности)
План B: Агрессивный (быстрый результат, выше риски)
План C: Сбалансированный (компромисс скорости и рисков)
ШАГ 2 — ПРОВЕРКА КОНСЕНСУСОМ:
Для каждого плана оцени с позиций:
- Исполнитель (кто будет делать)
- Заказчик/Инвестор (кто оплачивает)
ШАГ 3 — ГОЛОСОВАНИЕ:
Какой план получил поддержку обеих сторон? Почему?
ШАГ 4 — ГИБРИДНЫЙ ПЛАН:
Возьми лучшие элементы из каждого подхода и создай финальный план.
Эффект: Получаешь разнообразие стратегий, снижаешь риск зацикливания на одном подходе, создаёшь более креативные и проверенные решения через комбинирование лучших элементов.
Ресурсы
A Goal Without a Plan Is Just a Wish: Efficient and Effective Global Planner Training for Long-Horizon Agent Tasks
Shuzheng Si, Haozhe Zhao, Kangyang Luo, Gang Chen, Fanchao Qi, Minjia Zhang, Baobao Chang, Maosong Sun
Tsinghua University, Peking University, DeepLang AI, University of Illinois Urbana-Champaign
arXiv:2501.XXXXX (2025)
