3,583 papers
arXiv:2510.05608 82 7 окт. 2025 г. FREE

EAGLET: Разделяй планирование и исполнение для долгосрочных задач в LLM

КЛЮЧЕВАЯ СУТЬ
Обнаружено: LLM катастрофически плывут на задачах с 10+ шагами — начинают тыкать методом проб и ошибок вместо следования плану. Причина: авторегрессионная природа — модель видит только следующий токен, а не всю картину. EAGLET позволяет создавать глобальные планы которые не разваливаются на середине пути — для запуска продукта, изучения навыка, решения бизнес-задачи. Метод разделяет планирование и исполнение: сначала отдельный планировщик создаёт пошаговый маршрут на всю задачу, потом исполнитель просто следует ему. План проверяется через homologous consensus filtering — две роли разного уровня (новичок + эксперт) оценивают где план может сломаться.
Адаптировать под запрос

TL;DR

EAGLET — метод обучения глобального планировщика для LLM-агентов. Вместо того, чтобы модель одновременно думала и действовала (как в ReAct), метод разделяет процесс: сначала создаётся глобальный план на всю задачу, потом этот план передаётся исполнителю для реализации. Планировщик обучается в два этапа: сначала на синтезированных планах (SFT), потом через reinforcement learning с умной наградой.

Главная находка: LLM страдают от planning hallucinations — генерируют нереалистичные или бессмысленные действия, потому что пытаются планировать "на лету" во время выполнения задачи. Это приводит к бездумным попыткам методом тыка (brainless trial-and-error) — модель просто перебирает варианты без чёткого понимания конечной цели. Причина в том, что LLM — это авторегрессионные модели, обученные предсказывать следующий токен, а не строить долгосрочные планы. Когда задача требует 10-20 шагов, модель теряет фокус и начинает галлюцинировать.

Суть метода: EAGLET обучает отдельную модель-планировщик, которая смотрит на задачу целиком и создаёт пошаговый план до начала выполнения. План проверяется на качество через homologous consensus filtering — два исполнителя разного уровня (новичок и эксперт) пробуют следовать плану, и если план вредит хотя бы одному — его отбрасывают. Затем планировщик дополнительно обучается через RL с наградой executor capability gain — план получает высокую оценку, если помогает обоим исполнителям завершить задачу быстрее.


🔬

Схема метода

Применение готового планировщика:

ШАГ 1: Планировщик получает задачу → генерирует глобальный план
ШАГ 2: Исполнитель получает задачу + план → выполняет действия по плану

Обучение планировщика (для понимания принципов):

ЭТАП 1 (SFT):
 - Синтезировать планы через продвинутую LLM (GPT-5, DeepSeek-V3.1-Think)
 - Отфильтровать через Homologous Consensus Filtering
 - Обучить планировщик на качественных планах

ЭТАП 2 (RL):
 - Генерировать кандидат-планы
 - Оценить через Executor Capability Gain Reward
 - Обновить политику планировщика

🚀

Пример применения

Задача: Запускаешь digital-продукт (маркетплейс услуг для фрилансеров в регионах РФ). Нужно составить план запуска на 3 месяца: от создания MVP до первых платящих клиентов.

Промпт (Plan-and-Execute):

Я запускаю маркетплейс услуг для фрилансеров в регионах РФ.

ШАГ 1: Составь ГЛОБАЛЬНЫЙ ПЛАН на 3 месяца — от MVP до первых платящих клиентов.

Структура плана:
- Недели 1-4: [что делать]
- Недели 5-8: [что делать] 
- Недели 9-12: [что делать]

ШАГ 2: Проверь план через "гомологичный консенсус":
- Оцени план с позиции НОВИЧКА (первый стартап, минимум опыта)
- Оцени план с позиции ЭКСПЕРТА (уже запускал 3+ продукта)
- Если план вредит хотя бы одному — укажи где и почему

ШАГ 3: После проверки — выдай ФИНАЛЬНЫЙ ПЛАН с учётом правок.

Критерий качества плана: план хорош, если помогает запустить продукт БЫСТРЕЕ и с МЕНЬШИМ количеством итераций/ошибок.

Результат: Модель создаст глобальный план на 3 месяца, проверит его с двух точек зрения (новичок vs эксперт), выявит слабые места и выдаст финальную версию. Ты получишь проверенный план, который учитывает риски и разные уровни навыков.


🧠

Почему это работает

Слабость LLM: Авторегрессионная природа — модель генерирует токен за токеном, не видя всей картины сразу. При долгосрочных задачах (10+ шагов) модель теряет глобальный фокус и начинает планировать локально — только на следующий шаг, не думая о финале. Это приводит к зацикливанию, бессмысленным действиям, галлюцинациям.

Сильная сторона LLM: Умеет создавать структурированные планы, если явно попросить сначала спланировать, потом выполнять. Модель хороша в декомпозиции задач, когда не отвлекается на немедленное действие.

Как метод использует сильную сторону: EAGLET разделяет планирование и исполнение. Планировщик видит всю задачу целиком и создаёт глобальный маршрут до начала работы. Исполнитель получает готовый план как карту и просто следует ему, не тратя когнитивные ресурсы на придумывание следующего шага. Это устраняет planning hallucinations — модель не может «сойти с пути», потому что путь уже задан.

Рычаги управления:

  1. Количество проверяющих точек зрения (в оригинале: новичок + эксперт)
    • Добавь третью точку зрения: критик, скептик, оптимист
    • Эффект: более тщательная проверка плана, но дольше генерация
  2. Критерии оценки плана (в оригинале: помогает выполнить быстрее)
    • Замени на: минимум рисков, максимум обучения, баланс скорости и качества
    • Эффект: план оптимизируется под твои приоритеты
  3. Уровни навыков проверяющих (новичок vs эксперт)
    • Замени на конкретные роли: junior разработчик vs tech lead, стартапер vs венчурный инвестор
    • Эффект: более целевая проверка под специфику задачи
  4. Горизонт планирования (в примере: 3 месяца)
    • Уменьши до 2 недель для быстрых задач
    • Увеличь до года для стратегических проектов
    • Эффект: управление детальностью и масштабом

📋

Шаблон промпта

Задача: {описание_задачи}

ШАГ 1 — ГЛОБАЛЬНЫЙ ПЛАН:
Составь пошаговый план на {горизонт_времени}, чтобы {конечная_цель}.

Структура плана:
- Фаза 1 ({временной_период}): [ключевые действия]
- Фаза 2 ({временной_период}): [ключевые действия]
- Фаза 3 ({временной_период}): [ключевые действия]

ШАГ 2 — ПРОВЕРКА ЧЕРЕЗ ГОМОЛОГИЧНЫЙ КОНСЕНСУС:
Оцени план с позиций:
- {роль_1}: [как этот человек видит план? что может пойти не так?]
- {роль_2}: [как этот человек видит план? что может пойти не так?]

Если план создаёт проблемы хотя бы для одной роли — укажи где именно.

ШАГ 3 — ФИНАЛЬНЫЙ ПЛАН:
С учётом проверки выдай ИТОГОВЫЙ ПЛАН.

Критерий качества: план хорош, если {критерий_успеха}.

Что подставлять:

  • {описание_задачи} — конкретная задача (запуск продукта, изучение навыка, решение бизнес-проблемы)
  • {горизонт_времени} — срок (2 недели, 3 месяца, год)
  • {конечная_цель} — измеримый результат (100 клиентов, выученный язык, рабочий MVP)
  • {роль_1}, {роль_2} — точки зрения для проверки (новичок/эксперт, оптимист/пессимист, исполнитель/инвестор)
  • {критерий_успеха} — метрика качества плана (минимум времени, максимум надёжности, баланс скорости и рисков)

🚀 Быстрый старт — вставь в чат:

Вот шаблон Plan-and-Execute с проверкой плана. Адаптируй под мою задачу: [твоя задача].
Задавай вопросы, чтобы заполнить все поля.

[вставить шаблон выше]

LLM спросит про горизонт времени, конечную цель, роли для проверки и критерии успеха — потому что это ключевые параметры, которые определяют качество и релевантность плана. Она возьмёт паттерн из шаблона и адаптирует под твою конкретную задачу.


⚠️

Ограничения

⚠️ Для простых задач — избыточно: Если задача решается в 2-3 шага, создание глобального плана и его проверка займут больше времени, чем просто выполнение.

⚠️ Качество зависит от описания задачи: Если задача описана расплывчато или неполно, план будет абстрактным. Нужна чёткая формулировка конечной цели и контекста.

⚠️ План может устаревать: В динамичных ситуациях (быстро меняющийся рынок, непредсказуемые внешние факторы) жёсткий глобальный план может стать помехой. Нужна гибкость для адаптации.


🔍

Как исследовали

Исследователи взяли три бенчмарка долгосрочных агентских задач: ScienceWorld (научные эксперименты), ALFWorld (бытовые задачи в симуляции дома) и WebShop (покупки в интернет-магазине). Идея была простой: обучить отдельную модель-планировщик и проверить, помогает ли она стандартным исполнителям (Llama-3.1, GPT-4.1, GPT-5) работать лучше.

Сравнивали с тремя типами базовых методов: (1) Implicit planning (AgentTuning, ETO, GiGPO) — где агент учится планировать неявно через SFT или RL на траекториях выполнения; (2) Explicit planning (WKM, KnowAgent) — где агенту дают базу знаний о действиях; (3) MPO — предыдущий метод обучения планировщика, но требующий ручной модификации данных.

Ключевая метрика — average reward (средняя награда за выполнение задач). В ScienceWorld и WebShop это число от 0 до 1, показывающее степень выполнения. В ALFWorld — бинарная награда (сделал/не сделал).

Логика эксперимента: Для каждой задачи планировщик генерирует план один раз в начале. Исполнитель получает задачу + план и пытается выполнить. Результаты показали, что исполнители с планом работают лучше — в среднем +3.6 до +19.9 пунктов награды по сравнению с теми же моделями без плана. Особенно сильный эффект на сложных задачах (ScienceWorld unseen: +31.4 для Llama-3.1).

Что удивило: Даже продвинутые модели типа GPT-5 выиграли от плана (+3.6), хотя казалось бы у них уже сильные внутренние способности к планированию. Это показывает, что явное разделение планирования и исполнения даёт преимущество независимо от уровня модели.

Инсайт для практики: План не просто "подсказка" — он структурирует мышление модели и снижает когнитивную нагрузку на каждом шаге. Даже если модель умная, давая ей готовый план, ты освобождаешь её ресурсы от "думания что делать дальше" и направляешь на качественное выполнение текущего шага.

Эффективность обучения: EAGLET требует ~50 итераций RL для сходимости, в то время как прямое обучение исполнителя через RL (GiGPO) требует ~400 итераций — в 8 раз меньше. Это потому что планировщик решает более простую задачу (создать план), а не полную задачу (планировать + действовать одновременно).


💡

Адаптации и экстраполяции

📌

💡 Адаптация: Progressive Planning для изучения навыка

Вместо одного глобального плана на всю задачу — создавай иерархию планов разного уровня детализации.

Задача: Выучить Python с нуля до уровня junior-разработчика за 6 месяцев.

ШАГ 1 — СТРАТЕГИЧЕСКИЙ ПЛАН (уровень L1):
Создай план на 6 месяцев: 3-4 ключевые фазы обучения.

ШАГ 2 — ТАКТИЧЕСКИЕ ПЛАНЫ (уровень L2):
Для каждой фазы создай детальный план на месяц: недельные спринты.

ШАГ 3 — ПРОВЕРКА ЧЕРЕЗ КОНСЕНСУС:
Оцени ВСЮ ИЕРАРХИЮ планов с позиций:
- Самоучка (учусь сам, нет ментора)
- Опытный разработчик (10+ лет в индустрии)

Укажи где планы противоречат друг другу или создают проблемы.

ШАГ 4 — ФИНАЛЬНАЯ ИЕРАРХИЯ:
Выдай проверенные планы всех уровней.

Эффект: Стратегический план задаёт направление, тактические планы — конкретные шаги. Проверка консенсусом на всех уровнях устраняет разрывы между «что нужно выучить» и «как именно это делать».


📌

🔧 Техника: Динамическая проверка плана через симуляцию провалов

Вместо проверки «новичок vs эксперт» — симулируй конкретные сценарии провала плана.

ШАГ 2 — ПРОВЕРКА ЧЕРЕЗ СИМУЛЯЦИЮ ПРОВАЛОВ:

Для каждой фазы плана симулируй:
1. Сценарий "Не хватило времени": что если на эту фазу уйдёт в 2 раза больше времени?
2. Сценарий "Внешний шок": что если в середине фазы потеряю доступ к ключевому ресурсу?
3. Сценарий "Изменение целей": что если требования к результату изменятся?

Для каждого сценария:
- Укажи где план ломается
- Предложи как сделать план более устойчивым

Эффект: Вместо абстрактной оценки «хорош/плох» получаешь конкретные точки уязвимости и способы их устранения. План становится более робастным к реальным рискам.


📌

💡 Комбинация с Self-Consistency: Multi-Plan Generation

Вместо одного плана — генерируй несколько независимых планов и выбирай лучший через голосование.

ШАГ 1 — ГЕНЕРАЦИЯ ПЛАНОВ:
Создай 3 разных подхода к задаче: {задача}

План A: Консервативный (минимум рисков, максимум надёжности)
План B: Агрессивный (быстрый результат, выше риски)
План C: Сбалансированный (компромисс скорости и рисков)

ШАГ 2 — ПРОВЕРКА КОНСЕНСУСОМ:
Для каждого плана оцени с позиций:
- Исполнитель (кто будет делать)
- Заказчик/Инвестор (кто оплачивает)

ШАГ 3 — ГОЛОСОВАНИЕ:
Какой план получил поддержку обеих сторон? Почему?

ШАГ 4 — ГИБРИДНЫЙ ПЛАН:
Возьми лучшие элементы из каждого подхода и создай финальный план.

Эффект: Получаешь разнообразие стратегий, снижаешь риск зацикливания на одном подходе, создаёшь более креативные и проверенные решения через комбинирование лучших элементов.


🔗

Ресурсы

A Goal Without a Plan Is Just a Wish: Efficient and Effective Global Planner Training for Long-Horizon Agent Tasks

Shuzheng Si, Haozhe Zhao, Kangyang Luo, Gang Chen, Fanchao Qi, Minjia Zhang, Baobao Chang, Maosong Sun

Tsinghua University, Peking University, DeepLang AI, University of Illinois Urbana-Champaign

arXiv:2501.XXXXX (2025)


📋 Дайджест исследования

Ключевая суть

Обнаружено: LLM катастрофически плывут на задачах с 10+ шагами — начинают тыкать методом проб и ошибок вместо следования плану. Причина: авторегрессионная природа — модель видит только следующий токен, а не всю картину. EAGLET позволяет создавать глобальные планы которые не разваливаются на середине пути — для запуска продукта, изучения навыка, решения бизнес-задачи. Метод разделяет планирование и исполнение: сначала отдельный планировщик создаёт пошаговый маршрут на всю задачу, потом исполнитель просто следует ему. План проверяется через homologous consensus filtering — две роли разного уровня (новичок + эксперт) оценивают где план может сломаться.

Принцип работы

Не делай: модель одновременно думает и действует (ReAct-подход) — теряет глобальный фокус, галлюцинирует нереальные действия. Делай: разделяй на два этапа. Этап 1 — Планировщик смотрит на задачу целиком, создаёт глобальный план ДО начала работы. Этап 2 — Исполнитель получает готовый план как карту и следует ему, не тратя когнитивные ресурсы на придумывание следующего шага. План проверяется двумя ролями: если создаёт проблемы хотя бы одному — отбрасывается. Это как GPS-навигатор — сначала строишь маршрут целиком, потом едешь по нему, а не решаешь на каждом перекрёстке "куда теперь".

Почему работает

Авторегрессионная природа LLM — проклятие для долгосрочного планирования. Модель генерирует токен за токеном, не видя финала. При задачах на 15-20 шагов начинает планировать локально — только на следующий шаг, забывая про конечную цель. Отсюда зацикливания и бессмысленные действия. Разделение планирования и исполнения снимает когнитивную нагрузку — планировщик видит всю задачу сразу и создаёт маршрут, исполнитель не может "сойти с пути" потому что путь уже задан. Проверка через две роли (новичок vs эксперт) отсекает планы которые работают в теории но ломаются в реальности — если план вредит хотя бы одной роли, он не пройдёт фильтр.

Когда применять

Долгосрочные задачи с горизонтом 10+ шагов → конкретно для запуска продукта (от MVP до первых клиентов), изучения сложного навыка (язык, инструмент), решения многоэтапной бизнес-проблемы, особенно когда нужен план который не развалится на середине. НЕ подходит для простых задач в 2-3 шага — создание и проверка плана займёт больше времени чем само выполнение.

Мини-рецепт

1. Создай глобальный план: Опиши задачу и конечную цель. Попроси модель составить пошаговый план на весь горизонт (пример: Составь план на 3 месяца: от MVP маркетплейса до первых 100 платящих клиентов. Структура: Недели 1-4, 5-8, 9-12 — что делать на каждом этапе).

2. Проверь через две роли: Попроси оценить план с двух точек зрения — новичок (минимум опыта) и эксперт (уже делал это 3+ раза). Критерий: Если план создаёт проблемы хотя бы для одной роли — укажи где именно.

3. Получи финальный план: После проверки модель выдаёт итоговую версию с учётом выявленных рисков. Используй этот план как карту для исполнения — не отклоняйся без веской причины.

Примеры

ПЛОХО: `Составь план запуска маркетплейса услуг для фрилансеров на 3 месяца` (Модель выдаст абстрактный план без проверки реалистичности — на середине пути обнаружишь что шаги не работают) ХОРОШО: `Задача: запуск маркетплейса услуг для фрилансеров в регионах РФ. ШАГ 1: Составь глобальный план на 3 месяца — от MVP до первых платящих клиентов. Структура: Недели 1-4 / 5-8 / 9-12 — что делать. ШАГ 2: Проверь план через "гомологичный консенсус" — оцени с позиции НОВИЧКА (первый стартап) и ЭКСПЕРТА (запускал 3+ продукта). Если план вредит хотя бы одному — укажи где. ШАГ 3: Выдай финальный план с учётом правок. Критерий качества: план помогает запустить быстрее и с меньшим количеством итераций` (Получишь проверенный план который учитывает риски и разные уровни навыков)
Источник: A Goal Without a Plan Is Just a Wish: Efficient and Effective Global Planner Training for Long-Horizon Agent Tasks
ArXiv ID: 2510.05608 | Сгенерировано: 2026-01-11 23:49

Концепты не выделены.

📖 Простыми словами

EAGLET: Разделяй планирование и исполнение для долгосрочных задач в LLM

arXiv: 2510.05608

Проблема всех современных нейронок в том, что они живут моментом. Когда ты просишь LLM-агента сделать что-то сложное, он ведет себя как золотая рыбка: генерирует следующее слово или действие, вообще не отдупляя, к чему это приведет через десять шагов. Это авторегрессионная ловушка — модель фокусируется на ближайшем пикселе, пока весь проект летит в трубу. В итоге агент начинает топтаться на месте, галлюцинировать или просто забывает, зачем он вообще открыл браузер.

Это как пытаться построить дом, нанимая рабочих, которые умеют только класть кирпич, но в глаза не видели чертежей. Каждый кирпич лежит ровно, но в итоге получается не коттедж, а какая-то нелепая башня из говна и палок. Ты надеешься, что они сами сообразят, где будет кухня, а они просто лепят стены, пока не кончится цемент. Метод EAGLET меняет правила игры: он вводит в систему «архитектора», который сначала рисует подробную карту объекта, и только потом отдает ее работягам на исполнение.

Суть метода в жестком разделении ролей через глобальное планирование. Сначала планировщик проходит через SFT (обучение на готовых примерах), а потом его дошлифовывают с помощью RL (обучения с подкреплением), где модель бьют по рукам за абстрактную чушь и хвалят за конкретные, достижимые этапы. Вместо того чтобы гадать на кофейной гуще, агент получает четкий маршрут, где каждый шаг логически вытекает из предыдущего и ведет к финалу. Это превращает хаотичные метания в структурированный процесс, где исполнитель просто чекает пункты списка.

Представь, что ты запускаешь маркетплейс для фрилансеров. Обычный агент застрянет на этапе выбора цвета кнопок или начнет бесконечно гуглить конкурентов, забыв про продажи. EAGLET заставит систему сначала выдать базу: MVP, юридическая обвязка, поиск исполнителей, прогрев клиентов. Принцип универсален — будь то кодинг огромного приложения, научное исследование или сложный маркетинг. Глобальный фокус позволяет не терять нить повествования там, где обычные модели просто «выгорают» и начинают нести ахинею.

Короче, хватит ждать от нейронок чудес самоорганизации — они по природе своей тактики, а не стратеги. Чтобы агент не превратился в бесполезного идиота на длинных дистанциях, ему нужен внешний план, вбитый в голову на этапе обучения. EAGLET доказывает, что разделение «мозга» на стратега и исполнителя — это единственный способ заставить AI решать реальные задачи, а не просто красиво имитировать бурную деятельность. Кто не внедрит планировщики сейчас, тот так и будет чинить бесконечные галлюцинации своих ботов.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с