3,583 papers
arXiv:2510.12218 65 14 окт. 2025 г. FREE

GOAT Framework – обучение LLM планировать многошаговые задачи через автоматическую генерацию примеров

КЛЮЧЕВАЯ СУТЬ
LLM катастрофически плохи в многошаговом планировании: они не понимают, что результат шага А нужен для выполнения шага Б. Метод GOAT позволяет научить модель разбивать сложную цель на последовательность взаимосвязанных действий (как цепочку API-вызовов), где каждый шаг зависит от предыдущего. Фреймворк автоматически генерирует обучающие примеры, анализируя документацию инструментов и создавая рабочие процессы (workflows)модели после обучения превосходят более крупные аналоги в задачах, требующих 3+ последовательных шагов.
Адаптировать под запрос
📌

Ключевые аспекты исследования:

Исследование предлагает фреймворк GOAT для обучения языковых моделей (особенно open-source) эффективно использовать внешние инструменты (API) для решения сложных, многошаговых задач. Вместо того чтобы ждать от модели догадок, GOAT автоматически генерирует обучающие примеры, анализируя документацию к инструментам и создавая логические цепочки действий. Это позволяет научить модель разбивать одну большую цель на последовательность взаимосвязанных шагов и выполнять их.

Ключевой результат: Модели, дообученные с помощью GOAT, показывают колоссальный прирост в способности планировать и выполнять сложные задачи, требующие нескольких последовательных вызовов инструментов, часто превосходя даже более крупные модели без такой подготовки.


🔬

Объяснение всей сути метода:

Суть метода GOAT для обычного пользователя заключается в концепции "обратного проектирования" сложного запроса. Вместо того чтобы давать модели одну общую цель и надеяться на лучшее, нужно мысленно "сыграть" за модель и продумать, какие конкретные шаги и в каком порядке ей нужно выполнить для достижения цели.

Представьте, что у модели есть набор инструментов (поиск в интернете, калькулятор, переводчик). Ваша задача — не просто сказать "спланируй поездку", а дать ей четкий рабочий процесс (workflow):

  1. Декомпозиция: Разбейте вашу большую цель на маленькие, атомарные подзадачи. Например, "спланируй поездку" распадается на: "найди авиабилеты", "подбери отель рядом с аэропортом", "составь список достопримечательностей".

  2. Определение зависимостей: Поймите, как результат одного шага влияет на другой. Вы не можете искать отель, не зная даты и аэропорт прибытия. Вы не можете планировать маршрут по достопримечательностям, не зная адреса отеля.

  3. Формулирование промпта-инструкции: Изложите этот пошаговый план в промпте. Прямо скажите модели: "Сначала сделай А. Затем, используя результат А, сделай Б. После этого, на основе результата Б, сделай В".

Этот подход превращает пользователя из простого "заказчика" в "менеджера проекта" для LLM. Вы не ждете чуда, а выстраиваете для модели четкий и выполнимый план, что резко снижает вероятность ошибок, галлюцинаций и повышает качество итогового результата.


📌

Анализ практической применимости:

  • Прямая применимость: Низкая. Пользователь не может использовать фреймворк GOAT, так как он предназначен для обучения моделей.

  • Концептуальная ценность: Очень высокая. Исследование дает пользователю фундаментальное понимание "агентского" подхода. Ключевая концепция: LLM — это не всезнающий оракул, а исполнитель, которому нужен четкий план для сложных задач. Пользователь учится видеть разницу между "целью" (что я хочу) и "планом" (как это получить) и понимает, что предоставление плана в промпте — ключ к успеху.

  • Потенциал для адаптации: Огромный. Пользователь может легко адаптировать логику GOAT, вручную прописывая в промпте пошаговый план действий. Механизм адаптации прост:

    1. Определите конечную цель.
    2. Разбейте ее на 2-5 последовательных шагов.
    3. Для каждого шага укажите, какие данные из предыдущего шага нужно использовать.
    4. Сформулируйте это в виде нумерованного или маркированного списка инструкций в промпте.

🚀

Практически пример применения:

Ты — опытный маркетолог-аналитик. Твоя задача — провести экспресс-анализ рынка для нового продукта: "веганские протеиновые батончики с грибами ноотропами".

Действуй строго по следующему плану, шаг за шагом:

**[ШАГ 1: Анализ целевой аудитории]**
Определи и опиши 3-4 ключевых сегмента целевой аудитории для этого продукта. Для каждого сегмента укажи их основные ценности, потребности и возможные барьеры к покупке.

**[ШАГ 2: Анализ конкурентов]**
На основе определенной на ШАГЕ 1 аудитории, найди 3-х непрямых конкурентов (например, обычные протеиновые батончики, ноотропные добавки, здоровые снеки). Кратко опиши их сильные и слабые стороны в контексте борьбы за нашу ЦА.

**[ШАГ 3: Формулирование УТП]**
Используя информацию о ЦА из ШАГА 1 и слабости конкурентов из ШАГА 2, сформулируй 3 варианта Уникального Торгового Предложения (УТП) для нашего продукта. Каждое УТП должно быть нацелено на один из сегментов аудитории.

**[ШАГ 4: Генерация идей для контента]**
Для самого перспективного УТП из ШАГА 3, предложи 5 тем для постов в блог или социальных сетей, которые бы раскрывали ценность продукта для целевой аудитории.

Предоставь результат в виде структурированного отчета, следуя заголовкам каждого шага.
🧠

Почему это работает:

Этот промпт работает, потому что он вручную воспроизводит логику фреймворка GOAT, превращая сложную творческую задачу в последовательность логических операций:

  1. Четкая декомпозиция: Вместо абстрактного "проанализируй рынок", задача разбита на четыре конкретных, измеримых шага (Анализ ЦА → Анализ конкурентов → УТП → Идеи для контента).
  2. Явные зависимости: Промпт прямо указывает на зависимость шагов друг от друга. "...на основе определенной на ШАГЕ 1 аудитории...", "...Используя информацию... из ШАГА 1 и ШАГА 2...". Это заставляет модель сохранять контекст и использовать свои же предыдущие выводы в качестве входных данных для следующих этапов, что полностью имитирует передачу вывода одного API на вход другому в исследовании.
  3. Структурирование вывода: Требование предоставить ответ в виде отчета с заголовками помогает модели лучше организовать свои "мысли" и не терять детали по ходу выполнения.

📌

Другой пример практического применения

Ты — персональный ассистент по саморазвитию. Мне нужно составить персонализированный план чтения для освоения новой для меня темы: "Основы поведенческой экономики".

Выполни задачу по следующему алгоритму:

**ЭТАП 1: Определение уровня и целей**
Задай мне 3-4 уточняющих вопроса, чтобы понять мой текущий уровень знаний (полный новичок, что-то слышал, читал пару статей) и мои цели (для общего развития, для применения в работе, для написания статьи). Дождись моего ответа.

**(После моего ответа, продолжи выполнение следующих этапов)**

**ЭТАП 2: Подбор фундаментальной литературы**
На основе моих ответов, подбери 1-2 основополагающие книги по поведенческой экономике, которые подходят для моего уровня. Для каждой книги напиши краткое резюме (2-3 предложения) и объясни, почему она подходит именно мне.

**ЭТАП 3: Подбор дополнительной литературы**
Исходя из моих целей, порекомендуй 2-3 дополнительные книги или статьи, которые углубляют знания в нужной мне области (например, применение в маркетинге или личных финансах).

**ЭТАП 4: Составление плана чтения**
Объедини все рекомендации из ЭТАПОВ 2 и 3 в единый нумерованный список. Расположи материалы в рекомендуемом порядке для изучения, от простого к сложному. Укажи примерное время на освоение каждого материала (например, "2 недели").
🧠

Объяснение механизма почему этот пример работает.

Этот промпт эффективен, так как он переносит концепцию взаимозависимых вызовов API из исследования в диалоговый формат взаимодействия с пользователем.

  1. Интерактивная декомпозиция: Первый этап (ЭТАП 1) — это аналог первого "API-вызова", где "API" — это сам пользователь. Модель должна сначала "получить данные" от пользователя, прежде чем продолжить. Это создает явную зависимость, как в исследовании GOAT.
  2. Контекстуальное выполнение: Последующие этапы (ЭТАП 2, ЭТАП 3) напрямую зависят от информации, полученной на первом этапе ("На основе моих ответов..."). Это заставляет модель не просто генерировать стандартный список книг, а адаптировать его под конкретного пользователя, что повышает релевантность ответа.
  3. Синтез и планирование: Последний этап (ЭТАП 4) — это аналог финального шага в GOAT, где результаты предыдущих операций (списки книг) объединяются и структурируются в конечный продукт (план чтения). Модель не просто выдает разрозненные факты, а синтезирует из них готовое решение.
📌

Оценка полезности: 65

📌

Основные критерии оценки

  • A. Релевантность техникам промтинга: Низкая. Исследование не предлагает конкретных фраз или паттернов для промптов. Оно описывает фреймворк для обучения моделей.
  • B. Улучшение качества диалоговых ответов: Косвенное. Пользователь получит лучшие ответы от агента, обученного по методу GOAT, но исследование не учит пользователя, как самому добиваться таких ответов.
  • C. Прямая практическая применимость: Очень низкая. Метод требует дообучения (fine-tuning) модели, создания синтетических датасетов и работы с API, что недоступно обычному пользователю.
  • D. Концептуальная ценность: Высокая. Исследование блестяще иллюстрирует "агентское мышление" — как большая цель разбивается на последовательность взаимозависимых шагов (вызовов инструментов/API). Это дает пользователю мощную ментальную модель для составления сложных запросов.
  • E. Новая полезная практика (кластер): Работа попадает в кластер №1 (Техники формулирования промптов) и №7 (Надежность и стабильность), но не напрямую, а концептуально. Она объясняет логику, лежащую в основе техник декомпозиции задач (как Chain-of-Thought), и показывает, как это повышает надежность выполнения сложных инструкций.
  • Чек-лист практичности (+15 баллов): Да, работа показывает, как структурировать сложные запросы и раскрывает неочевидные особенности поведения LLM (неспособность без спец. обучения решать задачи с взаимозависимыми шагами). Это дает +15 баллов к базовой оценке.
📌

Цифровая оценка полезности

Исследование получает 65 баллов, так как оно не дает прямых, готовых к использованию техник промптинга, но обладает высокой концептуальной ценностью. Оно учит пользователя мыслить как разработчик LLM-агентов, что позволяет на порядок улучшить качество сложных промптов.

Аргументы за оценку: * Высокая концептуальная польза: Ключевая идея — декомпозиция сложной цели на последовательность простых, взаимосвязанных шагов — является одним из столпов продвинутого промпт-инжиниринга. Статья формализует и доказывает эффективность этого подхода. * Объясняет "почему": Исследование наглядно демонстрирует, почему LLM часто "проваливают" сложные запросы — им не хватает способности к планированию и пониманию зависимостей между шагами. Это знание помогает пользователю формулировать промпты так, чтобы "помочь" модели спланировать свои действия. * Адаптируемость: Хотя сам фреймворк GOAT неприменим для пользователя, его логику можно полностью воспроизвести вручную при написании промпта, превратив модель в "агента на лету".

Контраргументы (почему оценка могла быть ниже): * Нулевая прямая применимость: Статья на 100% ориентирована на ML-инженеров. В ней нет ни одного примера промпта для конечного пользователя. Все выводы касаются процесса обучения и создания моделей, а не их использования. * Высокий порог входа: Чтобы извлечь пользу, пользователь должен понять концепцию API, зависимостей и планирования, а затем самостоятельно "перевести" эти идеи на язык промптов. Это требует значительных когнитивных усилий.


Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с