TL;DR
ProSEA — подход к решению сложных задач, где каждый шаг отчитывается богатым feedback, а не просто "получилось/не получилось". После выполнения шага система объясняет: почему провалился (если провалился), что узнала в процессе, какие constraint обнаружила, какие альтернативные пути попробовала. Этот feedback используется для адаптивного переplanирования — план корректируется на основе реальных открытий, а не следует жёсткой траектории. Работает через иерархическую архитектуру: Manager Agent разбивает задачу на шаги и координирует, Expert Agents выполняют шаги с доступом к инструментам, возвращают детальный feedback, Manager анализирует и корректирует план.
Традиционные агенты следуют статичным планам и дают binary feedback (успех/провал). Встретив тупик, они либо застревают, либо пытаются форсировать решение не понимая почему путь не работает. Нет механизма накопления знаний о структуре проблемы — каждая неудача остаётся "чёрным ящиком". План не адаптируется, агент не учится на провалах. Это как идти по карте не зная что дорога завалена — продолжаешь биться об стену вместо поиска обходного пути.
ProSEA решает это через двухмерное исследование: Manager исследует пространство решений в ширину (декомпозиция + динамическое replanning на основе feedback), Expert Agents исследуют в глубину (итеративное рассуждение внутри каждого шага с чётким goal). Когда Expert обнаруживает тупик, он не просто сообщает "не получилось", а объясняет: "искал данные в секции X, нашёл Y (близко но не то), проверил альтернативные термины Z, обнаружил constraint C". Manager использует это для informed replanning — корректирует план зная что конкретно не работает и почему. Исследование продолжается пока не найдено решение или не исчерпано пространство поиска.
Схема метода
ФАЗА 1: АНАЛИЗ И ПЛАНИРОВАНИЕ
└─ Manager → Problem Analyzer: анализ constraint, требований, предположений
└─ Problem Analyzer → Planner: структурированное представление проблемы
└─ Planner → Manager: план из N шагов (task + goal + критерий успеха)
ФАЗА 2: ИТЕРАТИВНОЕ ВЫПОЛНЕНИЕ (цикл для каждого шага)
└─ Manager → Expert Agent: шаг i (task, goal, success criteria)
└─ Expert Agent: goal-directed exploration
├─ Reasoning + tool usage + (опционально) human collaboration
├─ Проверка достижения goal
└─ Rich feedback → Manager:
• Результат (success/failure)
• Почему (constraints, learnings, причины провала)
• Что обнаружено (новые insights, паттерны)
• Какие альтернативы попробованы
ФАЗА 3: АДАПТАЦИЯ (после каждого шага)
└─ Manager анализирует feedback:
• Достигнут goal → следующий шаг
• Провал + полезный feedback → Planner: replan оставшихся шагов
• Проблема нерешаема → прекращение с объяснением
ФАЗА 4: СИНТЕЗ
└─ После всех шагов: Manager синтезирует финальный ответ
Важно: Это не one-shot промпт, это multi-turn workflow с циклом feedback-replanning.
Пример применения
Задача: Готовишь инвест-меморандум по Яндексу для частного инвестора. Нужно проанализировать финансовый отчёт 2023 года, найти ключевые риски и сравнить с Ozon по рентабельности. Отчёт на 200 страниц, данные разбросаны, нужна точность.
Промпт (Шаг 1 - Планирование):
Задача: Анализ финансового отчёта Яндекс 2023 для инвест-меморандума.
Цель: Найти ключевые риски + сравнить с Ozon по рентабельности.
Создай план из 4-6 шагов. Для каждого шага укажи:
- Task: что делаем
- Goal: какой конкретный результат
- Success criteria: как понять что достигли
Промпт (Шаг 2 - Выполнение первого шага):
[План от предыдущего шага]
Выполни Шаг 1: [задача из плана]
После выполнения отчитайся:
1. Результат: что получилось
2. Если не получилось:
- Где искал?
- Что нашёл близкое?
- Какие альтернативные термины проверил?
- Какие constraint обнаружил?
3. Что узнал о структуре документа?
4. Нужно ли корректировать следующие шаги плана? Почему?
Промпт (Шаг 3 - Адаптация плана):
[Feedback от Шага 1]
Проанализируй feedback. Нужно ли менять план?
Если да:
- Какие шаги корректируем?
- Почему? (на основе чего из feedback)
- Новая версия плана
Если нет:
- Почему текущий план всё ещё валиден?
- Переходим к Шагу 2
Результат:
Модель пройдёт через итеративный цикл: выполнит шаг → даст детальный feedback о том что нашла, где искала, какие препятствия встретила → оценит нужно ли менять план → либо продолжит по плану, либо адаптирует оставшиеся шаги. В финале — синтез всех находок в связный меморандум. В процессе модель не застрянет на "данные не найдены", а объяснит где искала и предложит альтернативный путь (например: "выручка не в Income Statement, но есть в Note 15 про сегменты").
Почему это работает
LLM плохо работают с неопределённостью. При провале они либо hallucinate (выдумывают данные), либо застревают повторяя тот же approach. Binary feedback ("не получилось") не даёт информации КАК адаптироваться — модель не знает что именно не так и что пробовать дальше.
LLM отлично работают с explicit reasoning. Когда им говоришь "объясни почему не получилось, что пробовал, что узнал" — они структурируют мышление, документируют exploration, обнаруживают паттерны. Это включает metacognition — модель начинает рефлексировать над собственным процессом решения.
ProSEA превращает провалы в навигацию. Rich feedback создаёт карту исследованного пространства: что НЕ работает и почему. Manager использует эту карту для informed decisions: не пытается форсировать тупиковый путь, а ищет обходные маршруты. Goal-directed exploration даёт чёткий критерий когда остановиться и попробовать иначе — не random блуждание, а целенаправленный поиск.
Рычаги управления:
- Детальность feedback → увеличь требования к "почему не получилось" для более глубокого analysis тупиков
- Частота replanning → после каждого шага vs только при провале — баланс гибкости и стабильности
- Success criteria → строгие vs мягкие — влияет когда считать шаг завершённым
- Breadth vs depth → Manager может генерировать альтернативные планы параллельно (breadth) или Expert может делать глубже reasoning внутри шага (depth)
Шаблон промпта
Multi-turn workflow для сложных задач:
=== ШАГ 1: АНАЛИЗ И ПЛАНИРОВАНИЕ ===
Задача: {описание_задачи}
Проанализируй и создай plan:
1. Какие constraint и требования?
2. Какие implicit assumptions?
3. План из {N} шагов. Каждый шаг:
- Task: что делаем
- Goal: конкретный результат
- Success criteria: как понять что достигли
=== ШАГ 2: ВЫПОЛНЕНИЕ (повторять для каждого шага) ===
[План из Шага 1]
Выполни Шаг {i}: {task}
Goal: {goal}
Success criteria: {criteria}
После выполнения отчитайся:
РЕЗУЛЬТАТ:
□ Достигнут goal: [описание результата]
□ Не достигнут goal: [почему]
FEEDBACK:
1. Что пробовал:
- Где искал / какие подходы
- Что нашёл близкое (если не нашёл точное)
- Какие альтернативы проверил
2. Что узнал:
- Какие constraint обнаружил
- Какие паттерны увидел
- Что стало понятно о структуре проблемы
3. Insights для плана:
- Нужно ли корректировать следующие шаги?
- Что изменилось в понимании задачи?
=== ШАГ 3: АДАПТАЦИЯ ===
[Feedback от Шага 2]
Проанализируй feedback:
- Если goal достигнут → переходим к следующему шагу
- Если провал → нужен replan?
• Какие шаги корректируем на основе feedback?
• Новая версия плана
- Если проблема нерешаема → объясни почему на основе accumulated feedback
=== ШАГ 4: СИНТЕЗ (после всех шагов) ===
[Результаты всех шагов]
Синтезируй финальный ответ на основе:
- Успешных шагов
- Learnings из провалов
- Обнаруженных constraints
Что подставлять:
{описание_задачи}— полное описание что нужно сделать{N}— количество шагов (обычно 3-6 для сложных задач){i}— номер текущего шага{task},{goal},{criteria}— из плана Шага 1
Особенность: Это workflow из нескольких запросов к LLM, не one-shot промпт. Человек (или система) выполняет роль Manager, LLM — роль Expert с feedback.
🚀 Быстрый старт — вставь в чат:
Вот workflow для решения сложных задач через iterative exploration с rich feedback.
Адаптируй под мою задачу: [твоя задача]
Сначала задай уточняющие вопросы чтобы понять:
- Constraint и требования
- Доступные ресурсы/данные
- Success criteria
Потом создай план и запусти цикл: выполнение → rich feedback → адаптация.
[вставить шаблон выше]
LLM спросит про задачу, constraint, ресурсы — потому что ей нужна структура для создания плана. Она возьмёт паттерн workflow (analysis → planning → execution with feedback → replanning) и адаптирует под конкретику.
Ограничения
⚠️ Overhead для простых задач: Если задача решается в один шаг без exploration — rich feedback и replanning избыточны. Добавляют токены и latency без пользы. ProSEA для сложных multi-step задач где вероятны тупики.
⚠️ Требует multi-turn interaction: Нельзя сделать one-shot. Нужно вести диалог: получить plan → выполнить шаг → проанализировать feedback → replan (если нужно) → следующий шаг. Для автоматизации требуется orchestration layer.
⚠️ Качество feedback зависит от промптинга: LLM не всегда сама даёт богатый feedback. Нужно явно просить: "объясни почему не получилось, что пробовал, что узнал". Без структурированного запроса feedback будет поверхностным.
⚠️ Токены: Детальный feedback + история exploration накапливают токены. Для очень длинных задач может потребоваться summarization промежуточных результатов или selective context retention.
Как исследовали
Исследователи тестировали ProSEA на FinanceBench — датасете из 150 вопросов требующих анализа реальных финансовых документов (10-K, 10-Q, 8-K отчёты компаний). Задачи разделены по сложности: от простого извлечения информации (0-RETRIEVE) до сложных multi-step расчётов с оценкой (4-CALC-AND-JUDGE) и объяснения факторов (5-EXPLAIN-FACTORS). Это не synthetic бенчмарк — реальные документы на сотни страниц, где данные разбросаны, термины варьируются, нужна точность расчётов.
Сравнивали с state-of-the-art baselines: LlamaIndex RAG agents, LangChain ReAct agents, OpenAI Assistants, и DANA (domain-aware neuro-symbolic agents). Критически важно: ProSEA тестировали в fully autonomous режиме (без human feedback), чтобы fair comparison с автоматическими системами.
Результаты удивили масштабом разрыва. ProSEA показал 93.2% accuracy, превзойдя LlamaIndex (56.7%), LangChain ReAct (81.6%), OpenAI Assistants (42.7%). Особенно сильно ProSEA выступил в категориях требующих iterative refinement: 0-RETRIEVE (98% vs 95% у DANA), 1-COMPARE (100% vs 90%), 2-CALC-CHANGE (100% vs 93%). Это именно те задачи где initial approach часто проваливается (данные в неожиданном месте, термины отличаются) и нужен adaptive replanning.
Сравнение с DANA показало инсайт о trade-off: DANA показал 95.3% (чуть выше), НО требовал domain knowledge engineering и human guidance для создания планов. ProSEA достиг почти того же полностью автономно — доказывая что systematic exploration с rich feedback может заменить manual planning. В задачах 4-CALC-AND-JUDGE (70% vs 94%) и 6-OTHER-ADVANCED (43% vs 89%) DANA выиграл, потому что эти категории требуют domain expertise которого нет в LLM — но это проблема knowledge, не архитектуры ProSEA.
Ключевой вывод: Rich feedback mechanism эффективен именно когда задача требует exploration — static plan не работает, нужна адаптация на ходу. Чем больше uncertainty и тупиковых путей, тем больше преимущество ProSEA.
Ресурсы
ProSEA: Problem Solving via Exploration Agents (Nguyen et al., 2024) Aitomatic, Inc.
Релевантные работы упомянутые в статье:
- MetaGPT (Hong et al., 2023) — manager-agent paradigm для multi-agent coordination
- Reflexion (Shinn et al., 2023) — memory-driven self-correction через reflection на провалы
- Chain-of-Agents (Zhang et al., 2024) — collaborative LLM agents для long-context задач
- DANA (Luong et al., 2024) — domain-aware neuro-symbolic agents с human guidance
- Voyager (Wang et al., 2023) — skill libraries + episodic memory для long-term exploration в Minecraft
