3,583 papers
arXiv:2510.07423 80 8 окт. 2025 г. FREE

ProSEA: итеративное решение задач через богатый feedback и адаптивное переplanирование

КЛЮЧЕВАЯ СУТЬ
LLM-агенты застревают на сложных задачах. Провалился шаг — получаешь «не получилось» и модель либо выдумывает данные, либо долбится в ту же стену. Нет понимания ПОЧЕМУ не работает и КАК адаптироваться. ProSEA позволяет решать сложные multi-step задачи через адаптивное исследование — план меняется на основе реальных открытий и тупиков. После каждого шага модель даёт детальный feedback: не просто «провалилось», а «искал в секции X, нашёл Y (близко но не то), проверил альтернативы Z, обнаружил ограничение C». Manager анализирует и корректирует план на основе этих открытий — провалы превращаются в навигацию по пространству решений.
Адаптировать под запрос

TL;DR

ProSEA — подход к решению сложных задач, где каждый шаг отчитывается богатым feedback, а не просто "получилось/не получилось". После выполнения шага система объясняет: почему провалился (если провалился), что узнала в процессе, какие constraint обнаружила, какие альтернативные пути попробовала. Этот feedback используется для адаптивного переplanирования — план корректируется на основе реальных открытий, а не следует жёсткой траектории. Работает через иерархическую архитектуру: Manager Agent разбивает задачу на шаги и координирует, Expert Agents выполняют шаги с доступом к инструментам, возвращают детальный feedback, Manager анализирует и корректирует план.

Традиционные агенты следуют статичным планам и дают binary feedback (успех/провал). Встретив тупик, они либо застревают, либо пытаются форсировать решение не понимая почему путь не работает. Нет механизма накопления знаний о структуре проблемы — каждая неудача остаётся "чёрным ящиком". План не адаптируется, агент не учится на провалах. Это как идти по карте не зная что дорога завалена — продолжаешь биться об стену вместо поиска обходного пути.

ProSEA решает это через двухмерное исследование: Manager исследует пространство решений в ширину (декомпозиция + динамическое replanning на основе feedback), Expert Agents исследуют в глубину (итеративное рассуждение внутри каждого шага с чётким goal). Когда Expert обнаруживает тупик, он не просто сообщает "не получилось", а объясняет: "искал данные в секции X, нашёл Y (близко но не то), проверил альтернативные термины Z, обнаружил constraint C". Manager использует это для informed replanning — корректирует план зная что конкретно не работает и почему. Исследование продолжается пока не найдено решение или не исчерпано пространство поиска.

🔬

Схема метода

ФАЗА 1: АНАЛИЗ И ПЛАНИРОВАНИЕ
└─ Manager → Problem Analyzer: анализ constraint, требований, предположений
└─ Problem Analyzer → Planner: структурированное представление проблемы
└─ Planner → Manager: план из N шагов (task + goal + критерий успеха)

ФАЗА 2: ИТЕРАТИВНОЕ ВЫПОЛНЕНИЕ (цикл для каждого шага)
└─ Manager → Expert Agent: шаг i (task, goal, success criteria)
└─ Expert Agent: goal-directed exploration
 ├─ Reasoning + tool usage + (опционально) human collaboration
 ├─ Проверка достижения goal
 └─ Rich feedback → Manager:
 • Результат (success/failure)
 • Почему (constraints, learnings, причины провала)
 • Что обнаружено (новые insights, паттерны)
 • Какие альтернативы попробованы

ФАЗА 3: АДАПТАЦИЯ (после каждого шага)
└─ Manager анализирует feedback:
 • Достигнут goal → следующий шаг
 • Провал + полезный feedback → Planner: replan оставшихся шагов
 • Проблема нерешаема → прекращение с объяснением

ФАЗА 4: СИНТЕЗ
└─ После всех шагов: Manager синтезирует финальный ответ

Важно: Это не one-shot промпт, это multi-turn workflow с циклом feedback-replanning.

🚀

Пример применения

Задача: Готовишь инвест-меморандум по Яндексу для частного инвестора. Нужно проанализировать финансовый отчёт 2023 года, найти ключевые риски и сравнить с Ozon по рентабельности. Отчёт на 200 страниц, данные разбросаны, нужна точность.

Промпт (Шаг 1 - Планирование):

Задача: Анализ финансового отчёта Яндекс 2023 для инвест-меморандума.

Цель: Найти ключевые риски + сравнить с Ozon по рентабельности.

Создай план из 4-6 шагов. Для каждого шага укажи:
- Task: что делаем
- Goal: какой конкретный результат
- Success criteria: как понять что достигли

Промпт (Шаг 2 - Выполнение первого шага):

[План от предыдущего шага]

Выполни Шаг 1: [задача из плана]

После выполнения отчитайся:
1. Результат: что получилось
2. Если не получилось:
 - Где искал?
 - Что нашёл близкое?
 - Какие альтернативные термины проверил?
 - Какие constraint обнаружил?
3. Что узнал о структуре документа?
4. Нужно ли корректировать следующие шаги плана? Почему?

Промпт (Шаг 3 - Адаптация плана):

[Feedback от Шага 1]

Проанализируй feedback. Нужно ли менять план?

Если да:
- Какие шаги корректируем?
- Почему? (на основе чего из feedback)
- Новая версия плана

Если нет:
- Почему текущий план всё ещё валиден?
- Переходим к Шагу 2

Результат:

Модель пройдёт через итеративный цикл: выполнит шаг → даст детальный feedback о том что нашла, где искала, какие препятствия встретила → оценит нужно ли менять план → либо продолжит по плану, либо адаптирует оставшиеся шаги. В финале — синтез всех находок в связный меморандум. В процессе модель не застрянет на "данные не найдены", а объяснит где искала и предложит альтернативный путь (например: "выручка не в Income Statement, но есть в Note 15 про сегменты").

🧠

Почему это работает

LLM плохо работают с неопределённостью. При провале они либо hallucinate (выдумывают данные), либо застревают повторяя тот же approach. Binary feedback ("не получилось") не даёт информации КАК адаптироваться — модель не знает что именно не так и что пробовать дальше.

LLM отлично работают с explicit reasoning. Когда им говоришь "объясни почему не получилось, что пробовал, что узнал" — они структурируют мышление, документируют exploration, обнаруживают паттерны. Это включает metacognition — модель начинает рефлексировать над собственным процессом решения.

ProSEA превращает провалы в навигацию. Rich feedback создаёт карту исследованного пространства: что НЕ работает и почему. Manager использует эту карту для informed decisions: не пытается форсировать тупиковый путь, а ищет обходные маршруты. Goal-directed exploration даёт чёткий критерий когда остановиться и попробовать иначе — не random блуждание, а целенаправленный поиск.

Рычаги управления:

  • Детальность feedback → увеличь требования к "почему не получилось" для более глубокого analysis тупиков
  • Частота replanning → после каждого шага vs только при провале — баланс гибкости и стабильности
  • Success criteria → строгие vs мягкие — влияет когда считать шаг завершённым
  • Breadth vs depth → Manager может генерировать альтернативные планы параллельно (breadth) или Expert может делать глубже reasoning внутри шага (depth)
📋

Шаблон промпта

Multi-turn workflow для сложных задач:

=== ШАГ 1: АНАЛИЗ И ПЛАНИРОВАНИЕ ===

Задача: {описание_задачи}

Проанализируй и создай plan:
1. Какие constraint и требования?
2. Какие implicit assumptions?
3. План из {N} шагов. Каждый шаг:
 - Task: что делаем
 - Goal: конкретный результат
 - Success criteria: как понять что достигли

=== ШАГ 2: ВЫПОЛНЕНИЕ (повторять для каждого шага) ===

[План из Шага 1]

Выполни Шаг {i}: {task}

Goal: {goal}
Success criteria: {criteria}

После выполнения отчитайся:

РЕЗУЛЬТАТ:
□ Достигнут goal: [описание результата]
□ Не достигнут goal: [почему]

FEEDBACK:
1. Что пробовал:
 - Где искал / какие подходы
 - Что нашёл близкое (если не нашёл точное)
 - Какие альтернативы проверил

2. Что узнал:
 - Какие constraint обнаружил
 - Какие паттерны увидел
 - Что стало понятно о структуре проблемы

3. Insights для плана:
 - Нужно ли корректировать следующие шаги?
 - Что изменилось в понимании задачи?

=== ШАГ 3: АДАПТАЦИЯ ===

[Feedback от Шага 2]

Проанализируй feedback:
- Если goal достигнут → переходим к следующему шагу
- Если провал → нужен replan?
 • Какие шаги корректируем на основе feedback?
 • Новая версия плана
- Если проблема нерешаема → объясни почему на основе accumulated feedback

=== ШАГ 4: СИНТЕЗ (после всех шагов) ===

[Результаты всех шагов]

Синтезируй финальный ответ на основе:
- Успешных шагов
- Learnings из провалов
- Обнаруженных constraints

Что подставлять:

  • {описание_задачи} — полное описание что нужно сделать
  • {N} — количество шагов (обычно 3-6 для сложных задач)
  • {i} — номер текущего шага
  • {task}, {goal}, {criteria} — из плана Шага 1

Особенность: Это workflow из нескольких запросов к LLM, не one-shot промпт. Человек (или система) выполняет роль Manager, LLM — роль Expert с feedback.

🚀 Быстрый старт — вставь в чат:

Вот workflow для решения сложных задач через iterative exploration с rich feedback.
Адаптируй под мою задачу: [твоя задача]

Сначала задай уточняющие вопросы чтобы понять:
- Constraint и требования
- Доступные ресурсы/данные
- Success criteria

Потом создай план и запусти цикл: выполнение → rich feedback → адаптация.

[вставить шаблон выше]

LLM спросит про задачу, constraint, ресурсы — потому что ей нужна структура для создания плана. Она возьмёт паттерн workflow (analysis → planning → execution with feedback → replanning) и адаптирует под конкретику.

⚠️

Ограничения

⚠️ Overhead для простых задач: Если задача решается в один шаг без exploration — rich feedback и replanning избыточны. Добавляют токены и latency без пользы. ProSEA для сложных multi-step задач где вероятны тупики.

⚠️ Требует multi-turn interaction: Нельзя сделать one-shot. Нужно вести диалог: получить plan → выполнить шаг → проанализировать feedback → replan (если нужно) → следующий шаг. Для автоматизации требуется orchestration layer.

⚠️ Качество feedback зависит от промптинга: LLM не всегда сама даёт богатый feedback. Нужно явно просить: "объясни почему не получилось, что пробовал, что узнал". Без структурированного запроса feedback будет поверхностным.

⚠️ Токены: Детальный feedback + история exploration накапливают токены. Для очень длинных задач может потребоваться summarization промежуточных результатов или selective context retention.

🔍

Как исследовали

Исследователи тестировали ProSEA на FinanceBench — датасете из 150 вопросов требующих анализа реальных финансовых документов (10-K, 10-Q, 8-K отчёты компаний). Задачи разделены по сложности: от простого извлечения информации (0-RETRIEVE) до сложных multi-step расчётов с оценкой (4-CALC-AND-JUDGE) и объяснения факторов (5-EXPLAIN-FACTORS). Это не synthetic бенчмарк — реальные документы на сотни страниц, где данные разбросаны, термины варьируются, нужна точность расчётов.

Сравнивали с state-of-the-art baselines: LlamaIndex RAG agents, LangChain ReAct agents, OpenAI Assistants, и DANA (domain-aware neuro-symbolic agents). Критически важно: ProSEA тестировали в fully autonomous режиме (без human feedback), чтобы fair comparison с автоматическими системами.

Результаты удивили масштабом разрыва. ProSEA показал 93.2% accuracy, превзойдя LlamaIndex (56.7%), LangChain ReAct (81.6%), OpenAI Assistants (42.7%). Особенно сильно ProSEA выступил в категориях требующих iterative refinement: 0-RETRIEVE (98% vs 95% у DANA), 1-COMPARE (100% vs 90%), 2-CALC-CHANGE (100% vs 93%). Это именно те задачи где initial approach часто проваливается (данные в неожиданном месте, термины отличаются) и нужен adaptive replanning.

Сравнение с DANA показало инсайт о trade-off: DANA показал 95.3% (чуть выше), НО требовал domain knowledge engineering и human guidance для создания планов. ProSEA достиг почти того же полностью автономно — доказывая что systematic exploration с rich feedback может заменить manual planning. В задачах 4-CALC-AND-JUDGE (70% vs 94%) и 6-OTHER-ADVANCED (43% vs 89%) DANA выиграл, потому что эти категории требуют domain expertise которого нет в LLM — но это проблема knowledge, не архитектуры ProSEA.

Ключевой вывод: Rich feedback mechanism эффективен именно когда задача требует exploration — static plan не работает, нужна адаптация на ходу. Чем больше uncertainty и тупиковых путей, тем больше преимущество ProSEA.

🔗

Ресурсы

ProSEA: Problem Solving via Exploration Agents (Nguyen et al., 2024) Aitomatic, Inc.

Релевантные работы упомянутые в статье:

  • MetaGPT (Hong et al., 2023) — manager-agent paradigm для multi-agent coordination
  • Reflexion (Shinn et al., 2023) — memory-driven self-correction через reflection на провалы
  • Chain-of-Agents (Zhang et al., 2024) — collaborative LLM agents для long-context задач
  • DANA (Luong et al., 2024) — domain-aware neuro-symbolic agents с human guidance
  • Voyager (Wang et al., 2023) — skill libraries + episodic memory для long-term exploration в Minecraft

📋 Дайджест исследования

Ключевая суть

LLM-агенты застревают на сложных задачах. Провалился шаг — получаешь «не получилось» и модель либо выдумывает данные, либо долбится в ту же стену. Нет понимания ПОЧЕМУ не работает и КАК адаптироваться. ProSEA позволяет решать сложные multi-step задачи через адаптивное исследование — план меняется на основе реальных открытий и тупиков. После каждого шага модель даёт детальный feedback: не просто «провалилось», а «искал в секции X, нашёл Y (близко но не то), проверил альтернативы Z, обнаружил ограничение C». Manager анализирует и корректирует план на основе этих открытий — провалы превращаются в навигацию по пространству решений.

Принцип работы

Не следуй жёсткому плану — адаптируй на основе feedback. Цикл работает так: Manager разбивает задачу на шаги (каждый с чётким goal и success criteria) → Expert выполняет шаг и возвращает детальный отчёт: что пробовал, что нашёл, какие ограничения обнаружил, какие альтернативы проверил → Manager анализирует feedback и решает: продолжить план ИЛИ адаптировать оставшиеся шаги → цикл повторяется до решения или исчерпания пространства поиска. Суть: провал не тупик, а информация для следующего хода. Модель не блуждает — она ведёт карту где была и что не работает.

Почему работает

LLM плохо работают с неопределённостью. Простое «не получилось» не даёт информации КАК адаптироваться — модель не знает что конкретно не так. Но LLM отлично работают с явными рассуждениями. Когда просишь «объясни почему не получилось, что пробовал, что узнал» — они структурируют мышление и документируют exploration. Это включает metacognition — модель рефлексирует над собственным процессом решения. Детальный feedback создаёт карту исследованного пространства: что НЕ работает и почему. Manager использует эту карту для обоснованных решений — не форсирует тупиковый путь, а ищет обходные маршруты. Целенаправленное исследование даёт чёткий критерий когда остановиться и попробовать иначе.

Когда применять

Сложные multi-step задачи → где высока вероятность тупиков и нужна адаптация. Особенно когда задача требует поиска данных в неструктурированных документах, анализа с непредсказуемыми ограничениями, исследования альтернативных подходов. Примеры: анализ 200-страничного финансового отчёта с поиском разбросанных данных, подготовка инвест-меморандума с неочевидными рисками, research где структура проблемы раскрывается в процессе. НЕ подходит для простых одношаговых задач — добавляет overhead (токены и задержки) без пользы.

Мини-рецепт

Это multi-turn workflow, не one-shot промпт. Ведёшь диалог с моделью:

1. Анализ и планирование: Даёшь задачу → модель анализирует ограничения, создаёт план из 3-6 шагов. Каждый шаг: task (что делаем), goal (конкретный результат), success criteria (как понять что достигли)

2. Выполнение шага: Модель выполняет шаг → возвращает детальный feedback: результат (достигнут goal или нет), что пробовала (где искала, какие подходы), что узнала (ограничения, паттерны, insights)

3. Адаптация: Анализируешь feedback → решаешь: goal достигнут (переходим к следующему шагу) ИЛИ провал (нужен replan оставшихся шагов на основе новых insights) ИЛИ задача нерешаема (прекращаем с объяснением)

4. Синтез: После всех шагов — модель синтезирует финальный ответ на основе успешных шагов, learnings из провалов, обнаруженных ограничений

Примеры

[ПЛОХО] : Проанализируй финансовый отчёт Яндекс 2023, найди ключевые риски и сравни с Ozon по рентабельности Модель попытается сделать всё за один проход. Застрянет на «данные не найдены» или выдумает цифры. Нет механизма адаптации при тупике.
[ХОРОШО] : Workflow из трёх раундов: Шаг 1 (Планирование): Задача: анализ отчёта Яндекс 2023 для инвест-меморандума. Цель: риски + сравнение с Ozon по рентабельности. Создай план из 4-6 шагов. Для каждого укажи: task, goal, success criteria Шаг 2 (Выполнение): Выполни Шаг 1 из плана. После выполнения отчитайся: результат, если провал — где искал/что нашёл близкое/какие альтернативы проверил/какие ограничения обнаружил, что узнал о структуре документа, нужно ли корректировать план Шаг 3 (Адаптация): Проанализируй feedback. Нужен replan? Если да — какие шаги корректируем и почему на основе feedback Модель пройдёт цикл: выполнит → даст детальный feedback о находках и препятствиях → оценит нужен ли replan → адаптирует план или продолжит. Не застрянет на «данные не найдены», а объяснит где искала и предложит альтернативу (например: «выручка не в Income Statement, но есть в Note 15 про сегменты»).
Источник: ProSEA: Problem Solving via Exploration Agents
ArXiv ID: 2510.07423 | Сгенерировано: 2026-01-11 23:53

Проблемы LLM

ПроблемаСутьКак обойти
Модель застревает на неработающем подходеДаёшь задачу. Модель пробует способ. Не получается. Она пробует ТОТ ЖЕ способ снова. И снова. Не понимает ПОЧЕМУ не работает. Не ищет альтернативный путь. Либо застревает, либо выдумывает данные. Проблема для всех сложных задач где нужен поиск решенияПопроси отчитаться о провале. Не просто "не получилось", а: "где искал что нашёл близкое какие альтернативы проверил почему не сработало". Используй этот отчёт чтобы дать новое направление. Модель не застрянет если поймёт ЧТО именно не работает

Методы

МетодСуть
Детальная обратная связь + пересмотр планаРазбей задачу на шаги. После каждого шага попроси модель отчитаться: 1) Что получилось 2) Если не получилось: где искал, что нашёл близкое, какие термины проверил 3) Что узнал о структуре проблемы 4) Нужно ли менять план. Используй отчёт чтобы скорректировать следующие шаги. Почему работает: Детальный отчёт превращает провал в карту. Модель документирует что НЕ работает и почему. Ты видишь где тупик и направляешь в обход. План адаптируется к реальным открытиям, не следует слепо начальной траектории. Когда применять: сложные задачи на 3+ шагов, высокая вероятность тупиков, нужен поиск решения. Когда НЕ работает: простые задачи на 1 шаг, чёткий алгоритм без вариантов
📖 Простыми словами

ProSEA: итеративное решение задач через богатый feedback и адаптивное переplanирование

arXiv: 2510.07423

Большинство AI-агентов сегодня работают как упрямые ослы: им дают задачу, они ломятся напролом, а если упираются в стену, то либо начинают ходить кругами, либо просто врут, что всё сделали. Проблема в том, что обычный AI получает на входе бинарный сигнал — «получилось» или «нет». Метод ProSEA меняет саму механику процесса: теперь нейронка не просто тыкается в закрытую дверь, а работает через богатый фидбек. Она анализирует каждый шаг, объясняет причины провала и фиксирует новые ограничения, которые нашла в процессе, превращая каждую ошибку в полезный опыт для следующей попытки.

Это как нанять на работу не стажёра, который молча косячит, а опытного прораба. Если вы просите его построить стену там, где проложен кабель, он не будет тупо ломать кирпичи. Он вернётся и скажет: «Там проводка, строить нельзя, но я нашёл обходной путь через соседа и заодно узнал, что фундамент там крепче». ProSEA не просто следует инструкции, он постоянно пересобирает свой план на основе реальности, а не своих фантазий.

Внутри этой системы сидит Manager Agent, который рулит процессом, и куча Expert Agents, которые делают грязную работу. Когда эксперт лезет в финансовый отчёт на 200 страниц и не находит там нужную цифру, он не выдаёт ошибку. Он возвращает детальный отчет: что искал, какие разделы проверил, почему данные могут быть в другом месте и что стоит попробовать дальше. Этот адаптивный переплан позволяет модели не застревать в бесконечных циклах, а реально докапываться до сути, даже если задача выглядит как полная неразбериха.

Принцип универсален: будь то написание сложного кода, инвест-аналитика или планирование путешествия с кучей условий. Система тестировалась на задачах, где нужно не просто «нагуглить», а сопоставить факты и сделать выводы. Там, где обычная LLM начинает галлюцинировать от бессилия, ProSEA методично разбирает проблему на части, пока не найдет рабочее решение. Это переход от слепого следования алгоритму к осознанному исследованию территории.

Короче, хватит ждать, что нейронка угадает правильный ответ с первой попытки. Будущее за агентами, которые умеют признавать ошибки и извлекать из них данные. ProSEA доказывает, что детальный разбор провала полезнее, чем случайный успех. Если ваш AI-ассистент не умеет объяснять, почему у него не получилось, — это плохой ассистент, и скоро его заменят те, кто работает по принципу исследовательских агентов.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с