arXiv:2510.07423 80 8 окт. 2025 г. FREE

ProSEA: итеративное решение задач через богатый feedback и адаптивное переplanирование

КЛЮЧЕВАЯ СУТЬ

LLM-агенты застревают на сложных задачах. Провалился шаг — получаешь «не получилось» и модель либо выдумывает данные, либо долбится в ту же стену. Нет понимания ПОЧЕМУ не работает и КАК адаптироваться. ProSEA позволяет решать сложные multi-step задачи через адаптивное исследование — план меняется на основе реальных открытий и тупиков. После каждого шага модель даёт детальный feedback: не просто «провалилось», а «искал в секции X, нашёл Y (близко но не то), проверил альтернативы Z, обнаружил ограничение C». Manager анализирует и корректирует план на основе этих открытий — провалы превращаются в навигацию по пространству решений.

Адаптировать под запрос

⚡

TL;DR

ProSEA — подход к решению сложных задач, где каждый шаг отчитывается богатым feedback, а не просто "получилось/не получилось". После выполнения шага система объясняет: почему провалился (если провалился), что узнала в процессе, какие constraint обнаружила, какие альтернативные пути попробовала. Этот feedback используется для адаптивного переplanирования — план корректируется на основе реальных открытий, а не следует жёсткой траектории. Работает через иерархическую архитектуру: Manager Agent разбивает задачу на шаги и координирует, Expert Agents выполняют шаги с доступом к инструментам, возвращают детальный feedback, Manager анализирует и корректирует план.

Традиционные агенты следуют статичным планам и дают binary feedback (успех/провал). Встретив тупик, они либо застревают, либо пытаются форсировать решение не понимая почему путь не работает. Нет механизма накопления знаний о структуре проблемы — каждая неудача остаётся "чёрным ящиком". План не адаптируется, агент не учится на провалах. Это как идти по карте не зная что дорога завалена — продолжаешь биться об стену вместо поиска обходного пути.

ProSEA решает это через двухмерное исследование: Manager исследует пространство решений в ширину (декомпозиция + динамическое replanning на основе feedback), Expert Agents исследуют в глубину (итеративное рассуждение внутри каждого шага с чётким goal). Когда Expert обнаруживает тупик, он не просто сообщает "не получилось", а объясняет: "искал данные в секции X, нашёл Y (близко но не то), проверил альтернативные термины Z, обнаружил constraint C". Manager использует это для informed replanning — корректирует план зная что конкретно не работает и почему. Исследование продолжается пока не найдено решение или не исчерпано пространство поиска.

🔬

Схема метода

ФАЗА 1: АНАЛИЗ И ПЛАНИРОВАНИЕ
└─ Manager → Problem Analyzer: анализ constraint, требований, предположений
└─ Problem Analyzer → Planner: структурированное представление проблемы
└─ Planner → Manager: план из N шагов (task + goal + критерий успеха)

ФАЗА 2: ИТЕРАТИВНОЕ ВЫПОЛНЕНИЕ (цикл для каждого шага)
└─ Manager → Expert Agent: шаг i (task, goal, success criteria)
└─ Expert Agent: goal-directed exploration
 ├─ Reasoning + tool usage + (опционально) human collaboration
 ├─ Проверка достижения goal
 └─ Rich feedback → Manager:
 • Результат (success/failure)
 • Почему (constraints, learnings, причины провала)
 • Что обнаружено (новые insights, паттерны)
 • Какие альтернативы попробованы

ФАЗА 3: АДАПТАЦИЯ (после каждого шага)
└─ Manager анализирует feedback:
 • Достигнут goal → следующий шаг
 • Провал + полезный feedback → Planner: replan оставшихся шагов
 • Проблема нерешаема → прекращение с объяснением

ФАЗА 4: СИНТЕЗ
└─ После всех шагов: Manager синтезирует финальный ответ

Важно: Это не one-shot промпт, это multi-turn workflow с циклом feedback-replanning.

🚀

Пример применения

Задача: Готовишь инвест-меморандум по Яндексу для частного инвестора. Нужно проанализировать финансовый отчёт 2023 года, найти ключевые риски и сравнить с Ozon по рентабельности. Отчёт на 200 страниц, данные разбросаны, нужна точность.

Промпт (Шаг 1 - Планирование):

Задача: Анализ финансового отчёта Яндекс 2023 для инвест-меморандума.

Цель: Найти ключевые риски + сравнить с Ozon по рентабельности.

Создай план из 4-6 шагов. Для каждого шага укажи:
- Task: что делаем
- Goal: какой конкретный результат
- Success criteria: как понять что достигли

Промпт (Шаг 2 - Выполнение первого шага):

[План от предыдущего шага]

Выполни Шаг 1: [задача из плана]

После выполнения отчитайся:
1. Результат: что получилось
2. Если не получилось:
 - Где искал?
 - Что нашёл близкое?
 - Какие альтернативные термины проверил?
 - Какие constraint обнаружил?
3. Что узнал о структуре документа?
4. Нужно ли корректировать следующие шаги плана? Почему?

Промпт (Шаг 3 - Адаптация плана):

[Feedback от Шага 1]

Проанализируй feedback. Нужно ли менять план?

Если да:
- Какие шаги корректируем?
- Почему? (на основе чего из feedback)
- Новая версия плана

Если нет:
- Почему текущий план всё ещё валиден?
- Переходим к Шагу 2

Результат:

Модель пройдёт через итеративный цикл: выполнит шаг → даст детальный feedback о том что нашла, где искала, какие препятствия встретила → оценит нужно ли менять план → либо продолжит по плану, либо адаптирует оставшиеся шаги. В финале — синтез всех находок в связный меморандум. В процессе модель не застрянет на "данные не найдены", а объяснит где искала и предложит альтернативный путь (например: "выручка не в Income Statement, но есть в Note 15 про сегменты").

🧠

Почему это работает

LLM плохо работают с неопределённостью. При провале они либо hallucinate (выдумывают данные), либо застревают повторяя тот же approach. Binary feedback ("не получилось") не даёт информации КАК адаптироваться — модель не знает что именно не так и что пробовать дальше.

LLM отлично работают с explicit reasoning. Когда им говоришь "объясни почему не получилось, что пробовал, что узнал" — они структурируют мышление, документируют exploration, обнаруживают паттерны. Это включает metacognition — модель начинает рефлексировать над собственным процессом решения.

ProSEA превращает провалы в навигацию. Rich feedback создаёт карту исследованного пространства: что НЕ работает и почему. Manager использует эту карту для informed decisions: не пытается форсировать тупиковый путь, а ищет обходные маршруты. Goal-directed exploration даёт чёткий критерий когда остановиться и попробовать иначе — не random блуждание, а целенаправленный поиск.

Рычаги управления:

Детальность feedback → увеличь требования к "почему не получилось" для более глубокого analysis тупиков
Частота replanning → после каждого шага vs только при провале — баланс гибкости и стабильности
Success criteria → строгие vs мягкие — влияет когда считать шаг завершённым
Breadth vs depth → Manager может генерировать альтернативные планы параллельно (breadth) или Expert может делать глубже reasoning внутри шага (depth)

📋

Шаблон промпта

Multi-turn workflow для сложных задач:

=== ШАГ 1: АНАЛИЗ И ПЛАНИРОВАНИЕ ===

Задача: {описание_задачи}

Проанализируй и создай plan:
1. Какие constraint и требования?
2. Какие implicit assumptions?
3. План из {N} шагов. Каждый шаг:
 - Task: что делаем
 - Goal: конкретный результат
 - Success criteria: как понять что достигли

=== ШАГ 2: ВЫПОЛНЕНИЕ (повторять для каждого шага) ===

[План из Шага 1]

Выполни Шаг {i}: {task}

Goal: {goal}
Success criteria: {criteria}

После выполнения отчитайся:

РЕЗУЛЬТАТ:
□ Достигнут goal: [описание результата]
□ Не достигнут goal: [почему]

FEEDBACK:
1. Что пробовал:
 - Где искал / какие подходы
 - Что нашёл близкое (если не нашёл точное)
 - Какие альтернативы проверил

2. Что узнал:
 - Какие constraint обнаружил
 - Какие паттерны увидел
 - Что стало понятно о структуре проблемы

3. Insights для плана:
 - Нужно ли корректировать следующие шаги?
 - Что изменилось в понимании задачи?

=== ШАГ 3: АДАПТАЦИЯ ===

[Feedback от Шага 2]

Проанализируй feedback:
- Если goal достигнут → переходим к следующему шагу
- Если провал → нужен replan?
 • Какие шаги корректируем на основе feedback?
 • Новая версия плана
- Если проблема нерешаема → объясни почему на основе accumulated feedback

=== ШАГ 4: СИНТЕЗ (после всех шагов) ===

[Результаты всех шагов]

Синтезируй финальный ответ на основе:
- Успешных шагов
- Learnings из провалов
- Обнаруженных constraints

Что подставлять:

{описание_задачи} — полное описание что нужно сделать
{N} — количество шагов (обычно 3-6 для сложных задач)
{i} — номер текущего шага
{task}, {goal}, {criteria} — из плана Шага 1

Особенность: Это workflow из нескольких запросов к LLM, не one-shot промпт. Человек (или система) выполняет роль Manager, LLM — роль Expert с feedback.

🚀 Быстрый старт — вставь в чат:

Вот workflow для решения сложных задач через iterative exploration с rich feedback.
Адаптируй под мою задачу: [твоя задача]

Сначала задай уточняющие вопросы чтобы понять:
- Constraint и требования
- Доступные ресурсы/данные
- Success criteria

Потом создай план и запусти цикл: выполнение → rich feedback → адаптация.

[вставить шаблон выше]

LLM спросит про задачу, constraint, ресурсы — потому что ей нужна структура для создания плана. Она возьмёт паттерн workflow (analysis → planning → execution with feedback → replanning) и адаптирует под конкретику.

⚠️

Ограничения

⚠️ Overhead для простых задач: Если задача решается в один шаг без exploration — rich feedback и replanning избыточны. Добавляют токены и latency без пользы. ProSEA для сложных multi-step задач где вероятны тупики.

⚠️ Требует multi-turn interaction: Нельзя сделать one-shot. Нужно вести диалог: получить plan → выполнить шаг → проанализировать feedback → replan (если нужно) → следующий шаг. Для автоматизации требуется orchestration layer.

⚠️ Качество feedback зависит от промптинга: LLM не всегда сама даёт богатый feedback. Нужно явно просить: "объясни почему не получилось, что пробовал, что узнал". Без структурированного запроса feedback будет поверхностным.

⚠️ Токены: Детальный feedback + история exploration накапливают токены. Для очень длинных задач может потребоваться summarization промежуточных результатов или selective context retention.

🔍

Как исследовали

Исследователи тестировали ProSEA на FinanceBench — датасете из 150 вопросов требующих анализа реальных финансовых документов (10-K, 10-Q, 8-K отчёты компаний). Задачи разделены по сложности: от простого извлечения информации (0-RETRIEVE) до сложных multi-step расчётов с оценкой (4-CALC-AND-JUDGE) и объяснения факторов (5-EXPLAIN-FACTORS). Это не synthetic бенчмарк — реальные документы на сотни страниц, где данные разбросаны, термины варьируются, нужна точность расчётов.

Сравнивали с state-of-the-art baselines: LlamaIndex RAG agents, LangChain ReAct agents, OpenAI Assistants, и DANA (domain-aware neuro-symbolic agents). Критически важно: ProSEA тестировали в fully autonomous режиме (без human feedback), чтобы fair comparison с автоматическими системами.

Результаты удивили масштабом разрыва. ProSEA показал 93.2% accuracy, превзойдя LlamaIndex (56.7%), LangChain ReAct (81.6%), OpenAI Assistants (42.7%). Особенно сильно ProSEA выступил в категориях требующих iterative refinement: 0-RETRIEVE (98% vs 95% у DANA), 1-COMPARE (100% vs 90%), 2-CALC-CHANGE (100% vs 93%). Это именно те задачи где initial approach часто проваливается (данные в неожиданном месте, термины отличаются) и нужен adaptive replanning.

Сравнение с DANA показало инсайт о trade-off: DANA показал 95.3% (чуть выше), НО требовал domain knowledge engineering и human guidance для создания планов. ProSEA достиг почти того же полностью автономно — доказывая что systematic exploration с rich feedback может заменить manual planning. В задачах 4-CALC-AND-JUDGE (70% vs 94%) и 6-OTHER-ADVANCED (43% vs 89%) DANA выиграл, потому что эти категории требуют domain expertise которого нет в LLM — но это проблема knowledge, не архитектуры ProSEA.

Ключевой вывод: Rich feedback mechanism эффективен именно когда задача требует exploration — static plan не работает, нужна адаптация на ходу. Чем больше uncertainty и тупиковых путей, тем больше преимущество ProSEA.

🔗

Ресурсы

ProSEA: Problem Solving via Exploration Agents (Nguyen et al., 2024) Aitomatic, Inc.

Релевантные работы упомянутые в статье:

MetaGPT (Hong et al., 2023) — manager-agent paradigm для multi-agent coordination
Reflexion (Shinn et al., 2023) — memory-driven self-correction через reflection на провалы
Chain-of-Agents (Zhang et al., 2024) — collaborative LLM agents для long-context задач
DANA (Luong et al., 2024) — domain-aware neuro-symbolic agents с human guidance
Voyager (Wang et al., 2023) — skill libraries + episodic memory для long-term exploration в Minecraft

📋 Дайджест исследования

Ключевая суть

Принцип работы

Не следуй жёсткому плану — адаптируй на основе feedback. Цикл работает так: Manager разбивает задачу на шаги (каждый с чётким goal и success criteria) → Expert выполняет шаг и возвращает детальный отчёт: что пробовал, что нашёл, какие ограничения обнаружил, какие альтернативы проверил → Manager анализирует feedback и решает: продолжить план ИЛИ адаптировать оставшиеся шаги → цикл повторяется до решения или исчерпания пространства поиска. Суть: провал не тупик, а информация для следующего хода. Модель не блуждает — она ведёт карту где была и что не работает.

Почему работает

LLM плохо работают с неопределённостью. Простое «не получилось» не даёт информации КАК адаптироваться — модель не знает что конкретно не так. Но LLM отлично работают с явными рассуждениями. Когда просишь «объясни почему не получилось, что пробовал, что узнал» — они структурируют мышление и документируют exploration. Это включает metacognition — модель рефлексирует над собственным процессом решения. Детальный feedback создаёт карту исследованного пространства: что НЕ работает и почему. Manager использует эту карту для обоснованных решений — не форсирует тупиковый путь, а ищет обходные маршруты. Целенаправленное исследование даёт чёткий критерий когда остановиться и попробовать иначе.

Когда применять

Сложные multi-step задачи → где высока вероятность тупиков и нужна адаптация. Особенно когда задача требует поиска данных в неструктурированных документах, анализа с непредсказуемыми ограничениями, исследования альтернативных подходов. Примеры: анализ 200-страничного финансового отчёта с поиском разбросанных данных, подготовка инвест-меморандума с неочевидными рисками, research где структура проблемы раскрывается в процессе. НЕ подходит для простых одношаговых задач — добавляет overhead (токены и задержки) без пользы.

Мини-рецепт

Это multi-turn workflow, не one-shot промпт. Ведёшь диалог с моделью:

1. Анализ и планирование: Даёшь задачу → модель анализирует ограничения, создаёт план из 3-6 шагов. Каждый шаг: task (что делаем), goal (конкретный результат), success criteria (как понять что достигли)

2. Выполнение шага: Модель выполняет шаг → возвращает детальный feedback: результат (достигнут goal или нет), что пробовала (где искала, какие подходы), что узнала (ограничения, паттерны, insights)

3. Адаптация: Анализируешь feedback → решаешь: goal достигнут (переходим к следующему шагу) ИЛИ провал (нужен replan оставшихся шагов на основе новых insights) ИЛИ задача нерешаема (прекращаем с объяснением)

4. Синтез: После всех шагов — модель синтезирует финальный ответ на основе успешных шагов, learnings из провалов, обнаруженных ограничений

Примеры

[ПЛОХО] :

Проанализируй финансовый отчёт Яндекс 2023, найди ключевые риски и сравни с Ozon по рентабельности

Модель попытается сделать всё за один проход. Застрянет на «данные не найдены» или выдумает цифры. Нет механизма адаптации при тупике.

[ХОРОШО] : Workflow из трёх раундов: Шаг 1 (Планирование):

Задача: анализ отчёта Яндекс 2023 для инвест-меморандума. Цель: риски + сравнение с Ozon по рентабельности. Создай план из 4-6 шагов. Для каждого укажи: task, goal, success criteria

Шаг 2 (Выполнение):

Выполни Шаг 1 из плана. После выполнения отчитайся: результат, если провал — где искал/что нашёл близкое/какие альтернативы проверил/какие ограничения обнаружил, что узнал о структуре документа, нужно ли корректировать план

Шаг 3 (Адаптация):

Проанализируй feedback. Нужен replan? Если да — какие шаги корректируем и почему на основе feedback

Модель пройдёт цикл: выполнит → даст детальный feedback о находках и препятствиях → оценит нужен ли replan → адаптирует план или продолжит. Не застрянет на «данные не найдены», а объяснит где искала и предложит альтернативу (например: «выручка не в Income Statement, но есть в Note 15 про сегменты»).

Источник: ProSEA: Problem Solving via Exploration Agents

ArXiv ID: 2510.07423 | Сгенерировано: 2026-01-11 23:53

Проблемы LLM

Проблема	Суть	Как обойти
Модель застревает на неработающем подходе	Даёшь задачу. Модель пробует способ. Не получается. Она пробует ТОТ ЖЕ способ снова. И снова. Не понимает ПОЧЕМУ не работает. Не ищет альтернативный путь. Либо застревает, либо выдумывает данные. Проблема для всех сложных задач где нужен поиск решения	Попроси отчитаться о провале. Не просто "не получилось", а: "где искал → что нашёл близкое → какие альтернативы проверил → почему не сработало". Используй этот отчёт чтобы дать новое направление. Модель не застрянет если поймёт ЧТО именно не работает

Методы

Метод Суть

Детальная обратная связь + пересмотр плана Разбей задачу на шаги. После каждого шага попроси модель отчитаться: 1) Что получилось 2) Если не получилось: где искал, что нашёл близкое, какие термины проверил 3) Что узнал о структуре проблемы 4) Нужно ли менять план. Используй отчёт чтобы скорректировать следующие шаги. Почему работает: Детальный отчёт превращает провал в карту. Модель документирует что НЕ работает и почему. Ты видишь где тупик и направляешь в обход. План адаптируется к реальным открытиям, не следует слепо начальной траектории. Когда применять: сложные задачи на 3+ шагов, высокая вероятность тупиков, нужен поиск решения. Когда НЕ работает: простые задачи на 1 шаг, чёткий алгоритм без вариантов

Метод	Суть
Детальная обратная связь + пересмотр плана	Разбей задачу на шаги. После каждого шага попроси модель отчитаться: `1) Что получилось 2) Если не получилось: где искал, что нашёл близкое, какие термины проверил 3) Что узнал о структуре проблемы 4) Нужно ли менять план`. Используй отчёт чтобы скорректировать следующие шаги. Почему работает: Детальный отчёт превращает провал в карту. Модель документирует что НЕ работает и почему. Ты видишь где тупик и направляешь в обход. План адаптируется к реальным открытиям, не следует слепо начальной траектории. Когда применять: сложные задачи на 3+ шагов, высокая вероятность тупиков, нужен поиск решения. Когда НЕ работает: простые задачи на 1 шаг, чёткий алгоритм без вариантов

📖 Простыми словами

ProSEA: итеративное решение задач через богатый feedback и адаптивное переplanирование

arXiv: 2510.07423

Большинство AI-агентов сегодня работают как упрямые ослы: им дают задачу, они ломятся напролом, а если упираются в стену, то либо начинают ходить кругами, либо просто врут, что всё сделали. Проблема в том, что обычный AI получает на входе бинарный сигнал — «получилось» или «нет». Метод ProSEA меняет саму механику процесса: теперь нейронка не просто тыкается в закрытую дверь, а работает через богатый фидбек. Она анализирует каждый шаг, объясняет причины провала и фиксирует новые ограничения, которые нашла в процессе, превращая каждую ошибку в полезный опыт для следующей попытки.

Это как нанять на работу не стажёра, который молча косячит, а опытного прораба. Если вы просите его построить стену там, где проложен кабель, он не будет тупо ломать кирпичи. Он вернётся и скажет: «Там проводка, строить нельзя, но я нашёл обходной путь через соседа и заодно узнал, что фундамент там крепче». ProSEA не просто следует инструкции, он постоянно пересобирает свой план на основе реальности, а не своих фантазий.

Внутри этой системы сидит Manager Agent, который рулит процессом, и куча Expert Agents, которые делают грязную работу. Когда эксперт лезет в финансовый отчёт на 200 страниц и не находит там нужную цифру, он не выдаёт ошибку. Он возвращает детальный отчет: что искал, какие разделы проверил, почему данные могут быть в другом месте и что стоит попробовать дальше. Этот адаптивный переплан позволяет модели не застревать в бесконечных циклах, а реально докапываться до сути, даже если задача выглядит как полная неразбериха.

Принцип универсален: будь то написание сложного кода, инвест-аналитика или планирование путешествия с кучей условий. Система тестировалась на задачах, где нужно не просто «нагуглить», а сопоставить факты и сделать выводы. Там, где обычная LLM начинает галлюцинировать от бессилия, ProSEA методично разбирает проблему на части, пока не найдет рабочее решение. Это переход от слепого следования алгоритму к осознанному исследованию территории.

Короче, хватит ждать, что нейронка угадает правильный ответ с первой попытки. Будущее за агентами, которые умеют признавать ошибки и извлекать из них данные. ProSEA доказывает, что детальный разбор провала полезнее, чем случайный успех. Если ваш AI-ассистент не умеет объяснять, почему у него не получилось, — это плохой ассистент, и скоро его заменят те, кто работает по принципу исследовательских агентов.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

Выберите модель ИИ:

Ваш запрос:

0 / 2000

~0.5-2 N-токенов ~10-30с

~0.3-1 N-токенов ~5-15с

Меню

ProSEA: итеративное решение задач через богатый feedback и адаптивное переplanирование

TL;DR

Схема метода

Пример применения

Почему это работает

Шаблон промпта

Ограничения

Как исследовали

Ресурсы

Ключевая суть

Принцип работы

Почему работает

Когда применять

Мини-рецепт

Примеры

Проблемы LLM

Методы

ProSEA: итеративное решение задач через богатый feedback и адаптивное переplanирование

Работа с исследованием

Результат адаптации