3,583 papers
arXiv:2512.02038 63 24 нояб. 2025 г. FREE

Глубокие исследования: систематический обзор

КЛЮЧЕВАЯ СУТЬ
Одиночный запрос к LLM даёт поверхностный ответ, потому что модель пытается ответить «в один шаг», не имея времени на анализ. Фреймворк Deep Research позволяет получать глубокие, проверенные отчёты на сложные вопросы — как если бы вы наняли аналитика-стажёра. Вместо вопроса «Что лучше: диета X или Y?» вы даёте LLM четырёхшаговый план: разбить вопрос на под-вопросы → найти информацию по каждому → синтезировать находки → выдать структурированный отчёт. Точность и глубина ответов вырастают на порядок, потому что модель перестаёт угадывать и начинает следовать исследовательскому процессу.
Адаптировать под запрос

0. TL;DR

📌

Что это и зачем

Deep Research (DR) — это эволюция LLM от генераторов текста к автономным исследовательским агентам. Система итеративно декомпозирует сложные вопросы, собирает доказательства через внешние инструменты (поиск, API, код), управляет контекстом через память и синтезирует проверяемые отчёты с цитатами. Результат: вместо одноразового промпта — полноценный исследовательский цикл с планированием, проверкой фактов и структурированным выводом.

📌

Какую проблему решает

DR решает задачи, которые не под силу обычному RAG или масштабированию параметров: динамическое взаимодействие с цифровым миром (поиск в реальном времени, API, выполнение кода), долгосрочное планирование с автономными воркфлоу (многошаговые задачи, управление контекстом, итеративная доработка) и проверяемые выводы для открытых задач (цитаты, верификация источников, борьба с галлюцинациями).

📌

Барьер входа

Средний до высокого. Готовых промптов для копипасты нет — это архитектурный паттерн. Для применения нужно: (1) доступ к API поисковиков или инструментов, (2) код для оркестрации компонентов (планирование → поиск → фильтрация → память → генерация), (3) понимание, как адаптировать под свою задачу. Для продвинутых методов (RL-оптимизация) — GPU и обучение моделей.

📌

Ключевой концепт

LLM как исследовательский агент, а не поисковик. Обычный RAG: запрос → поиск → генерация (статичный пайплайн). DR: запрос → декомпозиция → итеративный поиск → фильтрация шума → накопление в памяти → синтез с цитатами (гибкий цикл). Ключевое отличие: автономность (агент сам решает, когда искать, что фильтровать, как обновлять память) и проверяемость (каждое утверждение привязано к источнику).

Почему это работает: LLM обучены на экспертных текстах, где рассуждения опираются на факты. DR имитирует этот процесс через явный цикл: планирование (как эксперт разбивает задачу), поиск (как эксперт ищет доказательства), память (как эксперт накапливает контекст), синтез (как эксперт пишет отчёт с цитатами).

🔬

Рамочная структура метода

text
[ЗАПРОС] → Сложный вопрос, требующий исследования

[ПЛАНИРОВАНИЕ] → Декомпозиция на подзадачи
   ├─ Параллельное: независимые подзапросы
   ├─ Последовательное: каждый шаг зависит от предыдущего
   └─ Древовидное: ветвление + поиск по дереву решений

[ПОИСК ИНФОРМАЦИИ] → Когда и как искать
   ├─ Timing: адаптивный поиск (только когда не хватает знаний)
   ├─ Инструменты: лексический/семантический поиск, веб-API, мультимодальный поиск
   └─ Фильтрация: отбор документов, сжатие контекста, очистка шума

[УПРАВЛЕНИЕ ПАМЯТЬЮ] → Что хранить и как обновлять
   ├─ Консолидация: сырые данные → структурированные записи
   ├─ Индексация: метаданные, графы, временные метки
   ├─ Обновление: интеграция новых фактов, разрешение конфликтов
   └─ Забывание: удаление устаревшего/нерелевантного

[ГЕНЕРАЦИЯ ОТВЕТА] → Синтез проверяемого отчёта
   ├─ Интеграция upstream-информации
   ├─ Синтез доказательств + связность
   ├─ Структурирование рассуждений
   └─ Кросс-модальная генерация (текст, таблицы, графики)

[РЕЗУЛЬТАТ] → Отчёт с цитатами, проверяемыми фактами
📋

Готовый промпт для старта

Готового промпта нет — DR это не промпт, а система из 4 компонентов (планирование, поиск, память, генерация). Для применения нужно:

  1. Выбрать стратегию планирования (параллельная/последовательная/древовидная) под задачу
  2. Настроить адаптивный поиск (когда триггерить: по уверенности модели, консистентности ответов или внутренним состояниям)
  3. Реализовать фильтрацию (отбор документов: pointwise/pairwise/listwise; сжатие контекста: лексическое/эмбеддинговое)
  4. Управлять памятью (консолидация → индексация → обновление → забывание)

Минимальный старт (без кода не обойтись):

  • Используйте коммерческие системы: Anthropic Deep Research, OpenAI Deep Research, Perplexity Deep Research — они реализуют DR “из коробки”
  • Или соберите простой пайплайн: LangChain/LlamaIndex + поисковый API + векторная БД для памяти

📌

1. Суть исследования

Это первый систематический обзор Deep Research (DR) — парадигмы, которая превращает LLM из генераторов текста в автономных исследовательских агентов. Авторы формализуют трёхэтапную эволюцию DR: от агентного поиска (Phase I: точный поиск фактов с цитатами) через интегрированное исследование (Phase II: синтез связных отчётов из разнородных источников) к полноценному AI-учёному (Phase III: генерация гипотез, эксперименты, рецензирование).

Исследование охватывает 4 ключевых компонента DR-систем: (1) Query Planning — декомпозиция сложных вопросов на подзадачи (параллельная, последовательная, древовидная стратегии); (2) Information Acquisition — адаптивный поиск (когда триггерить, какие инструменты использовать, как фильтровать шум); (3) Memory Management — управление контекстом (консолидация, индексация, обновление, забывание); (4) Answer Generation — синтез проверяемых отчётов с цитатами.

Авторы также систематизируют методы оптимизации DR-систем: workflow prompting (инженерия промптов для оркестрации компонентов), supervised fine-tuning (дистилляция от сильных моделей, итеративная самоэволюция) и end-to-end RL (обучение с подкреплением для всего пайплайна). Обзор включает бенчмарки для оценки (от QA до генерации научных статей) и открытые вызовы (нестабильность RL, оценка новизны vs галлюцинаций, эволюция памяти).

Почему это важно: DR — это не просто улучшенный RAG. Это архитектурный сдвиг к автономным агентам, которые сами планируют, ищут, проверяют и синтезируют знания. Для практиков это означает: (1) понимание, как строить системы для сложных задач (аналитика, отчёты, исследования); (2) знание компонентов, которые можно комбинировать; (3) осознание барьеров (нужен код, инфраструктура, иногда обучение моделей).


📌

2. Что работает

📌

Три фазы эволюции Deep Research

Phase I: Агентный поиск — системы специализируются на точном поиске фактов с минимальным синтезом. Переформулируют запрос (rewriting/decomposition), извлекают и ранжируют документы, применяют лёгкую фильтрацию, выдают краткие ответы с цитатами. Фокус: точность и скорость.

  • Применение: Open-domain QA (NQ, TriviaQA), multi-hop QA (HotpotQA, MuSiQue), информационный поиск
  • Оценка: Recall@k, exact match, корректность цитат, латентность
  • Пример: WebGPT, SearchGPT — используют коммерческие поисковики для доступа к актуальной информации

Phase II: Интегрированное исследование — системы производят связные структурированные отчёты, интегрируя разнородные источники (текст, HTML, таблицы, графики). Исследовательский цикл становится итеративным: планирование подвопросов → поиск → извлечение → синтез отчёта. Управление конфликтами и неопределённостью.

  • Применение: Рыночная аналитика, конкурентный анализ, policy briefs, планирование маршрутов, long-form QA
  • Оценка: Фактуальность (fine-grained), проверенные цитаты, структурная связность, покрытие ключевых точек
  • Пример: Anthropic Deep Research, Perplexity Deep Research — генерируют отчёты на 10+ страниц с цитатами

Phase III: Полноценный AI-учёный — системы не просто агрегируют информацию, но генерируют гипотезы, проводят эксперименты, критикуют утверждения, предлагают новые перспективы.

  • Применение: Peer review, научное открытие, автоматизация экспериментов
  • Оценка: Новизна, аргументативная связность, воспроизводимость, калиброванная неопределённость
  • Пример: The AI Scientist, DeepScientist — генерируют идеи, пишут код экспериментов, пишут статьи

Главный вывод: DR — это траектория возможностей, а не иерархия ценности. Phase I → II → III = расширение того, что системы могут надёжно делать: от поиска фактов к синтезу анализа и формированию защищаемых инсайтов.


📌

Ключевые компоненты DR-систем

1. Query Planning — декомпозиция сложных вопросов

Что: Превращение сложного вопроса в последовательность выполнимых подзадач.

Три стратегии:

Параллельное планирование — декомпозиция в один проход на независимые подзапросы, которые можно обрабатывать параллельно.

  • Плюсы: Эффективность (параллельная обработка)
  • Минусы: Игнорирует зависимости между подзапросами; одношаговое взаимодействие (нет адаптации к промежуточным результатам)
  • Примеры: Least-to-Most Prompting (GPT-3 декомпозирует задачу few-shot), CoVE (генерирует независимые подвопросы → параллельный поиск доказательств)
  • Оптимизация через RL: Rewrite-Retrieve-Read (обучает планировщик через PPO — награда только если документы позволяют дать правильный ответ), DeepRetrieval (награда включает recall, NDCG@k)

Последовательное планирование — итеративная декомпозиция, где каждый шаг зависит от предыдущих. Динамическая обратная связь.

  • Плюсы: Адаптация к промежуточным результатам; учёт логических зависимостей
  • Минусы: Высокая вычислительная стоимость; накопление ошибок в длинных цепочках
  • Примеры:
    • LLatrieval: если документы не проходят верификацию → LLM генерирует новый запрос (вопрос или псевдо-пассаж) → повторяет цикл
    • DRAGIN: использует self-attention scores для выбора релевантных токенов из истории → переформулирует запрос
    • ReSP: генерирует новые подвопросы для заполнения информационных пробелов; запрещает повторные запросы
    • Search-R1, R1-Searcher: интегрируют последовательное планирование в end-to-end multi-turn search с RL

Древовидное планирование — рекурсивная декомпозиция с ветвлением (дерево/DAG). Использует MCTS для исследования пространства решений.

  • Плюсы: Баланс между параллелизмом и последовательностью; гибкая декомпозиция; поддержка backtracking
  • Минусы: Сложность обучения (моделирование зависимостей, credit assignment в RL)
  • Примеры:
    • RAG-Star: MCTS + UCT для итеративной декомпозиции; каждый узел = подзапрос; награда от retrieval-based модели
    • DTA, DeepSieve: преобразуют последовательные трассы в DAG для агрегации промежуточных ответов
    • DeepRAG: binary-tree exploration для решения “параметрическое vs retrieval рассуждение”
    • MAO-ARAG: обучает агента оркестровать несколько модулей переформулировки через DAG

2. Information Acquisition — когда и как искать

Retrieval Tools — инструменты поиска:

Текстовый поиск:

  • Лексический: TF-IDF, BM25, нейронные sparse модели (SPLADE, ColBERT) — точное совпадение терминов
  • Семантический: Dense retrieval (DPR, RocketQA) — векторные представления для семантической близости
  • Коммерческий веб-поиск: Google, Bing API — доступ к актуальной информации, кросс-источниковая верификация

Мультимодальный поиск:

  • Text-aware с layout: LayoutLM, Donut, DocVQA — индексация заголовков, подписей, окружающего текста
  • Visual retrieval: CLIP, SigLIP, BLIP — text-to-image matching через ANN search
  • Structure-aware: ChartReader, Chartformer — индексация осей, легенд, схем таблиц для поиска числовых фактов

Сравнение: Мультимодальный поиск захватывает визуальную информацию (графики, таблицы), которую текстовый пропускает, и обеспечивает grounded citations (привязка к конкретным ячейкам таблиц, координатам графиков). Минусы: выше вычислительная стоимость, чувствительность к OCR-ошибкам, сложность выравнивания модальностей.


Retrieval Timing — когда триггерить поиск:

Проблема: Слепой поиск на каждом шаге неоптимален — низкокачественные документы могут вредить. Нужно искать только когда модель не знает ответа.

Четыре стратегии определения границ знаний:

  1. Probabilistic Confidence — вероятности токенов как уверенность

    • Проблема: LLM плохо калиброваны (overconfident даже при ошибках)
    • Решения: SAR (фокус на важных токенах), Semantic Uncertainty (консистентность через несколько генераций)
  2. Consistency-based Confidence — семантическая консистентность через несколько ответов

    • Идея: уверенная модель даёт консистентные ответы
    • Проблема: консистентные, но неправильные ответы
    • Решение: консистентность между разными моделями (неправильные ответы варьируются, правильные совпадают)
  3. Internal States Probing — внутренние состояния модели сигнализируют о фактуальности

    • Сигналы фактуальности существуют до генерации → можно предсказать корректность ответа
  4. Verbalized Confidence — модель выражает уверенность на естественном языке

    • ReAct: генерирует action text для поиска
    • Self-RAG: обучена генерировать <retrieve> токен при неуверенности

Эволюция методов:

  • Ранние: IR-CoT (поиск после каждого шага рассуждения) — неэффективно
  • Адаптивные: ReAct, Self-RAG (поиск как действие модели) — динамический триггер
  • RL-based: Search-o1 (Reason-in-Documents модуль), Search-R1 (RL для оптимизации “когда и что искать")

Information Filtering — фильтрация шума:

Проблема: Поисковые инструменты несовершенны → шум (нерелевантные/неправильные документы). LLM чувствительны к шуму → галлюцинации.

Три подхода:

1. Document Selection — отбор релевантных документов:

  • Pointwise: Независимая оценка каждого документа

    • Embedding similarity (BGE + inner product)
    • Cross-encoder (query + doc → binary relevance)
    • LLM-based (<ISREL> токен или True)
  • Pairwise: Сравнение двух документов

    • PRP: LLM сравнивает пары → heapsort для ранжирования; два прохода (swap порядка) для борьбы с positional bias
  • Listwise: Глобальное ранжирование всего списка

    • RankGPT: весь список в LLM → глобальный рейтинг
    • TourRank: tournament-стратегия для робастного ранжирования
    • ListT5: FiD-архитектура (параллельное кодирование документов) → ранжирование по релевантности
    • С рассуждениями: InstructRAG (генерирует rationales через instruction tuning), Rank-R1 (GRPO для обучения отбора), ReasonRank (multi-view ranking GRPO)

2. Context Compression — сжатие контекста:

  • Lexical-based: Сжатие в краткий текст

    • RECOMP: файнтюн LLM для суммаризации (ground truth от GPT-4)
    • Chain-of-Note: reading-notes механизм (оценка релевантности → извлечение ключевой информации)
    • BIDER: синтезирует Key Supporting Evidence → SFT компрессора → PPO оптимизация
    • RankCoT: неявное переранжирование через рефлексию (генерирует summary candidates → DPO обучение)
  • Embedding-based: Сжатие в embedding sequences

    • ICAE: encoder → fixed-length embeddings; alignment с моделью генерации
    • COCOM: joint fine-tuning encoder + генератор
    • xRAG: экстремальное сжатие (документ → 1 токен через MLP bridging module)
    • ACC-RAG: адаптивные compression rates (hierarchical compressor → multi-granularity embeddings)
    • QGC: динамический выбор compression rate по релевантности документа

3. Rule-based Cleaning — очистка структурированной информации:

  • HtmlRAG: удаление CSS/JavaScript → block-tree pruning (coarse: embeddings; fine-grained: generative model)
  • TableRAG: schema retrieval (column names, types) + cell retrieval (high-frequency value pairs)

Компромисс: Фильтрация улучшает качество, но добавляет latency и может удалить полезную информацию. Баланс зависит от задачи.


3. Memory Management — управление контекстом

Четыре операции:

1. Memory Consolidation — трансформация сырых данных в долговременные представления:

  • Unstructured: Дистилляция в summaries/key events

    • MemoryBank: разговоры → daily events summary → long-term user profile
    • MemoChat: сегменты разговора → main topics
    • Generative Agents: reflection mechanism (накопление событий → абстрактные мысли)
  • Structured: Трансформация в БД/графы/деревья

    • TiM: entity relationships → tuples в БД
    • ChatDB: raw inputs → queryable relational format
    • AriGraph: memory graph (vertices = knowledge, edges = connections)
    • HippoRAG: knowledge graphs (entities, phrases, summaries)
    • MemTree: tree structure (traversal от root → deepen или create leaf nodes)

2. Memory Indexing — навигационная карта для эффективного поиска:

  • Signal-enhanced: Метаданные (эмоции, топики, keywords) как pivots

    • LongMemEval: temporal + semantic signals
    • MMS: декомпозиция опыта на компоненты (cognitive perspectives, semantic facts)
  • Graph-based: Граф (nodes = memories, edges = relationships) для multi-hop reasoning

    • HippoRAG: lightweight knowledge graphs
    • A-Mem: агент автономно связывает memory notes
  • Timeline-based: Хронологическая/каузальная организация

    • Theanine: evolving timelines
    • Zep: bi-temporal model (tvalid, tinvalid timestamps)

3. Memory Updating — модификация существующих знаний:

  • Non-Parametric (внешняя память):

    • Integration & Conflict: Mem0 (ADD/UPDATE операции), Zep (tinvalid для superseded facts), TiM (MERGE для объединения фактов)
    • Self-Reflection: Reflexion, Voyager (итеративная доработка через рефлексию)
  • Parametric (внутренние параметры):

    • Memory-R1: RL для обучения обновления параметров
    • Learn to Memorize, MAC: механизмы для параметрического обновления

4. Memory Forgetting — удаление устаревшего/нерелевантного:

  • Passive: FIFO, Ebbinghaus forgetting curve (память слабеет со временем)
  • Active:
    • Non-parametric: MemGPT, MemoryBank (удаление записей)
    • Parametric: unlearning (перезапись нежелательных весов)

4. Answer Generation — синтез проверяемого ответа

Четыре аспекта:

  1. Integrating Upstream Information — интеграция информации из предыдущих компонентов

    • RAG: базовая интеграция retrieved documents
    • Self-RAG: рефлексия для оценки релевантности
  2. Synthesizing Evidence & Maintaining Coherence — синтез доказательств + связность

    • CRAM: cross-document reasoning
    • MADAM-RAG: multi-agent debate для агрегации
    • RioRAG: reinforcement learning для связности
    • LongWriter, SuperWriter: генерация длинных связных текстов
  3. Structuring Reasoning & Narrative — структурирование рассуждений

    • Chain-of-Thought: пошаговое рассуждение
    • RAPID: rapid iterative development
    • SuperWriter: структурированная нарративная генерация
    • Toolformer, ReAct: интеграция инструментов в рассуждения
  4. Cross-modal Reasoning & Generation — кросс-модальная генерация (текст, таблицы, графики, слайды)

    • BLIP-2, InstructBLIP, MiniGPT-4: vision-language модели
    • PresentAgent, PPTAgent: генерация презентаций
    • Paper2Video: генерация видео из статей

📌

3. Практические техники оптимизации DR-систем

📋

1. Workflow Prompt Engineering — инженерия промптов для оркестрации

Суть: Координация компонентов DR через промпты без обучения моделей.

Пример: Anthropic Deep Research

  • Этап 1: Декомпозиция запроса на подвопросы
  • Этап 2: Параллельный поиск по подвопросам
  • Этап 3: Фильтрация и ранжирование документов
  • Этап 4: Синтез отчёта с цитатами

Другие системы: OpenAI Deep Research, Grok DeepSearch, AutoGLM, Skywork Deep Research, Perplexity Deep Research, Manus, SunaAI, Alita, H2O.ai Deep Research

Барьер: Низкий для использования готовых систем; средний для самостоятельной реализации (нужен код для оркестрации).


📌

2. Supervised Fine-Tuning — обучение с учителем

Два подхода:

Strong-to-weak Distillation — дистилляция от сильных моделей:

  • Идея: Сильная модель (GPT-4) генерирует данные → слабая модель (LLaMA) обучается на них
  • Примеры:
    • WebDancer, WebSailor, WebShaper: дистилляция навигации по вебу
    • WebThinker: дистилляция рассуждений для веб-задач
    • WebSynthesis, WebCoT: дистилляция chain-of-thought для веба
    • MATRIX-Gen: генерация синтетических данных для обучения
    • Chain-of-Agents (CoA): дистилляция multi-agent взаимодействий

Iterative Self-Evolving — итеративная самоэволюция:

  • Идея: Модель генерирует данные → обучается на них → улучшается → повторяет цикл
  • Примеры:
    • Self-rewarding: модель сама себя награждает
    • Absolute Zero: обучение с нуля через самоигру
    • EvolveSearch, EXSEARCH: эволюция поисковых стратегий

Барьер: Высокий (нужны GPU, данные для обучения, expertise в ML).


📌

3. End-to-End Agentic Reinforcement Learning — RL для всего пайплайна

Два уровня:

Оптимизация отдельного модуля:

  • S3: RL для sequential planning
  • MAO-ARAG: RL для multi-agent orchestration
  • AI-SearchPlanner: RL для планирования поиска

Оптимизация всего пайплайна:

  • Search-R1, R1-Searcher, R1-Searcher++: End-to-end RL для multi-turn search (планирование + поиск + генерация)
  • DeepResearcher: RL для всего исследовательского цикла
  • MMSearch-R1: Мультимодальный search с RL
  • WebDancer, WebSailor: RL для веб-навигации
  • Kimi-K2, ASearcher, ZEROSEARCH: RL-оптимизированные поисковые агенты
  • Graph-R1: RL для graph-based reasoning
  • Chain-of-Agents (CoA): RL для multi-agent coordination
  • Tool-Star, ARPO, AEPO: RL для использования инструментов

Барьер: Очень высокий (GPU, доступ к весам моделей, expertise в RL, нестабильность обучения).


📌

4. Оценка

📌

Три категории бенчмарков:

1. Agentic Information Seeking — поиск информации:

  • Complex Queries: NQ, TriviaQA, SimpleQA, HotpotQA, 2WikiMultihopQA, Bamboogle, MultiHop-RAG, MuSiQue, FRAMES, GPQA, GAIA, HLE
  • Interaction Environment: InfoDeepSeek, AssistantBench, Mind2Web, BrowseComp, DeepResearchGym, WebArena, WebWalkerQA, WideSearch, MMInA

2. Comprehensive Report Generation — генерация отчётов:

  • Survey Generation: AutoSurvey, ReportBench, SurveyGen
  • Long-Form Report: Deep Research Comparator, DeepResearch Bench, ResearcherBench, LiveDRBench, PROXYQA, SCHOLARQABENCH
  • Poster/Slides Generation: Paper2Poster, PosterGen, P2PInstruct, Doc2PPT, SLIDESBENCH, Zenodo10K, PPTEval, TSBench

3. AI for Research — автоматизация науки:

  • Idea Generation: AI-Researcher, Learn2Gen, TheAIScientist, Virtual-Scientists, AI Idea Bench 2025, RND, GoAI
  • Experimental Execution: TheAIScientist, DeepScientist, AI-Researcher, PaperBench
  • Academic Writing: TheAIScientist, Automatic-Scientific-Quality-Metrics, PaperBench, Scientist-Bench, ResearcherBench
  • Peer Review: ASAP-Review, TheAIScientist, REVIEW-5k, REVIEWER2, DeepReview-Bench

⚠️

5. Ограничения

На чём тестировалось:

  • Бенчмарки: QA (NQ, HotpotQA), long-form generation (ReportBench), научные задачи (TheAIScientist)
  • Модели: GPT-4, Claude, LLaMA, специализированные DR-системы

Когда метод может не работать:

  • Retrieval Timing: Адаптивный поиск может пропустить нужную информацию или триггерить слишком часто
  • Memory Evolution: Проактивная персонализация, когнитивно-инспирированная структура, goal-driven эволюция — всё ещё открытые проблемы
  • RL Instability: Обучение DR-систем через RL нестабильно (длинные горизонты, sparse rewards, credit assignment)
  • Evaluation Challenges:
    • Логическая оценка (coherence, reasoning quality) сложна
    • Граница между новизной и галлюцинацией размыта
    • LLM-as-Judge имеет bias и неэффективен

Важные оговорки авторов:

  • DR — это не замена человеческому исследователю, а инструмент
  • Этические риски: bias в источниках, галлюцинации, неправильные цитаты
  • Безопасность: DR-системы могут генерировать вредный контент или использоваться для дезинформации

📌

6. Оценка

Критерий Макс. Баллы Обоснование
Новизна 35 32 Первый систематический обзор DR; формализация 3-фазной эволюции; детальная таксономия 4 компонентов
Практичность 35 18 Архитектурный паттерн, а не готовое решение; нужен код для реализации; коммерческие системы доступны, но закрыты
Воспроизводимость 25 20 Детальное описание компонентов; ссылки на 200+ работ; но нет единого reference implementation
Доказательства 20 18 Обширная литература; систематизация методов; но мало эмпирических сравнений (это survey, не эксперимент)
Штраф за барьер -25 Высокий: нужен код для оркестрации компонентов; для продвинутых методов (SFT, RL) — GPU, обучение моделей, ML expertise
ИТОГО 63/100
📌

Интерпретация

Категория: Полезное

Главная ценность: Первая систематическая карта DR-ландшафта — что такое DR, из чего состоит, как оптимизировать, как оценивать. Для практиков это концептуальный фреймворк для понимания и проектирования сложных AI-систем.

Кому полезно:

  • Архитекторам AI-систем — понимание компонентов DR для проектирования
  • ML-инженерам — методы оптимизации (SFT, RL) для улучшения DR-систем
  • Исследователям — обзор state-of-the-art, открытые проблемы
  • Практикам промптинга — понимание, как работают коммерческие DR-системы (Perplexity, Claude Deep Research)

Кому НЕ полезно:

  • Новичкам — слишком сложно без базы в ML/NLP
  • Тем, кто ищет готовый промпт — это не промпт, а архитектурный паттерн
  • Тем, кто хочет быстрый результат — реализация DR требует времени и инфраструктуры

Ресурсы:

  • Code Repository: https://github.com/mangopy/Deep-Research-Survey
  • Contact: zhengliang.shii@gmail.com, chenyiqun990321@ruc.edu.cn, z.ren@liacs.leidenuniv.nl

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с