3,583 papers
arXiv:2510.11040 76 13 окт. 2025 г. FREE

DoctorFLAN: Структурирование workflow через специализированные задачи и референс-подход

КЛЮЧЕВАЯ СУТЬ
Парадокс: LLM хорошо имитируют виртуального доктора для пациентов (чат-бот работает), но плохо помогают реальным врачам — модели на диалогах "врач-пациент" дают 4-5 из 10 баллов на задачах врачебного workflow. Почему? Онлайн-консультации покрывают узкий срез работы (в основном пре-диагностику), а задачи вроде дифференциальной диагностики или планирования операции требуют структурированного подхода. Метод DoctorFLAN позволяет структурировать сложный профессиональный процесс через разбивку на чёткие фазы + специализированные задачи в каждой. Раздели процесс на 4 фазы (пре-действие → ядро → пост-действие → контроль), для каждой — конкретные задачи с референсами. Плюс мультитёрновая структура — вопросы выстраиваются цепочкой, каждый следующий опирается на предыдущий. Модель DotaGPT, обученная так, показала +25% против базовых чат-моделей.
Адаптировать под запрос

TL;DR

DoctorFLAN — исследование китайской команды, которое показывает как структурировать сложный профессиональный workflow в 22 специализированные задачи по 4 фазам процесса: пре-диагностика → диагностика → лечение → пост-лечение. Авторы создали датасет из 92 тысяч примеров врачебной работы, опросив десятки практикующих врачей, чтобы понять реальные нужды.

Главная находка: LLM плохо справляются с задачами помощи врачам, хотя неплохо имитируют виртуального доктора для пациентов. Модели, обученные на диалогах "врач-пациент" (Huatuo26M, BianQue-2), дают средний балл 4-5 из 10 на задачах врачебного workflow. Почему? Онлайн-консультации пациентов покрывают только узкий срез реальной работы врача — в основном пре-диагностику. А задачи вроде дифференциальной диагностики, планирования операции, интерпретации анализов требуют глубоких знаний и структурированного подхода.

Решение: Reference-Enhanced Refinement — GPT-4 улучшает ответы, опираясь на специализированные референсы (учебники, базы знаний, клинические случаи). Плюс мультитёрновая структура — вопросы выстраиваются логичной цепочкой, как в реальной консультации врача. Модель DotaGPT, обученная на DoctorFLAN, показала +25% на Baichuan2-7B и +12% на Yi-6B по сравнению с базовыми чат-моделями.


📋

Применимые принципы для промптинга

Хотя исследование про создание специализированного датасета и обучение модели, из него можно извлечь четыре рабочих паттерна для структурирования сложных workflow в обычном чате:

📌

1. Workflow Phase Decomposition

Разбей сложный процесс на чёткие фазы с конкретными задачами в каждой:

Структура workflow:

ФАЗА 1 (Pre-action): [Подготовительные задачи]
- Задача 1.1: [Конкретное действие]
- Задача 1.2: [Конкретное действие]

ФАЗА 2 (Core action): [Основные задачи]
- Задача 2.1: [Конкретное действие]
- Задача 2.2: [Конкретное действие]

ФАЗА 3 (Post-action): [Завершающие задачи]
- Задача 3.1: [Конкретное действие]
📌

2. Reference-Enhanced Pattern

Не полагайся только на знания модели — явно укажи референсы:

Контекст:
[Приложи релевантные материалы: документы, примеры, стандарты]

Задача:
[Опиши что нужно сделать]

Требование:
Опирайся на приложенный контекст. Если информации недостаточно — скажи что именно не хватает.
📌

3. Multi-Turn Consultation Chain

Выстраивай логичную цепочку вопросов, где каждый следующий опирается на предыдущий:

Turn 1: [Базовая информация] → [Первичная оценка]
Turn 2: [Дополнительные данные на основе Turn 1] → [Уточнение]
Turn 3: [Финальные детали] → [Итоговое решение]
📌

4. Task-Specific Instructions

Для каждой задачи — специализированная инструкция, а не универсальный промпт.


🚀

Пример применения: Разбор бизнес-процесса маркетолога

Задача: Ты запускаешь новый онлайн-курс по дизайну интерьеров. Нужно структурировать workflow от идеи до продаж.

Промпт (Phase Decomposition):

Помоги структурировать workflow запуска онлайн-курса по 4 фазам:

ФАЗА 1 — Pre-launch (Подготовка):
- Валидация идеи
- Исследование аудитории
- Создание программы курса

ФАЗА 2 — Production (Производство):
- Съёмка материалов
- Монтаж уроков
- Создание доп.материалов

ФАЗА 3 — Launch (Запуск):
- Настройка воронки продаж
- Прогрев аудитории
- Запуск продаж

ФАЗА 4 — Post-launch (После запуска):
- Работа с обратной связью
- Оптимизация воронки
- План повторных продаж

Для каждой фазы:
1. Разбей на 3-5 конкретных задач
2. Укажи на что опираться (инструменты, референсы, данные)
3. Дай критерии завершения фазы

Результат:

Модель выдаст детальную разбивку каждой фазы с конкретными действиями. Для Фазы 1 покажет задачи типа "Опрос 30 потенциальных клиентов", "Анализ 5 конкурентов", "Создание MVP программы". Для каждой задачи — что использовать (Google Forms для опроса, SimilarWeb для конкурентов) и критерий готовности (собрано N ответов, выявлены 3 главных боли).


Промпт (Reference-Enhanced):

Контекст:
Я уже провёл опрос и получил вот такие результаты:
- 78% респондентов хотят научиться планировке квартир
- 62% говорят что им не хватает практических примеров
- 54% готовы платить 15-20 тыс. рублей

Также у меня есть программа конкурента:
[вставь программу]

Задача:
Создай программу курса на 8 недель. Опирайся на данные опроса и учитывай
что делает конкурент, но найди уникальный угол.

Требование:
Если данных недостаточно для принятия решения — скажи что именно не хватает.

Результат:

Модель создаст программу, основываясь на приложенных данных. Например, сделает упор на планировку (78% хотят) через практические кейсы (62% не хватает примеров). Если конкурент даёт теорию — предложит practice-first подход. Может указать что не хватает данных о формате уроков или длительности.


Промпт (Multi-Turn Chain):

Turn 1:
У меня есть идея курса по дизайну интерьеров. Аудитория — начинающие 
дизайнеры и люди, делающие ремонт себе. Дай первичную оценку ниши.

Turn 2 (после ответа модели):
Ты сказал что ниша перегрета, но есть сегменты с низкой конкуренцией.
Я хочу фокус на "планировку малогабариток до 50 кв.м". Какие дополнительные
данные нужны для валидации этого сегмента?

Turn 3 (после второго ответа):
Я собрал данные: [вставь результаты]. Теперь дай финальную оценку — 
стоит ли запускать именно этот сегмент?

Результат:

Модель пройдёт через три уровня анализа. Turn 1 — общая оценка рынка, конкуренции, трендов. Turn 2 — конкретизация по узкому сегменту, запрос недостающих данных (размер аудитории, средний чек, сложность входа). Turn 3 — итоговое решение на основе собранных данных с обоснованием.


🧠

Почему это работает

LLM — универсалисты, не узкие специалисты. Модели типа GPT-4 или Claude обучены на огромном корпусе общих данных, но мало видели примеров специализированных workflow. Когда даёшь расплывчатый запрос "помоги с запуском курса" — модель выдаёт общие советы, потому что не понимает структуру процесса.

Структурирование по фазам использует сильную сторону LLM — умение следовать чёткой схеме. Когда разбиваешь workflow на Pre → Core → Post с конкретными задачами в каждой фазе — модель понимает контекст каждого шага и даёт более точные рекомендации. Это как дать врачу не "у меня болит живот", а "боль появилась 3 часа назад после еды, локализована справа внизу".

Reference enhancement компенсирует ограниченность знаний модели о вашей специфике. GPT-4 знает общие принципы маркетинга, но не знает ваших данных опроса, вашего конкурента, ваших ресурсов. Явное указание референсов переключает модель из режима "додумывания" в режим "анализа конкретики".

Multi-turn chain имитирует реальную консультацию. Вместо попытки запихнуть всё в один промпт — ведёшь диалог, где каждый ответ модели уточняет направление следующего вопроса. Это снижает риск ухода в сторону и даёт более глубокий анализ.

📌

Рычаги управления

Число фаз и задач — уменьши для простых процессов (2-3 фазы), увеличь для сложных (5-6 фаз). Чем больше разбиение — тем точнее контроль, но дольше работа.

Степень детализации референсов — дай минимум контекста для быстрого ответа, максимум для глубокого анализа. Если модель уходит не туда — значит контекста мало.

Длина multi-turn цепочки — 2-3 тёрна для простых задач, 5-7 для сложных исследований. Каждый тёрн — возможность скорректировать направление.

Критерии завершения каждой фазы — замени на свои метрики. Вместо "опросить 30 человек" можно "собрать 50 ответов" или "достичь статистической значимости".


📋

Шаблон промпта: Phase-Based Workflow

Помоги структурировать workflow {процесс} по фазам:

ФАЗА 1 — {название_фазы_1} ({описание}):
- {задача_1.1}
- {задача_1.2}
- {задача_1.3}

ФАЗА 2 — {название_фазы_2} ({описание}):
- {задача_2.1}
- {задача_2.2}
- {задача_2.3}

ФАЗА 3 — {название_фазы_3} ({описание}):
- {задача_3.1}
- {задача_3.2}
- {задача_3.3}

ФАЗА 4 — {название_фазы_4} ({описание}):
- {задача_4.1}
- {задача_4.2}

Для каждой фазы:
1. Разбей на {число} конкретных задач
2. Укажи на что опираться (инструменты, референсы, данные)
3. Дай критерии завершения фазы

Плейсхолдеры:

  • {процесс} — что структурируешь (запуск продукта, найм сотрудника, написание книги)
  • {название_фазы_N} — название этапа (Подготовка, Производство, Запуск, Поддержка)
  • {описание} — краткое описание фазы (1-2 предложения)
  • {задача_N.M} — конкретная задача в фазе (действие + результат)
  • {число} — сколько задач в фазе (обычно 3-7)

📋

Шаблон промпта: Reference-Enhanced

Контекст:
{приложи_релевантные_материалы}

Задача:
{опиши_что_нужно_сделать}

Требование:
Опирайся строго на приложенный контекст. Если информации недостаточно 
для {конкретного_решения} — чётко скажи что именно не хватает и зачем это нужно.

Плейсхолдеры:

  • {приложи_релевантные_материалы} — вставь документы, данные, примеры, стандарты
  • {опиши_что_нужно_сделать} — конкретная задача (создать, проанализировать, оценить)
  • {конкретного_решения} — чего ждёшь на выходе (план, оценка, рекомендация)

📋

Шаблон промпта: Multi-Turn Chain

Turn 1:
{начальный_запрос_с_базовой_информацией}

[Получи ответ, проанализируй]

Turn 2:
{продолжение_на_основе_первого_ответа}
Ты сказал что {ключевая_мысль_из_Turn_1}. 
Теперь {углубление_или_уточнение}.

[Получи ответ, проанализируй]

Turn 3:
{финализация_с_дополнительными_данными}
Я собрал данные: {новая_информация}.
Теперь дай {итоговое_решение_или_оценку}.

Плейсхолдеры:

  • {начальный_запрос} — широкий вопрос для первичной оценки
  • {ключевая_мысль} — вытащи главный инсайт из первого ответа
  • {углубление} — сузь фокус или попроси дополнительные детали
  • {новая_информация} — данные, которые собрал между тёрнами
  • {итоговое_решение} — конкретный output (план, оценка, рекомендация)

⚠️

Ограничения

⚠️ Специфичность медицинского контекста: 22 задачи оптимизированы под работу врачей. Прямой перенос на другие сферы не сработает — нужна адаптация под свой workflow. Например, для юриста фазы будут: консультация → анализ документов → подготовка позиции → судебное сопровождение, а задачи совсем другие.

⚠️ Язык датасета: DoctorFLAN создан на китайском языке. Авторы подчёркивают что перформанс на других языках не гарантирован, хотя методология применима универсально. Если адаптируешь принципы — переводи примеры и референсы на язык модели.

⚠️ Reference quality dependency: Reference-enhanced подход работает только если референсы качественные. Если даёшь устаревшие стандарты или неполную информацию — модель опирается на некорректный базис и выдаёт плохой результат. В медицине это критично (авторы добились 100% корректности только через ручную проверку экспертами), в бизнесе — тоже важно валидировать источники.

⚠️ Multi-turn overhead: Цепочки из 5-7 тёрнов занимают время и требуют вдумчивости. Для простых задач ("посоветуй название для курса") избыточны — достаточно одного запроса. Multi-turn оправдан для сложных консультационных задач, где каждый ответ раскрывает новые детали.

⚠️ Не заменяет экспертизу: Модель DotaGPT показала высокие результаты (7.8-8.5 из 10), но авторы настаивают на осторожности в реальном применении. Это ассистент врача, не замена врача. Аналогично для бизнеса — структурирование workflow через LLM помогает, но критические решения требуют человеческой экспертизы.


🔍

Как исследовали

Команда из Китайского университета Гонконга (Шэньчжэнь) провела двухэтапный опрос практикующих врачей. Сначала организовали симпозиум с 16 медицинскими экспертами, которые разбили workflow на 4 фазы и предложили набор задач. Потом опросили 82 врача из 13 больниц третьего уровня (после фильтрации осталось 71 валидный ответ). Врачи оценивали каждую из 22 задач по шкале 1-5, где 5 = "помощь LLM критична для эффективности". Почти все задачи получили оценку выше 4, что подтвердило релевантность.

Датасет собрали из трёх источников: медицинские тестовые вопросы (Medtiku.com), медицинская энциклопедия (120ask.com), существующие датасеты (PromptCBLUE). После дедупликации (Jaccard similarity > 0.8) получили сырых данных, которые мапили на 22 задачи через regex. Интересная деталь: regex-паттерны итеративно улучшали — врач проверял 50 примеров, давал фидбек, паттерны корректировали, пока точность не достигла 95% согласия с экспертной разметкой.

Дальше — Reference-Enhanced Refinement: GPT-4 улучшал ответы, опираясь на референсы (учебники, клинические случаи). Но просто взять output GPT-4 — рискованно. Поэтому три врача вручную проверили 1050 ответов (по 350 каждый, плюс старший эксперт потратил 10 часов на надзор). Результат: 100% корректности и 99.9% практичности — только в одном случае врач написал "недостаточно деталей". Это показало что GPT-4 хорош для улучшения, но сложные медицинские контексты иногда требуют дополнительной экспертной доработки.

Для мультитёрнового бенчмарка (DotaBench) взяли датасет CMB-Clin с реальными медицинскими записями. Но там были разрозненные Q&A пары без контекстной связи. Врачи вручную переструктурировали их в связные 3-тёрновые диалоги, имитирующие реальную консультацию. Важно: в DotaBench LLM вообще не участвовали в генерации — только люди, чтобы исключить bias.

Обучили две модели: Yi-6B и Baichuan2-7B на 92k медицинских примеров + 101k общих инструкций (Evol-instruct, ShareGPT) + 51k медицинских вопросов (CMExam). Тренировали 3 эпохи на 4x A100. Оценивали автоматически (GPT-4 как судья по 4 критериям: точность, связность, релевантность, полнота) и вручную (6 врачей, каждый оценил ~90 вопросов для 6 моделей).

Почему результаты такие? Оказалось что модели типа BianQue-2 и HuatuoGPT, обученные на диалогах "врач-пациент", проваливаются на задачах помощи врачам (4.1-5.9 из 10). Причина: онлайн-консультации покрывают только узкий срез workflow — в основном пре-диагностику. А задачи вроде планирования операции или интерпретации анализов требуют глубоких знаний, которых в диалогах мало. DotaGPT, обученная на специализированном датасете, показала +25% на Baichuan2-7B именно на фазах диагностики и лечения — там где другие проваливались.

Интересный инсайт: тонкая настройка на медицине не всегда помогает. DISC-MedLLM, специализированная медицинская модель на Baichuan-13B, хуже (4.24) чем базовый Baichuan-13B-Chat (6.57). Авторы предполагают что чрезмерная специализация может навредить — нужен баланс между доменным знанием и общей адаптивностью.

Корреляция между автоматической и ручной оценкой: Pearson r = 0.82 (p < 0.01) — высокая согласованность. Это подтверждает что GPT-4 как судья работает надёжно для таких задач.


🔗

Ресурсы

Enabling Doctor-Centric Medical AI with LLMs through Workflow-Aligned Tasks and Benchmarks — Wenya Xie, Qingying Xiao, Yu Zheng, Xidong Wang, Junying Chen, Ke Ji, Anningzhe Gao, Prayag Tiwari, Xiang Wan, Feng Jiang, Benyou Wang | The Chinese University of Hong Kong, Shenzhen; Shenzhen Research Institute of Big Data; National Health Data Institute; Halmstad University; Shenzhen University of Advanced Technology

Датасеты: DoctorFLAN, DotaBench Код: DotaGPT GitHub


📋 Дайджест исследования

Ключевая суть

Парадокс: LLM хорошо имитируют виртуального доктора для пациентов (чат-бот работает), но плохо помогают реальным врачам — модели на диалогах "врач-пациент" дают 4-5 из 10 баллов на задачах врачебного workflow. Почему? Онлайн-консультации покрывают узкий срез работы (в основном пре-диагностику), а задачи вроде дифференциальной диагностики или планирования операции требуют структурированного подхода. Метод DoctorFLAN позволяет структурировать сложный профессиональный процесс через разбивку на чёткие фазы + специализированные задачи в каждой. Раздели процесс на 4 фазы (пре-действие → ядро → пост-действие → контроль), для каждой — конкретные задачи с референсами. Плюс мультитёрновая структура — вопросы выстраиваются цепочкой, каждый следующий опирается на предыдущий. Модель DotaGPT, обученная так, показала +25% против базовых чат-моделей.

Принцип работы

Вместо универсального промпта "помоги с [процесс]" → раздели на фазы с конкретными задачами. Каждая фаза = свой набор задач + свои референсы + критерии завершения. Структура: Пре-действие (подготовка: валидация идеи, исследование) → Ядро (основная работа: производство, реализация) → Пост-действие (завершение: запуск, обратная связь) → Контроль (оптимизация). Для каждой задачи явно указывай на что опираться — не полагайся только на знания модели. Приложи документы, данные, примеры. Добавь требование: "Если информации не хватает — скажи что именно".

Почему работает

LLM — универсалисты, а не узкие специалисты. Модели обучены на общих данных, мало видели примеров специализированных workflow. Разбивка на фазы использует сильную сторону LLM — умение следовать чётким схемам. Когда даёшь "помоги с запуском курса" — модель выдаёт общие советы, потому что не понимает структуру процесса. Когда структурируешь: Подготовка (3 задачи: валидация, исследование, программа) → Производство (4 задачи: съёмка, монтаж...) → Запуск (5 задач: воронка, прогрев...) — модель понимает контекст каждого шага. Это как дать врачу не "болит живот", а "боль 3 часа назад после еды, справа внизу". Референсы компенсируют незнание вашей специфики. GPT-4 знает общий маркетинг, но не знает ваших данных опроса, вашего конкурента, ваших ресурсов. Явное указание контекста переключает модель из режима "додумывания" в "анализ конкретики".

Когда применять

Сложные профессиональные процессы → запуск продукта, найм сотрудника, разработка стратегии, написание книги. Особенно когда процесс многошаговый (4+ этапа) и требует анализа специфических данных (отчёты, стандарты, документы). НЕ подходит для простых одношаговых задач — "придумай название для курса" не требует фазовой структуры, избыточно.

Мини-рецепт

1. Раздели процесс на фазы: Обычно 3-4 (Подготовка → Ядро → Завершение). Для каждой фазы — список из 3-7 конкретных задач с описанием.
2. Укажи для каждой задачи: на что опираться (инструменты, данные, стандарты, примеры) + критерий завершения фазы (конкретная метрика или результат).
3. Приложи референсы: Не полагайся на знания модели — дай документы, результаты опросов, данные конкурентов. Добавь требование: "Если информации не хватает для решения — чётко скажи что именно и зачем".
4. Веди мультитёрновую цепочку: Turn 1 = широкий вопрос для первичной оценки → Turn 2 = углубление на основе первого ответа ("Ты сказал [инсайт]. Теперь...") → Turn 3 = финальное решение с новыми данными которые собрал между тёрнами.

Примеры

[ПЛОХО] : Помоги запустить онлайн-курс по дизайну интерьеров
[ХОРОШО] : Структурируй workflow запуска курса по 4 фазам: ФАЗА 1 — Pre-launch (Подготовка): валидация идеи, исследование аудитории, создание программы ФАЗА 2 — Production (Производство): съёмка материалов, монтаж уроков, доп.материалы ФАЗА 3 — Launch (Запуск): настройка воронки, прогрев аудитории, продажи ФАЗА 4 — Post-launch (После запуска): обратная связь, оптимизация воронки, план повторных продаж Для каждой фазы: разбей на 3-5 конкретных задач, укажи на что опираться (инструменты/данные), дай критерии завершения. --- [ПЛОХО]: Оцени идею курса по планировке малогабариток [ХОРОШО — мультитёрн]: Turn 1: Идея курса по дизайну интерьеров. Аудитория — начинающие дизайнеры и люди делающие ремонт себе. Дай первичную оценку ниши. Turn 2 (после ответа): Ты сказал что ниша перегрета, но есть сегменты с низкой конкуренцией. Фокус на "планировку малогабариток до 50 кв.м". Какие дополнительные данные нужны для валидации этого сегмента? Turn 3: Я собрал данные: [результаты опроса + анализ конкурентов]. Теперь дай финальную оценку — стоит ли запускать именно этот сегмент?
Источник: Enabling Doctor-Centric Medical AI with LLMs through Workflow-Aligned Tasks and Benchmarks
ArXiv ID: 2510.11040 | Сгенерировано: 2026-01-12 00:11

Концепты не выделены.

📖 Простыми словами

DoctorFLAN: Структурирование workflow через специализированные задачи и референс-подход

arXiv: 2510.11040

Медицинские нейросети сейчас работают как студенты-отличники: знают кучу терминов, но в реальной больнице впадают в ступор. Проблема в том, что LLM — это универсалы, а не узкие специалисты. Они наглотались учебников, но в глаза не видели врачебный workflow, то есть реальную последовательность действий доктора. Когда ты просишь модель «помочь с пациентом», она выдает общую справку из Википедии, потому что не понимает, на каком этапе процесса находится. Исследование DoctorFLAN исправляет этот баг, нарезая работу врача на 22 конкретные задачи, разложенные по четырем фазам: от первой встречи до выписки.

Это как если бы ты нанял повара, который знает теорию химии, но не понимает, что сначала нужно помыть руки, а потом резать лук. Формально он эксперт, но на кухне от него одни проблемы. DoctorFLAN — это детальный чек-лист, который превращает теоретика в практика. Вместо того чтобы просто «знать медицину», модель теперь понимает, когда нужно собрать анамнез, когда назначить анализы, а когда — составить план реабилитации. Это переход от абстрактных советов к структурированному процессу, где каждое действие логически вытекает из предыдущего.

Чтобы научить AI работать по-человечески, авторы собрали 92 тысячи примеров реальной врачебной рутины. Они не просто скачали статьи, а опросили десятки практикующих врачей, чтобы вытащить из них «неявное знание» — те самые мелочи, которые не пишут в методичках, но на которых держится медицина. В итоге получился набор бенчмарков, который проверяет не эрудицию модели, а её способность быть полезным инструментом в руках профи. Если модель лажает на этапе пре-диагностики, она бесполезна, сколько бы латыни она ни знала.

Хотя исследование сфокусировано на врачах, этот принцип универсален. Любая сложная работа — будь то юридический консалтинг, программирование или запуск маркетингового курса — разваливается без четкого workflow. Мы часто ждем от AI магии, а получаем воду, потому что не даем ему структуру. DoctorFLAN доказывает: чтобы нейронка перестала нести чушь, её нужно обучать не «знаниям», а конкретным фазам процесса. Это смена парадигмы: мы перестаем тренировать энциклопедии и начинаем тренировать ассистентов.

Короче, эпоха «умных чат-ботов» заканчивается, начинается эпоха workflow-aligned систем. Если ты хочешь, чтобы AI реально решал задачи, забудь про общие промпты и нарезай процесс на мелкие, понятные этапы. 22 задачи и 4 фазы — это золотой стандарт, который скоро придет в любую индустрию. Кто первым упакует свой профессиональный опыт в такие рельсы, тот и получит работающий инструмент, а остальные так и будут жаловаться, что нейросеть опять галлюцинирует.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с