TL;DR
DoctorFLAN — исследование китайской команды, которое показывает как структурировать сложный профессиональный workflow в 22 специализированные задачи по 4 фазам процесса: пре-диагностика → диагностика → лечение → пост-лечение. Авторы создали датасет из 92 тысяч примеров врачебной работы, опросив десятки практикующих врачей, чтобы понять реальные нужды.
Главная находка: LLM плохо справляются с задачами помощи врачам, хотя неплохо имитируют виртуального доктора для пациентов. Модели, обученные на диалогах "врач-пациент" (Huatuo26M, BianQue-2), дают средний балл 4-5 из 10 на задачах врачебного workflow. Почему? Онлайн-консультации пациентов покрывают только узкий срез реальной работы врача — в основном пре-диагностику. А задачи вроде дифференциальной диагностики, планирования операции, интерпретации анализов требуют глубоких знаний и структурированного подхода.
Решение: Reference-Enhanced Refinement — GPT-4 улучшает ответы, опираясь на специализированные референсы (учебники, базы знаний, клинические случаи). Плюс мультитёрновая структура — вопросы выстраиваются логичной цепочкой, как в реальной консультации врача. Модель DotaGPT, обученная на DoctorFLAN, показала +25% на Baichuan2-7B и +12% на Yi-6B по сравнению с базовыми чат-моделями.
Применимые принципы для промптинга
Хотя исследование про создание специализированного датасета и обучение модели, из него можно извлечь четыре рабочих паттерна для структурирования сложных workflow в обычном чате:
1. Workflow Phase Decomposition
Разбей сложный процесс на чёткие фазы с конкретными задачами в каждой:
Структура workflow:
ФАЗА 1 (Pre-action): [Подготовительные задачи]
- Задача 1.1: [Конкретное действие]
- Задача 1.2: [Конкретное действие]
ФАЗА 2 (Core action): [Основные задачи]
- Задача 2.1: [Конкретное действие]
- Задача 2.2: [Конкретное действие]
ФАЗА 3 (Post-action): [Завершающие задачи]
- Задача 3.1: [Конкретное действие]
2. Reference-Enhanced Pattern
Не полагайся только на знания модели — явно укажи референсы:
Контекст:
[Приложи релевантные материалы: документы, примеры, стандарты]
Задача:
[Опиши что нужно сделать]
Требование:
Опирайся на приложенный контекст. Если информации недостаточно — скажи что именно не хватает.
3. Multi-Turn Consultation Chain
Выстраивай логичную цепочку вопросов, где каждый следующий опирается на предыдущий:
Turn 1: [Базовая информация] → [Первичная оценка]
Turn 2: [Дополнительные данные на основе Turn 1] → [Уточнение]
Turn 3: [Финальные детали] → [Итоговое решение]
4. Task-Specific Instructions
Для каждой задачи — специализированная инструкция, а не универсальный промпт.
Пример применения: Разбор бизнес-процесса маркетолога
Задача: Ты запускаешь новый онлайн-курс по дизайну интерьеров. Нужно структурировать workflow от идеи до продаж.
Промпт (Phase Decomposition):
Помоги структурировать workflow запуска онлайн-курса по 4 фазам:
ФАЗА 1 — Pre-launch (Подготовка):
- Валидация идеи
- Исследование аудитории
- Создание программы курса
ФАЗА 2 — Production (Производство):
- Съёмка материалов
- Монтаж уроков
- Создание доп.материалов
ФАЗА 3 — Launch (Запуск):
- Настройка воронки продаж
- Прогрев аудитории
- Запуск продаж
ФАЗА 4 — Post-launch (После запуска):
- Работа с обратной связью
- Оптимизация воронки
- План повторных продаж
Для каждой фазы:
1. Разбей на 3-5 конкретных задач
2. Укажи на что опираться (инструменты, референсы, данные)
3. Дай критерии завершения фазы
Результат:
Модель выдаст детальную разбивку каждой фазы с конкретными действиями. Для Фазы 1 покажет задачи типа "Опрос 30 потенциальных клиентов", "Анализ 5 конкурентов", "Создание MVP программы". Для каждой задачи — что использовать (Google Forms для опроса, SimilarWeb для конкурентов) и критерий готовности (собрано N ответов, выявлены 3 главных боли).
Промпт (Reference-Enhanced):
Контекст:
Я уже провёл опрос и получил вот такие результаты:
- 78% респондентов хотят научиться планировке квартир
- 62% говорят что им не хватает практических примеров
- 54% готовы платить 15-20 тыс. рублей
Также у меня есть программа конкурента:
[вставь программу]
Задача:
Создай программу курса на 8 недель. Опирайся на данные опроса и учитывай
что делает конкурент, но найди уникальный угол.
Требование:
Если данных недостаточно для принятия решения — скажи что именно не хватает.
Результат:
Модель создаст программу, основываясь на приложенных данных. Например, сделает упор на планировку (78% хотят) через практические кейсы (62% не хватает примеров). Если конкурент даёт теорию — предложит practice-first подход. Может указать что не хватает данных о формате уроков или длительности.
Промпт (Multi-Turn Chain):
Turn 1:
У меня есть идея курса по дизайну интерьеров. Аудитория — начинающие
дизайнеры и люди, делающие ремонт себе. Дай первичную оценку ниши.
Turn 2 (после ответа модели):
Ты сказал что ниша перегрета, но есть сегменты с низкой конкуренцией.
Я хочу фокус на "планировку малогабариток до 50 кв.м". Какие дополнительные
данные нужны для валидации этого сегмента?
Turn 3 (после второго ответа):
Я собрал данные: [вставь результаты]. Теперь дай финальную оценку —
стоит ли запускать именно этот сегмент?
Результат:
Модель пройдёт через три уровня анализа. Turn 1 — общая оценка рынка, конкуренции, трендов. Turn 2 — конкретизация по узкому сегменту, запрос недостающих данных (размер аудитории, средний чек, сложность входа). Turn 3 — итоговое решение на основе собранных данных с обоснованием.
Почему это работает
LLM — универсалисты, не узкие специалисты. Модели типа GPT-4 или Claude обучены на огромном корпусе общих данных, но мало видели примеров специализированных workflow. Когда даёшь расплывчатый запрос "помоги с запуском курса" — модель выдаёт общие советы, потому что не понимает структуру процесса.
Структурирование по фазам использует сильную сторону LLM — умение следовать чёткой схеме. Когда разбиваешь workflow на Pre → Core → Post с конкретными задачами в каждой фазе — модель понимает контекст каждого шага и даёт более точные рекомендации. Это как дать врачу не "у меня болит живот", а "боль появилась 3 часа назад после еды, локализована справа внизу".
Reference enhancement компенсирует ограниченность знаний модели о вашей специфике. GPT-4 знает общие принципы маркетинга, но не знает ваших данных опроса, вашего конкурента, ваших ресурсов. Явное указание референсов переключает модель из режима "додумывания" в режим "анализа конкретики".
Multi-turn chain имитирует реальную консультацию. Вместо попытки запихнуть всё в один промпт — ведёшь диалог, где каждый ответ модели уточняет направление следующего вопроса. Это снижает риск ухода в сторону и даёт более глубокий анализ.
Рычаги управления
Число фаз и задач — уменьши для простых процессов (2-3 фазы), увеличь для сложных (5-6 фаз). Чем больше разбиение — тем точнее контроль, но дольше работа.
Степень детализации референсов — дай минимум контекста для быстрого ответа, максимум для глубокого анализа. Если модель уходит не туда — значит контекста мало.
Длина multi-turn цепочки — 2-3 тёрна для простых задач, 5-7 для сложных исследований. Каждый тёрн — возможность скорректировать направление.
Критерии завершения каждой фазы — замени на свои метрики. Вместо "опросить 30 человек" можно "собрать 50 ответов" или "достичь статистической значимости".
Шаблон промпта: Phase-Based Workflow
Помоги структурировать workflow {процесс} по фазам:
ФАЗА 1 — {название_фазы_1} ({описание}):
- {задача_1.1}
- {задача_1.2}
- {задача_1.3}
ФАЗА 2 — {название_фазы_2} ({описание}):
- {задача_2.1}
- {задача_2.2}
- {задача_2.3}
ФАЗА 3 — {название_фазы_3} ({описание}):
- {задача_3.1}
- {задача_3.2}
- {задача_3.3}
ФАЗА 4 — {название_фазы_4} ({описание}):
- {задача_4.1}
- {задача_4.2}
Для каждой фазы:
1. Разбей на {число} конкретных задач
2. Укажи на что опираться (инструменты, референсы, данные)
3. Дай критерии завершения фазы
Плейсхолдеры:
{процесс}— что структурируешь (запуск продукта, найм сотрудника, написание книги){название_фазы_N}— название этапа (Подготовка, Производство, Запуск, Поддержка){описание}— краткое описание фазы (1-2 предложения){задача_N.M}— конкретная задача в фазе (действие + результат){число}— сколько задач в фазе (обычно 3-7)
Шаблон промпта: Reference-Enhanced
Контекст:
{приложи_релевантные_материалы}
Задача:
{опиши_что_нужно_сделать}
Требование:
Опирайся строго на приложенный контекст. Если информации недостаточно
для {конкретного_решения} — чётко скажи что именно не хватает и зачем это нужно.
Плейсхолдеры:
{приложи_релевантные_материалы}— вставь документы, данные, примеры, стандарты{опиши_что_нужно_сделать}— конкретная задача (создать, проанализировать, оценить){конкретного_решения}— чего ждёшь на выходе (план, оценка, рекомендация)
Шаблон промпта: Multi-Turn Chain
Turn 1:
{начальный_запрос_с_базовой_информацией}
[Получи ответ, проанализируй]
Turn 2:
{продолжение_на_основе_первого_ответа}
Ты сказал что {ключевая_мысль_из_Turn_1}.
Теперь {углубление_или_уточнение}.
[Получи ответ, проанализируй]
Turn 3:
{финализация_с_дополнительными_данными}
Я собрал данные: {новая_информация}.
Теперь дай {итоговое_решение_или_оценку}.
Плейсхолдеры:
{начальный_запрос}— широкий вопрос для первичной оценки{ключевая_мысль}— вытащи главный инсайт из первого ответа{углубление}— сузь фокус или попроси дополнительные детали{новая_информация}— данные, которые собрал между тёрнами{итоговое_решение}— конкретный output (план, оценка, рекомендация)
Ограничения
⚠️ Специфичность медицинского контекста: 22 задачи оптимизированы под работу врачей. Прямой перенос на другие сферы не сработает — нужна адаптация под свой workflow. Например, для юриста фазы будут: консультация → анализ документов → подготовка позиции → судебное сопровождение, а задачи совсем другие.
⚠️ Язык датасета: DoctorFLAN создан на китайском языке. Авторы подчёркивают что перформанс на других языках не гарантирован, хотя методология применима универсально. Если адаптируешь принципы — переводи примеры и референсы на язык модели.
⚠️ Reference quality dependency: Reference-enhanced подход работает только если референсы качественные. Если даёшь устаревшие стандарты или неполную информацию — модель опирается на некорректный базис и выдаёт плохой результат. В медицине это критично (авторы добились 100% корректности только через ручную проверку экспертами), в бизнесе — тоже важно валидировать источники.
⚠️ Multi-turn overhead: Цепочки из 5-7 тёрнов занимают время и требуют вдумчивости. Для простых задач ("посоветуй название для курса") избыточны — достаточно одного запроса. Multi-turn оправдан для сложных консультационных задач, где каждый ответ раскрывает новые детали.
⚠️ Не заменяет экспертизу: Модель DotaGPT показала высокие результаты (7.8-8.5 из 10), но авторы настаивают на осторожности в реальном применении. Это ассистент врача, не замена врача. Аналогично для бизнеса — структурирование workflow через LLM помогает, но критические решения требуют человеческой экспертизы.
Как исследовали
Команда из Китайского университета Гонконга (Шэньчжэнь) провела двухэтапный опрос практикующих врачей. Сначала организовали симпозиум с 16 медицинскими экспертами, которые разбили workflow на 4 фазы и предложили набор задач. Потом опросили 82 врача из 13 больниц третьего уровня (после фильтрации осталось 71 валидный ответ). Врачи оценивали каждую из 22 задач по шкале 1-5, где 5 = "помощь LLM критична для эффективности". Почти все задачи получили оценку выше 4, что подтвердило релевантность.
Датасет собрали из трёх источников: медицинские тестовые вопросы (Medtiku.com), медицинская энциклопедия (120ask.com), существующие датасеты (PromptCBLUE). После дедупликации (Jaccard similarity > 0.8) получили сырых данных, которые мапили на 22 задачи через regex. Интересная деталь: regex-паттерны итеративно улучшали — врач проверял 50 примеров, давал фидбек, паттерны корректировали, пока точность не достигла 95% согласия с экспертной разметкой.
Дальше — Reference-Enhanced Refinement: GPT-4 улучшал ответы, опираясь на референсы (учебники, клинические случаи). Но просто взять output GPT-4 — рискованно. Поэтому три врача вручную проверили 1050 ответов (по 350 каждый, плюс старший эксперт потратил 10 часов на надзор). Результат: 100% корректности и 99.9% практичности — только в одном случае врач написал "недостаточно деталей". Это показало что GPT-4 хорош для улучшения, но сложные медицинские контексты иногда требуют дополнительной экспертной доработки.
Для мультитёрнового бенчмарка (DotaBench) взяли датасет CMB-Clin с реальными медицинскими записями. Но там были разрозненные Q&A пары без контекстной связи. Врачи вручную переструктурировали их в связные 3-тёрновые диалоги, имитирующие реальную консультацию. Важно: в DotaBench LLM вообще не участвовали в генерации — только люди, чтобы исключить bias.
Обучили две модели: Yi-6B и Baichuan2-7B на 92k медицинских примеров + 101k общих инструкций (Evol-instruct, ShareGPT) + 51k медицинских вопросов (CMExam). Тренировали 3 эпохи на 4x A100. Оценивали автоматически (GPT-4 как судья по 4 критериям: точность, связность, релевантность, полнота) и вручную (6 врачей, каждый оценил ~90 вопросов для 6 моделей).
Почему результаты такие? Оказалось что модели типа BianQue-2 и HuatuoGPT, обученные на диалогах "врач-пациент", проваливаются на задачах помощи врачам (4.1-5.9 из 10). Причина: онлайн-консультации покрывают только узкий срез workflow — в основном пре-диагностику. А задачи вроде планирования операции или интерпретации анализов требуют глубоких знаний, которых в диалогах мало. DotaGPT, обученная на специализированном датасете, показала +25% на Baichuan2-7B именно на фазах диагностики и лечения — там где другие проваливались.
Интересный инсайт: тонкая настройка на медицине не всегда помогает. DISC-MedLLM, специализированная медицинская модель на Baichuan-13B, хуже (4.24) чем базовый Baichuan-13B-Chat (6.57). Авторы предполагают что чрезмерная специализация может навредить — нужен баланс между доменным знанием и общей адаптивностью.
Корреляция между автоматической и ручной оценкой: Pearson r = 0.82 (p < 0.01) — высокая согласованность. Это подтверждает что GPT-4 как судья работает надёжно для таких задач.
Ресурсы
Enabling Doctor-Centric Medical AI with LLMs through Workflow-Aligned Tasks and Benchmarks — Wenya Xie, Qingying Xiao, Yu Zheng, Xidong Wang, Junying Chen, Ke Ji, Anningzhe Gao, Prayag Tiwari, Xiang Wan, Feng Jiang, Benyou Wang | The Chinese University of Hong Kong, Shenzhen; Shenzhen Research Institute of Big Data; National Health Data Institute; Halmstad University; Shenzhen University of Advanced Technology
Датасеты: DoctorFLAN, DotaBench Код: DotaGPT GitHub
