3,583 papers
arXiv:2510.16081 79 17 окт. 2025 г. FREE

Multi-Stage Counseling Framework: управляемый диалог с проверками на каждом этапе

КЛЮЧЕВАЯ СУТЬ
Проблема: LLM спешит дать совет, не собрав критичные данные. В медицинском исследовании модель пропустила важные вопросы в 15% случаев — результат: 14 противопоказанных рекомендаций из 169 диалогов. Если забыть спросить про аллергию — посоветует опасный препарат. Multi-Stage Counseling позволяет получить обоснованную рекомендацию с гарантией полноты данных — модель не перейдёт к выводам, пока не соберёт всё критичное. Метод разбивает беседу на 5 жёстких этапов с проверками перехода. Сначала цель, потом приоритеты, потом ограничения, анализ, проверка понимания. На каждом этапе явная цель и условие перехода — pass rate вырос с 85% до 98%, пропуски критичных вопросов исчезли.
Адаптировать под запрос

TL;DR

Multi-Stage Counseling Framework — техника организации консультационного диалога через жёсткую последовательность этапов. LLM ведёт беседу по заданному плану: сначала выясняет контекст и цели, затем собирает критичные данные (предпочтения, ограничения), анализирует собранную информацию на основе внешней базы знаний, даёт рекомендацию и на финальном этапе проверяет понимание. Каждый этап завершается проверкой — готов ли пользователь перейти дальше.

LLM плохо работает в "свободной беседе" для задач, где важна полнота данных и точность рекомендаций. Модель может забыть спросить про критичные ограничения, дать совет на основе неполной информации или уйти в сторону от темы. В медицине это опасно — пропущенный вопрос про аллергию может привести к вредной рекомендации. В обычной версии (baseline с naive prompting) модель пропускала важные вопросы в 15% случаев и давала противопоказанные рекомендации в 14 из 169 диалогов.

Метод разбивает беседу на 5 фиксированных этапов, каждый с явной целью и проверкой завершения. LLM получает две инструкции: (1) какой этап сейчас активен и какую информацию нужно собрать, (2) как проверить готовность перехода на следующий этап. Дополнительно используется внешняя база знаний (загруженные документы) для точных рекомендаций и "thought injection" — явное задание логики рассуждений в промпте.


🔬

Схема метода

ЭТАП 1: Сбор контекста 
→ Определение цели пользователя (конкретное решение или общая информация?)

ЭТАП 2: Скрининг предпочтений 
→ Выявление приоритетов (цена, удобство, побочные эффекты)

ЭТАП 3: Скрининг ограничений 
→ Сбор критичных данных (медицинская история, противопоказания)

ЭТАП 4: Анализ и рекомендация 
→ Структурированное рассуждение с учётом всех данных 
→ Рекомендация с обоснованием

ЭТАП 5: Проверка понимания 
→ Генерация итогового резюме

Проверки на каждом этапе:
✓ Guardrail 1: Завершил ли LLM этап вопросом, ведущим к следующему?
✓ Guardrail 2: Учитывает ли рекомендация все собранные данные?

Все этапы выполняются в одном диалоге. Модель переходит к следующему этапу только после получения полных ответов на текущем.


🚀

Пример применения

⚠️ Метод НЕ работает для простых задач — если вопрос решается за 1-2 реплики, структура избыточна. Сильная зона: консультирование с множеством переменных и высокой ценой ошибки.

Задача: Основатель стартапа хочет выбрать тариф Яндекс.Облака, но не разбирается в технических деталях. Нужна консультация с учётом бюджета, текущей нагрузки и планов роста — если выбрать неправильно, либо переплатишь, либо сервис ляжет при росте трафика.

Промпт:

Ты — консультант по облачным решениям. Проведи меня через выбор тарифа Яндекс.Облака, 
используя 5-этапный процесс:

ЭТАП 1: Цель
- Я уже знаю что хочу, или мне нужна общая информация?
- Какая задача: разработка, продакшн, тестирование?

ЭТАП 2: Приоритеты
- Что важнее: цена, производительность, гибкость масштабирования?
- Есть ли критичные требования (compliance, локация данных)?

ЭТАП 3: Ограничения
- Какой бюджет на месяц?
- Текущая или ожидаемая нагрузка (пользователи, трафик, данные)?
- Планы роста на 6-12 месяцев?

ЭТАП 4: Анализ и рекомендация
На основе собранных данных:
1. Оцени объём ресурсов (CPU, RAM, Storage)
2. Сравни доступные тарифы
3. Дай рекомендацию с обоснованием
4. Укажи риски и альтернативы

ЭТАП 5: Проверка
Резюмируй выбор и спроси, всё ли понятно.

Переходи к следующему этапу ТОЛЬКО когда я дал полные ответы на текущий. 
В конце каждого этапа задавай вопрос, ведущий к следующему.

База знаний:
[Прикрепить документ с описанием тарифов Яндекс.Облака или вставить текст]

Начни с Этапа 1.

Результат: Модель проведёт структурированную беседу в 5 этапов. На каждом этапе будет задавать конкретные вопросы и не перейдёт дальше без полных ответов. Например, на Этапе 1 спросит про задачу и цель, завершит вопросом "Готов перейти к обсуждению приоритетов?". На Этапе 4 даст обоснованную рекомендацию с расчётом ресурсов и указанием, что учтено (бюджет 50к/мес, рост на 3x за полгода, нужна РФ-локация). Финальное резюме можно скопировать для обсуждения с командой.


🧠

Почему это работает

LLM в свободной беседе склонна к information drift — постепенному смещению фокуса. Пользователь задаёт вопрос, модель отвечает, но не собирает всю критичную информацию. Результат — рекомендация на основе неполных данных. В медицине это опасно (пропущенные противопоказания), в бизнесе — неэффективно (выбор не под реальные нужды). Модель может дать совет уже на 2-й реплике, не спросив про бюджет или планы роста.

Сильная сторона LLM — следовать явным структурированным инструкциям. Если задать чёткий план ("сначала спроси X, потом Y, потом Z") и условия перехода ("переходи дальше только когда..."), модель выполнит последовательность. Это как дать LLM чек-лист вместо размытой цели "помоги выбрать".

Метод использует эту силу через stage gating — контроль переходов между этапами. LLM знает: на этапе 2 нельзя давать рекомендацию, можно только собирать предпочтения. Это снижает hallucination (нет данных → нет выводов) и повышает completeness (все этапы пройдены → все данные собраны). В исследовании pass rate вырос с 85% до 98%, пропуски критичных вопросов исчезли.

Рычаги управления промптом:

  1. Количество этапов — уменьши для простых задач (3 вместо 5 для "выбрать хостинг"), увеличь для сложных (7 для "M&A сделка")
  2. Условия перехода — строгие ("все вопросы ответил") vs мягкие ("основное понял") — первое для критичных задач
  3. База знаний — загрузи документы для точных рекомендаций (прайс-листы, техдоки) или работай на знаниях LLM
  4. Guardrails — добавь проверки ("учтены ли все ограничения?", "есть ли риски?") для высокой цены ошибки

📋

Шаблон промпта

Ты — {роль консультанта}. Проведи меня через {задачу}, используя {N}-этапный процесс:

ЭТАП 1: {Название этапа}
- {Вопрос 1}
- {Вопрос 2}
Цель: {что нужно выяснить}

ЭТАП 2: {Название этапа}
- {Вопрос 1}
- {Вопрос 2}
Цель: {что нужно выяснить}

[Повтори для всех этапов]

ЭТАП {N}: {Финальный этап}
- {Действие на финальном этапе}

Правила перехода:
- Переходи к следующему этапу ТОЛЬКО когда я дал полные ответы на текущий
- В конце каждого этапа задавай вопрос, ведущий к следующему
- На этапе анализа используй все собранные данные

База знаний:
{Прикрепить документ или вставить ключевую информацию}

Начни с Этапа 1.

Заполнение:

  • {роль консультанта} — "консультант по выбору CRM", "карьерный советник", "финансовый консультант"
  • {задачу} — "выбор CRM для малого бизнеса", "смена профессии", "выбор брокера"
  • {N} — количество этапов (обычно 3-5)
  • {Название этапа}, {Вопрос 1-2}, {что нужно выяснить} — конкретизируй под свою задачу
  • {База знаний} — прикрепи PDF или вставь текст с фактами для рекомендаций

🚀 Быстрый старт — вставь в чат:

Вот шаблон Multi-Stage Counseling Framework. Адаптируй под мою задачу: [твоя задача]. 
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит какие этапы нужны, какие вопросы задавать на каждом этапе, и какую базу знаний использовать — потому что для разных задач критична разная информация (в медицине — противопоказания, в бизнесе — бюджет и рост, в карьере — навыки и рынок). Она возьмёт паттерн из шаблона и адаптирует под задачу.


⚠️

Ограничения

⚠️ Не для простых задач: Если вопрос решается за 1-2 реплики ("столица Франции?", "курс доллара?"), 5-этапный процесс избыточен. Используй для задач, где важна полнота данных и обоснованность рекомендации.

⚠️ Требует дисциплины от пользователя: Метод работает, если пользователь отвечает на все вопросы. Если пропускать этапы или давать неполные ответы ("не знаю", "неважно"), рекомендация будет неточной. Модель не экстрасенс — garbage in, garbage out.

⚠️ База знаний критична для специфических доменов: Для медицины, финансов, tech модель без документов может hallucinate факты (устаревшие цены, неточные противопоказания). Загрузи актуальную информацию или явно ограничь область рекомендаций ("только общие принципы, конкретику уточни у специалиста").


🔍

Как исследовали

Исследователи из UNC School of Nursing построили SARHAchat — чатбот для консультирования по выбору методов контрацепции — и протестировали на 169 диалогах. Сравнивали с baseline: обычный ChatGPT с загруженными медицинскими документами (naive prompting без структуры этапов).

Два типа тестов:

  1. Контролируемое тестирование — реальные медсёстры и врачи общались с ботом как пациенты
  2. Синтетические диалоги — симулировали пациентов с разными медицинскими историями, предпочтениями, противопоказаниями

Медицинские эксперты оценивали каждый диалог по двум критериям:

  • Medical safety (медицинская безопасность) — точность рекомендаций, отсутствие опасных советов, полнота скрининга
  • Conversational quality (качество беседы) — естественность диалога, эмпатия, логичность переходов

Результаты показали резкий скачок: pass rate вырос с 85% до 98%. Что важнее — в baseline модель 14 раз рекомендовала противопоказанные методы контрацепции (опасно для здоровья!), в новой версии — ноль случаев. Также исчезли пропуски критичных вопросов про медицинскую историю (1 случай в baseline → 0 в новой версии). Ошибки в критичной информации упали с 11 до 3.

Почему такая разница? Baseline работал как "ChatGPT + документы" — модель могла уйти в сторону, пропустить вопросы, дать совет до сбора всех данных. Пациент спросил про "что-то удобное" → модель сразу рекомендовала таблетки, не спросив про курение и давление (противопоказание!). Structured flow заставил модель следовать строгому плану: сначала весь скрининг (этапы 1-3), потом анализ, потом рекомендация. Это не дало модели "срезать углы".

Инсайт для практики: Жёсткая структура этапов критична, когда цена ошибки высока. В медицине, финансах, юридических консультациях лучше перестраховаться и собрать все данные, чем дать быстрый, но неточный совет. Conversational quality тоже выросла (89% → 99% satisfactory) — пользователи оценили предсказуемость и полноту беседы.


🔗

Ресурсы

SARHAchat: An LLM-Based Chatbot for Sexual and Reproductive Health Counseling Демо системы: https://sarhachat.com/

Ссылки из исследования:

Jiaye Yang, Xinyu Zhao, Tianlong Chen, Kandyce Brennan — University of North Carolina at Chapel Hill


📋 Дайджест исследования

Ключевая суть

Проблема: LLM спешит дать совет, не собрав критичные данные. В медицинском исследовании модель пропустила важные вопросы в 15% случаев — результат: 14 противопоказанных рекомендаций из 169 диалогов. Если забыть спросить про аллергию — посоветует опасный препарат. Multi-Stage Counseling позволяет получить обоснованную рекомендацию с гарантией полноты данных — модель не перейдёт к выводам, пока не соберёт всё критичное. Метод разбивает беседу на 5 жёстких этапов с проверками перехода. Сначала цель, потом приоритеты, потом ограничения, анализ, проверка понимания. На каждом этапе явная цель и условие перехода — pass rate вырос с 85% до 98%, пропуски критичных вопросов исчезли.

Принцип работы

Модель получает не размытую цель «помоги выбрать», а чёткий план из 5 этапов. Каждый этап — отдельная задача: Этап 1 «Контекст» — выясни цель пользователя. Этап 2 «Приоритеты» — собери предпочтения (цена, удобство, риски). Этап 3 «Ограничения» — критичные данные (бюджет, медицинская история, планы роста). Переход к следующему этапу только когда все вопросы текущего получили полные ответы. Это называется stage gating — контроль переходов между этапами. Модель не может дать рекомендацию на Этапе 2, она ещё собирает данные. Финальный Этап 4 «Анализ» — рекомендация на основе всех собранных данных с обоснованием.

Почему работает

LLM в свободной беседе склонна к information drift — постепенному смещению фокуса. Пользователь спрашивает, модель отвечает, но не собирает критичную информацию. Модель может дать совет уже на 2-й реплике, не спросив про бюджет или противопоказания. Сильная сторона LLM — следовать явным структурированным инструкциям. Если задать чёткий план («сначала спроси X, потом Y, только потом Z») и условия перехода, модель выполнит последовательность. Это как дать LLM чек-лист вместо размытой цели. Жёсткие этапы снижают hallucination (нет данных → нет выводов) и повышают полноту (все этапы пройдены → все данные собраны). В исследовании противопоказанные рекомендации упали с 14 до единиц, pass rate 98%.

Когда применять

Консультирование и рекомендательные задачи → конкретно для выбора с множеством переменных (медицина, финансы, tech-решения, карьера), особенно когда высокая цена ошибки или нужна обоснованность рекомендации. Работает для выбора тарифа облака, CRM, инвестиционной стратегии, смены профессии. НЕ подходит для простых вопросов решаемых за 1-2 реплики («столица Франции?», «курс доллара?») — 5-этапный процесс избыточен.

Мини-рецепт

1. Определи этапы под задачу: для медицины — контекст, предпочтения, медистория, анализ, резюме (5 этапов). Для выбора CRM — цель, приоритеты, бюджет и нагрузка, рекомендация (4 этапа). Для простых задач — 3 этапа.

2. На каждый этап задай цель и вопросы: Этап 1 «Контекст» — какая задача? Уже знаешь что хочешь или нужна общая информация? Этап 2 «Приоритеты» — что важнее: цена, производительность, удобство?

3. Добавь условия перехода: Переходи к следующему этапу ТОЛЬКО когда я дал полные ответы на текущий. В конце каждого этапа задавай вопрос, ведущий к следующему.

4. Загрузи базу знаний: для tech — прайс-листы тарифов, для медицины — документы с противопоказаниями, для карьеры — данные рынка труда. Или явно ограничь: только общие принципы, конкретику уточни у специалиста.

5. Добавь проверки (guardrails): На этапе анализа используй ВСЕ собранные данные. Укажи что учтено: бюджет, ограничения, приоритеты. Укажи риски и альтернативы.

Примеры

[ПЛОХО] : Посоветуй тариф Яндекс.Облака для моего стартапа (модель даст общий совет без уточнения бюджета, нагрузки, планов роста — рекомендация может быть неточной)
[ХОРОШО] : Ты — консультант по облачным решениям. Проведи меня через выбор тарифа Яндекс.Облака, используя 4-этапный процесс: ЭТАП 1 (Цель): Я уже знаю что хочу, или нужна общая информация? Какая задача: разработка, продакшн, тестирование? ЭТАП 2 (Приоритеты): Что важнее: цена, производительность, гибкость масштабирования? Есть ли критичные требования (compliance, локация данных)? ЭТАП 3 (Ограничения): Какой бюджет на месяц? Текущая или ожидаемая нагрузка? Планы роста на 6-12 месяцев? ЭТАП 4 (Рекомендация): На основе собранных данных оцени объём ресурсов, сравни тарифы, дай рекомендацию с обоснованием. Укажи риски и альтернативы. Переходи к следующему этапу ТОЛЬКО когда я дал полные ответы. База знаний: [прикрепить прайс Яндекс.Облака]. Начни с Этапа 1.
Источник: SARHAchat: An LLM-Based Chatbot for Sexual and Reproductive Health Counseling
ArXiv ID: 2510.16081 | Сгенерировано: 2026-01-11 23:55

Концепты не выделены.

📖 Простыми словами

Multi-Stage Counseling Framework: управляемый диалог с проверками на каждом этапе

arXiv: 2510.16081

Суть метода SARHAchat в том, что нейронку превращают из болтливого собеседника в строгого системного консультанта через Multi-Stage Counseling Framework. Обычная LLM — это хаос: она пытается угадать ответ сразу, пропуская важные детали. Здесь же её заставляют идти по жесткому алгоритму: сначала вытянуть из тебя контекст, потом собрать критические данные, свериться с базой знаний и только в самом конце выдать рекомендацию. Пока модель не поставит «галочку» на текущем этапе, она не имеет права переходить к следующему. Это лечит главную болезнь нейросетей — information drift, когда модель уплывает в дебри, забыв спросить о самом важном.

Это как визит к опытному врачу, который не дает таблетку с порога, а сначала мучает тебя вопросами. Формально ты пришел за рецептом, но врач знает: если не спросить про аллергию или образ жизни, совет может тебя убить. Обычный чат-бот ведет себя как первокурсник-энтузиаст: услышал знакомое слово и сразу вывалил гору советов. Метод SARHAchat надевает на этот поток сознания «смирительную рубашку» логики, заставляя модель работать как профессиональный фильтр, который не пропускает мусор на вход.

В основе лежат три кита: сбор контекста, анализ ограничений и проверка понимания. Сначала бот выясняет, чего ты вообще хочешь, потом собирает твои «нельзя» и «хочу» (например, противопоказания в медицине или бюджет в бизнесе), и только потом лезет во внешнюю базу знаний. Главная фишка — контрольные точки. Модель буквально спрашивает себя: «Я всё узнал, чтобы двигаться дальше?». Если нет — она возвращает разговор в нужное русло, игнорируя попытки пользователя соскочить с темы. Это гарантирует, что финальный совет будет основан на фактах, а не на галлюцинациях.

Хотя систему гоняли на вопросах репродуктивного здоровья, принцип универсален. Эту схему можно и нужно внедрять в любые сложные продажи, техподдержку или юридические консультации — везде, где цена ошибки высока. Если задача решается в один клик, метод будет только бесить своей дотошностью, но в многослойных темах он незаменим. SEO для роботов, логика для людей — это переход от простых чат-ботов к экспертным системам, которые не просто имитируют общение, а реально решают проблему.

Короче: хватит надеяться на «авось» и промпты в духе «будь экспертом». Нужно строить жесткий каркас диалога, где модель обязана собрать пазл из данных перед тем, как открыть рот. Многоэтапность и верификация — единственный способ заставить LLM выдавать результат, за который не стыдно. Кто продолжит использовать ботов как «свободных художников» в серьезных нишах, тот быстро обнаружит, что клиенты уходят к тем, кто умеет задавать правильные вопросы.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с