TL;DR
Practitioner-in-the-Loop — метод интеграции прозрачных предсказательных моделей с LLM для получения точных и понятных индивидуальных рекомендаций. Вместо непрозрачных ML-алгоритмов используется decision tree (дерево решений), структура которого подаётся в LLM вместе с данными конкретного случая. LLM генерирует объяснение на естественном языке: почему такой прогноз, какие факторы влияют, что делать. Эксперты участвуют на всех этапах — от выбора признаков до проверки объяснений.
Обычные ML-модели дают хорошие предсказания, но работают как чёрные ящики — непонятно почему модель так решила. Это убивает доверие практиков, особенно в чувствительных областях (образование, медицина, HR). Традиционные статистические подходы объясняют общие паттерны, но не дают конкретных рекомендаций для отдельного случая. LLM сами по себе могут объяснять, но без структуры модели их точность падает на 15-25%.
Метод решает это через связку из трёх элементов: (1) прозрачная модель показывает какие факторы важны, (2) LLM переводит это в понятные объяснения с рекомендациями, (3) база знаний из опыта экспертов улучшает релевантность советов. Результат: точность как у сложных моделей (88-90%), но с полной прозрачностью и доверием практиков. Добавление базы знаний повышает оценку безопасности на целый балл по 5-балльной шкале (+0.93).
Схема метода
ШАГ 1: Эксперты → выбирают признаки и проверяют модель
ШАГ 2: Decision tree → предсказание + путь решения
Вывод: класс (например "риск"), вероятность, ключевые факторы
ШАГ 3: LLM + структура дерева + данные случая + база знаний → объяснение
Вывод: текст с логикой, драйверами, пороговыми значениями, рекомендациями
ШАГ 4: Эксперты → оценивают объяснения, корректируют промпт
Цикл: повторить ШАГ 3-4 до качества
Все шаги выполняются последовательно. Decision tree тренируется один раз (нужен код). LLM вызывается для каждого случая отдельно (можно в чате).
Пример применения
Задача: HR-менеджер Екатерина из IT-компании в Новосибирске хочет понять, кто из сотрудников рискует уволиться в ближайшие полгода, чтобы вовремя провести удерживающие беседы.
Промпт:
Ты — эксперт-аналитик по удержанию персонала в IT.
Моя задача: оценить риск увольнения сотрудника.
Данные сотрудника:
- Возраст: 28 лет
- Стаж в компании: 1.5 года
- Последнее повышение: 14 месяцев назад
- Текущая зарплата: 180k (процентиль 35% среди позиции)
- Участие в проектах: 2 из последних 5 — рутинные задачи
- NPS по опросу удовлетворённости: 6/10
- Пропуски корпоративов: 3 из последних 4
База знаний (практики удержания):
- Зарплата ниже рынка + отсутствие роста >1 года = высокий риск
- Рутинные задачи >60% времени → выгорание → поиск новой работы
- NPS <7 + избегание соцактивностей = низкая вовлечённость
- Эффективные действия: пересмотр зарплаты до 50-75 процентиля, перевод на интересный проект, разговор о карьерном плане
Твоя задача:
1. Оцени риск увольнения (низкий/средний/высокий) с вероятностью
2. Объясни логику: какие факторы главные, какие пограничные
3. Дай 3-5 конкретных действий для HR с приоритетами
Формат ответа:
- Риск: [уровень] ([вероятность]%)
- Логика: пошаговое объяснение через ключевые пороги
- Драйверы риска: топ-5 факторов с весом
- Пограничные факторы: что может изменить прогноз
- Действия: конкретные шаги с приоритетом (1-3)
Результат:
LLM выдаст:
- Классификацию с вероятностью (например: "Высокий риск, 78%")
- Пошаговую логику: "Зарплата в нижней трети → низкая вовлечённость → избегание социальных активностей → комбинация даёт высокий риск"
- Топ-5 драйверов с объяснением веса каждого
- Пороговые значения: "Если поднять зарплату до 50 процентиля — риск падает до среднего"
- Конкретные действия: "1) Срочно: пересмотр зарплаты +15-20%. 2) Неделя: разговор о переводе на новый проект. 3) Месяц: составить карьерный план на год."
База знаний делает советы безопасными (не предложит что-то неуместное) и релевантными (учтёт специфику компании и рынка).
Почему это работает
LLM плохо предсказывает "в лоб" из сырых данных — точность падает на 15-25% по сравнению со специализированной моделью. Модель видит нелинейные связи и пороги, которые LLM упускает. Но модель выдаёт сухие числа, а практику нужны слова и действия.
LLM отлично переводит структурированную информацию в понятные объяснения. Если дать LLM готовую логику решения (какие пороги сработали, какие факторы важны), она упакует это в связный текст с рекомендациями. База знаний — это контекст из опыта экспертов, который LLM использует через in-context learning. Вместо абстрактных советов модель даёт конкретные действия, проверенные на практике.
Practitioner-in-the-loop гарантирует что модель учитывает реальность. Эксперты на входе выбирают правильные признаки (не включают то что на практике не работает), на выходе проверяют объяснения (ловят галлюцинации и неуместные советы). Это не "проверка результата", а участие в дизайне — модель строится вместе с теми кто будет её использовать.
Рычаги управления:
База знаний — главный рычаг качества. Чем детальнее описаны практики, тем точнее советы. В исследовании база знаний повысила оценку безопасности на +0.93, честности на +0.54, точности на +0.60 по 5-балльной шкале. Для своей задачи опиши: что работает, что не работает, какие действия эффективны, какие пороговые значения важны.
Формат вывода — влияет на удобство. "Топ-5 драйверов", "пограничные факторы", "конкретные действия" — такая структура помогает быстро сканировать результат. Можно упростить до "риск + 3 действия" для скорости или расширить до детального разбора для сложных случаев.
Уровень детализации объяснения — баланс между полнотой и скоростью. "Объясни каждый шаг" даёт прозрачность, но занимает время. "Только итог и топ-3 фактора" быстрее, но менее понятно почему. Адаптируй под задачу: для обучения джуниоров — детально, для опытных — кратко.
Шаблон промпта
Ты — {роль эксперта в этой области}.
Моя задача: {что нужно оценить/предсказать}.
Данные случая:
{список признаков с значениями}
База знаний ({источник знаний}):
{практики, правила, пороги, эффективные действия}
Твоя задача:
1. Оцени {исход} (варианты классов) с вероятностью
2. Объясни логику: какие факторы главные, какие пограничные
3. Дай {число} конкретных действий с приоритетами
Формат ответа:
- {Исход}: [класс] ([вероятность]%)
- Логика: пошаговое объяснение через ключевые пороги
- Драйверы {исхода}: топ-{N} факторов с весом
- Пограничные факторы: что может изменить прогноз
- Действия: конкретные шаги с приоритетом (1-{число})
Что подставлять:
{роль эксперта}— специалист в твоей области (HR, продажи, кредитный риск-менеджер){что оценить}— конкретная задача (риск увольнения, вероятность покупки, шанс дефолта){признаки}— данные случая в формате "название: значение"{база знаний}— твои правила и практики из опыта{исход}— что предсказываешь (риск, класс, категория){число}и{N}— сколько рекомендаций и факторов нужно
🚀 Быстрый старт — вставь в чат:
Вот шаблон Practitioner-in-the-Loop. Адаптируй под мою задачу: [опиши свою задачу в 1-2 предложениях].
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит какие признаки важны для твоей задачи, что измеряешь, какие у тебя есть практики и правила. Это нужно чтобы заполнить "Данные случая" и "Базу знаний" — без этого модель не поймёт специфику. Она возьмёт паттерн из шаблона (структуру объяснения, формат вывода) и адаптирует под твою область.
Ограничения
⚠️ Требует базы знаний для качества: LLM без контекста даёт общие советы, которые могут быть неуместными или опасными. В исследовании объяснения без базы знаний получили на балл ниже по безопасности и честности. Нужно описать свои практики — что работает, что нет, какие действия эффективны.
⚠️ Точность зависит от признаков: Если важные факторы не включены в данные, модель промахнётся. В примере с HR: если не учесть зарплату относительно рынка — пропустим главный драйвер увольнений. Practitioner-in-the-loop помогает выбрать правильные признаки, но это требует времени экспертов.
⚠️ LLM alone работает хуже: Прямое предсказание через LLM без структуры модели падает по точности на 15-25%. Для сложных задач с нелинейными связями нужна специализированная модель (decision tree или другая). LLM хороша для объяснений, не для предсказаний из сырых данных.
⚠️ Не для задач с быстро меняющимся контекстом: Если правила меняются каждую неделю (например, алгоритмы соцсетей, биржевая торговля), базу знаний придётся постоянно обновлять. Метод лучше работает для относительно стабильных областей — HR, образование, кредитный риск, где паттерны держатся месяцами-годами.
Как исследовали
Команда взяла данные программы стипендий для 2,245 студентов с 2004 года. Программа помогает талантливым ребятам с низким доходом закончить университет за 4 года. Каждый семестр студенты заполняют опросник: оценки, финансы, проблемы. Кейс-менеджеры смотрят на простой риск-скор и решают кому помочь.
Задача: предсказать кто не закончит вовремя (25% студентов) и объяснить почему так, чтобы менеджер знал что делать.
Исследователи построили decision tree модель через grid search — перебрали тысячи комбинаций параметров (глубина дерева, критерий разбиения, минимум случаев в листе), выбрали лучшую по F1-score через кросс-валидацию. Модель показала 88-90% точности на тестовых данных разных годов. Для сравнения: LLM (GPT-o3) прямо из данных — только 63-75%. Разница в 15-25% — это цена за отказ от специализированной модели.
Потом LLM объясняла предсказания дерева. Два варианта промпта: (1) только структура дерева + данные студента, (2) то же + база знаний программы (какие ресурсы есть, какие действия работают). Три менеджера оценили 30 объяснений по 8 критериям (полезность, прозрачность, безопасность) по шкале 1-5.
Результат удивил: база знаний не ускорила работу (Время: +0.07, незначимо) и не улучшила ясность (Ясность: -0.13, незначимо), но резко подняла доверие — Безопасность: +0.93, Честность: +0.54, Точность: +0.60 (все p<0.05). Почему? Без контекста LLM давала общие советы типа "повысить GPA" — технически верно, но бесполезно ("Как именно?!"). С базой знаний: "GPA 2.4 — чуть ниже порога 2.5 для программы тьюторинга. Запиши студента на математику + личная встреча обсудить загруженность работой". Конкретика = доверие.
Инсайт для практики: база знаний — это не про скорость, а про безопасность и релевантность. LLM умеет генерировать текст, но не знает что уместно в твоём контексте. Контекст из опыта экспертов убирает галлюцинации и неподходящие советы.
Ресурсы
Integrating Transparent Models, LLMs, and Practitioner-in-the-Loop: A Case of Nonprofit Program Evaluation — Ji Ma (University of Texas at Austin, University of Oxford), Albert Casella (Michael & Susan Dell Foundation).
Датасет и код decision trees: Open Science Framework
