3,583 papers
arXiv:2510.19799 83 22 окт. 2025 г. FREE

Practitioner-in-the-Loop: прозрачные модели + LLM + база знаний

КЛЮЧЕВАЯ СУТЬ
ML-модели точные, но работают как черный ящик — непонятно почему такое решение. LLM объясняют хорошо, но если предсказывают сами из сырых данных — точность падает на 15-25%. Practitioner-in-the-Loop позволяет получать точные предсказания (88-90%) с полным пониманием логики и конкретными действиями. Фишка связки: дерево решений делает предсказание и показывает логику → LLM берет эту структуру + базу знаний экспертов → генерирует объяснение на естественном языке. Результат: HR-менеджер видит не просто "риск увольнения 78%", а пошаговую логику, топ-5 драйверов и конкретные действия с приоритетами ("срочно: пересмотр зарплаты +15-20%", "неделя: разговор о новом проекте").
Адаптировать под запрос

TL;DR

Practitioner-in-the-Loop — метод интеграции прозрачных предсказательных моделей с LLM для получения точных и понятных индивидуальных рекомендаций. Вместо непрозрачных ML-алгоритмов используется decision tree (дерево решений), структура которого подаётся в LLM вместе с данными конкретного случая. LLM генерирует объяснение на естественном языке: почему такой прогноз, какие факторы влияют, что делать. Эксперты участвуют на всех этапах — от выбора признаков до проверки объяснений.

Обычные ML-модели дают хорошие предсказания, но работают как чёрные ящики — непонятно почему модель так решила. Это убивает доверие практиков, особенно в чувствительных областях (образование, медицина, HR). Традиционные статистические подходы объясняют общие паттерны, но не дают конкретных рекомендаций для отдельного случая. LLM сами по себе могут объяснять, но без структуры модели их точность падает на 15-25%.

Метод решает это через связку из трёх элементов: (1) прозрачная модель показывает какие факторы важны, (2) LLM переводит это в понятные объяснения с рекомендациями, (3) база знаний из опыта экспертов улучшает релевантность советов. Результат: точность как у сложных моделей (88-90%), но с полной прозрачностью и доверием практиков. Добавление базы знаний повышает оценку безопасности на целый балл по 5-балльной шкале (+0.93).

🔬

Схема метода

ШАГ 1: Эксперты → выбирают признаки и проверяют модель

ШАГ 2: Decision tree → предсказание + путь решения
Вывод: класс (например "риск"), вероятность, ключевые факторы

ШАГ 3: LLM + структура дерева + данные случая + база знаний → объяснение
Вывод: текст с логикой, драйверами, пороговыми значениями, рекомендациями

ШАГ 4: Эксперты → оценивают объяснения, корректируют промпт
Цикл: повторить ШАГ 3-4 до качества

Все шаги выполняются последовательно. Decision tree тренируется один раз (нужен код). LLM вызывается для каждого случая отдельно (можно в чате).

🚀

Пример применения

Задача: HR-менеджер Екатерина из IT-компании в Новосибирске хочет понять, кто из сотрудников рискует уволиться в ближайшие полгода, чтобы вовремя провести удерживающие беседы.

Промпт:

Ты — эксперт-аналитик по удержанию персонала в IT.

Моя задача: оценить риск увольнения сотрудника.

Данные сотрудника:
- Возраст: 28 лет
- Стаж в компании: 1.5 года 
- Последнее повышение: 14 месяцев назад
- Текущая зарплата: 180k (процентиль 35% среди позиции)
- Участие в проектах: 2 из последних 5 — рутинные задачи
- NPS по опросу удовлетворённости: 6/10
- Пропуски корпоративов: 3 из последних 4

База знаний (практики удержания):
- Зарплата ниже рынка + отсутствие роста >1 года = высокий риск
- Рутинные задачи >60% времени → выгорание → поиск новой работы 
- NPS <7 + избегание соцактивностей = низкая вовлечённость
- Эффективные действия: пересмотр зарплаты до 50-75 процентиля, перевод на интересный проект, разговор о карьерном плане

Твоя задача:
1. Оцени риск увольнения (низкий/средний/высокий) с вероятностью
2. Объясни логику: какие факторы главные, какие пограничные
3. Дай 3-5 конкретных действий для HR с приоритетами

Формат ответа:
- Риск: [уровень] ([вероятность]%)
- Логика: пошаговое объяснение через ключевые пороги
- Драйверы риска: топ-5 факторов с весом
- Пограничные факторы: что может изменить прогноз
- Действия: конкретные шаги с приоритетом (1-3)

Результат:

LLM выдаст:

  • Классификацию с вероятностью (например: "Высокий риск, 78%")
  • Пошаговую логику: "Зарплата в нижней трети → низкая вовлечённость → избегание социальных активностей → комбинация даёт высокий риск"
  • Топ-5 драйверов с объяснением веса каждого
  • Пороговые значения: "Если поднять зарплату до 50 процентиля — риск падает до среднего"
  • Конкретные действия: "1) Срочно: пересмотр зарплаты +15-20%. 2) Неделя: разговор о переводе на новый проект. 3) Месяц: составить карьерный план на год."

База знаний делает советы безопасными (не предложит что-то неуместное) и релевантными (учтёт специфику компании и рынка).

🧠

Почему это работает

LLM плохо предсказывает "в лоб" из сырых данных — точность падает на 15-25% по сравнению со специализированной моделью. Модель видит нелинейные связи и пороги, которые LLM упускает. Но модель выдаёт сухие числа, а практику нужны слова и действия.

LLM отлично переводит структурированную информацию в понятные объяснения. Если дать LLM готовую логику решения (какие пороги сработали, какие факторы важны), она упакует это в связный текст с рекомендациями. База знаний — это контекст из опыта экспертов, который LLM использует через in-context learning. Вместо абстрактных советов модель даёт конкретные действия, проверенные на практике.

Practitioner-in-the-loop гарантирует что модель учитывает реальность. Эксперты на входе выбирают правильные признаки (не включают то что на практике не работает), на выходе проверяют объяснения (ловят галлюцинации и неуместные советы). Это не "проверка результата", а участие в дизайне — модель строится вместе с теми кто будет её использовать.

Рычаги управления:

База знаний — главный рычаг качества. Чем детальнее описаны практики, тем точнее советы. В исследовании база знаний повысила оценку безопасности на +0.93, честности на +0.54, точности на +0.60 по 5-балльной шкале. Для своей задачи опиши: что работает, что не работает, какие действия эффективны, какие пороговые значения важны.

Формат вывода — влияет на удобство. "Топ-5 драйверов", "пограничные факторы", "конкретные действия" — такая структура помогает быстро сканировать результат. Можно упростить до "риск + 3 действия" для скорости или расширить до детального разбора для сложных случаев.

Уровень детализации объяснения — баланс между полнотой и скоростью. "Объясни каждый шаг" даёт прозрачность, но занимает время. "Только итог и топ-3 фактора" быстрее, но менее понятно почему. Адаптируй под задачу: для обучения джуниоров — детально, для опытных — кратко.

📋

Шаблон промпта

Ты — {роль эксперта в этой области}.

Моя задача: {что нужно оценить/предсказать}.

Данные случая:
{список признаков с значениями}

База знаний ({источник знаний}):
{практики, правила, пороги, эффективные действия}

Твоя задача:
1. Оцени {исход} (варианты классов) с вероятностью
2. Объясни логику: какие факторы главные, какие пограничные 
3. Дай {число} конкретных действий с приоритетами

Формат ответа:
- {Исход}: [класс] ([вероятность]%)
- Логика: пошаговое объяснение через ключевые пороги
- Драйверы {исхода}: топ-{N} факторов с весом
- Пограничные факторы: что может изменить прогноз
- Действия: конкретные шаги с приоритетом (1-{число})

Что подставлять:

  • {роль эксперта} — специалист в твоей области (HR, продажи, кредитный риск-менеджер)
  • {что оценить} — конкретная задача (риск увольнения, вероятность покупки, шанс дефолта)
  • {признаки} — данные случая в формате "название: значение"
  • {база знаний} — твои правила и практики из опыта
  • {исход} — что предсказываешь (риск, класс, категория)
  • {число} и {N} — сколько рекомендаций и факторов нужно

🚀 Быстрый старт — вставь в чат:

Вот шаблон Practitioner-in-the-Loop. Адаптируй под мою задачу: [опиши свою задачу в 1-2 предложениях].
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит какие признаки важны для твоей задачи, что измеряешь, какие у тебя есть практики и правила. Это нужно чтобы заполнить "Данные случая" и "Базу знаний" — без этого модель не поймёт специфику. Она возьмёт паттерн из шаблона (структуру объяснения, формат вывода) и адаптирует под твою область.

⚠️

Ограничения

⚠️ Требует базы знаний для качества: LLM без контекста даёт общие советы, которые могут быть неуместными или опасными. В исследовании объяснения без базы знаний получили на балл ниже по безопасности и честности. Нужно описать свои практики — что работает, что нет, какие действия эффективны.

⚠️ Точность зависит от признаков: Если важные факторы не включены в данные, модель промахнётся. В примере с HR: если не учесть зарплату относительно рынка — пропустим главный драйвер увольнений. Practitioner-in-the-loop помогает выбрать правильные признаки, но это требует времени экспертов.

⚠️ LLM alone работает хуже: Прямое предсказание через LLM без структуры модели падает по точности на 15-25%. Для сложных задач с нелинейными связями нужна специализированная модель (decision tree или другая). LLM хороша для объяснений, не для предсказаний из сырых данных.

⚠️ Не для задач с быстро меняющимся контекстом: Если правила меняются каждую неделю (например, алгоритмы соцсетей, биржевая торговля), базу знаний придётся постоянно обновлять. Метод лучше работает для относительно стабильных областей — HR, образование, кредитный риск, где паттерны держатся месяцами-годами.

🔍

Как исследовали

Команда взяла данные программы стипендий для 2,245 студентов с 2004 года. Программа помогает талантливым ребятам с низким доходом закончить университет за 4 года. Каждый семестр студенты заполняют опросник: оценки, финансы, проблемы. Кейс-менеджеры смотрят на простой риск-скор и решают кому помочь.

Задача: предсказать кто не закончит вовремя (25% студентов) и объяснить почему так, чтобы менеджер знал что делать.

Исследователи построили decision tree модель через grid search — перебрали тысячи комбинаций параметров (глубина дерева, критерий разбиения, минимум случаев в листе), выбрали лучшую по F1-score через кросс-валидацию. Модель показала 88-90% точности на тестовых данных разных годов. Для сравнения: LLM (GPT-o3) прямо из данных — только 63-75%. Разница в 15-25% — это цена за отказ от специализированной модели.

Потом LLM объясняла предсказания дерева. Два варианта промпта: (1) только структура дерева + данные студента, (2) то же + база знаний программы (какие ресурсы есть, какие действия работают). Три менеджера оценили 30 объяснений по 8 критериям (полезность, прозрачность, безопасность) по шкале 1-5.

Результат удивил: база знаний не ускорила работу (Время: +0.07, незначимо) и не улучшила ясность (Ясность: -0.13, незначимо), но резко подняла доверие — Безопасность: +0.93, Честность: +0.54, Точность: +0.60 (все p<0.05). Почему? Без контекста LLM давала общие советы типа "повысить GPA" — технически верно, но бесполезно ("Как именно?!"). С базой знаний: "GPA 2.4 — чуть ниже порога 2.5 для программы тьюторинга. Запиши студента на математику + личная встреча обсудить загруженность работой". Конкретика = доверие.

Инсайт для практики: база знаний — это не про скорость, а про безопасность и релевантность. LLM умеет генерировать текст, но не знает что уместно в твоём контексте. Контекст из опыта экспертов убирает галлюцинации и неподходящие советы.

🔗

Ресурсы

Integrating Transparent Models, LLMs, and Practitioner-in-the-Loop: A Case of Nonprofit Program Evaluation — Ji Ma (University of Texas at Austin, University of Oxford), Albert Casella (Michael & Susan Dell Foundation).

Датасет и код decision trees: Open Science Framework


📋 Дайджест исследования

Ключевая суть

ML-модели точные, но работают как черный ящик — непонятно почему такое решение. LLM объясняют хорошо, но если предсказывают сами из сырых данных — точность падает на 15-25%. Practitioner-in-the-Loop позволяет получать точные предсказания (88-90%) с полным пониманием логики и конкретными действиями. Фишка связки: дерево решений делает предсказание и показывает логику → LLM берет эту структуру + базу знаний экспертов → генерирует объяснение на естественном языке. Результат: HR-менеджер видит не просто "риск увольнения 78%", а пошаговую логику, топ-5 драйверов и конкретные действия с приоритетами ("срочно: пересмотр зарплаты +15-20%", "неделя: разговор о новом проекте").

Принцип работы

Работает через последовательность из трех элементов с участием экспертов на каждом шаге. (1) Эксперты выбирают признаки и проверяют модель — не включают то что на практике не работает. (2) Дерево решений дает предсказание + показывает какие пороги сработали, какие факторы главные. (3) LLM берет структуру решения + данные случая + базу знаний → переводит в понятный текст с рекомендациями. (4) Эксперты оценивают объяснения на реальных случаях, ловят галлюцинации и неуместные советы, корректируют промпт. Ключ: practitioner-in-the-loop означает что эксперты участвуют в дизайне системы, а не просто проверяют результат. База знаний — это описанные практики из опыта: что работает, какие действия эффективны, какие пороговые значения важны.

Почему работает

LLM плохо предсказывает из сырых данных — упускает нелинейные связи и пороги между признаками. Точность падает на 15-25% по сравнению со специализированной моделью. Но LLM отлично работает как переводчик: если дать готовую логику решения (какие пороги сработали, какие факторы важны) — она упакует это в связный текст с конкретными рекомендациями. База знаний — контекст из опыта экспертов, который LLM использует при генерации. Вместо абстрактных советов получаются действия, проверенные на практике и релевантные для твоей области. В исследовании база знаний подняла оценку безопасности на +0.93 балла, точности на +0.60 по 5-балльной шкале. Участие экспертов гарантирует что модель учитывает реальность — на входе выбирают правильные признаки, на выходе проверяют что советы не галлюцинации.

Когда применять

Для задач классификации и оценки рисков где нужны предсказания + объяснения + конкретные действия → HR (риск увольнения сотрудников, оценка кандатов), кредитный риск (одобрение займа с обоснованием), продажи (приоритизация лидов с рекомендациями по работе), образование (риск отсева студентов с планом поддержки). Особенно когда есть эксперты с накопленными практиками, которые можно описать в базе знаний — что работает в вашей компании, какие действия эффективны, какие пороги критичны. НЕ подходит для быстро меняющегося контекста — если правила обновляются каждую неделю (алгоритмы соцсетей, биржевая торговля), базу знаний придется постоянно переписывать.

Мини-рецепт

1. Собери базу знаний: опиши свои практики в 10-20 правил — что работает в твоей области, какие действия эффективны ("зарплата ниже рынка + нет роста больше года = высокий риск увольнения"), какие пороговые значения важны, что НЕ надо делать
2. Построй дерево решений: выбери 5-15 признаков вместе с экспертами (не включай то что на практике не используется), обучи модель, проверь что логика понятна и соответствует опыту
3. Создай промпт для LLM: дай роль эксперта (Ты - эксперт по удержанию персонала в IT), данные случая (список признаков со значениями), базу знаний, формат вывода (риск + логика через пороги + топ-5 драйверов + 3-5 конкретных действий с приоритетами)
4. Проверь с экспертами: прогони на 10-20 реальных случаях, оцените объяснения — ловите галлюцинации и неуместные советы, корректируйте промпт пока качество не устроит

Примеры

[ПЛОХО] : Оцени риск увольнения: возраст 28, стаж 1.5 года, зарплата 180k — LLM не знает контекст твоей компании и рынка, даст общие слова
[ХОРОШО] : Ты - эксперт по удержанию в IT. Задача: оценить риск увольнения. Данные сотрудника: возраст 28, стаж 1.5 года, зарплата 180k (35 процентиль по рынку), последнее повышение 14 месяцев назад, индекс лояльности (NPS) 6/10, пропуски корпоративов 3 из 4. База знаний: зарплата ниже рынка + нет роста >1 года = высокий риск; индекс лояльности <7 + избегание соцактивностей = низкая вовлеченность; эффективные действия - пересмотр зарплаты до 50-75 процентиля, перевод на интересный проект, разговор о карьерном плане. Формат ответа: риск (уровень и %), логика через ключевые пороги, топ-5 драйверов риска с весом, 3-5 конкретных действий с приоритетами 1-3. — LLM получает контекст и структуру, выдаст релевантные действия для твоей ситуации
Источник: Integrating Transparent Models, LLMs, and Practitioner-in-the-Loop: A Case of Nonprofit Program Evaluation
ArXiv ID: 2510.19799 | Сгенерировано: 2026-01-11 23:39

Концепты не выделены.

📖 Простыми словами

Practitioner-in-the-Loop: прозрачные модели + LLM + база знаний

arXiv: 2510.19799

Суть тут в том, что мы наконец-то перестаем кормить нейронки сырыми данными в надежде на чудо. Обычные LLM — это плохие предсказатели, они лажают на 20% чаще, чем нормальная математика, потому что не видят четких границ и порогов. Метод Practitioner-in-the-Loop меняет правила игры: мы берем старое доброе дерево решений (прозрачную модель, где понятно, почему «да» или «нет») и скармливаем его структуру нейронке. Получается гибрид: математика считает, а LLM работает переводчиком с «цифрового» на человеческий.

Это как если бы опытный бухгалтер и харизматичный юрист работали в паре. Бухгалтер нашел дыру в бюджете, но не может связать двух слов, а юрист берет его расчеты и объясняет директору на пальцах, почему завтра придет налоговая. Формально цифры те же, но без внятного объяснения директор просто выкинет отчет в корзину. Здесь то же самое: прозрачная модель дает точность, а LLM превращает сухие ветки алгоритма в понятный план действий.

В реальности это работает через жесткую связку: эксперт — алгоритм — текст. Сначала живой профи (например, HR-директор) отбирает важные признаки, чтобы модель не считала цвет носков фактором увольнения. Затем строится decision tree, и его логика передается нейронке. В итоге на выходе не просто «вероятность 0.8», а четкий расклад: «Сотрудник уйдет, потому что у него не было повышения два года и он живет в трех часах от офиса». Это и есть интеграция прозрачных моделей, где каждое слово обосновано логикой алгоритма.

Тестировали это на некоммерческих программах, но принцип универсален. Метод идеально ложится на медицину, HR, скоринг кредитов — любую область, где цена ошибки высока, а ответ «мне так нейросеть сказала» не принимается. LLM как интерфейс к прозрачной модели — это единственный способ затащить AI в серьезный бизнес, где за каждое решение нужно отвечать головой. Старые черные ящики уходят в прошлое, наступает эпоха объяснимого AI.

Короче, хватит ждать от ChatGPT аналитических прорывов на пустом месте. Нужно строить жесткий каркас из прозрачных моделей и использовать нейронку только как «голос» этого каркаса. Это дает точность специализированного ML и человеческую понятность одновременно. Кто продолжит верить галлюцинациям нейронок без математической базы, тот просто сольет бюджет на красивые, но бесполезные тексты.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с