TL;DR
RAG-PRISM — исследовательский фреймворк для персонализированного обучения, который комбинирует анализ sentiment студента с поиском релевантного контента (RAG) и генерацией ответов через LLM. Система работает в два этапа: сначала извлекает релевантные фрагменты из загруженных материалов (retrieval), затем генерирует персонализированный ответ на основе найденного контекста (generation). Фреймворк тестировался на обучении кибербезопасности для рабочих 4-й промышленной революции, где нужно быстро переучить большую разнородную аудиторию.
Главная находка исследования — LLM могут давать ответы которые звучат правильно, но содержат выдумки (hallucinations) или уходят от вопроса. Исследователи показали: нужна двойная проверка качества каждого ответа — faithfulness (верность источнику: модель не выдумывает, использует только загруженный материал) и relevancy (релевантность: ответ точно соответствует вопросу, не уходит в сторону). GPT-4 показал лучшие результаты — 100% faithfulness, 93% relevancy. GPT-4 Turbo при этом генерировал самые длинные ответы, но с меньшей relevancy (60%) — многословность ≠ качество.
Для практического применения фреймворк предлагает hybrid подход к тестированию: комбинировать автоматически сгенерированные вопросы (synthetic QA — модель сама создаёт вопросы из загруженного материала) с ручными запросами. Synthetic QA проверяют может ли система найти правильные фрагменты в базе знаний (hit rate, MRR), ручные запросы — соответствие реальным потребностям студентов. Двойной тест показывает где retrieval работает хорошо, а где модель начинает выдумывать.
Схема метода
ЭТАП 1 (Retrieval): Поиск релевантного контента
Загружаешь документы → Модель индексирует по chunks → На вопрос находит top-k фрагментов
↓
ЭТАП 2 (Generation): Генерация ответа на основе контекста
Top-k фрагменты + твой вопрос → LLM генерирует ответ используя ТОЛЬКО найденный контекст
↓
ЭТАП 3 (Evaluation): Двойная проверка качества
Faithfulness: ответ основан на источнике, не выдуман (0-1)
Relevancy: ответ точно отвечает на вопрос (0-1)
Все три этапа можно выполнить в обычном чате с Claude/ChatGPT — загрузил документы, задал вопрос, попросил оценить faithfulness и relevancy.
Пример применения
Задача: Ты готовишь курс по SMM для малого бизнеса. Загрузил 5 статей про таргетинг ВКонтакте, кейсы агентств, гайды по настройке рекламы. Нужно проверить — модель даёт информацию из твоих материалов или выдумывает "общие советы"?
Промпт для тестирования:
Материал: [загружаешь 5 PDF про таргетинг ВК]
Шаг 1. Сгенерируй 10 вопросов по этим материалам с ответами (synthetic QA).
Укажи из какого документа и раздела каждый ответ.
Шаг 2. Теперь отвечу на мои ручные вопросы:
- Какой минимальный бюджет рекомендуют для теста рекламы локального кафе?
- Какие метрики упоминаются как ключевые для оценки кампании?
- Есть ли в материалах кейс про автосервис?
Шаг 3. Для каждого твоего ответа оцени:
- Faithfulness (0-1): ответ взят из загруженных материалов, не выдуман
- Relevancy (0-1): ответ точно соответствует вопросу
- Укажи источник: документ + раздел
Формат:
Вопрос: ...
Ответ: ...
Faithfulness: 0.X
Relevancy: 0.X
Источник: [документ], стр. X
Результат: Модель сгенерирует 10 synthetic вопросов из материалов (это проверит может ли она находить информацию в базе), ответит на твои ручные вопросы с оценкой качества. Ты увидишь где модель работает точно (faithfulness 1.0), а где начинает "общие рассуждения" вместо конкретики из твоих материалов (faithfulness <0.7). Relevancy покажет уходит ли модель от вопроса или отвечает точно.
Почему это работает
Проблема hallucinations: LLM обучены генерировать плавный связный текст. Когда модель не знает точного ответа или материала недостаточно, она заполняет пробелы правдоподобными фразами — это hallucinations. Они звучат убедительно, но содержат выдумки. Особенно опасно для обучения — студент не отличит "настоящий совет из материала" от "общего рассуждения модели".
Сильная сторона LLM: Модели отлично работают когда явно ограничены контекстом. Если в промпте чётко указано "используй ТОЛЬКО эти документы" + есть механизм проверки соответствия — точность резко растёт. Модель может сама оценить "я взял это из документа" (faithfulness) vs "я рассуждаю вокруг темы" (relevancy).
Как метод использует это: Двойная проверка делает hallucinations видимыми. Faithfulness <1.0 = модель добавила что-то от себя. Relevancy <0.8 = модель ушла от вопроса. Ты сразу видишь где ответ надёжный, а где нужна перепроверка. Hybrid подход (synthetic + manual QA) тестирует систему с двух сторон: автоматические вопросы проверяют retrieval (находит ли нужные куски текста), ручные — соответствие реальным потребностям.
Рычаги управления:
- Порог faithfulness — установи минимум 0.8, ниже = перезапрашивай с уточнением
- Top-k retrieval — сколько фрагментов искать (больше k = шире контекст, но дольше ответ)
- Соотношение synthetic/manual — 70/30 для быстрой проверки, 50/50 для глубокой валидации
- Длина чанков — мелкие (300 токенов) = точнее поиск, крупные (800) = больше контекста в ответе
Шаблон промпта
Базовый шаблон для проверки качества ответов:
Материалы: {загрузи_документы}
Задание: Ответь на вопрос используя ТОЛЬКО информацию из загруженных материалов.
Вопрос: {твой_вопрос}
После ответа оцени:
1. Faithfulness (0-1): Насколько ответ основан только на материалах, без домыслов?
- 1.0 = каждое утверждение из документов
- 0.5 = часть из документов, часть общих рассуждений
- 0.0 = полностью выдуман
2. Relevancy (0-1): Насколько ответ точно соответствует вопросу?
- 1.0 = прямой точный ответ
- 0.5 = частично отвечает, есть лишнее
- 0.0 = не по теме
3. Источник: Укажи документ и раздел откуда взята информация
Формат ответа:
---
Ответ: [твой_ответ]
Faithfulness: [оценка]
Relevancy: [оценка]
Источник: [документ, стр/раздел]
Пояснение оценок: [почему такие оценки]
---
Для генерации тестовых вопросов:
Материалы: {загрузи_документы}
Создай {число} вопросов с ответами по этим материалам.
Требования:
- Вопросы разной сложности (простые факты → анализ → применение)
- Ответы только из документов, не выдумывай
- К каждому ответу укажи источник (документ + раздел)
Формат:
Q1: [вопрос]
A1: [ответ] | Источник: [документ, раздел]
...
Как заполнять плейсхолдеры:
{загрузи_документы}— твои PDF, статьи, гайды, кейсы{твой_вопрос}— конкретный вопрос по материалам{число}— 5-10 для быстрой проверки, 20-30 для полной валидации
🚀 Быстрый старт — вставь в чат:
Вот шаблон для проверки качества ответов по моим материалам. Адаптируй под мою задачу: {опиши что проверяешь}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит какие материалы загружать, какие вопросы важны для твоей задачи, какой порог faithfulness/relevancy установить. Модель возьмёт паттерн двойной проверки и адаптирует под контекст — обучение, создание контента, анализ документов.
Ограничения
⚠️ Требует загрузки документов: Метод работает только если у тебя есть материалы для загрузки в чат. Без базы знаний — модель работает из своей памяти, faithfulness не оценить.
⚠️ Субъективная оценка для сложных тем: На вопросах типа "Какая стратегия лучше?" модель может дать оценку faithfulness 1.0, но интерпретация материала всё равно её — ты не увидишь это через метрику. Лучше работает для фактических вопросов.
⚠️ Длинные документы = неточный retrieval: Если загрузил 100-страничный учебник, модель может пропустить релевантный раздел и дать relevancy <0.5 просто потому что не нашла нужное. В исследовании использовали chunking и векторный поиск — в обычном чате этого нет, ограничено контекстным окном.
⚠️ Самооценка ≠ объективная проверка: Модель оценивает сама себя. Если она hallucinate уверенно, может поставить faithfulness 0.9. Для критичных задач (медицина, юриспруденция, финансы) нужна ручная перепроверка ключевых фактов.
Как исследовали
Исследователи создали обучающую платформу по кибербезопасности для рабочих 4-й промышленной революции — тех кому нужно быстро освоить новые навыки (автоматизация, IoT, AI). Задача была сложная: аудитория разношёрстная (от молодых стажёров до опытных инженеров без IT-бэкграунда), материал объёмный, нужна персонализация.
Команда собрала корпус учебных материалов по кибербезопасности (структурированные PDF, гайды, кейсы), прогнала через LlamaIndex для индексации — это framework который разбивает документы на chunks по 512 токенов и строит векторный индекс для семантического поиска. Затем создали hybrid тестовый датасет: модель сама сгенерировала synthetic QA пары из материалов (по 2 вопроса на chunk), плюс добавили ручные вопросы от реальных студентов. Получилось ~150 тестовых запросов.
Систему прогнали через 4 модели OpenAI (GPT-3.5 Turbo, GPT-3.5 Turbo 16k, GPT-4, GPT-4 Turbo). Для каждого ответа замеряли retrieval метрики (Hit Rate — нашла ли модель нужный chunk; MRR — на какой позиции в результатах) и generation метрики (faithfulness — верность источнику; relevancy — соответствие вопросу).
Главные находки: GPT-4 показал 100% faithfulness и 93% relevancy — лучший в точности. GPT-4 Turbo генерировал самые длинные ответы (в среднем на 40% длиннее), но relevancy упала до 60% — многословность не гарантирует качество, модель уходила в сторону от вопроса. Retrieval работал идеально на synthetic QA (Hit Rate и MRR 1.0), но на ручных вопросах MRR падал до 0.2-0.5 — это значит нужный контекст находился, но не на первой позиции. Это показало важность hybrid подхода: synthetic вопросы проверяют может ли система в принципе извлекать информацию, ручные — насколько это соответствует реальным запросам.
Неожиданный инсайт: Модели одинаково хорошо распознавали нерелевантные вопросы — когда в тестовый датасет добавили "шумовые" запросы про бабочек монархов и нейросети (Q11-Q15 в исследовании), все модели правильно вернули faithfulness 0.0 и relevancy 0.0. Это значит система умеет отличать "я не знаю" от "я выдумываю" — критично для образования.
Ресурсы
RAG-PRISM: A Personalized, Rapid, and Immersive Skill Mastery Framework with Adaptive Retrieval-Augmented Tutoring
Оригинальная работа — детали про VR интерфейс, sentiment analysis, архитектуру LlamaIndex pipeline
Связанные техники:
- Retrieval-Augmented Generation (Lewis et al.) — базовая техника RAG
- LlamaIndex — фреймворк для RAG, упрощает work с векторными БД
- PRISM framework (Lin et al.) — предыдущая версия без RAG, с sentiment analysis через VR
Авторы: Gaurangi Raul, Yu-Zheng Lin, Karan Patel и команда из University of Arizona (Departments of ECE, ISE, Information Science)
