3,583 papers
arXiv:2509.00646 78 31 авг. 2025 г. FREE

RAG-PRISM: Двойная проверка качества ответов LLM через faithfulness и relevancy

КЛЮЧЕВАЯ СУТЬ
GPT-4 Turbo генерирует самые длинные ответы, но проваливается по точности — 60% релевантности против 93% у обычного GPT-4. Парадокс: многословие не равно качество. Метод RAG-PRISM позволяет проверить выдумывает ли LLM ответы или использует только твои загруженные материалы. Двойная проверка качества: faithfulness (верность источнику — модель не выдумывает факты, использует только загруженные документы) и relevancy (релевантность — ответ точно соответствует вопросу, не уходит в сторону). GPT-4 показал 100% faithfulness и 93% relevancy — надёжность для обучающих систем.
Адаптировать под запрос

TL;DR

RAG-PRISM — исследовательский фреймворк для персонализированного обучения, который комбинирует анализ sentiment студента с поиском релевантного контента (RAG) и генерацией ответов через LLM. Система работает в два этапа: сначала извлекает релевантные фрагменты из загруженных материалов (retrieval), затем генерирует персонализированный ответ на основе найденного контекста (generation). Фреймворк тестировался на обучении кибербезопасности для рабочих 4-й промышленной революции, где нужно быстро переучить большую разнородную аудиторию.

Главная находка исследования — LLM могут давать ответы которые звучат правильно, но содержат выдумки (hallucinations) или уходят от вопроса. Исследователи показали: нужна двойная проверка качества каждого ответа — faithfulness (верность источнику: модель не выдумывает, использует только загруженный материал) и relevancy (релевантность: ответ точно соответствует вопросу, не уходит в сторону). GPT-4 показал лучшие результаты — 100% faithfulness, 93% relevancy. GPT-4 Turbo при этом генерировал самые длинные ответы, но с меньшей relevancy (60%) — многословность ≠ качество.

Для практического применения фреймворк предлагает hybrid подход к тестированию: комбинировать автоматически сгенерированные вопросы (synthetic QA — модель сама создаёт вопросы из загруженного материала) с ручными запросами. Synthetic QA проверяют может ли система найти правильные фрагменты в базе знаний (hit rate, MRR), ручные запросы — соответствие реальным потребностям студентов. Двойной тест показывает где retrieval работает хорошо, а где модель начинает выдумывать.

🔬

Схема метода

ЭТАП 1 (Retrieval): Поиск релевантного контента
Загружаешь документы → Модель индексирует по chunks → На вопрос находит top-k фрагментов
↓
ЭТАП 2 (Generation): Генерация ответа на основе контекста
Top-k фрагменты + твой вопрос → LLM генерирует ответ используя ТОЛЬКО найденный контекст
↓
ЭТАП 3 (Evaluation): Двойная проверка качества
Faithfulness: ответ основан на источнике, не выдуман (0-1)
Relevancy: ответ точно отвечает на вопрос (0-1)

Все три этапа можно выполнить в обычном чате с Claude/ChatGPT — загрузил документы, задал вопрос, попросил оценить faithfulness и relevancy.

🚀

Пример применения

Задача: Ты готовишь курс по SMM для малого бизнеса. Загрузил 5 статей про таргетинг ВКонтакте, кейсы агентств, гайды по настройке рекламы. Нужно проверить — модель даёт информацию из твоих материалов или выдумывает "общие советы"?

Промпт для тестирования:

Материал: [загружаешь 5 PDF про таргетинг ВК]

Шаг 1. Сгенерируй 10 вопросов по этим материалам с ответами (synthetic QA).
Укажи из какого документа и раздела каждый ответ.

Шаг 2. Теперь отвечу на мои ручные вопросы:
- Какой минимальный бюджет рекомендуют для теста рекламы локального кафе?
- Какие метрики упоминаются как ключевые для оценки кампании?
- Есть ли в материалах кейс про автосервис?

Шаг 3. Для каждого твоего ответа оцени:
- Faithfulness (0-1): ответ взят из загруженных материалов, не выдуман
- Relevancy (0-1): ответ точно соответствует вопросу
- Укажи источник: документ + раздел

Формат:
Вопрос: ...
Ответ: ...
Faithfulness: 0.X
Relevancy: 0.X
Источник: [документ], стр. X

Результат: Модель сгенерирует 10 synthetic вопросов из материалов (это проверит может ли она находить информацию в базе), ответит на твои ручные вопросы с оценкой качества. Ты увидишь где модель работает точно (faithfulness 1.0), а где начинает "общие рассуждения" вместо конкретики из твоих материалов (faithfulness <0.7). Relevancy покажет уходит ли модель от вопроса или отвечает точно.

🧠

Почему это работает

Проблема hallucinations: LLM обучены генерировать плавный связный текст. Когда модель не знает точного ответа или материала недостаточно, она заполняет пробелы правдоподобными фразами — это hallucinations. Они звучат убедительно, но содержат выдумки. Особенно опасно для обучения — студент не отличит "настоящий совет из материала" от "общего рассуждения модели".

Сильная сторона LLM: Модели отлично работают когда явно ограничены контекстом. Если в промпте чётко указано "используй ТОЛЬКО эти документы" + есть механизм проверки соответствия — точность резко растёт. Модель может сама оценить "я взял это из документа" (faithfulness) vs "я рассуждаю вокруг темы" (relevancy).

Как метод использует это: Двойная проверка делает hallucinations видимыми. Faithfulness <1.0 = модель добавила что-то от себя. Relevancy <0.8 = модель ушла от вопроса. Ты сразу видишь где ответ надёжный, а где нужна перепроверка. Hybrid подход (synthetic + manual QA) тестирует систему с двух сторон: автоматические вопросы проверяют retrieval (находит ли нужные куски текста), ручные — соответствие реальным потребностям.

Рычаги управления:

  • Порог faithfulness — установи минимум 0.8, ниже = перезапрашивай с уточнением
  • Top-k retrieval — сколько фрагментов искать (больше k = шире контекст, но дольше ответ)
  • Соотношение synthetic/manual — 70/30 для быстрой проверки, 50/50 для глубокой валидации
  • Длина чанков — мелкие (300 токенов) = точнее поиск, крупные (800) = больше контекста в ответе
📋

Шаблон промпта

Базовый шаблон для проверки качества ответов:

Материалы: {загрузи_документы}

Задание: Ответь на вопрос используя ТОЛЬКО информацию из загруженных материалов.

Вопрос: {твой_вопрос}

После ответа оцени:

1. Faithfulness (0-1): Насколько ответ основан только на материалах, без домыслов?
 - 1.0 = каждое утверждение из документов
 - 0.5 = часть из документов, часть общих рассуждений
 - 0.0 = полностью выдуман

2. Relevancy (0-1): Насколько ответ точно соответствует вопросу?
 - 1.0 = прямой точный ответ
 - 0.5 = частично отвечает, есть лишнее
 - 0.0 = не по теме

3. Источник: Укажи документ и раздел откуда взята информация

Формат ответа:
---
Ответ: [твой_ответ]
Faithfulness: [оценка]
Relevancy: [оценка] 
Источник: [документ, стр/раздел]
Пояснение оценок: [почему такие оценки]
---

Для генерации тестовых вопросов:

Материалы: {загрузи_документы}

Создай {число} вопросов с ответами по этим материалам.

Требования:
- Вопросы разной сложности (простые факты → анализ → применение)
- Ответы только из документов, не выдумывай
- К каждому ответу укажи источник (документ + раздел)

Формат:
Q1: [вопрос]
A1: [ответ] | Источник: [документ, раздел]
...

Как заполнять плейсхолдеры:

  • {загрузи_документы} — твои PDF, статьи, гайды, кейсы
  • {твой_вопрос} — конкретный вопрос по материалам
  • {число} — 5-10 для быстрой проверки, 20-30 для полной валидации

🚀 Быстрый старт — вставь в чат:

Вот шаблон для проверки качества ответов по моим материалам. Адаптируй под мою задачу: {опиши что проверяешь}. 
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит какие материалы загружать, какие вопросы важны для твоей задачи, какой порог faithfulness/relevancy установить. Модель возьмёт паттерн двойной проверки и адаптирует под контекст — обучение, создание контента, анализ документов.

⚠️

Ограничения

⚠️ Требует загрузки документов: Метод работает только если у тебя есть материалы для загрузки в чат. Без базы знаний — модель работает из своей памяти, faithfulness не оценить.

⚠️ Субъективная оценка для сложных тем: На вопросах типа "Какая стратегия лучше?" модель может дать оценку faithfulness 1.0, но интерпретация материала всё равно её — ты не увидишь это через метрику. Лучше работает для фактических вопросов.

⚠️ Длинные документы = неточный retrieval: Если загрузил 100-страничный учебник, модель может пропустить релевантный раздел и дать relevancy <0.5 просто потому что не нашла нужное. В исследовании использовали chunking и векторный поиск — в обычном чате этого нет, ограничено контекстным окном.

⚠️ Самооценка ≠ объективная проверка: Модель оценивает сама себя. Если она hallucinate уверенно, может поставить faithfulness 0.9. Для критичных задач (медицина, юриспруденция, финансы) нужна ручная перепроверка ключевых фактов.

🔍

Как исследовали

Исследователи создали обучающую платформу по кибербезопасности для рабочих 4-й промышленной революции — тех кому нужно быстро освоить новые навыки (автоматизация, IoT, AI). Задача была сложная: аудитория разношёрстная (от молодых стажёров до опытных инженеров без IT-бэкграунда), материал объёмный, нужна персонализация.

Команда собрала корпус учебных материалов по кибербезопасности (структурированные PDF, гайды, кейсы), прогнала через LlamaIndex для индексации — это framework который разбивает документы на chunks по 512 токенов и строит векторный индекс для семантического поиска. Затем создали hybrid тестовый датасет: модель сама сгенерировала synthetic QA пары из материалов (по 2 вопроса на chunk), плюс добавили ручные вопросы от реальных студентов. Получилось ~150 тестовых запросов.

Систему прогнали через 4 модели OpenAI (GPT-3.5 Turbo, GPT-3.5 Turbo 16k, GPT-4, GPT-4 Turbo). Для каждого ответа замеряли retrieval метрики (Hit Rate — нашла ли модель нужный chunk; MRR — на какой позиции в результатах) и generation метрики (faithfulness — верность источнику; relevancy — соответствие вопросу).

Главные находки: GPT-4 показал 100% faithfulness и 93% relevancy — лучший в точности. GPT-4 Turbo генерировал самые длинные ответы (в среднем на 40% длиннее), но relevancy упала до 60% — многословность не гарантирует качество, модель уходила в сторону от вопроса. Retrieval работал идеально на synthetic QA (Hit Rate и MRR 1.0), но на ручных вопросах MRR падал до 0.2-0.5 — это значит нужный контекст находился, но не на первой позиции. Это показало важность hybrid подхода: synthetic вопросы проверяют может ли система в принципе извлекать информацию, ручные — насколько это соответствует реальным запросам.

Неожиданный инсайт: Модели одинаково хорошо распознавали нерелевантные вопросы — когда в тестовый датасет добавили "шумовые" запросы про бабочек монархов и нейросети (Q11-Q15 в исследовании), все модели правильно вернули faithfulness 0.0 и relevancy 0.0. Это значит система умеет отличать "я не знаю" от "я выдумываю" — критично для образования.

🔗

Ресурсы

RAG-PRISM: A Personalized, Rapid, and Immersive Skill Mastery Framework with Adaptive Retrieval-Augmented Tutoring

Оригинальная работа — детали про VR интерфейс, sentiment analysis, архитектуру LlamaIndex pipeline

Связанные техники:

  • Retrieval-Augmented Generation (Lewis et al.) — базовая техника RAG
  • LlamaIndex — фреймворк для RAG, упрощает work с векторными БД
  • PRISM framework (Lin et al.) — предыдущая версия без RAG, с sentiment analysis через VR

Авторы: Gaurangi Raul, Yu-Zheng Lin, Karan Patel и команда из University of Arizona (Departments of ECE, ISE, Information Science)


📋 Дайджест исследования

Ключевая суть

GPT-4 Turbo генерирует самые длинные ответы, но проваливается по точности — 60% релевантности против 93% у обычного GPT-4. Парадокс: многословие не равно качество. Метод RAG-PRISM позволяет проверить выдумывает ли LLM ответы или использует только твои загруженные материалы. Двойная проверка качества: faithfulness (верность источнику — модель не выдумывает факты, использует только загруженные документы) и relevancy (релевантность — ответ точно соответствует вопросу, не уходит в сторону). GPT-4 показал 100% faithfulness и 93% relevancy — надёжность для обучающих систем.

Принцип работы

Загружаешь документы в чат → Задаёшь вопрос → Модель генерирует ответ → Модель сама оценивает свой ответ по двум метрикам: faithfulness (0-1, насколько ответ из документов без домыслов) и relevancy (0-1, насколько точно отвечает на вопрос). Дополнительно используй hybrid-подход: комбинируй автоматически сгенерированные вопросы (модель сама создаёт вопросы из материалов — проверка может ли найти информацию) с твоими ручными запросами (проверка соответствия реальным потребностям). Faithfulness <0.8 = модель добавила отсебятину. Relevancy <0.8 = ушла от темы.

Почему работает

LLM обучены генерировать плавный связный текст. Когда модель не знает точного ответа — она заполняет пробелы правдоподобными фразами. Это галлюцинации (hallucinations) — звучат убедительно, но содержат выдумки. Особенно опасно для обучения: студент не отличит настоящий совет из материала от общего рассуждения модели. Сильная сторона LLM — они отлично работают когда явно ограничены контекстом. Если в промпте чётко указано "используй ТОЛЬКО эти документы" + есть механизм проверки — точность резко растёт. Двойная проверка делает галлюцинации видимыми: faithfulness <1.0 = модель добавила что-то от себя, relevancy <0.8 = ушла от вопроса.

Когда применять

Образование и создание курсов → конкретно для проверки что LLM даёт информацию только из твоих материалов (статьи, гайды, кейсы), особенно когда контент критичен и нельзя допустить выдумок. Подходит для подготовки обучающих материалов, FAQ-ботов, систем онбординга. НЕ подходит для открытых вопросов типа "Какая стратегия лучше?" — модель может дать faithfulness 1.0, но интерпретация всё равно её, метрика это не покажет. Лучше работает для фактических вопросов с проверяемыми ответами.

Мини-рецепт

1. Загрузи материалы: PDF, статьи, гайды — твоя база знаний для проверки

2. Сгенерируй тестовые вопросы: Попроси модель создать 5-10 вопросов с ответами по материалам (synthetic QA). К каждому ответу — источник (документ + раздел). Это проверит может ли модель находить информацию в базе

3. Задай свои вопросы: Реальные вопросы по теме — проверка соответствия практическим потребностям

4. Требуй двойную оценку: Для каждого ответа модель должна оценить faithfulness (0-1, ответ из документов без выдумок) и relevancy (0-1, точно отвечает на вопрос). Плюс указать источник — документ и раздел

5. Установи пороги: Faithfulness <0.8 = перезапрашивай с уточнением "используй ТОЛЬКО загруженные материалы". Relevancy <0.8 = переформулируй вопрос конкретнее

Примеры

[ПЛОХО] : Расскажи про таргетинг ВКонтакте для малого бизнеса — модель может ответить из общей памяти, не из твоих материалов. Ты не узнаешь выдумала она или использовала загруженные кейсы
[ХОРОШО] : Материалы: [5 PDF про таргетинг ВК]. Вопрос: Какой минимальный бюджет рекомендуют для теста рекламы локального кафе? После ответа оцени: 1) Faithfulness (0-1) — ответ только из материалов, не выдуман. 2) Relevancy (0-1) — точно отвечает на вопрос. 3) Источник — документ и раздел откуда информация. Формат: Ответ: ... | Faithfulness: 0.X | Relevancy: 0.X | Источник: [документ, стр.] — ты сразу видишь надёжность ответа и можешь проверить источник
Источник: RAG-PRISM: A Personalized, Rapid, and Immersive Skill Mastery Framework with Adaptive Retrieval-Augmented Tutoring
ArXiv ID: 2509.00646 | Сгенерировано: 2026-01-12 02:22

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с