3,583 papers
arXiv:2504.07803 75 1 апр. 2025 г. FREE

Система для комплексной оценки рамок RAG

КЛЮЧЕВАЯ СУТЬ
SCARF учит понимать, где именно ломается работа ИИ с документами. Когда ChatGPT или кастомный GPT дает неверный ответ по вашим файлам, проблема может быть в двух местах: либо он НАШЕЛ НЕ ТОТ ДОКУМЕНТ (плохой поиск), либо СОВРАЛ ПРИ ПЕРЕСКАЗЕ найденного документа (галлюцинация). Понимание этого различия кардинально меняет подход к написанию промптов для работы с базами знаний.
Адаптировать под запрос
📌

1. Ключевые аспекты исследования:

Исследование представляет SCARF — фреймворк для "black-box" тестирования и сравнения различных RAG-систем (Retrieval-Augmented Generation). Эти системы улучшают LLM, позволяя им перед ответом находить релевантную информацию во внешних базах данных (например, в загруженных пользователем файлах). SCARF позволяет оценить, какая из RAG-систем лучше справляется с задачей, используя метрики вроде точности, верности источнику и релевантности.

Ключевой результат: Создан модульный инструмент, который помогает разработчикам выбирать наиболее эффективную RAG-архитектуру для конкретных задач, оценивая всю цепочку «поиск информации -> генерация ответа» целиком.

🔬

2. Объяснение всей сути метода:

Суть исследования для обычного пользователя заключается не в самом фреймворке SCARF, а в тех принципах, на которых он основан. Представьте, что вы задаете вопрос чат-боту, у которого есть доступ к вашей папке с документами (это и есть RAG). Его работа делится на два этапа:

  1. Поиск (Retrieval): Сначала бот ищет в вашей папке самый подходящий документ или фрагмент текста, чтобы ответить на вопрос.
  2. Генерация (Generation): Затем он читает найденный фрагмент и на его основе формулирует ответ.

Исследование показывает, что качество ответа зависит от успеха на обоих этапах. Оно учит нас оценивать ответ по трем критериям, которые можно превратить в методику написания промптов:

  • Context Relevancy (Релевантность контекста): Нашел ли бот правильный документ? Если вы спросили про отпуск, а он нашел инструкцию по пожарной безопасности — это провал на первом этапе.
  • Faithfulness (Верность / Приземленность): Сформулировал ли бот ответ строго на основе найденного документа, ничего не выдумав? Если в документе написано "отпуск 28 дней", а бот ответил "отпуск 30 дней" — это галлюцинация, провал на втором этапе.
  • Answer Relevancy (Релевантность ответа): Отвечает ли итоговый текст на ваш изначальный вопрос? Бывает, что бот нашел верный документ и честно его пересказал, но ответ все равно не по существу.

Методика для пользователя: При написании промпта для работы с документами, вы должны явно управлять этими тремя аспектами. Ваш промпт должен стать инструкцией для LLM, как успешно пройти этот "тест" — помочь ей найти нужную информацию и заставить ее строго придерживаться найденных фактов.

📌

3. Анализ практической применимости:

*Прямая применимость:Пользователь не может использовать сам фреймворк SCARF. Однако он может немедленно начать использоватьконцепциииз исследования в своих промптах. Например, добавлять в запросы явные требования "отвечать строго на основе предоставленного текста" (faithfulness) или "искать информацию только в разделе X" (context relevancy).

  • Концептуальная ценность: Огромная. Исследование дает пользователю "рентгеновское зрение" для понимания и отладки работы LLM с документами. Когда кастомный GPT или чат-бот с файлами отвечает неверно, пользователь может диагностировать проблему: это ошибка поиска или ошибка генерации? Это понимание кардинально меняет подход к решению проблемы.

  • Потенциал для адаптации: Методы оценки из исследования легко адаптируются в инструкции для промпта. Вместо того чтобы проверять ответ на "верность источнику" (faithfulness) после его получения, мы можем заранее потребовать эту верность в самом промпте. Это превращает критерий оценки в превентивную меру, улучшающую качество генерации.


🚀

4. Практически пример применения:

Представим, что менеджер по продукту хочет составить краткую сводку для команды на основе длинного отчета об исследовании пользовательского опыта.

# РОЛЬ

Ты — ассистент продакт-менеджера. Твоя задача — анализировать документы и извлекать из них ключевую информацию для команды.

# КОНТЕКСТ

Ниже приведен фрагмент отчета "Исследование пользовательского опыта в приложении 'SuperApp' за Q2 2024".

<ОТЧЕТ>
...раздел 3.1. Основные болевые точки. Пользователи (n=250) чаще всего жаловались на сложный процесс регистрации (78% опрошенных). Многие отмечали, что требуют слишком много данных, а валидация номера телефона часто не срабатывает с первого раза. Вторая по популярности жалоба (65%) — медленная загрузка главного экрана, особенно на устройствах Android старше 3 лет. Пользователи из сегмента 45+ также указывали на слишком мелкий шрифт в разделе "Профиль" (42%)...
...раздел 4.2. Положительные отзывы. Большинство пользователей (85%) высоко оценили новый модуль "Календарь событий", назвав его "интуитивно понятным" и "полезным". Функция шаринга событий в мессенджеры была отмечена как ключевое преимущество 92% респондентов, использовавших ее...
ОТЧЕТ

# ЗАДАЧА

Подготовь краткую сводку для еженедельной встречи с командой разработки. Сводка должна быть в формате маркированного списка.

# ПРАВИЛА И ОГРАНИЧЕНИЯ

**1. Принцип строгой верности (Faithfulness):**
- Формулируй каждый пункт сводки **ИСКЛЮЧИТЕЛЬНО** на основе информации из предоставленного <ОТЧЕТА>.
- Не добавляй никаких собственных выводов, предположений или данных, которых нет в тексте.
- Если в отчете упоминаются конкретные цифры (проценты, количество), обязательно используй их.

**2. Принцип релевантности (Relevance):**
- Включи в сводку информацию **ТОЛЬКО** о негативных отзывах и "болевых точках" из раздела 3.1.
- Полностью проигнорируй информацию о положительных отзывах из раздела 4.2. Твоя сводка должна помочь команде сфокусироваться на проблемах.

🧠

5. Почему это работает:

Этот промпт работает, потому что он превращает концепции оценки из исследования в прямые и недвусмысленные инструкции для LLM:

  • Принцип строгой верности (Faithfulness): Эта инструкция напрямую борется с галлюцинациями. Фраза "ИСКЛЮЧИТЕЛЬНО на основе информации" и запрет на "собственные выводы" заставляют модель работать в режиме "извлечения фактов", а не "творческого пересказа". Это прямое применение концепции faithfulness.
  • Принцип релевантности (Relevance): Эта инструкция решает сразу две задачи. Во-первых, она помогает модели с context relevancy (указывая, что раздел 3.1 — это то, что нам нужно). Во-вторых, она обеспечивает answer relevancy (гарантируя, что итоговый ответ будет сфокусирован на проблемах, как и требовалось в задаче).

📌

6. Другой пример практического применения

Сотрудник хочет быстро понять правила оформления командировки из большого внутреннего регламента компании.

# РОЛЬ

Ты — консультант отдела кадров, который помогает сотрудникам разобраться во внутренних правилах компании.

# КОНТЕКСТ

Ниже предоставлен официальный "Регламент оформления служебных командировок".

<РЕГЛАМЕНТ>
...Статья 5. Транспортные расходы. Компания компенсирует проезд в вагонах класса "купе" или "СВ" для руководителей отделов. Для остальных сотрудников — "плацкарт" или "сидячий". Авиаперелеты эконом-классом разрешены, если поездка по ж/д занимает более 12 часов. Использование такси от вокзала/аэропорта до гостиницы и обратно подлежит компенсации при наличии чека...
...Статья 6. Суточные и проживание. Суточные составляют 700 рублей в день. Для проживания следует выбирать гостиницы из списка аккредитованных партнеров. Если в городе нет таких гостиниц, лимит на проживание составляет 4000 рублей/сутки для городов-миллионников и 2500 рублей/сутки для остальных...
РЕГЛАМЕНТ

# ЗАДАЧА

Ответь на вопрос сотрудника: "Я рядовой специалист, еду в командировку в Новосибирск на 3 дня. Что мне нужно знать про билеты, гостиницу и суточные?". Структурируй ответ по пунктам.

# КЛЮЧЕВЫЕ ПРИНЦИПЫ ОТВЕТА

**1. Верность источнику (Faithfulness):**
- Твой ответ должен на 100% основываться на тексте <РЕГЛАМЕНТА>.
- **Важно:** Если регламент не содержит информации для ответа на часть вопроса (например, есть ли в Новосибирске аккредитованные гостиницы), ты должен прямо указать: "Информация по этому вопросу в предоставленном документе отсутствует". Не придумывай ответ.

**2. Релевантность ответа (Relevance):**
- Дай информацию, применимую **только** к "рядовому специалисту". Не упоминай правила для руководителей.
- Сфокусируйся на трех аспектах: транспорт, проживание, суточные.

🧠

7. Объяснение механизма почему этот пример работает.

Этот промпт эффективен, так как он заставляет LLM работать в режиме надежного ассистента, а не креативного писателя, используя те же принципы:

  • Верность источнику (Faithfulness): Инструкция "Если регламент не содержит информации... ты должен прямо указать" является высшей формой требования faithfulness. Она не просто запрещает врать, а дает модели явный инструмент для обработки неполноты данных. Это критически важно для получения достоверных и безопасных ответов в корпоративной среде.
  • Релевантность ответа (Relevance): Промпт четко фильтрует информацию по двум осям: по роли пользователя ("рядовой специалист") и по теме вопроса ("транспорт, проживание, суточные"). Это заставляет модель не просто пересказывать весь документ, а синтезировать персонализированный и сфокусированный ответ, что является идеальным примером answer relevancy.

📌

Основные критерии оценки

  • A. Релевантность техникам промтинга: Низкая. Исследование не предлагает новых формулировок или паттернов для промптов. Его ценность в другом.
  • B. Улучшение качества диалоговых ответов: Высокая (косвенно). Работа посвящена оценке RAG-систем, которые являются ключевой технологией для повышения фактической точности и релевантности ответов. Понимание принципов оценки RAG напрямую помогает создавать запросы, которые лучше используют возможности этих систем.
  • C. Прямая практическая применимость: Низкая. Описанный фреймворк SCARF — это инструмент для разработчиков, требующий установки и настройки (Python, Docker, API). Обычный пользователь не сможет его использовать напрямую в чате.
  • D. Концептуальная ценность: Очень высокая. Исследование великолепно раскрывает "под капотом" работу RAG-систем (Retrieval-Augmented Generation), которые уже используются в таких продуктах, как ChatGPT с доступом к сети или кастомные GPTs с базой знаний. Оно вводит и объясняет ключевые для пользователя концепции: faithfulness (верность контексту), context relevancy (релевантность найденного контекста) и answer relevancy (релевантность ответа вопросу). Это строит у пользователя правильную "ментальную модель" работы современных LLM.
  • E. Новая полезная практика (кластеризация): Работа четко попадает в два кластера:
    • Кластер 6 (Контекст и память): Исследование полностью посвящено оценке RAG — основного метода работы с внешним контекстом и памятью.
    • Кластер 7 (Надежность и стабильность): Метрики, обсуждаемые в статье (особенно faithfulness), напрямую связаны со способами снижения галлюцинаций и повышения достоверности ответов.
  • Чек-лист практичности (+15 баллов):
    • Раскрывает неочевидные особенности поведения LLM? Да. Объясняет, что провал RAG-системы может случиться на двух разных этапах: либо она нашла не тот документ (плохая context relevancy), либо нашла тот документ, но соврала в ответе (плохая faithfulness).
    • Предлагает способы улучшить consistency/точность ответов? Да. Через понимание концепции faithfulness пользователь может формулировать промпты, требующие строгой привязки к источнику.

Итоговая оценка: Базовая оценка в ~60 баллов за высокую концептуальную ценность, но низкую прямую применимость, получает +15 баллов по чек-листу. Итого: 75.

📌

2 Цифровая оценка полезности

Оценка 75 дана, потому что исследование, хоть и не является прямым руководством по написанию промптов, дает пользователю фундаментальное понимание работы RAG — технологии, которая лежит в основе большинства современных продвинутых чат-ботов. Оно вооружает пользователя не конкретными "заклинаниями", а концептуальной базой для отладки своих запросов.

  • Аргументы в пользу более высокой оценки (>75): Понимание принципов RAG (relevance, faithfulness) — это не просто очередной трюк, а переход на новый уровень взаимодействия с LLM. Для любого пользователя, который создает кастомных GPT или работает с документами через LLM, эти знания являются абсолютно необходимыми и более ценными в долгосрочной перспективе, чем знание пары-тройки шаблонных фраз. Это фундаментальное знание, которое повышает эффективность работы системно.

  • Контраргументы (в пользу более низкой оценки <75): Статья на 90% является техническим описанием фреймворка SCARF для разработчиков. Чтобы извлечь из нее пользу, обычному пользователю нужно продраться сквозь технические детали и самостоятельно "перевести" концепции оценки в практические приемы промптинга. Работа не ставит своей целью обучение пользователей, поэтому ее практическая польза — это скорее побочный продукт, требующий от читателя усилий по интерпретации.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с