TL;DR
Исследование сравнивает пять языковых моделей (GPT-3.5, Mistral, LLaMa2, Falcon, Orca) на задаче ответов на вопросы по научным статьям с использованием RAG — техники, при которой модель сначала находит релевантные фрагменты в базе документов, затем формирует ответ на их основе. RAG — это инфраструктурное решение: векторная база, эмбеддинги, поиск по сходству, API к модели.
Главная находка: RAG радикально улучшает точность на вопросах о свежих данных. ChatGPT без RAG ответил правильно на 48% бинарных вопросов, GPT-3.5 с RAG — на 90%. Среди open-source моделей лидирует Mistral (86%), но он в 60 раз медленнее GPT-3.5. Falcon и LLaMa2 показали худшие результаты — модели «галлюцинировали» даже при наличии релевантного контекста.
Практический вывод: Если модель не обучена на нужных вам данных — подайте их в контекст. Это работает. Но реализация RAG требует программирования: Python, LangChain, векторные хранилища, API моделей. В обычном чате ChatGPT/Claude вы не сможете построить RAG-пайплайн.
Схема метода
RAG-пайплайн (требует кода и инфраструктуры):
ПОДГОТОВКА (разовая):
База документов → Разбивка на чанки → Эмбеддинг (SPECTER) → Векторное хранилище (FAISS)
ЗАПРОС (каждый раз):
Вопрос пользователя → Эмбеддинг вопроса → Поиск похожих чанков →
Формирование промпта (вопрос + найденные фрагменты) → LLM → Ответ
Что можно извлечь для работы в чате
Исследование — техническое, для разработчиков. Но есть один принцип, применимый вручную:
Принцип: «Контекст побеждает галлюцинации»
Если LLM не знает ответа (данные вышли после обучения, узкая специфика) — дайте контекст в промпте. Это «ручной RAG»:
- Найдите нужную информацию сами (статья, документ, сайт)
- Скопируйте релевантные фрагменты в промпт
- Задайте вопрос
Пример:
Вот выдержка из исследования [вставить текст статьи/абстракта].
На основе этого текста ответь: [ваш вопрос]
Это не полноценный RAG (нет автоматического поиска по базе), но использует тот же принцип: модель отвечает на основе предоставленного контекста, а не своей памяти.
Интересные детали из исследования
Формат промпта влияет на результат
Mistral требует специфический формат промпта:
[INST] инструкции [/INST] ответ [INST] уточняющий вопрос [/INST]
Без этого формата модель отвечала размыто: «не могу однозначно ответить». С правильным форматом — точный ответ с деталями.
Вывод для пользователей: Если модель отвечает странно — попробуйте переструктурировать промпт. Разные модели «слышат» инструкции по-разному.
Латентность vs качество
| Модель | Точность | Время ответа | Стоимость |
|---|---|---|---|
| GPT-3.5 + RAG | 90% | 1.7 сек | $0.0006 |
| Mistral + RAG | 86% | 106 сек | Бесплатно |
| Orca + RAG | 81% | 99 сек | Бесплатно |
| LLaMa2 + RAG | 62% | 107 сек | Бесплатно |
Open-source модели бесплатны, но в 60 раз медленнее. Для личного использования — терпимо. Для продакшена — нет.
Как исследовали
Команда из Университета Моратува (Шри-Ланка) собрала базу из 4929 абстрактов научных статей по computer science (LLM, квантовые вычисления, edge computing) за 2023-2024 годы — то есть данные, на которых модели точно не обучались.
Абстракты разбили на чанки по 1024 символа, превратили в векторы через SPECTER (модель для научных текстов), сохранили в FAISS. Потом задавали 30 вопросов: 21 бинарный (да/нет) и 9 с развёрнутым ответом.
Оценивали тремя способами: точность на бинарных, косинусное сходство для длинных ответов, ранжирование человеком-экспертом и Gemini.
Любопытно: Gemini и человек-эксперт оценивали почти одинаково — AI уже способен заменить человека в оценке качества ответов на экспертные вопросы.
Ограничения
⚠️ Требует инфраструктуры: RAG-пайплайн — это Python + LangChain + API моделей + векторная база. Нельзя применить в обычном чате.
⚠️ Узкий домен: Тестировали только на научных абстрактах. Как RAG работает на других типах документов — неизвестно.
⚠️ Устаревшие модели: GPT-3.5, Mistral-7b, LLaMa2-7b — это 2023-2024 год. Современные модели (GPT-4o, Claude 3.5, Mistral Large) могут показать другие результаты.
⚠️ Ограниченная оценка: 30 вопросов, один эксперт-человек. Статистическая значимость под вопросом.
Ресурсы
Работа: "Comparing the Performance of LLMs in RAG-based Question-Answering: A Case Study in Computer Science Literature"
Авторы: Ranul Dayarathne, Uvini Ranaweera, Upeksha Ganegoda — University of Moratuwa, Sri Lanka
Инструменты: LangChain (фреймворк), FAISS (векторное хранилище), SPECTER (эмбеддинги для научных текстов)
DOI: https://doi.org/10.1007/978-981-97-9255-9_26
