3,583 papers
arXiv:2511.03261 45 5 нояб. 2025 г. FREE

RAG для научной литературы: сравнение LLM на вопросах-ответах

КЛЮЧЕВАЯ СУТЬ
Исследование сравнивает пять языковых моделей (GPT-3.5, Mistral, LLaMa2, Falcon, Orca) на задаче ответов на вопросы по научным статьям с использованием RAG — техники, при которой модель сначала находит релевантные фрагменты в базе документов, затем формирует ответ на их основе. RAG — это инфраструктурное решение: векторная база, эмбеддинги, поиск по сходству, API к модели.
Адаптировать под запрос

TL;DR

Исследование сравнивает пять языковых моделей (GPT-3.5, Mistral, LLaMa2, Falcon, Orca) на задаче ответов на вопросы по научным статьям с использованием RAG — техники, при которой модель сначала находит релевантные фрагменты в базе документов, затем формирует ответ на их основе. RAG — это инфраструктурное решение: векторная база, эмбеддинги, поиск по сходству, API к модели.

Главная находка: RAG радикально улучшает точность на вопросах о свежих данных. ChatGPT без RAG ответил правильно на 48% бинарных вопросов, GPT-3.5 с RAG — на 90%. Среди open-source моделей лидирует Mistral (86%), но он в 60 раз медленнее GPT-3.5. Falcon и LLaMa2 показали худшие результаты — модели «галлюцинировали» даже при наличии релевантного контекста.

Практический вывод: Если модель не обучена на нужных вам данных — подайте их в контекст. Это работает. Но реализация RAG требует программирования: Python, LangChain, векторные хранилища, API моделей. В обычном чате ChatGPT/Claude вы не сможете построить RAG-пайплайн.


🔬

Схема метода

RAG-пайплайн (требует кода и инфраструктуры):

ПОДГОТОВКА (разовая):
База документов → Разбивка на чанки → Эмбеддинг (SPECTER) → Векторное хранилище (FAISS)

ЗАПРОС (каждый раз):
Вопрос пользователя → Эмбеддинг вопроса → Поиск похожих чанков → 
Формирование промпта (вопрос + найденные фрагменты) → LLM → Ответ

📌

Что можно извлечь для работы в чате

Исследование — техническое, для разработчиков. Но есть один принцип, применимый вручную:

📌

Принцип: «Контекст побеждает галлюцинации»

Если LLM не знает ответа (данные вышли после обучения, узкая специфика) — дайте контекст в промпте. Это «ручной RAG»:

  1. Найдите нужную информацию сами (статья, документ, сайт)
  2. Скопируйте релевантные фрагменты в промпт
  3. Задайте вопрос

Пример:

Вот выдержка из исследования [вставить текст статьи/абстракта].

На основе этого текста ответь: [ваш вопрос]

Это не полноценный RAG (нет автоматического поиска по базе), но использует тот же принцип: модель отвечает на основе предоставленного контекста, а не своей памяти.


📌

Интересные детали из исследования

📋

Формат промпта влияет на результат

Mistral требует специфический формат промпта:

[INST] инструкции [/INST] ответ [INST] уточняющий вопрос [/INST]

Без этого формата модель отвечала размыто: «не могу однозначно ответить». С правильным форматом — точный ответ с деталями.

Вывод для пользователей: Если модель отвечает странно — попробуйте переструктурировать промпт. Разные модели «слышат» инструкции по-разному.

⚖️

Латентность vs качество

МодельТочностьВремя ответаСтоимость
GPT-3.5 + RAG90%1.7 сек$0.0006
Mistral + RAG86%106 секБесплатно
Orca + RAG81%99 секБесплатно
LLaMa2 + RAG62%107 секБесплатно

Open-source модели бесплатны, но в 60 раз медленнее. Для личного использования — терпимо. Для продакшена — нет.


🔍

Как исследовали

Команда из Университета Моратува (Шри-Ланка) собрала базу из 4929 абстрактов научных статей по computer science (LLM, квантовые вычисления, edge computing) за 2023-2024 годы — то есть данные, на которых модели точно не обучались.

Абстракты разбили на чанки по 1024 символа, превратили в векторы через SPECTER (модель для научных текстов), сохранили в FAISS. Потом задавали 30 вопросов: 21 бинарный (да/нет) и 9 с развёрнутым ответом.

Оценивали тремя способами: точность на бинарных, косинусное сходство для длинных ответов, ранжирование человеком-экспертом и Gemini.

Любопытно: Gemini и человек-эксперт оценивали почти одинаково — AI уже способен заменить человека в оценке качества ответов на экспертные вопросы.


⚠️

Ограничения

⚠️ Требует инфраструктуры: RAG-пайплайн — это Python + LangChain + API моделей + векторная база. Нельзя применить в обычном чате.

⚠️ Узкий домен: Тестировали только на научных абстрактах. Как RAG работает на других типах документов — неизвестно.

⚠️ Устаревшие модели: GPT-3.5, Mistral-7b, LLaMa2-7b — это 2023-2024 год. Современные модели (GPT-4o, Claude 3.5, Mistral Large) могут показать другие результаты.

⚠️ Ограниченная оценка: 30 вопросов, один эксперт-человек. Статистическая значимость под вопросом.


🔗

Ресурсы

Работа: "Comparing the Performance of LLMs in RAG-based Question-Answering: A Case Study in Computer Science Literature"

Авторы: Ranul Dayarathne, Uvini Ranaweera, Upeksha Ganegoda — University of Moratuwa, Sri Lanka

Инструменты: LangChain (фреймворк), FAISS (векторное хранилище), SPECTER (эмбеддинги для научных текстов)

DOI: https://doi.org/10.1007/978-981-97-9255-9_26


📖 Простыми словами

Суть тут простая: нейронки типа ChatGPT не знают того, что случилось вчера, и начинают уверенно врать, когда их спрашивают о свежих научных статьях. Чтобы это починить, используют RAG — это когда модели подсовывают «шпаргалку» с нужным текстом перед тем, как она откроет рот. Главный прикол исследования в том, что бесплатная и маленькая модель Mistral-7b выдает точность 85.7%, почти наступая на пятки платной GPT-3.5 с её 90.5%. Но есть нюанс: Mistral — это капризный эксперт, который понимает тебя только если ты обращаешься к нему по строгому протоколу, иначе на выходе будет полная херня.

Это как нанять на работу гениального, но аутичного профессора. Если ты просто спросишь его: "Слышь, а что там в новых статьях?", он пробормочет что-то невнятное и уйдет в себя. Но если ты положишь перед ним папку с документами и задашь вопрос строго по форме: "Используя только эти данные, ответь: да или нет", он выдаст тебе идеальный результат. GPT-3.5 в этом плане — сообразительный стажер: ему можно объяснить на пальцах, и он поймет, а Mistral без своего шаблона <s>[INST] просто не включает мозги.

Чтобы эта магия заработала, нужно три конкретных костыля. Во-первых, chunking с overlap: текст режут на куски по 1024 символа, накладывая их друг на друга, чтобы смысл не потерялся на стыке. Во-вторых, SPECTER — это специальные «очки» для нейронки, которые помогают ей понимать научный жаргон, а не просто общие слова. И в-третьих, тот самый строгий формат промпта для Mistral: если не обернуть запрос в специальные теги, точность падает в бездну. Исследователи доказали: 6 из 9 развернутых ответов у маленькой модели были уровня «экстра-класс», если соблюдать эти правила.

Тестировали всё это на суровом Computer Science, но принцип универсален. Эта схема — готовый рецепт для любого бизнеса, где нужно быстро вытаскивать факты из кучи документов, будь то юридические договоры, медицинские выписки или технические мануалы. SEO умирает, GEO рождается: теперь важно не то, как тебя найдет поисковик, а то, как тебя «прочитает» и перескажет нейронка. Если твой контент не ложится в логику RAG, для будущего интернета тебя просто не существует.

Короче: можно не платить OpenAI, если руки растут из плеч. Берешь Mistral-7b, настраиваешь векторную базу FAISS, упаковываешь промпты в жесткий шаблон и получаешь экспертную систему за ноль рублей. Главное — забудь про вольные формулировки и требуй от модели отвечать строго по фактам, иначе она начнет галлюцинировать и выдавать желаемое за действительное. 72 балла из 100 — это крепкий рабочий метод, который экономит кучу денег тем, кто готов один раз запариться с настройкой.

Сгенерировано: 21.12.2025 16:56 | ArXiv Data Collector

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с