3,583 papers
arXiv:2511.18177 76 22 нояб. 2025 г. PRO

Small-to-big retrieval и принципы продвинутого RAG для длинных документов

КЛЮЧЕВАЯ СУТЬ
LLM проваливается на оглавлениях длинных документов. Видит названия разделов "Кредитный риск", "Операционный риск", "Процентная политика" и не может угадать где ответ про ключевую ставку ЦБ. Семантический поиск работает на 68% лучше — идёт напрямую к тексту "изменение ключевой ставки" в 200-страничном отчёте. Метод small-to-big retrieval позволяет находить точные ответы в финансовых документах на 100-300 страниц — SEC-отчётах, годовых отчётах банков, контрактах. Фишка: сначала точечный поиск находит нужный фрагмент, потом расширяешь контекст соседними абзацами — часто ключевая деталь (методика расчёта, цифры, пояснение) идёт в параграфе до или после. Win rate 65%, задержка всего +0.2 секунды против базового поиска.
Адаптировать под запрос
📋 Дайджест исследования

Контент доступен только для PRO подписчиков

Чтобы получить доступ к дайджесту этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Контент доступен только для PRO подписчиков

Чтобы получить доступ к концептам этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO
📖 Простыми словами

Контент доступен только для PRO подписчиков

Чтобы получить доступ к упрощённому объяснению этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с