3,583 papers
arXiv:2510.09722 80 10 окт. 2025 г. PRO

Параллельная декомпозиция задач с индексной адресацией: точное извлечение данных из длинных документов

КЛЮЧЕВАЯ СУТЬ
Парадокс: LLM отлично определяет ГДЕ находится нужная информация, но плохо её копирует дословно. Попроси модель пересказать 100+ токенов — получишь парафраз вместо точной цитаты. Это не баг, а особенность генерации: чем длиннее цепочка токенов, тем выше вероятность смыслового дрейфа. Метод позволяет извлекать точные цитаты из длинных документов (письма клиентов, договоры, резюме) без искажений и перефразирования. Фишка: модель не генерирует текст, а возвращает номера строк — "описание в строках 15-25", а точный текст ты забираешь сам из исходника. Плюс параллельные промпты — вместо одного запроса "извлеки всё" делаешь 3-4 узких запроса по категориям (базовая инфо, финансы, суть вопроса). Каждый промпт фокусируется на 3-5 полях, не теряет концентрацию — никакого дрейфа, 100% точность.
Адаптировать под запрос
📋 Дайджест исследования

Контент доступен только для PRO подписчиков

Чтобы получить доступ к дайджесту этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Контент доступен только для PRO подписчиков

Чтобы получить доступ к концептам этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO
📖 Простыми словами

Контент доступен только для PRO подписчиков

Чтобы получить доступ к упрощённому объяснению этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с