3,583 papers
arXiv:2509.20859 80 25 сент. 2025 г. FREE

Краткие и достаточные подпредложенческие цитаты для генерации с расширенным поиском

КЛЮЧЕВАЯ СУТЬ
Обнаружено: LLM в RAG-режиме цитируют целые абзацы вместо конкретного факта — пользователь вынужден вычитывать 90% мусора для проверки одной цифры. Sub-Sentence Citations решает проблему верификации ответов — модель теперь вырезает из документа только ту часть предложения, которая подтверждает факт. Вместо «процитируй источник» модель получает задачу «извлеки минимальный фрагмент с максимальной доказательной силой»точность проверки возрастает при сокращении объема чтения на 60-80%.
Адаптировать под запрос

Исследование решает проблему некачественных ссылок в ответах LLM, которые работают с документами (RAG-системы). Авторы отмечают, что боты часто цитируют целые предложения или абзацы, что заставляет пользователя читать много лишнего для проверки факта. Они предлагают генерировать "точные и достаточные" цитаты на уровне части предложения, которые содержат только необходимую для верификации информацию.

Ключевой результат: Создан и протестирован метод, который позволяет LLM генерировать короткие, но исчерпывающие цитаты, что значительно упрощает проверку фактов и повышает доверие к ответам модели.

Суть метода заключается в том, чтобы научить LLM быть не "ленивым", а "аккуратным" фактчекером. Когда вы просите чат-бота найти ответ в большом тексте, он часто находит нужное предложение и цитирует его целиком, даже если 90% этого предложения не относится к вашему вопросу. Это заставляет вас тратить время на вычитывание "мусора".

Исследователи предлагают новый стандарт: цитата должна быть точной (содержать только ту часть текста, которая подтверждает ответ) и достаточной (включать весь минимально необходимый контекст для понимания).

Например, если в тексте есть фраза: "Большой Барьерный риф, который является крупнейшей в мире системой коралловых рифов, был внесен в список Всемирного наследия ЮНЕСКО в 1981 году и сейчас сталкивается с угрозами из-за изменения климата", а вы спросили "Когда риф внесли в список ЮНЕСКО?", то: * Плохая цитата (старый подход): все предложение целиком. * Хорошая цитата (новый подход): "Большой Барьерный риф... был внесен в список Всемирного наследия ЮНЕСКО в 1981 году".

Этот подход требует от модели не просто найти предложение, а проанализировать его и извлечь только самую суть, иногда даже объединяя фрагменты из разных предложений для полноты картины. Для обычного пользователя это означает, что можно и нужно требовать от LLM такой же аккуратности в своих промптах.

  • Прямая применимость: Пользователь может напрямую включить требование генерировать "точные и достаточные цитаты" в свой промпт. Вместо того чтобы просто просить "найди ответ и дай ссылку", можно детализировать: "Найди ответ и приведи минимально возможную цитату из текста, которая подтверждает твой ответ. Не цитируй лишнюю информацию".

  • Концептуальная ценность: Очень высокая. Пользователь начинает понимать, что стандартное поведение LLM при цитировании неоптимально. Он получает концепцию "информационной плотности" цитаты и учится требовать от модели более высокого качества работы с источниками, что снижает риск "галлюцинаций" и упрощает проверку данных.

  • Потенциал для адаптации: Метод легко адаптируется. Сложная академическая идея о дообучении моделей превращается в простую и ясную инструкцию для промпта. Пользователю не нужно знать о "кредитных моделях" или LoRA; ему достаточно сформулировать конечную цель — получить короткую и емкую цитату.

Ты — ассистент по анализу рыночных отчетов. Твоя задача — внимательно изучить предоставленный текст и точно ответить на мой вопрос.

**Контекст:**
"Несмотря на экономическую нестабильность, рынок органических продуктов питания продолжает демонстрировать уверенный рост. Потребители, особенно миллениалы и поколение Z, все чаще отдают предпочтение продуктам без пестицидов, что подтверждается увеличением продаж на 12% в прошлом году. Ключевым драйвером этого тренда является растущая осведомленность о здоровом образе жизни, активно продвигаемая через социальные сети, такие как Instagram и TikTok. В то же время, высокая стоимость органической продукции остается главным барьером для более широкого охвата аудитории."

**Твоя задача:**
Проанализируй текст и ответь на вопрос ниже.

**Правила для ответа:**
1.  Сначала дай четкий и короткий ответ на вопрос.
2.  После ответа, под заголовком "Цитата:", приведи **точную и достаточную цитату** из текста, которая напрямую подтверждает твой ответ.
3.  Цитата должна быть минимально возможной по длине. Не включай в нее целые предложения, если для подтверждения факта достаточно лишь фрагмента.

**Вопрос:**
Что является ключевым драйвером роста рынка органических продуктов?

Этот промпт эффективен, потому что он реализует ключевые принципы исследования на практике:

  1. Явная инструкция: Вместо неявного предположения, что LLM даст хорошую цитату, мы прямо говорим, какой она должна быть: точную и достаточную.
  2. Ограничение "ленивого" поведения: Команда Не включай в нее целые предложения, если для подтверждения факта достаточно лишь фрагмента напрямую запрещает модели использовать стандартный, но неэффективный подход.
  3. Структурирование вывода: Требование формата (Ответ:, Цитата:) помогает модели лучше организовать информацию и отделяет сам факт от его подтверждения.
  4. Принуждение к анализу: Промпт заставляет модель выполнить дополнительную операцию: не просто найти релевантное предложение, а затем "вырезать" из него минимальный осмысленный фрагмент, подтверждающий ответ. Это повышает точность и снижает когнитивную нагрузку на пользователя при проверке.
Ты — научный журналист, который помогает мне разбираться в сложных темах. Проанализируй отрывок из статьи и ответь на мой вопрос.

**Контекст:**
"Исследования последних лет показывают, что регулярная физическая активность оказывает комплексное воздействие на мозг. В частности, аэробные упражнения, такие как бег или плавание, способствуют усилению нейрогенеза — процесса образования новых нейронов — преимущественно в гиппокампе, области мозга, критически важной для формирования долговременной памяти и обучения. Этот эффект связывают с увеличением выработки нейротрофического фактора мозга (BDNF), белка, стимулирующего рост и выживание нервных клеток. Силовые тренировки, в свою очередь, больше влияют на улучшение исполнительных функций, таких как планирование и концентрация внимания."

**Инструкции:**
1.  Ответь на мой вопрос одним предложением.
2.  Сразу после ответа предоставь **минимально необходимую цитату** из текста для проверки твоего утверждения. Цитата должна быть лаконичной, но самодостаточной для понимания.

**Вопрос:**
Какая область мозга в первую очередь выигрывает от аэробных упражнений с точки зрения создания новых нейронов?

Этот промпт работает по тем же причинам, что и предыдущий, но с акцентом на лаконичность:

  1. Фокус на минимализме: Использование формулировки минимально необходимую цитату и лаконичной, но самодостаточной является прямой реализацией принципа "concise and sufficient" из статьи. Это заставляет модель отсекать все лишнее.
  2. Конкретизация задачи: Вопрос сфокусирован на одной детали ("какая область мозга"), что упрощает для модели задачу по поиску и извлечению точного фрагмента.
  3. Устранение двусмысленности: Промпт не оставляет модели пространства для интерпретации того, что такое "хорошая цитата". Он задает четкие критерии: минимальная длина при сохранении смысла. Это заставляет модель извлечь именно "в гиппокампе, области мозга, критически важной для формирования долговременной памяти и обучения", а не все предложение про аэробные упражнения.
📌

Основные критерии оценки

  • A. Релевантность техникам промтинга: Да, исследование предлагает концепцию "точных и достаточных" цитат, которую можно напрямую встроить в промпт в виде инструкции.
  • B. Улучшение качества диалоговых ответов: Да, основная цель — улучшить верифицируемость и надежность ответов, что напрямую повышает их качество для пользователя.
  • C. Прямая практическая применимость: Низкая для самого метода (требует дообучения модели), но высокая для основной идеи. Пользователь может легко адаптировать принцип в виде инструкции в своем промпте, не используя код.
  • D. Концептуальная ценность: Очень высокая. Исследование отлично раскрывает проблему "ленивых" цитат в RAG-системах и дает пользователю "ментальную модель" того, как требовать от LLM более точной и полезной атрибуции.
  • E. Новая полезная практика: Работа попадает в кластеры:
    • 1. Техники формулирования промптов: Дает идею для формулировки требования к цитированию.
    • 5. Извлечение и структурирование: Предлагает продвинутый способ извлечения подтверждающей информации.
    • 6. Контекст и память: Напрямую относится к улучшению RAG-процесса.
    • 7. Надежность и стабильность: Повышает надежность за счет упрощения проверки фактов.
  • Чек-лист практичности: Дает готовые идеи для фраз в промптах (+15 баллов). Раскрывает неочевидные особенности поведения LLM (тенденция к избыточному цитированию). Предлагает способы улучшить точность ответов.
📌

Цифровая оценка полезности

Аргументы за оценку 80: Исследование имеет огромную концептуальную ценность для любого, кто использует LLM для анализа текстов. Оно вооружает пользователя пониманием распространенной проблемы (избыточные и неточные ссылки на источник) и дает ему язык для ее решения. Идею "точных и достаточных цитат на уровне части предложения" можно немедленно превратить в инструкцию для промпта, что напрямую улучшит качество ответов в задачах, связанных с RAG (поиск по базе знаний, суммаризация документов). Это повышает доверие к ответам LLM и экономит время пользователя на проверку фактов.

Контраргументы (почему оценка могла бы быть ниже/выше): * Почему не 90+: Основной метод, предложенный в статье (создание датасета, дообучение "кредитной" модели), абсолютно неприменим для обычного пользователя. Эффективность простого промпта, имитирующего этот подход, будет зависеть от способностей базовой модели (например, GPT-4o справится лучше, чем Llama 3 8B). Таким образом, это не универсальный "серебряный" промпт, а скорее продвинутая инструкция, результативность которой может варьироваться. * Почему не 60-70: Несмотря на академичность самого метода, его ключевой вывод настолько прост, интуитивно понятен и практически полезен, что заслуживает высокой оценки. Он решает реальную боль пользователей, работающих с информацией, и дает им конкретный инструмент для ее утоления через промпт. Это не просто "любопытно", а "очень полезно".


Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с