3,583 papers
arXiv:2506.06240 65 1 июня 2025 г. FREE

Согласование внешних и параметрических знаний: снижение галлюцинаций больших языковых моделей с помощью общего частного семантического подхода.

КЛЮЧЕВАЯ СУТЬ
Вместо простого добавления найденного текста в промпт, СНАЧАЛА ПРОВЕРЬ уверенность модели в теме, ОТФИЛЬТРУЙ ШУМ из внешнего источника, а затем СМЕШАЙ релевантную информацию с внутренними знаниями модели. Качественный синтез двух источников знаний работает лучше, чем механическое копирование контекста. Метод решает главную проблему RAG: конфликт между внешним текстом и знаниями модели.
Адаптировать под запрос
📌

1. Ключевые аспекты исследования:

Исследование решает проблему, когда LLM, получив внешний текст (как в RAG), не может грамотно его использовать из-за шума, нерелевантной информации или конфликтов с собственными "знаниями". Авторы предлагают систему DSSP-RAG, которая сначала определяет, нужно ли вообще внешнее знание, затем очищает его от "шума", и, наконец, интеллектуально "смешивает" с внутренними знаниями модели, разделяя их на "общее" (что совпадает) и "частное" (уникальные детали из каждого источника).

Ключевой результат: Такой подход "умной интеграции" вместо слепого добавления контекста значительно снижает количество галлюцинаций и повышает точность ответов модели.

🔬

2. Объяснение всей сути метода:

Представьте, что вы — руководитель, а LLM — ваш помощник. Вы даете ему сложную задачу.

  1. Стандартный подход (простой RAG): Вы находите в интернете 10-страничный отчет по теме и просто бросаете его на стол помощнику со словами: "Вот, изучи и подготовь ответ". Помощник может запутаться, взять не те цифры, смешать устаревшие данные из отчета со своими старыми знаниями. Результат непредсказуем.

  2. Подход из исследования (DSSP-RAG), адаптированный для понимания:

    • Шаг 1: Нужен ли отчет вообще? (Hallucination Detection). Сначала вы спрашиваете помощника о задаче без всяких отчетов. Затем задаете тот же вопрос, но другими словами. Если помощник "плывет" и дает разные ответы, вы понимаете — он не уверен. Значит, внешний отчет ему точно нужен. Если ответы стабильны и уверены — можно обойтись без него.
    • Шаг 2: Выделяем суть в отчете (Knowledge Filtering). Вместо того чтобы отдавать все 10 страниц, вы сами (или другой эксперт) просматриваете отчет и маркером выделяете 2-3 ключевых абзаца, которые напрямую относятся к задаче, игнорируя "воду" и нерелевантные детали. Вы фильтруете шум.
    • Шаг 3: Умный синтез (Dual-Stream Augmentation). Вы даете помощнику эти выделенные абзацы и даете четкую инструкцию: "Сравни эту информацию со всем, что ты уже знаешь по теме. Найди, что у тебя совпадает с отчетом — это наш 'фундамент'. Затем найди уникальные детали, которые есть в отчете, но которых нет у тебя — это 'новые кирпичики'. Построй свой финальный ответ, используя и то, и другое".

Метод DSSP-RAG автоматизирует эти три шага внутри самой LLM-системы. Он не просто добавляет контекст, а проводит целый процесс: диагностика → фильтрация → синтез. Это позволяет модели использовать сильные стороны и внешнего источника, и своей внутренней базы знаний, минимизируя их недостатки.

📌

3. Анализ практической применимости:

*Прямая применимость:Практически нулевая. Пользователь в чат-интерфейсе не имеет доступа к внутренним механизмам модели, таким как матрицы внимания или анализ стабильности подпространств. Нельзя написать в промпте: "Включи DSSP-RAG".

  • Концептуальная ценность: Очень высокая. Исследование дает пользователю мощную ментальную модель:

    1. Контекст — это не всегда благо. Он может содержать шум и противоречия.
    2. LLM можно "прощупать" на уверенность. Нестабильность ответов на перефразированные запросы — это красный флаг.
    3. Качество важнее количества. Лучше дать модели один абзац релевантной информации, чем 10 страниц "мусора".
    4. Лучший результат — это синтез. Нужно активно просить модель не просто пересказать контекст, а сопоставить его со своими знаниями, найти общее и выделить различия.
  • Потенциал для адаптации: Огромный. Пользователь может вручную симулировать логику DSSP-RAG в своих промптах. Механизм адаптации заключается в том, чтобы разбить сложный запрос на несколько шагов, которые имитируют системный подход:

    1. Ручная детекция: Задать вопрос 2-3 раза разными словами. Если ответы расходятся — значит, нужен точный контекст.
    2. Ручная фильтрация: Самостоятельно найти и подготовить максимально релевантный и краткий фрагмент текста для контекста.
    3. Промпт для синтеза: Сформулировать промпт так, чтобы он явно требовал от модели выполнить "смешение" знаний, а не просто пересказ.

🚀

4. Практически пример применения:

Представим, что пользователь хочет составить уникальный план путешествия по Лиссабону, избегая заезженных туристических мест. Он нашел свежую статью в блоге о скрытых жемчужинах города.

# РОЛЬ

Ты — опытный трэвел-блогер и эксперт по Португалии. Твоя задача — помочь мне составить нетривиальный план на 2 дня в Лиссабоне.

# КОНТЕКСТ (Внешнее знание)

Вот выдержка из недавней статьи "Лиссабон для своих":
"Многие туристы идут в замок Св. Георгия, но местные предпочитают вид с Miradouro da Senhora do Monte — там меньше людей и панорама лучше. Вместо того чтобы стоять в очереди за паштейшем в Belem, попробуйте его в Manteigaria — вкус тот же, а ждать не придется. Вечером забудьте про туристические рестораны с фаду в Alfama. Настоящая атмосфера — в маленьких тасках (tascas) района Graça, например, в 'O Pitéu'. А за современным искусством идите не в музей Берардо, а в LX Factory — это креативный кластер в бывшей промзоне, полный галерей, магазинов и уникальных кафе."

# ЗАДАЧА

Основываясь на **принципах из статьи** и **своих собственных общих знаниях** о Лиссабоне, создай для меня пошаговый план на 2 дня.

# ИНСТРУКЦИИ ПО ГЕНЕРАЦИИ

1. **Синтезируй информацию:** Не просто пересказывай статью. Используй идеи из нее (например, "избегать очередей", "искать аутентичные места") как **"частное знание"**. Объедини его со своими **"общими знаниями"** о логистике перемещений по городу, других интересных местах и времени работы.
2. **Приоритет на аутентичность:** В каждой рекомендации делай акцент на том, почему это место лучше стандартного туристического аналога.
3. **Структура ответа:** Представь план в виде таблицы с колонками: "Время", "Активность", "Почему это лучше (на основе контекста или твоих знаний)".

Создай план.

🧠

5. Почему это работает:

Этот промпт работает за счет ручной имитации ключевых идей DSSP-RAG:

  • Имитация RAG: Мы явно предоставляем внешний источник знаний (# КОНТЕКСТ).
  • Имитация Knowledge Filtering: Пользователь заранее сам выбрал самый сочный и релевантный кусок из статьи, отбросив ненужное. Он подает модели уже отфильтрованный "сигнал", а не "шум".
  • Имитация Dual-Stream Augmentation: Промпт прямо заставляет модель работать в режиме "умного синтеза".
    • ...на основе **принципов из статьи** и **своих собственных общих знаниях**... — это прямое указание на использование двух потоков знаний.
    • ...идеи из нее ... как **"частное знание"**. Объедини его со своими **"общими знаниями"**. — мы используем терминологию, близкую к логике исследования, чтобы направить мышление модели на синтез, а не на пересказ.
    • Инструкция Синтезируй информацию и требование объяснить Почему это лучше заставляют модель не просто скопировать факты, а провести анализ и интеграцию данных.

📌

6. Другой пример практического применения

Задача: Составить продающий текст для лендинга нового фитнес-приложения, основываясь на реальном отзыве пользователя.

# РОЛЬ

Ты — профессиональный копирайтер, специализирующийся на текстах для IT-продуктов. Твоя сильная сторона — превращать отзывы клиентов в убедительные истории.

# КОНТЕКСТ (Внешнее знание от клиента)

Вот отзыв от бета-тестера нашего приложения "Энергия Утра":
"Я пробовал много фитнес-приложений. Везде одно и то же — часовые тренировки, на которые нет времени. Я работаю из дома, у меня двое детей. Ваше приложение — спасение. 15-минутные зарядки утром — это то, что надо. Я перестал чувствовать себя разбитым к обеду. Особенно понравилась система 'умных' напоминаний, которые не бесят, а реально мотивируют встать из-за стола. За месяц я не пропустил ни дня и чувствую себя совершенно иначе. Это не про 'накачаться к лету', а про то, чтобы просто хорошо себя чувствовать каждый день."

# ЗАДАЧА

Напиши короткий (3-4 абзаца) текст для главного экрана нашего сайта.

# ИНСТРУКЦИИ ПО ГЕНЕРАЦИИ

1. **Извлеки "частное знание":** Внимательно изучи отзыв. Твоя цель — извлечь не факты, а **эмоциональные триггеры и болевые точки** пользователя:- Боль: "нет времени", "чувствовал себя разбитым".
- Решение: "15-минутные зарядки", "не пропустил ни дня".
- Ключевая ценность: "не про накачаться, а про хорошо себя чувствовать".
2. **Используй "общее знание":** Вспомни лучшие практики продающих текстов: сильный заголовок, фокус на выгоде, призыв к действию.
3. **Синтез:** Создай текст, который **сочетает** живые эмоции и боли из отзыва с эффективной структурой продающего текста. Не цитируй отзыв дословно, а передай его суть своим языком. Сделай акцент на решении проблемы занятых людей.
🧠

7. Объяснение механизма почему этот пример работает.

Этот промпт является практической адаптацией методологии DSSP-RAG к задаче копирайтинга:

  • Контекст (RAG): Отзыв пользователя выступает как внешний, достоверный источник информации.
  • Фильтрация знаний: Инструкция Извлеки "частное знание" заставляет модель выполнить роль "фильтра". Она должна отделить эмоциональную суть и ключевые боли ("сигнал") от остальной информации в отзыве ("шум"). Это аналог фильтрации на основе "Energy Quotient" из статьи.
  • "Смешанное внимание" и синтез: Промпт четко разделяет два потока информации: "частное знание" (эмоции и боли из отзыва) и "общее знание" (структура продающих текстов). Команда Создай текст, который сочетает... — это прямое указание на синтез, а не на выбор одного из источников. Модель вынуждена интегрировать аутентичность отзыва в проверенную маркетинговую формулу, что приводит к гораздо более сильному и убедительному результату, чем простое описание функций приложения.

📌

Основные критерии оценки

  • A. Релевантность техникам промтинга: Низкая. Исследование описывает сложную архитектуру (DSSP-RAG), а не конкретные фразы или структуры для написания промптов пользователем.
  • B. Улучшение качества диалоговых ответов: Высокая (теоретически). Основная цель работы — снижение галлюцинаций и повышение точности ответов, что напрямую влияет на качество диалога.
  • C. Прямая практическая применимость: Очень низкая. Пользователь не может реализовать "смешанное внимание", "фильтрацию на основе EQ" или "анализ стабильности подпространств" в обычном чате. Это требует модификации самой LLM-системы.
  • D. Концептуальная ценность: Очень высокая. Исследование дает глубокое понимание фундаментальных проблем RAG (конфликт знаний, шум) и предлагает элегантную ментальную модель для их решения (разделение на "общее" и "частное" знание).
  • E. Новая полезная практика (Кластеры):
    • Кластер 2 (Поведенческие закономерности LLM): Да. Раскрывает, что нестабильность ответов на семантически одинаковые, но синтаксически разные запросы является маркером "неуверенности" или потенциальной галлюцинации модели.
    • Кластер 6 (Контекст и память): Да. Предлагает продвинутую RAG-стратегию, которая выходит за рамки простого добавления контекста.
    • Кластер 7 (Надежность и стабильность): Да. Вся работа посвящена методам снижения галлюцинаций и повышения надежности ответов.
  • Чек-лист практичности (+15 баллов):
    • Дает готовые фразы/конструкции для промптов? Нет.
    • Объясняет, где в промпте размещать важную информацию? Нет.
    • Показывает, как структурировать сложные запросы? Нет.
    • Раскрывает неочевидные особенности поведения LLM? Да. Концепция "стабильности подпространств" как индикатора уверенности — это очень неочевидная и полезная идея.
    • Раскрывает эффективные метода суммаризации текста? Нет.
    • Предлагает способы улучшить consistency/точность ответов? Да. Вся суть работы в этом, пусть и на системном уровне.
    • Итог: Два "Да", что дает +15 баллов к базовой оценке.
📌

2 Цифровая оценка полезности

Изначально исследование заслуживает оценки в диапазоне 30-64 ("Любопытно, но не очень практично"), так как его выводы невозможно применить напрямую. Однако его концептуальная ценность чрезвычайно высока. Оно дает пользователю "рентгеновское зрение", позволяя понять, почему стандартный RAG (когда мы просто вставляем текст в промпт) иногда не работает и даже вредит. Идеи о "шуме" в контексте и конфликте с внутренними знаниями модели бесценны для формирования правильных ожиданий и стратегий.

Чек-лист добавляет 15 баллов за раскрытие неочевидных поведенческих паттернов и фокус на надежности. Итоговая оценка 65 отражает этот баланс: это не инструкция "скопируй и вставь", а пища для ума, которая может качественно изменить подход пользователя к построению сложных промптов с контекстом, пусть и через ручную "симуляцию" предложенных идей.

Контраргументы:

  • Почему оценка могла бы быть выше (>70)? Продвинутый пользователь может адаптировать ключевую идею "детекции галлюцинаций". Прежде чем доверять ответу на сложный вопрос, можно задать его модели 2-3 раза, слегка переформулировав. Если ответы сильно разнятся, это прямой сигнал о неуверенности модели и необходимости предоставить ей точный внешний контекст. Это уже прямая, хоть и ручная, практическая техника, вытекающая из исследования.
  • Почему оценка могла бы быть ниже (<50)? Для абсолютного новичка, который ищет готовые рецепты промптов, исследование бесполезно. Концепции "смешанного внимания" и "фильтрации на основе разницы внимания" слишком академичны и непереводимы в простые действия. Для такого пользователя это просто "исследование про архитектуру LLM".

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с