3,583 papers
arXiv:2502.12767 78 18 фев. 2025 г. FREE

R2-KG: Универсальная двухагентная структура для надежного рассуждения на графах знаний

КЛЮЧЕВАЯ СУТЬ
Это снижает когнитивную нагрузку на LLM и ведет к более точным и обоснованным результатам
Адаптировать под запрос

Исследование предлагает систему из двух AI-агентов для надежной работы с базами знаний. Один агент, "Оператор" (простая LLM), ищет и собирает факты. Второй, "Супервизор" (продвинутая LLM), анализирует собранные факты, выносит окончательное суждение или отправляет Оператора на доработку. Если уверенности в ответе нет, система предпочитает "воздержаться", а не галлюцинировать.

Ключевой результат: Разделение ролей на сборщика фактов и аналитика резко повышает точность ответов и снижает риск выдумок, делая взаимодействие с LLM более надежным и предсказуемым.

Суть метода R2-KG — в разделении сложного процесса мышления на две простые, четко определенные роли, которые выполняются разными по мощности LLM. Это похоже на работу команды "младший аналитик" и "старший партнер".

  1. Оператор (младший аналитик): Получает задачу (вопрос пользователя). Его единственная цель — "бегать" по базе знаний (Knowledge Graph) и собирать релевантные факты-триплеты (например, "Леонардо Ди Каприо" → сыграл в → "Титаник"). Он не делает выводов, а просто собирает сырые данные. Это может быть менее мощная и более дешевая модель (например, GPT-4o mini).

  2. Супервизор (старший партнер): Периодически получает от Оператора "пачку" собранных фактов. Его задача — оценить, достаточно ли этих данных для ответа на исходный вопрос.

    • Если данных достаточно: Супервизор формирует из них логически связанный, точный ответ.
    • Если данных недостаточно: Супервизор не пытается додумать, а дает Оператору четкую обратную связь: "Отличная работа, но теперь проверь, в каком году вышел 'Титаник'" или "Ты упустил ветку про его других актеров, вернись и посмотри".
    • Если после нескольких попыток данных все равно мало: Супервизор принимает решение "воздержаться от ответа" (Abstain). Это ключевая особенность для повышения надежности. Лучше не дать ответа, чем соврать.

Для обычного пользователя это означает, что вместо одного большого и сложного промпта, который заставляет LLM одновременно искать, анализировать и отвечать, можно выстроить диалог или структурировать один промпт так, чтобы модель последовательно выполняла эти роли. Это снижает когнитивную нагрузку на LLM и ведет к более точным и обоснованным результатам.

  • Прямая применимость: Низкая. Пользователь не может запустить двух агентов и подключить их к графу знаний. Однако, можно имитировать этот процесс в одном чате, последовательно давая команды: сначала на сбор информации, потом на ее анализ.

  • Концептуальная ценность: Очень высокая. Это исследование дает пользователю три мощные концепции:

    1. Декомпозиция по ролям: Любую сложную задачу можно разбить на роль "исследователя" (сбор фактов без суждений) и роль "аналитика" (синтез и выводы на основе только собранных фактов).
    2. Принудительное заземление (Grounding): Можно заставить модель основывать свой ответ исключительно на предоставленном контексте, запретив ей использовать "внутренние знания" и додумывать.
    3. Право на молчание: Можно научить модель говорить "я не знаю" или "недостаточно данных", если она не уверена. Это критически важно для задач, где точность превыше всего.
  • Потенциал для адаптации: Огромный. Пользователь может адаптировать этот подход, создавая структурированные промпты, которые имитируют диалог "Оператор-Супервизор". Это делается через явное назначение ролей и последовательное выполнение шагов внутри одного запроса. Вместо графа знаний используется предоставленный пользователем текст или результаты поиска, которые модель генерирует на первом шаге.

Представим, что вы хотите проанализировать отзывы на ваш новый онлайн-курс и составить план улучшений.

Ты выступишь в роли двух экспертов, работающих последовательно.

**Контекст:**
Ниже приведены 10 отзывов от пользователей о моем онлайн-курсе по фотографии для начинающих.

<ОТЗЫВЫ>
1. "Курс отличный, много практики! Но уроки по обработке в Lightroom показались слишком короткими."
2. "Все понравилось, особенно модуль про композицию. Хотелось бы больше примеров для съемки на смартфон."
3. "Теория объясняется сложно. Запутался в настройках диафрагмы. Пришлось гуглить дополнительно."
4. "Очень крутой блок про работу со светом! Но нет ничего про съемку видео, а я надеялся."
5. "Цена завышена для такого объема материала. Конкуренты дают больше за те же деньги."
6. "Практические задания супер! Но хотелось бы получать более развернутую обратную связь от куратора."
7. "Модуль про композицию просто огонь! Лучшее, что я видел."
8. "Технические проблемы с платформой. Видео иногда зависали."
9. "Мало информации по мобильной фотографии, а сейчас все снимают на телефон."
10. "Сложно для новичков. Термины 'ISO', 'выдержка' не объясняются с нуля."


---

**ЗАДАЧА:**

**Шаг 1: Роль "Аналитик-исследователь" (Оператор)**
Твоя задача — беспристрастно извлечь из отзывов ВСЕ упоминания сильных и слабых сторон курса. Не делай никаких выводов. Просто структурируй информацию.
Создай две таблицы в формате Markdown: "Сильные стороны" и "Слабые стороны". В каждой таблице должны быть колонки "Аспект" и "Частота упоминаний".

**Шаг 2: Роль "Продуктовый менеджер" (Супервизор)**
Твоя задача — проанализировать таблицы, созданные на Шаге 1. На основе **только этих данных** и ничего больше, предложи 3 самых приоритетных действия для улучшения курса. Для каждого действия дай краткое обоснование, почему именно оно является приоритетным (например, "упоминается чаще всего" или "критически важно для новичков").
В конце дай оценку своей уверенности в выводах по шкале от 1 до 10. Если уверенность ниже 7, укажи, какой информации тебе не хватило.

Этот промпт работает за счет имитации фреймворка R2-KG:

  • Разделение ролей: Мы явно определяем две роли: "Аналитик-исследователь" (Оператор) и "Продуктовый менеджер" (Супервизор). Это снижает когнитивную нагрузку на модель.
  • Сбор фактов (Шаг 1): Первая роль заставляет модель заниматься только извлечением и структурированием сырых данных (отзывов), не пытаясь их интерпретировать. Это аналог работы Оператора с графом знаний.
  • Анализ и суждение (Шаг 2): Вторая роль получает уже обработанные, структурированные данные и работает только с ними ("на основе только этих данных"). Это имитирует работу Супервизора, который анализирует собранные факты.
  • Надежность и воздержание: Требование оценить уверенность и указать на нехватку информации — это прямая адаптация механизма "Abstention". Это заставляет модель рефлексировать над полнотой данных, а не делать выводы на пустом месте.

Задача: спланировать семейный отпуск, учитывая интересы всех членов семьи.

Ты — умный ассистент по планированию путешествий. Ты будешь действовать в двух ролях последовательно.

**Контекст:**
Семья: 2 взрослых, 2 ребенка (мальчик 12 лет, девочка 7 лет).
Бюджет: 200 000 рублей на все (перелет, проживание, развлечения).
Период: 2 недели в июле.
Интересы:
- Папа: история, горы, не любит пляжный отдых.
- Мама: красивые города, вкусная еда, шоппинг.
- Сын (12 лет): парки развлечений, наука, активный отдых (велосипед, походы).
- Дочь (7 лет): море, животные (зоопарки, фермы), замки.

---

**ЗАДАЧА:**

**Шаг 1: Роль "Сборщик вариантов" (Оператор)**
Твоя задача — найти и кратко описать 3 РАЗНЫХ направления для путешествия, которые потенциально могут удовлетворить интересы семьи. Для каждого направления укажи:
- Страна/Регион.
- Примерная стоимость перелета и проживания.
- Ключевые активности, которые могут заинтересовать КАЖДОГО члена семьи (приведи по 1-2 примера на человека).
Не сравнивай варианты и не давай рекомендаций. Просто представь факты.

**Шаг 2: Роль "Семейный советник" (Супервизор)**
Твоя задача — проанализировать 3 варианта, предложенных на Шаге 1.
1. Сравни их по критериям: "Соответствие интересам", "Бюджет", "Разнообразие для детей".
2. Выбери ОДИН наиболее сбалансированный вариант.
3. Обоснуй свой выбор, объяснив, почему этот вариант является лучшим компромиссом для всей семьи. Укажи на возможные недостатки этого варианта.

Этот промпт эффективно использует методологию R2-KG для решения сложной многокритериальной задачи:

  • Декомпозиция: Вместо того чтобы просить "спланируй отпуск", мы разбиваем задачу на "найди варианты" и "выбери лучший".
  • Оператор ("Сборщик вариантов"): На первом шаге модель фокусируется на поиске и сборе информации без оценочных суждений. Это предотвращает "зацикливание" на первом же найденном варианте и обеспечивает широту поиска.
  • Супервизор ("Семейный советник"): На втором шаге модель работает с ограниченным и структурированным набором данных (3 варианта). Это позволяет ей провести глубокий сравнительный анализ, а не поверхностный. Требование найти компромисс и указать на недостатки заставляет модель мыслить критически, что повышает качество итоговой рекомендации.
📌

Основные критерии оценки

  • A. Релевантность техникам промтинга: Низкая. Исследование описывает архитектурный паттерн (взаимодействие двух агентов), а не конкретные фразы или структуры для одного промпта.
  • B. Улучшение качества диалоговых ответов: Высокая. Весь фреймворк нацелен на повышение точности и надежности ответов за счет верификации информации из графа знаний.
  • C. Прямая практическая применимость: Очень низкая. Пользователь не может реализовать двух-агентную систему с подключением к графу знаний в обычном чате. Метод требует серьезной инженерной обвязки.
  • D. Концептуальная ценность: Очень высокая. Исследование предлагает мощную ментальную модель "разделения труда" (сборщик фактов и принимающий решение), которую можно адаптировать для написания сложных промптов.
  • E. Новая полезная практика (кластеризация):
    • Кластер 1 (Техники формулирования): Концептуально раскрывает декомпозицию задачи и ролевую игру.
    • Кластер 6 (Контекст и память): Демонстрирует продвинутую RAG-подобную стратегию.
    • Кластер 7 (Надежность и стабильность): Вся суть работы в повышении надежности через верификацию и механизм воздержания (Abstention).
  • Чек-лист практичности (+15 баллов): Да, работа показывает, как структурировать сложные запросы, раскрывает неочевидные особенности поведения LLM (разделение ролей) и предлагает способы улучшить точность ответов.
📌

Цифровая оценка полезности

Оценка 78 отражает огромную концептуальную ценность исследования для продвинутых пользователей, но учитывает почти нулевую прямую применимость "из коробки". Это не готовый рецепт, а фундаментальный принцип, который нужно творчески адаптировать.

Аргументы за оценку: * Мощная ментальная модель: Идея разделения задачи на "Сборщика информации" (дешевый, быстрый Оператор) и "Аналитика-решателя" (умный, дорогой Супервизор) — это прорывной концепт для промптинга. Пользователь может эмулировать этот паттерн в одном промпте, что кардинально улучшает качество ответов на сложные вопросы. * Повышение надежности: Концепция "Воздержания" (Abstention) — когда модель прямо говорит "я не могу дать ответ на основе данных" — это то, чему можно и нужно учить LLM в своих промптах для снижения галлюцинаций. * Оптимизация ресурсов: Идея использовать "младшую" модель для рутинного сбора данных и "старшую" для синтеза — это полезный инсайт, который можно перенести на свои рабочие процессы, даже без двух разных LLM.

Контраргументы (почему оценка могла быть ниже или выше): * Почему могла быть ниже (<65): Исследование описывает сложную программную архитектуру (агенты, сервер, граф знаний), которую обычный пользователь никогда не сможет воспроизвести в ChatGPT. Прямая польза стремится к нулю. Все выводы требуют серьезной адаптации и интерпретации, что делает их малополезными для новичков. * Почему могла быть выше (>90): Для опытного пользователя, который регулярно решает сложные задачи, представленная модель "Оператор-Супервизор" может стать настоящим откровением. Это не просто техника, а целая стратегия взаимодействия с LLM, которая позволяет решать задачи принципиально нового уровня сложности и надежности. Это фундаментальное знание, которое меняет сам подход к промптингу.


Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с