3,583 papers
arXiv:2511.03217 71 5 нояб. 2025 г. FREE

Трёхступенчатая проверка фактов: сначала базы знаний, потом интернет

КЛЮЧЕВАЯ СУТЬ
Обнаружено: LLM хранит всё одинаково — факт из энциклопедии и слух с форума лежат рядом. Отсюда проблема проверки фактов: модель не различает надёжность источника знания. Метод решает это через последовательную проверку с оценкой достаточности: сначала базовые факты (высокая точность), потом оценка «хватит ли этого?», и только если нет — поиск в интернете (широкий охват). Итог: 93% точности вместо хаотичного поиска везде сразу. Бонус: 70% случаев "недостаточно информации" на самом деле проверяемы — просто нужен второй источник.
Адаптировать под запрос

TL;DR

Исследователи из Technical University Munich проверили, как комбинировать три источника для проверки фактов: структурированные базы знаний (типа Википедии, но в виде связей между сущностями), языковую модель для оценки, и веб-поиск как запасной вариант. Система работает в три шага: сначала ищет факты в базе знаний, потом оценивает достаточно ли информации, и только если нет — идёт в интернет.

Главная находка: структурированные источники надёжнее, но покрывают меньше. База знаний даёт высокую точность (94%), но находит ответ только в 73% случаев. Веб-поиск покрывает 91% случаев, но ошибается чаще. Проблема в том, что база знаний — это только то, что уже формализовано и связано, а реальный мир шире. Веб даёт больше, но там шум, противоречия, устаревшие данные.

Решение: fallback стратегия. Сначала проверяем в надёжном источнике (база знаний). Если там нет ответа ("недостаточно информации") — переформулируем вопрос и ищем в интернете. Итоговая точность 93% на бенчмарке FEVER. Система показала, что 70% случаев, помеченных как "недостаточно информации", на самом деле можно проверить — просто нужен второй источник.


🔬

Схема метода

ШАГ 1: База знаний (Knowledge Graph)
├─ Находим упоминания сущностей в утверждении
├─ Извлекаем связи типа "Barack_Obama -> birthPlace -> Hawaii"
├─ Ранжируем связи по релевантности
└─ Оцениваем: Подтверждает / Опровергает / Недостаточно информации

ШАГ 2: Классификация
└─ Если получен ответ (Подтверждает/Опровергает) → СТОП
    Если "Недостаточно информации" → ШАГ 3

ШАГ 3: Веб-поиск (запасной вариант)
├─ Переформулируем утверждение в 3-5 поисковых запросов
├─ Собираем сниппеты из топ-100 результатов
├─ Ранжируем по релевантности
└─ Финальная оценка: Подтверждает / Опровергает / Недостаточно информации

Важно: Шаги выполняются последовательно. Шаг 3 срабатывает только в ~23% случаев — когда базы знаний недостаточно.


🚀

Пример применения

Задача: Проверить заявление из новостей: "Павел Дуров основал Telegram после блокировки ВКонтакте в 2014 году".

Промпт:

Проверь это утверждение в три этапа:

УТВЕРЖДЕНИЕ: "Павел Дуров основал Telegram после блокировки ВКонтакте в 2014 году"

ЭТАП 1 — Проверка по общеизвестным фактам:
Найди ключевые сущности (люди, компании, события, даты).
Для каждой сущности — известные факты и связи.
Оцени: достаточно ли этого для проверки?

Формат ответа:
- Факты: [список]
- Достаточно информации: ДА / НЕТ
- Если ДА — вердикт: ПОДТВЕРЖДЕНО / ОПРОВЕРГНУТО / ЧАСТИЧНО ВЕРНО

ЭТАП 2 — Если информации недостаточно:
Переформулируй утверждение в 3-5 поисковых запросов для максимального охвата.
Покажи запросы.

ЭТАП 3 — Поиск доказательств:
Для каждого запроса: какие источники нужно проверить?
Какие факты подтвердят или опровергнут утверждение?

В конце — финальный вердикт с указанием источников.

Результат:

Модель выполнит три этапа последовательно. Сначала извлечёт факты из своих знаний (Дуров, Telegram, ВКонтакте, 2014). Оценит достаточность — скорее всего скажет "недостаточно" для точной проверки причинно-следственной связи. Сгенерирует поисковые запросы типа "когда основан Telegram", "Дуров покинул ВКонтакте год", "блокировка ВКонтакте 2014". Предложит проверить официальные источники, новости того времени, хронологию событий. Финальный вывод с указанием что верно, что неточно, с ссылками на факты.


🧠

Почему это работает

Слабость LLM: Модели путают достоверность источников. Всё, что модель "знает", хранится одинаково — и факт из учебника, и слух из форума, и устаревшая информация. При проверке фактов модель может уверенно выдать неточность, потому что не различает надёжность источника знания.

Сильная сторона LLM: Модели отлично работают с структурой рассуждений и переформулировкой. Если задать последовательность шагов (сначала одно, потом другое) и попросить оценить достаточность информации — модель следует инструкции. Умеет генерировать альтернативные формулировки вопроса для расширения поиска.

Как метод использует это: Разделяет источники по надёжности через последовательность шагов. Сначала — "вспомни базовые факты" (аналог структурированной базы), с оценкой достаточности. Потом — "если мало, переформулируй и ищи шире". Это имитирует работу журналиста: проверил очевидное → если сомнения → копнул глубже. Ключ в том, что модель сама оценивает достаточность на каждом шаге, а не пытается ответить сразу.

Рычаги управления:

  • Количество этапов — можно добавить "проверка в специализированных базах" между общими фактами и веб-поиском
  • Критерий достаточности — настроить строгость: "высокая уверенность" vs "любые релевантные данные"
  • Число поисковых запросов — меньше (1-2) для быстроты, больше (5-7) для полноты охвата
  • Источники на этапе 3 — можно задать конкретные: только официальные сайты, только архивы новостей, только научные базы

📋

Шаблон промпта

Проверь утверждение в несколько этапов с переходом к следующему только при необходимости.

УТВЕРЖДЕНИЕ: {утверждение_для_проверки}

ЭТАП 1 — Проверка по базовым знаниям:
1. Извлеки ключевые сущности (люди, места, организации, даты, события)
2. Для каждой сущности — известные факты и связи
3. Оцени релевантность каждого факта утверждению (высокая/средняя/низкая)
4. Вывод: достаточно ли информации для проверки? (ДА/НЕТ)
5. Если ДА — дай вердикт: ПОДТВЕРЖДЕНО / ОПРОВЕРГНУТО / ЧАСТИЧНО ВЕРНО / НЕОДНОЗНАЧНО

Формат ответа этапа 1:
- Сущности: [список]
- Факты: [список с релевантностью]
- Достаточно информации: [ДА/НЕТ]
- Вердикт (если достаточно): [вердикт + краткое обоснование]

ЭТАП 2 — Переформулировка (только если информации недостаточно):
Сгенерируй {число_запросов} поисковых запроса для проверки утверждения:
- Запросы должны покрывать разные аспекты
- Включи синонимы и альтернативные формулировки
- Один запрос на проверку временных рамок (если есть даты)

ЭТАП 3 — План поиска доказательств:
Для каждого запроса из этапа 2:
- Какой тип источника нужен? (новости/официальные документы/экспертные оценки/статистика)
- Какие конкретные факты подтвердят или опровергнут утверждение?
- На что обратить внимание (возможные противоречия, контекст)?

ФИНАЛЬНЫЙ ВЕРДИКТ:
После всех этапов дай окончательную оценку с указанием:
- Вердикт
- Основные доказательства
- Степень уверенности (высокая/средняя/низкая)
- Что осталось неясным (если есть)

Плейсхолдеры: - {утверждение_для_проверки} — утверждение, которое нужно проверить - {число_запросов} — количество поисковых запросов (рекомендуется 3-5)


🧠

Почему это работает (детали механики)

Исследователи обнаружили противоположные профили ошибок у разных источников:

База знаний (KG-only): Высокая точность (94%), но низкий охват (73%). Когда находит информацию — почти всегда права. Но покрывает только формализованные, общеизвестные связи. Пример: легко проверит "Барак Обама родился на Гавайях" (это в базе), но не найдёт "Дуров покинул ВКонтакте из-за давления ФСБ" (причинно-следственная связь из новостей).

Веб-поиск (Web-only): Балансированная точность (91%) и охват (91%). Находит больше, но и ошибается чаще. Причина: в интернете есть и факты, и мнения, и устаревшая информация, и противоречивые источники.

Комбинация (KG-first + Web fallback): Лучшее из обоих миров — 93% точности. Механика: используем надёжность базы, где она работает, и охват веба, где база молчит.

Дополнительная находка: 70% случаев "недостаточно информации" на самом деле проверяемы — просто нужен второй источник. Это показывает, что оценка достаточности критична: если модель говорит "не знаю" — это не всегда "нельзя проверить", часто это "нужно поискать в другом месте".

Ключевой принцип: Разделение источников по надёжности + явная оценка достаточности на каждом шаге. Это предотвращает "ленивый" ответ модели (галлюцинация вместо признания незнания) и "избыточный" поиск (когда ответ уже ясен).


⚠️

Ограничения

⚠️ Односложные связи: Метод проверяет прямые факты ("Дуров основал Telegram"), но слаб для цепочек рассуждений ("Если А повлияло на Б, а Б привело к В, то..."). Для проверки сложных причинно-следственных связей потребуется больше шагов.

⚠️ Распространение ошибок: Если на первом шаге модель неправильно извлечёт ключевые сущности (например, перепутает компании с похожими названиями), ошибка перейдёт на следующие этапы. Чем раньше ошибка — тем больше её влияние.

⚠️ Нет явного "нельзя проверить": Если утверждение действительно непроверяемо (субъективное мнение, предсказание будущего, отсутствие любых источников) — система всё равно попытается дать вердикт. Нет механизма остановки с выводом "это невозможно проверить по природе утверждения".

⚠️ Зависимость от промпта: Эффективность сильно зависит от того, насколько чётко заданы критерии достаточности и инструкции для каждого этапа. Размытые формулировки снизят качество оценки.


🔍

Как исследовали

Команда из Technical University Munich построила систему из трёх модулей и проверила её на стандартных датасетах для фактчекинга. Идея была простой: а что если использовать сильные стороны каждого источника последовательно, а не смешивать всё сразу?

Взяли 1000 утверждений из датасета FEVER (Fact Extraction and VERification), убрав случаи "недостаточно информации" для чистоты эксперимента. Сравнили три конфигурации: только база знаний, только веб, и гибридная система. Измеряли точность (precision) — как часто система права, когда даёт ответ, и полноту (recall) — как часто система находит ответ, когда он есть.

Результаты показали чёткую закономерность: база знаний — 94% точности, но только 73% полноты. Веб — 91% точности и 91% полноты. Гибрид — 93% точности и 93% полноты. Это подтвердило гипотезу: источники дополняют друг друга, а не конкурируют.

Любопытная деталь: исследователи проверили систему на adversarial версии FEVER (где утверждения специально усложнены) и на другом датасете FactKG — система показала стабильные 77-78% даже без специальной настройки под эти датасеты. Это говорит, что принцип работает широко, не только на тех данных, где его обучали.

Самое интересное: команда взяла 150 случайных утверждений, помеченных как "недостаточно информации", где их система всё равно нашла доказательства. Попросили двух людей и одну LLM оценить: действительно ли найденные доказательства достаточны? В более чем 70% случаев хотя бы один оценщик сказал "да, достаточно". Это говорит о двух вещах: (1) система часто находит валидные доказательства там, где их "не должно быть", и (2) оценка достаточности — субъективна, люди расходятся в мнениях (согласованность между оценщиками была умеренной, Fleiss' κ = 0.385).

Вывод: Последовательная проверка от надёжных к широким источникам работает лучше, чем любой источник по отдельности. Но важно, чтобы модель могла честно сказать "на этом этапе информации нет, иду дальше" — иначе система либо галлюцинирует, либо пропускает проверяемые утверждения.


🔗

Ресурсы

Hybrid Fact-Checking that Integrates Knowledge Graphs, Large Language Models, and Search-Based Retrieval Agents Improves Interpretable Claim Verification — исследование о комбинировании структурированных баз знаний, языковых моделей и веб-поиска для проверки фактов.

Код системы доступен на GitHub: github.com/AndriiLata/aiFactCheck

Использованные источники: - DBpedia — структурированная база знаний из Википедии - FEVER (Fact Extraction and VERification) — бенчмарк для проверки фактов - FEVER 2.0 — усложнённая adversarial версия - FactKG — датасет с фокусом на графы знаний

Авторы: Shaghayegh Kolli, Richard Rosenbaum, Timo Cavelius, Lasse Strothe, Andrii Lata, Jana Diesner (Technical University Munich)


📋 Дайджест исследования

Ключевая суть

Обнаружено: LLM хранит всё одинаково — факт из энциклопедии и слух с форума лежат рядом. Отсюда проблема проверки фактов: модель не различает надёжность источника знания. Метод решает это через последовательную проверку с оценкой достаточности: сначала базовые факты (высокая точность), потом оценка «хватит ли этого?», и только если нет — поиск в интернете (широкий охват). Итог: 93% точности вместо хаотичного поиска везде сразу. Бонус: 70% случаев "недостаточно информации" на самом деле проверяемы — просто нужен второй источник.

Принцип работы

Три этапа с явным переходом, а не всё сразу. Этап 1: Извлекаешь факты из базовых знаний модели (аналог структурированной базы данных). Этап 2: Модель сама оценивает — достаточно ли для вердикта? Если да — стоп, если нет — переформулируешь утверждение в 3-5 поисковых запросов. Этап 3: Ищешь в интернете по этим запросам, собираешь доказательства. Ключ: модель не пытается ответить сразу, а движется от надёжного к широкому. Это как журналист — сначала проверил очевидное, если сомнения — копнул глубже.

Почему работает

Разные источники имеют противоположные профили ошибок. База знаний (формализованные связи типа "Обама родился на Гавайях") — точность 94%, но охват только 73%. Причина: покрывает лишь общеизвестное и структурированное. Веб-поиск — охват 91%, но точность падает до 91%: там есть и факты, и мнения, и устаревшая инфа. Механика метода: используешь надёжность базы где она работает, и охват веба где база молчит. Разделение по этапам предотвращает два зла: галлюцинации модели ("придумаю ответ вместо 'не знаю'") и избыточный поиск (когда ответ уже ясен из базовых фактов). Исследование показало: комбинация даёт 93% точности — лучше чем каждый источник отдельно.

Когда применять

Проверка фактов в новостях и медиа → особенно когда утверждение смешивает общеизвестное (легко проверить) и специфическое (нужен поиск). Контент-модерация → для разделения очевидной лжи (ловится на базовых фактах) и сомнительных заявлений (требуют копания). Журналистские расследования → когда нужна прозрачность: видно на каком этапе получен ответ и насколько он надёжен. НЕ подходит для проверки субъективных мнений ("этот фильм лучший") или предсказаний будущего — там нечего проверять по фактам.

Мини-рецепт

1. Этап базовых фактов: Попроси модель извлечь ключевые сущности (люди, места, даты, события) и известные связи между ними. Оцени релевантность каждого факта утверждению (высокая/средняя/низкая).

2. Оценка достаточности: Модель сама решает — хватит ли информации для вердикта? Если ДА → выдаёт ПОДТВЕРЖДЕНО/ОПРОВЕРГНУТО/ЧАСТИЧНО ВЕРНО и останавливается. Если НЕТ → переход к шагу 3.

3. Переформулировка и поиск: Модель генерирует 3-5 поисковых запросов (разные аспекты, синонимы, временные рамки если есть даты). Для каждого запроса — план: какой тип источника нужен, какие факты искать, на что обратить внимание.

4. Финальный вердикт: После всех этапов — итоговая оценка с указанием источников, степени уверенности (высокая/средняя/низкая) и что осталось неясным.

Примеры

[ПЛОХО] : Проверь это утверждение: "Павел Дуров основал Telegram после блокировки ВКонтакте в 2014 году". Дай ответ — правда или ложь. Почему плохо: Модель попытается ответить сразу из всех знаний вперемешку. Непонятно откуда взят ответ и насколько он надёжен. Нет разделения на «знаю точно» vs «нужно проверить».
[ХОРОШО] : Проверь утверждение в три этапа с переходом к следующему только при необходимости. УТВЕРЖДЕНИЕ: "Павел Дуров основал Telegram после блокировки ВКонтакте в 2014 году" ЭТАП 1 — Базовые факты: 1. Извлеки ключевые сущности и известные связи 2. Оцени релевантность каждого факта 3. Достаточно ли для проверки? ДА/НЕТ 4. Если ДА — дай вердикт с обоснованием ЭТАП 2 — Если недостаточно: Сгенерируй 3-5 поисковых запросов для проверки (разные аспекты, синонимы, временные рамки). ЭТАП 3 — План поиска: Для каждого запроса: тип источника, какие факты искать, на что обратить внимание. ФИНАЛЬНЫЙ ВЕРДИКТ: оценка + доказательства + степень уверенности + что неясно. Почему хорошо: Модель движется от надёжного к широкому. Видно на каком этапе получен ответ. Есть явная оценка достаточности — модель не придумывает, а признаёт когда нужно копать глубже. Прозрачность источников.
Источник: Hybrid Fact-Checking that Integrates Knowledge Graphs, Large Language Models, and Search-Based Retrieval Agents Improves Interpretable Claim Verification
ArXiv ID: 2511.03217 | Сгенерировано: 2026-01-12 18:17

Концепты не выделены.

📖 Простыми словами

Проблема современных нейросетей в том, что они — патологические лжецы. Они не знают фактов, они просто предсказывают следующее слово. Исследователи из Мюнхена решили это исправить, собрав гибридную систему, которая работает на каскадной проверке. Суть проста: AI больше не выдумывает ответы из головы, он работает как строгий судья, которому приносят улики из разных источников. Сначала он лезет в графы знаний (структурированные базы данных типа DBpedia), где всё четко и по полочкам. Если там пусто — идет в веб-поиск. В итоге точность подскочила до 93%, и это без всякого дообучения моделей.

Это как если бы ты спросил у друга: "Правда, что этот актер родился в Канаде?". Обычный AI просто бы угадал, основываясь на слухах. Но эта система работает иначе: она сначала открывает паспортный стол (граф знаний), чтобы найти официальную запись. Если записи нет, она идет гуглить новости (веб-поиск), фильтрует мусор и только потом выносит вердикт. Формально всё проверить — это долго, но система делает это за секунды, используя LLM не как генератор сказок, а как инструмент для оценки найденных улик.

Что конкретно вкалывает под капотом: Entity Linking (вытаскиваем из фразы суть, например, "Эрик Трамп"), SPARQL-запросы (мгновенный поиск по связям в базе данных) и Cross-encoder ранжирование. Последнее — это киллер-фича: система берет 100 результатов из поиска и выбирает топ-5 самых релевантных, чтобы не кормить нейронку информационным шумом. Если граф знаний дает точность 0.94, но знает не всё, то веб-поиск добивает охват до 92%. В связке они закрывают дыры друг друга.

Тестировали это на проверке фактов, но принцип универсален. Эту схему можно натянуть на корпоративные базы знаний, техподдержку или юридический софт. Везде, где цена ошибки — полный провал, нужно переходить от простого чата к архитектуре KG-first → Web-fallback. Ты сначала проверяешь свои надежные данные, а если их нет — идешь во внешний мир, но под строгим контролем. SEO для роботов умирает, наступает эра верифицированных данных.

Короче: завязывай просить ChatGPT "просто проверить факт". Если хочешь результат без галлюцинаций, строй пайплайн, где нейронка — это только классификатор доказательств, а не их источник. 61 балл из 100 в моем рейтинге только из-за того, что собрать такой конструктор из пяти разных API и библиотек — это тот еще геморрой. Но кто осилит интеграцию, тот получит систему, которая не несет херни и всегда может пояснить за свои слова ссылкой на источник.

Сгенерировано: 21.12.2025 16:59 | ArXiv Data Collector

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с