TL;DR
LLM плохо проверяют факты "из коробки" — даже топовые модели с reasoning и web search. Исследователи протестировали 15 моделей (GPT-4o, Gemini, DeepSeek, Llama) на 6000+ политических утверждениях с PolitiFact. Результат: без качественного контекста модели угадывают примерно на уровне случайного выбора (F1 ≈ 0.1–0.3 из 1.0).
Главная находка: Reasoning-режимы (o1, o3-mini, DeepSeek-R1) почти не помогают — прирост в среднем +6%. Web search в GPT даёт +50%, но Gemini с поиском работает хуже базовой версии. Модели не умеют находить нужную информацию, даже когда она есть в интернете. А когда находят — цитируют преимущественно левые источники (PolitiFact, CNN, AP), что создаёт системный перекос.
Решение: Когда модели давали готовые саммари фактчек-статей (Curated RAG), точность взлетала на 233% в среднем. GPT-4o Search с таким контекстом достиг F1 = 0.92 — почти идеальный результат. Вывод: проблема не в том, как модель рассуждает, а в том, какую информацию она получает.
Схема метода
ПРОБЛЕМА: LLM без контекста → угадывает (F1 ≈ 0.2)
LLM + reasoning → почти не меняется (+6%)
LLM + web search → умеренно лучше (+35-50%, только GPT)
РЕШЕНИЕ: LLM + качественный контекст → резкий рост (+233%)
Это не пошаговая техника, а принцип: качество входных данных определяет качество ответа.
Пример применения
Задача: Проверить утверждение политика о статистике
❌ Плохой промпт (zero-shot):
Депутат Иванов заявил, что "безработица в России снизилась на 30% за последний год". Это правда?
→ Модель будет гадать на основе устаревших данных из обучения.
✅ Хороший промпт (с curated context):
Проверь утверждение: "Безработица в России снизилась на 30% за последний год" (депутат Иванов, декабрь 2024).
Контекст для проверки:
- Росстат, ноябрь 2024: безработица 2.3%, год назад — 2.9%
- Снижение: (2.9-2.3)/2.9 = 20.7%, не 30%
- Методология: по методике МОТ, население 15+
На основе этих данных оцени точность утверждения по шкале: Правда / В основном правда / Полуправда / В основном ложь / Ложь
Результат: Модель корректно классифицирует как "В основном ложь" — цифра завышена на 45%, хотя направление тренда верное.
Почему это работает
Слабость LLM: Модели не умеют надёжно находить и отбирать релевантную информацию. Web search в теории должен помогать, но на практике:
- Gemini вообще не вставляет ссылки в ответы (0% цитирований)
- GPT находит PolitiFact напрямую только в 44-59% случаев
- Даже когда находит — может неправильно интерпретировать
Сильная сторона LLM: Модели отлично сопоставляют факт с контекстом, когда контекст уже дан. Это задача классификации, а не поиска. Дай модели чёткие критерии и релевантные данные — она выдаст правильный вердикт в 92% случаев.
Принцип для практики: Не проси модель "проверить факт". Сам найди источники, дай модели конкретные цифры и факты, попроси сопоставить и вынести вердикт.
Шаблон промпта
Проверь утверждение: "{утверждение}"
Источник: {кто сказал, когда}
Контекст для проверки:
{источник 1}: {конкретные данные}
{источник 2}: {конкретные данные}
{источник 3}: {конкретные данные}
На основе этих данных оцени точность:
- Правда — утверждение точное, ничего важного не упущено
- В основном правда — точное, но нужны уточнения
- Полуправда — частично верно, но упущен важный контекст
- В основном ложь — есть элемент правды, но общий вывод искажён
- Ложь — не соответствует фактам
- Абсурд — не только ложь, но и нелепое утверждение
Объясни свой вердикт в 2-3 предложениях.
Плейсхолдеры:
{утверждение}— цитата или пересказ того, что проверяем{кто сказал, когда}— контекст помогает понять, о каком периоде речь{источник N}— официальная статистика, СМИ, документы. Чем конкретнее — тем лучше.
Ограничения
⚠️ Не работает без контекста: Если просто спросить "это правда?", модель будет угадывать. Исследование показало F1 = 0.2-0.3 для zero-shot — хуже монетки для сложных утверждений.
⚠️ Web search ненадёжен: Даже с включённым поиском модель может не найти нужный источник или найти, но неправильно интерпретировать. GPT работает лучше Gemini, но всё равно далёк от идеала без ручного контекста.
⚠️ Политический перекос цитирования: GPT с web search цитирует преимущественно левоцентристские источники (PolitiFact, CNN, AP). Это не означает, что ответы неправильные, но создаёт системную предвзятость в подборе доказательств.
⚠️ Только политические факты: Исследование на данных PolitiFact (американская политика). Для других доменов (медицина, наука, бизнес) паттерны могут отличаться.
Как исследовали
Команда из Стэнфорда, Бингемтона и Индианы взяла полный архив PolitiFact с 2007 по 2024 год — более 24,000 проверенных утверждений с вердиктами по 6-балльной шкале (от "Правда" до "Штаны горят").
Тестировали 15 моделей: GPT-4o и мини-версии, o1 и o3-mini (reasoning), Gemini 2.0 Flash/Pro/Thinking, DeepSeek-V3 и R1, Llama 3.2 (3B, 11B, 90B). Каждую модель гоняли в трёх режимах: без контекста, с web search, с Curated RAG (топ-3/6/9 саммари релевантных фактчеков).
Удивительная находка: Reasoning-модели (o1, o3-mini, DeepSeek-R1) почти не превзошли базовые версии. Прирост +6% в среднем, а Gemini Thinking даже показал -3%. Исследователи заключают: проблема не в рассуждениях, а в доступе к информации.
Curated RAG работал так: саммари фактчек-статей генерировались GPT-3.5, хранились в векторной базе Chroma. При запросе система находила топ-k похожих саммари и подставляла в промпт. Точность извлечения — 96% для k=3, 98% для k=6+.
Отдельно анализировали, какие источники цитирует GPT Search: 98.7% источников — высоконадёжные по NewsGuard, но с сильным левым уклоном (пик распределения на -0.3 по шкале от -1 до +1).
Адаптации и экстраполяции
💡 Принцип "Curated Context" для любых задач верификации:
Исследование про фактчекинг, но принцип универсален. Когда нужно проверить что-то сложное — не полагайся на "внутренние знания" модели. Дай конкретный контекст.
Примеры применения:
- Проверка договора: Вместо "найди проблемы в договоре" → дай текст договора + выдержки из ГК РФ по релевантным статьям + примеры судебной практики
- Аудит отчёта: Вместо "проверь цифры" → дай отчёт + исходные данные из учётной системы + формулы расчёта
- Медицинская информация: Вместо "это правда про лекарство?" → дай утверждение + инструкцию препарата + ссылки на клинические исследования
Контекст для проверки:
- Официальный источник: {данные}
- Альтернативный источник: {данные}
- Методология/определения: {как считается показатель}
Сопоставь утверждение "{цитата}" с этими данными.
Где расхождения? Что упущено? Какой вердикт?
Ресурсы
Работа: "Large Language Models Require Curated Context for Reliable Political Fact-Checking—Even with Reasoning and Web Search"
Авторы: Matthew R. DeVerna (Stanford), Kai-Cheng Yang (Binghamton), Harry Yaojun Yan (Texas A&M), Filippo Menczer (Indiana University)
Код и данные: github.com/osome-iu/fact_check_rag_osome, Zenodo
