3,583 papers
arXiv:2511.18749 72 24 нояб. 2025 г. FREE

Curated Context: качество контекста важнее возможностей модели

КЛЮЧЕВАЯ СУТЬ
Парадокс: Режимы глубоких рассуждений (o1, DeepSeek-R1) дают всего +6% к точности фактчекинга, а веб-поиск в Gemini работает хуже базовой версии. Проблема не в том, как модель думает – в том, что она получает на вход. Метод Curated Context позволяет проверять политические заявления с точностью 92% вместо 20-30% у стандартных подходов. Фишка: не проси модель искать факты – дай готовый контекст, попроси сопоставить. Исследование показало: когда модели давали готовые выжимки из фактчек-статей, точность взлетала на 233%. GPT-4o с поиском и без контекста: F1-метрика 0.61. Тот же GPT с готовым контекстом: 0.92 из 1.0.
Адаптировать под запрос

TL;DR

LLM плохо проверяют факты "из коробки" — даже топовые модели с reasoning и web search. Исследователи протестировали 15 моделей (GPT-4o, Gemini, DeepSeek, Llama) на 6000+ политических утверждениях с PolitiFact. Результат: без качественного контекста модели угадывают примерно на уровне случайного выбора (F1 ≈ 0.1–0.3 из 1.0).

Главная находка: Reasoning-режимы (o1, o3-mini, DeepSeek-R1) почти не помогают — прирост в среднем +6%. Web search в GPT даёт +50%, но Gemini с поиском работает хуже базовой версии. Модели не умеют находить нужную информацию, даже когда она есть в интернете. А когда находят — цитируют преимущественно левые источники (PolitiFact, CNN, AP), что создаёт системный перекос.

Решение: Когда модели давали готовые саммари фактчек-статей (Curated RAG), точность взлетала на 233% в среднем. GPT-4o Search с таким контекстом достиг F1 = 0.92 — почти идеальный результат. Вывод: проблема не в том, как модель рассуждает, а в том, какую информацию она получает.


🔬

Схема метода

ПРОБЛЕМА: LLM без контекста → угадывает (F1 ≈ 0.2)
         LLM + reasoning → почти не меняется (+6%)
         LLM + web search → умеренно лучше (+35-50%, только GPT)

РЕШЕНИЕ:  LLM + качественный контекст → резкий рост (+233%)

Это не пошаговая техника, а принцип: качество входных данных определяет качество ответа.


🚀

Пример применения

Задача: Проверить утверждение политика о статистике

❌ Плохой промпт (zero-shot):

Депутат Иванов заявил, что "безработица в России снизилась на 30% за последний год". Это правда?

→ Модель будет гадать на основе устаревших данных из обучения.

✅ Хороший промпт (с curated context):

Проверь утверждение: "Безработица в России снизилась на 30% за последний год" (депутат Иванов, декабрь 2024).

Контекст для проверки:
- Росстат, ноябрь 2024: безработица 2.3%, год назад — 2.9%
- Снижение: (2.9-2.3)/2.9 = 20.7%, не 30%
- Методология: по методике МОТ, население 15+

На основе этих данных оцени точность утверждения по шкале: Правда / В основном правда / Полуправда / В основном ложь / Ложь

Результат: Модель корректно классифицирует как "В основном ложь" — цифра завышена на 45%, хотя направление тренда верное.


🧠

Почему это работает

Слабость LLM: Модели не умеют надёжно находить и отбирать релевантную информацию. Web search в теории должен помогать, но на практике:

  • Gemini вообще не вставляет ссылки в ответы (0% цитирований)
  • GPT находит PolitiFact напрямую только в 44-59% случаев
  • Даже когда находит — может неправильно интерпретировать

Сильная сторона LLM: Модели отлично сопоставляют факт с контекстом, когда контекст уже дан. Это задача классификации, а не поиска. Дай модели чёткие критерии и релевантные данные — она выдаст правильный вердикт в 92% случаев.

Принцип для практики: Не проси модель "проверить факт". Сам найди источники, дай модели конкретные цифры и факты, попроси сопоставить и вынести вердикт.


📋

Шаблон промпта

Проверь утверждение: "{утверждение}"
Источник: {кто сказал, когда}

Контекст для проверки:
{источник 1}: {конкретные данные}
{источник 2}: {конкретные данные}
{источник 3}: {конкретные данные}

На основе этих данных оцени точность:
- Правда — утверждение точное, ничего важного не упущено
- В основном правда — точное, но нужны уточнения
- Полуправда — частично верно, но упущен важный контекст
- В основном ложь — есть элемент правды, но общий вывод искажён
- Ложь — не соответствует фактам
- Абсурд — не только ложь, но и нелепое утверждение

Объясни свой вердикт в 2-3 предложениях.

Плейсхолдеры:

  • {утверждение} — цитата или пересказ того, что проверяем
  • {кто сказал, когда} — контекст помогает понять, о каком периоде речь
  • {источник N} — официальная статистика, СМИ, документы. Чем конкретнее — тем лучше.

⚠️

Ограничения

⚠️ Не работает без контекста: Если просто спросить "это правда?", модель будет угадывать. Исследование показало F1 = 0.2-0.3 для zero-shot — хуже монетки для сложных утверждений.

⚠️ Web search ненадёжен: Даже с включённым поиском модель может не найти нужный источник или найти, но неправильно интерпретировать. GPT работает лучше Gemini, но всё равно далёк от идеала без ручного контекста.

⚠️ Политический перекос цитирования: GPT с web search цитирует преимущественно левоцентристские источники (PolitiFact, CNN, AP). Это не означает, что ответы неправильные, но создаёт системную предвзятость в подборе доказательств.

⚠️ Только политические факты: Исследование на данных PolitiFact (американская политика). Для других доменов (медицина, наука, бизнес) паттерны могут отличаться.


🔍

Как исследовали

Команда из Стэнфорда, Бингемтона и Индианы взяла полный архив PolitiFact с 2007 по 2024 год — более 24,000 проверенных утверждений с вердиктами по 6-балльной шкале (от "Правда" до "Штаны горят").

Тестировали 15 моделей: GPT-4o и мини-версии, o1 и o3-mini (reasoning), Gemini 2.0 Flash/Pro/Thinking, DeepSeek-V3 и R1, Llama 3.2 (3B, 11B, 90B). Каждую модель гоняли в трёх режимах: без контекста, с web search, с Curated RAG (топ-3/6/9 саммари релевантных фактчеков).

Удивительная находка: Reasoning-модели (o1, o3-mini, DeepSeek-R1) почти не превзошли базовые версии. Прирост +6% в среднем, а Gemini Thinking даже показал -3%. Исследователи заключают: проблема не в рассуждениях, а в доступе к информации.

Curated RAG работал так: саммари фактчек-статей генерировались GPT-3.5, хранились в векторной базе Chroma. При запросе система находила топ-k похожих саммари и подставляла в промпт. Точность извлечения — 96% для k=3, 98% для k=6+.

Отдельно анализировали, какие источники цитирует GPT Search: 98.7% источников — высоконадёжные по NewsGuard, но с сильным левым уклоном (пик распределения на -0.3 по шкале от -1 до +1).


💡

Адаптации и экстраполяции

💡 Принцип "Curated Context" для любых задач верификации:

Исследование про фактчекинг, но принцип универсален. Когда нужно проверить что-то сложное — не полагайся на "внутренние знания" модели. Дай конкретный контекст.

Примеры применения:

  1. Проверка договора: Вместо "найди проблемы в договоре" → дай текст договора + выдержки из ГК РФ по релевантным статьям + примеры судебной практики
  2. Аудит отчёта: Вместо "проверь цифры" → дай отчёт + исходные данные из учётной системы + формулы расчёта
  3. Медицинская информация: Вместо "это правда про лекарство?" → дай утверждение + инструкцию препарата + ссылки на клинические исследования
Контекст для проверки:
- Официальный источник: {данные}
- Альтернативный источник: {данные}
- Методология/определения: {как считается показатель}

Сопоставь утверждение "{цитата}" с этими данными.
Где расхождения? Что упущено? Какой вердикт?

🔗

Ресурсы

Работа: "Large Language Models Require Curated Context for Reliable Political Fact-Checking—Even with Reasoning and Web Search"

Авторы: Matthew R. DeVerna (Stanford), Kai-Cheng Yang (Binghamton), Harry Yaojun Yan (Texas A&M), Filippo Menczer (Indiana University)

Код и данные: github.com/osome-iu/fact_check_rag_osome, Zenodo


📋 Дайджест исследования

Ключевая суть

Парадокс: Режимы глубоких рассуждений (o1, DeepSeek-R1) дают всего +6% к точности фактчекинга, а веб-поиск в Gemini работает хуже базовой версии. Проблема не в том, как модель думает – в том, что она получает на вход. Метод Curated Context позволяет проверять политические заявления с точностью 92% вместо 20-30% у стандартных подходов. Фишка: не проси модель искать факты – дай готовый контекст, попроси сопоставить. Исследование показало: когда модели давали готовые выжимки из фактчек-статей, точность взлетала на 233%. GPT-4o с поиском и без контекста: F1-метрика 0.61. Тот же GPT с готовым контекстом: 0.92 из 1.0.

Принцип работы

Не делай: "Депутат сказал X. Проверь, это правда?" – модель будет гадать на основе устаревших данных из обучения или находить не те источники. Делай: "Депутат сказал X. Вот три источника с конкретными цифрами [данные]. Сопоставь утверждение с фактами, выдай вердикт по шкале." Модели отличные классификаторы, но плохие поисковики. Дай релевантный контекст – получишь правильный анализ. Заставь искать самостоятельно – получишь угадывание с точностью монетки.

Почему работает

Тесты на 15 моделях показали: способность рассуждать не компенсирует отсутствие нужной информации. Режимы развёрнутого анализа (o3-mini, DeepSeek-R1) добавляют в среднем 6% к точности – статистически незначимо. Веб-поиск помогает, но ненадёжно: GPT находит релевантные источники в 44-59% случаев, Gemini вообще не вставляет ссылки (0% цитирований). Когда контекст готов – задача превращается из поиска в сопоставление, и модель справляется в 92% случаев. Это как студент на экзамене: без учебника угадывает, с конспектом отвечает точно. F1-метрика с 0.2 до 0.92 – в 4.6 раза точнее.

Когда применять

Фактчекинг политических заявлений → проверка цифр в публичных выступлениях, верификация статистики в новостях, анализ предвыборных обещаний. Особенно когда есть официальные источники (Росстат, ЦИК, отчёты ведомств), но нужно быстро сопоставить с заявлением. НЕ подходит для ситуаций, когда источников нет или они противоречивы – модель сопоставляет с тем что дал, не оценивает достоверность самих источников.

Мини-рецепт

1. Найди первоисточники: Росстат для экономики, ЦИК для выборов, документы ведомств для политики. Не полагайся на поиск модели – она найдёт не то или вообще пропустит.

2. Извлеки конкретику: Не весь отчёт, а конкретные цифры. Пример: не "отчёт Росстата за 2024", а "Росстат, ноябрь 2024: безработица 2.3%, год назад 2.9%".

3. Дай шкалу оценки: Правда / В основном правда / Полуправда / В основном ложь / Ложь. Без шкалы модель будет размазывать вердикт.

4. Попроси сопоставить: "На основе этих данных оцени точность утверждения" + требование объяснить вердикт в 2-3 предложениях.

Примеры

[ПЛОХО] : Политик сказал что инфляция снизилась вдвое. Это правда? (Модель угадает на основе устаревших данных, F1-метрика ≈ 0.2)
[ХОРОШО] : Проверь: "Инфляция снизилась вдвое" (Иванов, декабрь 2024). Контекст: ЦБ РФ – инфляция декабрь 2024: 9.5%, год назад: 7.4%. Снижения нет, рост на 28%. Оцени по шкале: Правда / В основном правда / Полуправда / В основном ложь / Ложь. Объясни вердикт. (С готовым контекстом модель корректно классифицирует как "Ложь", F1 ≈ 0.92)
Источник: Large Language Models Require Curated Context for Reliable Political Fact-Checking -- Even with Reasoning and Web Search
ArXiv ID: 2511.18749 | Сгенерировано: 2026-01-11 20:23

Тезисы

ТезисКомментарий
Модель хороша в сопоставлении фактов, слаба в их поискеLLM отлично решает задачу "вот утверждение А, вот данные Б — соответствуют ли они друг другу". Это классификация. Но плохо справляется с задачей "найди информацию чтобы проверить А". Это поиск + отбор релевантности. Даже с web search модель часто пропускает нужные источники или находит, но криво интерпретирует. Разница в точности: без готового контекста ~20%, с готовым ~92%. Причина: сопоставление = работа с уже структурированными данными, поиск = неструктурированная среда где модель теряется. Применяй: Не пиши "проверь утверждение X". Сам найди 2-3 релевантных источника с конкретными цифрами, дай модели, попроси сопоставить и вынести вердикт. Формат: "Утверждение: {X}. Данные: {источник 1}, {источник 2}. Соответствует ли утверждение данным?"
📖 Простыми словами

Curated Context: качество контекста важнее возможностей модели

arXiv: 2511.18749

Нейросети в роли политических фактчекеров — это пока что полный провал. Проблема в том, что LLM не обладают встроенным «детектором правды», они просто предсказывают следующее слово на основе вероятностей. Когда ты спрашиваешь модель, соврал политик или нет, она не лезет в чертоги разума за истиной, а пытается угадать ответ, опираясь на обрывки данных из обучения. Без четкого внешнего костыля в виде проверенных фактов даже самые мощные модели выдают результат на уровне подбрасывания монетки.

Это как посадить очень начитанного, но совершенно наивного студента проверять отчеты министерства финансов. Формально он знает много слов, но стоит цифрам разойтись с реальностью, он начинает уверенно кивать, потому что текст выглядит связно. Студент может долго рассуждать и даже гуглить, но если он не умеет отличать авторитетный источник от вброса в соцсетях, его вердикт не стоит и ломаного гроша. Он просто тонет в информационном шуме, принимая уверенный тон за правдивость.

Исследователи прогнали 15 топовых моделей, включая GPT-4o и DeepSeek, через 6000 политических вбросов, и цифры выглядят жалко. Обычный запрос дает F1-рейтинг около 0.2 — это практически слепое тыканье пальцем в небо. Даже хваленый reasoning (когда модель «думает» перед ответом) прибавляет жалкие 6% к точности, а встроенный поиск в интернете помогает только GPT, да и то не делает её экспертом. Модели банально лажают на этапе отбора информации: они находят кучу мусора и строят на нем свои логические цепочки.

Хотя тестировали всё на политике, принцип универсален для любой сложной области, будь то медицина, право или глубокий тех-анализ. Если задача требует опоры на жесткие факты, а не на «общее представление о мире», любая LLM без курируемого контекста превращается в генератор галлюцинаций. Нельзя просто дать модели доступ в интернет и ждать чуда — она захлебнется в первой же ссылке с кликбейтом. Работает только RAG с жестко отобранной базой знаний, где за качество данных отвечает человек, а не алгоритм ранжирования.

Короче: забудь о том, чтобы использовать нейронки как независимых судей в спорах. Без предварительно отобранных пруфов они бесполезны в 80% случаев. Главный вывод исследования прост: хочешь получить от AI правду — сначала сам найди её и положи модели под нос. Иначе ты просто получишь очень вежливое и аргументированное вранье, которое выглядит как истина, но ведет к катастрофе. Кто продолжит доверять «голому» AI в проверке фактов, тот неизбежно окажется в дураках.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с