3,583 papers
arXiv:2602.16942 74 18 фев. 2026 г. FREE

SourceBench: 8 критериев для проверки источников, которые AI приводит в ответах

КЛЮЧЕВАЯ СУТЬ
AI видит текст, не страницу. SEO-ферма с нужными словами попадает в ответ так же легко, как сайт ЦБ РФ — без явных критериев модель их не различает. SourceBench позволяет встроить 8 критериев оценки прямо в промпт, чтобы AI проверял каждый источник до того, как его процитирует. Фишка: порог отсечения (≥ 3.5 из 5) работает как заслонка — источник либо проходит по 8 параметрам, либо отлетает. Вместо случайного набора ссылок вслепую — структурированный отчёт с обоснованием по каждому.
Адаптировать под запрос

TL;DR

Когда AI отвечает со ссылками, пользователь видит количество источников, но не их качество. Исследование SourceBench показывает: разные AI-системы цитируют источники кардинально разного качества — и это напрямую влияет на достоверность ответа. Авторы разработали восемь критериев оценки источников, которые можно превратить в готовый промпт-фильтр.

Главная находка: модели цитируют источники, не проверяя их качество систематически. AI может сослаться на SEO-ферму, анонимный форум или устаревшую статью — и упаковать это в уверенный тон. Пользователь доверяет наличию ссылки, даже не кликая на неё. Это ловушка: чем больше ссылок, тем больше доверия — но связи между количеством и качеством нет.

Решение — использовать восемь критериев как чеклист, который AI применяет к своим же источникам до того, как включить их в ответ. Или — после, чтобы вы сами знали, чему доверять. Критерии делятся на две группы: содержание страницы (3 критерия) и мета-признаки (5 критериев).


🔬

Схема метода

Один промпт — два режима использования:

РЕЖИМ A — до ответа (AI фильтрует сам):
ЗАДАЧА → AI ищет источники → AI оценивает по 8 критериям → AI цитирует только прошедшие фильтр → Ответ со "чистыми" источниками

РЕЖИМ B — после ответа (вы проверяете):
AI уже ответил со ссылками → Даёте те же ссылки + 8 критериев → AI оценивает каждый источник → Вы видите, чему доверять

Оба режима работают в обычном чате без кода.


🚀

Пример применения

Задача: Вы пишете статью о том, как изменились ставки по ипотеке в России в 2024–2025 году. Просите ChatGPT или Claude найти данные — и хотите быть уверены, что получите актуальные, достоверные источники, а не SEO-мусор.

Промпт:

Найди информацию по теме: динамика ипотечных ставок в России в 2024–2025 году.

Прежде чем включить источник в ответ, оцени каждый по восьми критериям:

СОДЕРЖАНИЕ:
1. Релевантность — источник прямо отвечает на вопрос? (1–5)
2. Достоверность — данные верифицируемы, есть ссылки на первоисточники? (1–5)
3. Нейтральность — нет манипуляций и продвижения одной точки зрения? (1–5)

МЕТА-ПРИЗНАКИ:
4. Актуальность — страница обновлялась недавно, дата видна? (1–5)
5. Авторство — указан автор с реальными данными и экспертизой? (1–5)
6. Организация — понятно, кто стоит за сайтом, есть контакты? (1–5)
7. Авторитет домена — это признанный ресурс (ЦБ РФ, ДОМ.РФ, Коммерсант), не анонимный блог? (1–5)
8. Читабельность — страница удобна для чтения, нет навязчивой рекламы и всплывающих окон? (1–5)

Включай источник только если средний балл ≥ 3.5.
Для каждого источника покажи: URL + краткое обоснование + средний балл.

Результат: Модель покажет список источников с оценками по каждому критерию. Вы увидите, почему один источник включён (ЦБ РФ: свежий, авторитетный, верифицируемый), а другой отфильтрован (анонимный блог: нет автора, нет даты, рекламный шум). Вместо списка ссылок "вслепую" — структурированный отчёт с обоснованием.


🧠

Почему это работает

Слабость AI при работе с источниками: Модель оптимизирована на связность текста, а не на качество доказательной базы. SEO-статья может звучать убедительно и содержать нужные ключевые слова — модель её включает. Авторитетный первоисточник с сухим языком может быть пропущен. Модель не читает страницу глазами пользователя — она видит текст, не интерфейс с рекламой.

Сильная сторона AI: Если дать модели явные критерии оценки, она применяет их последовательно. Без критериев — генерирует "правдоподобное". С критериями — работает как чеклист. Это принцип Chain-of-Thought: структурированная инструкция вытягивает структурированный анализ.

Рычаги управления: - Порог фильтрации (≥ 3.5) → понижай до 3.0 для редких тем, где мало хороших источников; повышай до 4.0 для медицины/права - Вес критериев → для новостей усиль критерий "Актуальность"; для научных тем — "Авторство" и "Достоверность" - Режим вывода → убери "только прошедшие фильтр", чтобы видеть все источники с оценками — полезно для аудита - Критерий авторитета домена → уточни конкретные доверенные домены для своей темы: "авторитетным считай: ЦБ РФ, Минфин, Forbes.ru, РБК"


📋

Шаблон промпта

Найди информацию по теме: {тема запроса}.

Перед включением каждого источника в ответ оцени его по восьми критериям:

СОДЕРЖАНИЕ:
1. Релевантность — прямо отвечает на вопрос? (1–5)
2. Достоверность — данные верифицируемы? (1–5)
3. Нейтральность — нет манипулятивного тона? (1–5)

МЕТА-ПРИЗНАКИ:
4. Актуальность — страница свежая, дата видна? (1–5)
5. Авторство — автор с реальными данными? (1–5)
6. Организация — ясно кто стоит за сайтом? (1–5)
7. Авторитет домена — признанный ресурс, не анонимный блог? (1–5)
8. Читабельность — удобно читать, нет рекламного мусора? (1–5)

Включай источник только если средний балл ≥ {порог: 3.0–4.5}.
Для каждого источника: URL + баллы по критериям + вывод.

Что подставлять: - {тема запроса} — ваш конкретный вопрос - {порог} — 3.5 универсально; 4.0 для медицины/права/финансов; 3.0 для редких тем


🚀 Быстрый старт — вставь в чат:

Вот шаблон для фильтрации источников по 8 критериям качества. 
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит про тему, желаемый порог и тип источников — потому что от этого зависит строгость фильтра и что считать "авторитетным доменом" для вашей задачи.


⚠️

Ограничения

⚠️ Актуальность (Freshness) — независимый критерий: Свежесть страницы никак не коррелирует с остальными семью критериями. Источник может быть авторитетным, достоверным и читабельным — и при этом устаревшим. Проверяй дату отдельно, не доверяй общему баллу.

⚠️ AI видит текст, не страницу: Модель не "видит" рекламу и всплывающие окна — только scraped-текст. Критерий читабельности она оценивает по косвенным сигналам (наличие рекламного текста, структура). В реальности страница может быть хуже, чем показывает оценка.

⚠️ Для аргументативных и субъективных тем — осторожно: Критерий нейтральности работает хуже на темах, где объективной нейтральности не существует по определению (политика, этика, вкусовые суждения).

⚠️ Модель не лазает по сайтам в реальном времени (без Search mode): Если у вашей модели нет веб-поиска — промпт работает только в Режиме B (оценка уже известных URLs), но не в Режиме A.


🔍

Как исследовали

Исследователи из UCSD взяли 100 реальных запросов пяти типов — от "сравни товары на маркетплейсе" до "проверь политическое утверждение" — и прогнали их через 12 систем: восемь LLM (включая GPT-5, Grok-4.1, Claude Sonnet 4.5, Gemini-3-Pro), Google Search и три AI-поисковика (Exa, Tavily, Gensee). Итого: 3996 источников, оценённых по восьми критериям.

Чтобы не полагаться только на человеческое суждение, два аспиранта вручную разметили 45 страниц по единой рубрике, а потом дообучили LLM-судью на этих примерах. Точность автоматизированного судьи: отклонение от человеческих оценок — в среднем 0.2 балла из 5. Это высокая точность для субъективных критериев вроде "нейтральность".

Самый неожиданный результат эксперимента: DeepSeek без режима рассуждений (non-reasoning) + качественный поисковик обошёл DeepSeek с рассуждениями + слабый поисковик. То есть качество источников компенсирует отсутствие сложного внутреннего мышления. Это переворачивает интуицию "бери самую умную модель" — иногда правильнее выбрать правильный инструмент поиска.

Ещё любопытная деталь: Google выиграл у нескольких LLM по релевантности контента, но проиграл всем по свежести — у него самый низкий Freshness-балл из-за редкого переиндексирования. AI-системы лучше находят свежее, но хуже фильтруют мусор.


💡

Адаптации и экстраполяции

📌

🔧 Техника: Режим аудита уже готового ответа

Если AI уже ответил и дал ссылки — не нужно переспрашивать. Отправь второй промпт:

Вот источники из твоего предыдущего ответа:
[список URL]

Оцени каждый по восьми критериям качества:
Релевантность, Достоверность, Нейтральность, Актуальность, 
Авторство, Организация, Авторитет домена, Читабельность.
Шкала 1–5. Скажи, каким источникам стоит доверять, а каким — нет.

Полезно когда: получил ответ от ChatGPT с поиском, хочешь быстро понять насколько надёжна доказательная база.


📌

🔧 Техника: Персонализация критерия "авторитет"

Стандартный промпт не знает, что для медицинской темы авторитетен ПабМед, а не vc.ru. Добавь уточнение:

При оценке критерия "Авторитет домена" считай надёжными:
для медицины — pubmed.ncbi.nlm.nih.gov, minzdrav.gov.ru, WHO
для финансов — cbr.ru, minfin.gov.ru, moex.ru
для технологий — habr.com, arxiv.org, официальные сайты компаний
Всё остальное — проверяй по наличию "Об авторе" и организации.

Это резко повышает точность фильтрации в профессиональных темах.


🔗

Ресурсы

SourceBench: Can AI Answers Reference Quality Web Sources? Hexi Jin, Stephen Liu, Yuheng Li, Simran Malik, Yiying Zhang University of California, San Diego; GenseeAI Inc. Препринт, февраль 2026


📋 Дайджест исследования

Ключевая суть

AI видит текст, не страницу. SEO-ферма с нужными словами попадает в ответ так же легко, как сайт ЦБ РФ — без явных критериев модель их не различает. SourceBench позволяет встроить 8 критериев оценки прямо в промпт, чтобы AI проверял каждый источник до того, как его процитирует. Фишка: порог отсечения (≥ 3.5 из 5) работает как заслонка — источник либо проходит по 8 параметрам, либо отлетает. Вместо случайного набора ссылок вслепую — структурированный отчёт с обоснованием по каждому.

Принцип работы

Без критериев: модель генерирует убедительный текст → ищет источники под него → цитирует то, что звучит в тему. С критериями: ищет источники → прогоняет каждый через 8 фильтров → в ответ попадает только то, что прошло. Разница как между «подобрать доказательства под вывод» и «проверить доказательства перед выводом». Восемь критериев делятся на две группы: три по содержанию страницы (релевантность, достоверность, нейтральность) и пять мета-признаков (актуальность, авторство, организация, авторитет домена, читабельность). Работает в двух режимах: A — AI фильтрует сам до ответа (нужен веб-поиск), B — ты подаёшь готовые ссылки и получаешь оценку по каждой.

Почему работает

Модель оптимизирована на связный, убедительный текст — не на качество доказательной базы. Анонимный блог может звучать профессионально и содержать нужные термины: модель его включит. Авторитетный официальный источник с сухим языком — пропустит. Явные критерии превращают это в алгоритм: вместо «угадать что хорошо» — «пройти чеклист». Важная находка исследования: актуальность (свежесть страницы) никак не связана с остальными семью критериями. Авторитетный источник может быть трёхлетней давности. Прыщавый блог — вчерашним. Дату проверяй отдельно — общий балл её не учитывает честно.

Когда применять

Любая задача, где источники напрямую влияют на решение: журналистика и проверка фактов, медицинские и юридические запросы, аналитика рынка, деловые и академические тексты. Режим A (AI фильтрует до ответа) — когда нужен чистый результат и у модели есть доступ к поиску. Режим B (проверяешь готовые ссылки) — когда AI уже ответил, и ты хочешь понять чему доверять; работает без какого-либо поиска. НЕ подходит для политических и этических тем: критерий нейтральности там ломается — объективной нейтральности не существует по определению.

Мини-рецепт

1. Выбери режим: A — AI сам фильтрует источники до ответа (нужен веб-поиск в модели); B — ты подаёшь уже готовые ссылки на оценку (работает везде без поиска)
2. Вставь 8 критериев в промпт: три по содержанию (релевантность, достоверность, нейтральность) + пять мета-признаков (актуальность, авторство, организация, авторитет домена, читабельность) — каждый по шкале 1–5
3. Выставь порог отсечения: 3.5 — универсально; 4.0 — для медицины, права, финансов; 3.0 — для редких тем, где хороших источников мало
4. Уточни что считать авторитетным доменом для твоей темы: без этого модель решает сама — и может промахнуться. Например: 'авторитетным считай: ЦБ РФ, Минфин, РБК, Коммерсант'
5. Проверь дату вручную: актуальность не связана с остальными критериями — высокий общий балл не гарантирует свежесть источника

Примеры

[ПЛОХО] : Найди источники о динамике ипотечных ставок в России в 2024 году
[ХОРОШО] : Найди данные о динамике ипотечных ставок в России в 2024–2025. Перед включением каждого источника оцени по 8 критериям: релевантность, достоверность, нейтральность, актуальность, авторство, организация, авторитет домена, читабельность — каждый по шкале 1–5. Включай только если средний балл ≥ 3.5. Авторитетным считай: ЦБ РФ, ДОМ.РФ, Коммерсант, РБК. Для каждого источника: URL + баллы по критериям + итоговый вывод
Источник: SourceBench: Can AI Answers Reference Quality Web Sources?
ArXiv ID: 2602.16942 | Сгенерировано: 2026-02-20 10:37

Проблемы LLM

ПроблемаСутьКак обойти
Модель выбирает источники по тексту, не по качествуМодель видит текст страницы. Не видит: кто написал, когда обновлено, есть ли реклама, анонимный ли сайт. SEO-статья с нужными словами может попасть в ответ. Авторитетный, но сухой первоисточник — пропускается. Пользователь видит ссылку и доверяет. Количество ссылок не связано с их качествомДай модели явный список критериев качества прямо в запросе. Попроси оценить каждый источник до включения в ответ. Без критериев — выбирает по "похожести на ответ". С критериями — проверяет по-настоящему

Методы

МетодСуть
Чеклист критериев качества источника — фильтр перед цитированиемДобавь в запрос список из 8 критериев. Попроси оценить каждый источник по шкале 1–5 и включать только те, у которых средний балл выше порога. Критерии содержания: 1) Релевантность — прямо отвечает на вопрос? 2) Достоверность — данные верифицируемы, есть ссылки на первоисточники? 3) Нейтральность — нет манипулятивного тона? Мета-признаки: 4) Актуальность — дата обновления видна, недавняя? 5) Авторство — указан реальный автор с экспертизой? 6) Организация — понятно кто стоит за сайтом? 7) Авторитет домена — признанный ресурс, не анонимный блог? 8) Читабельность — нет рекламного мусора в тексте? Порог: 3.5 — универсально; 4.0 — для медицины, права, финансов; 3.0 — для редких тем с малым числом источников. Почему работает: модель применяет явные критерии последовательно — это переключает её из режима "сгенерировать похожее" в режим "проверить по чеклисту". Работает: любые задачи с поиском источников. Не работает: если у модели нет веб-поиска — оценивает только уже известные URL

Тезисы

ТезисКомментарий
Явные критерии переключают модель из генерации в проверкуБез критериев модель выбирает источники на основе "похожести на правильный ответ". С явным списком критериев — последовательно прогоняет каждый источник через проверку. Механика та же что у цепочки рассуждений: структурированная инструкция вытягивает структурированный анализ. Применяй: когда нужна проверка, а не генерация — давай не вопрос, а список критериев для оценки
📖 Простыми словами

SourceBench: Can AI Answers Reference Quality Web Sources?

arXiv: 2602.16942

Когда AI-ассистент выдает тебе ответ со ссылками, он не проверяет их на адекватность так, как это делаешь ты. Для модели это просто текстовые блоки, которые удачно легли в контекст. Исследование SourceBench вскрыло неприятную правду: количество сносок — это просто декорация, которая часто скрывает SEO-мусор и низкосортные сайты. Проблема в том, что нейронки оптимизированы под связность текста, а не под поиск истины, поэтому они охотнее цитируют болтливый блог, чем сухой отчет регулятора.

Это как если бы ты попросил совета по лечению зубов, а тебе принесли стопку распечаток с форумов из 2005 года и рекламных буклетов частных клиник. Вроде бы информации много, но доверять ей страшно. Ты видишь красивые сноски и думаешь, что за ними стоит фактчекинг, а на деле AI просто выбрал то, что легче всего сматчилось с твоим вопросом по ключевым словам. Модель не видит кричащую рекламу или сомнительную репутацию домена — она видит только буквы.

Чтобы исправить этот облом, авторы выкатили восемь критериев оценки, которые превращают AI из доверчивого читателя в жесткого цензора. Теперь можно заставить модель прогонять каждый найденный источник через фильтр: проверять авторитетность автора, свежесть данных, отсутствие конфликта интересов и наличие первичных доказательств. Это не просто "хороший или плохой" сайт, а матрица качества, которая отсекает мусор еще до того, как он попадет в итоговый ответ.

Хотя тест проводили на поиске данных, принцип универсален для любой работы с информацией. Это работает для аналитики рынка, написания лонгридов или проверки юридических тонкостей — везде, где цена ошибки выше, чем просто "неправильный рецепт пирога". Мы переходим от эпохи, когда важно было просто найти информацию, к эпохе GEO (Generative Engine Optimization), где выживают только те источники, которые проходят через сито жестких алгоритмических проверок.

Короче, пора перестать верить AI на слово только потому, что в тексте стоят циферки в квадратных скобках. SourceBench доказывает, что без специального промпта-фильтра твой ассистент — это просто информационный пылесос, который тащит в дом всё подряд. Используй готовые критерии как входной контроль: либо источник соответствует стандартам качества, либо он идет в корзину, даже если идеально подходит по смыслу.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с