TL;DR
Когда AI отвечает со ссылками, пользователь видит количество источников, но не их качество. Исследование SourceBench показывает: разные AI-системы цитируют источники кардинально разного качества — и это напрямую влияет на достоверность ответа. Авторы разработали восемь критериев оценки источников, которые можно превратить в готовый промпт-фильтр.
Главная находка: модели цитируют источники, не проверяя их качество систематически. AI может сослаться на SEO-ферму, анонимный форум или устаревшую статью — и упаковать это в уверенный тон. Пользователь доверяет наличию ссылки, даже не кликая на неё. Это ловушка: чем больше ссылок, тем больше доверия — но связи между количеством и качеством нет.
Решение — использовать восемь критериев как чеклист, который AI применяет к своим же источникам до того, как включить их в ответ. Или — после, чтобы вы сами знали, чему доверять. Критерии делятся на две группы: содержание страницы (3 критерия) и мета-признаки (5 критериев).
Схема метода
Один промпт — два режима использования:
РЕЖИМ A — до ответа (AI фильтрует сам):
ЗАДАЧА → AI ищет источники → AI оценивает по 8 критериям → AI цитирует только прошедшие фильтр → Ответ со "чистыми" источниками
РЕЖИМ B — после ответа (вы проверяете):
AI уже ответил со ссылками → Даёте те же ссылки + 8 критериев → AI оценивает каждый источник → Вы видите, чему доверять
Оба режима работают в обычном чате без кода.
Пример применения
Задача: Вы пишете статью о том, как изменились ставки по ипотеке в России в 2024–2025 году. Просите ChatGPT или Claude найти данные — и хотите быть уверены, что получите актуальные, достоверные источники, а не SEO-мусор.
Промпт:
Найди информацию по теме: динамика ипотечных ставок в России в 2024–2025 году.
Прежде чем включить источник в ответ, оцени каждый по восьми критериям:
СОДЕРЖАНИЕ:
1. Релевантность — источник прямо отвечает на вопрос? (1–5)
2. Достоверность — данные верифицируемы, есть ссылки на первоисточники? (1–5)
3. Нейтральность — нет манипуляций и продвижения одной точки зрения? (1–5)
МЕТА-ПРИЗНАКИ:
4. Актуальность — страница обновлялась недавно, дата видна? (1–5)
5. Авторство — указан автор с реальными данными и экспертизой? (1–5)
6. Организация — понятно, кто стоит за сайтом, есть контакты? (1–5)
7. Авторитет домена — это признанный ресурс (ЦБ РФ, ДОМ.РФ, Коммерсант), не анонимный блог? (1–5)
8. Читабельность — страница удобна для чтения, нет навязчивой рекламы и всплывающих окон? (1–5)
Включай источник только если средний балл ≥ 3.5.
Для каждого источника покажи: URL + краткое обоснование + средний балл.
Результат: Модель покажет список источников с оценками по каждому критерию. Вы увидите, почему один источник включён (ЦБ РФ: свежий, авторитетный, верифицируемый), а другой отфильтрован (анонимный блог: нет автора, нет даты, рекламный шум). Вместо списка ссылок "вслепую" — структурированный отчёт с обоснованием.
Почему это работает
Слабость AI при работе с источниками: Модель оптимизирована на связность текста, а не на качество доказательной базы. SEO-статья может звучать убедительно и содержать нужные ключевые слова — модель её включает. Авторитетный первоисточник с сухим языком может быть пропущен. Модель не читает страницу глазами пользователя — она видит текст, не интерфейс с рекламой.
Сильная сторона AI: Если дать модели явные критерии оценки, она применяет их последовательно. Без критериев — генерирует "правдоподобное". С критериями — работает как чеклист. Это принцип Chain-of-Thought: структурированная инструкция вытягивает структурированный анализ.
Рычаги управления: - Порог фильтрации (≥ 3.5) → понижай до 3.0 для редких тем, где мало хороших источников; повышай до 4.0 для медицины/права - Вес критериев → для новостей усиль критерий "Актуальность"; для научных тем — "Авторство" и "Достоверность" - Режим вывода → убери "только прошедшие фильтр", чтобы видеть все источники с оценками — полезно для аудита - Критерий авторитета домена → уточни конкретные доверенные домены для своей темы: "авторитетным считай: ЦБ РФ, Минфин, Forbes.ru, РБК"
Шаблон промпта
Найди информацию по теме: {тема запроса}.
Перед включением каждого источника в ответ оцени его по восьми критериям:
СОДЕРЖАНИЕ:
1. Релевантность — прямо отвечает на вопрос? (1–5)
2. Достоверность — данные верифицируемы? (1–5)
3. Нейтральность — нет манипулятивного тона? (1–5)
МЕТА-ПРИЗНАКИ:
4. Актуальность — страница свежая, дата видна? (1–5)
5. Авторство — автор с реальными данными? (1–5)
6. Организация — ясно кто стоит за сайтом? (1–5)
7. Авторитет домена — признанный ресурс, не анонимный блог? (1–5)
8. Читабельность — удобно читать, нет рекламного мусора? (1–5)
Включай источник только если средний балл ≥ {порог: 3.0–4.5}.
Для каждого источника: URL + баллы по критериям + вывод.
Что подставлять:
- {тема запроса} — ваш конкретный вопрос
- {порог} — 3.5 универсально; 4.0 для медицины/права/финансов; 3.0 для редких тем
🚀 Быстрый старт — вставь в чат:
Вот шаблон для фильтрации источников по 8 критериям качества.
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит про тему, желаемый порог и тип источников — потому что от этого зависит строгость фильтра и что считать "авторитетным доменом" для вашей задачи.
Ограничения
⚠️ Актуальность (Freshness) — независимый критерий: Свежесть страницы никак не коррелирует с остальными семью критериями. Источник может быть авторитетным, достоверным и читабельным — и при этом устаревшим. Проверяй дату отдельно, не доверяй общему баллу.
⚠️ AI видит текст, не страницу: Модель не "видит" рекламу и всплывающие окна — только scraped-текст. Критерий читабельности она оценивает по косвенным сигналам (наличие рекламного текста, структура). В реальности страница может быть хуже, чем показывает оценка.
⚠️ Для аргументативных и субъективных тем — осторожно: Критерий нейтральности работает хуже на темах, где объективной нейтральности не существует по определению (политика, этика, вкусовые суждения).
⚠️ Модель не лазает по сайтам в реальном времени (без Search mode): Если у вашей модели нет веб-поиска — промпт работает только в Режиме B (оценка уже известных URLs), но не в Режиме A.
Как исследовали
Исследователи из UCSD взяли 100 реальных запросов пяти типов — от "сравни товары на маркетплейсе" до "проверь политическое утверждение" — и прогнали их через 12 систем: восемь LLM (включая GPT-5, Grok-4.1, Claude Sonnet 4.5, Gemini-3-Pro), Google Search и три AI-поисковика (Exa, Tavily, Gensee). Итого: 3996 источников, оценённых по восьми критериям.
Чтобы не полагаться только на человеческое суждение, два аспиранта вручную разметили 45 страниц по единой рубрике, а потом дообучили LLM-судью на этих примерах. Точность автоматизированного судьи: отклонение от человеческих оценок — в среднем 0.2 балла из 5. Это высокая точность для субъективных критериев вроде "нейтральность".
Самый неожиданный результат эксперимента: DeepSeek без режима рассуждений (non-reasoning) + качественный поисковик обошёл DeepSeek с рассуждениями + слабый поисковик. То есть качество источников компенсирует отсутствие сложного внутреннего мышления. Это переворачивает интуицию "бери самую умную модель" — иногда правильнее выбрать правильный инструмент поиска.
Ещё любопытная деталь: Google выиграл у нескольких LLM по релевантности контента, но проиграл всем по свежести — у него самый низкий Freshness-балл из-за редкого переиндексирования. AI-системы лучше находят свежее, но хуже фильтруют мусор.
Адаптации и экстраполяции
🔧 Техника: Режим аудита уже готового ответа
Если AI уже ответил и дал ссылки — не нужно переспрашивать. Отправь второй промпт:
Вот источники из твоего предыдущего ответа:
[список URL]
Оцени каждый по восьми критериям качества:
Релевантность, Достоверность, Нейтральность, Актуальность,
Авторство, Организация, Авторитет домена, Читабельность.
Шкала 1–5. Скажи, каким источникам стоит доверять, а каким — нет.
Полезно когда: получил ответ от ChatGPT с поиском, хочешь быстро понять насколько надёжна доказательная база.
🔧 Техника: Персонализация критерия "авторитет"
Стандартный промпт не знает, что для медицинской темы авторитетен ПабМед, а не vc.ru. Добавь уточнение:
При оценке критерия "Авторитет домена" считай надёжными:
для медицины — pubmed.ncbi.nlm.nih.gov, minzdrav.gov.ru, WHO
для финансов — cbr.ru, minfin.gov.ru, moex.ru
для технологий — habr.com, arxiv.org, официальные сайты компаний
Всё остальное — проверяй по наличию "Об авторе" и организации.
Это резко повышает точность фильтрации в профессиональных темах.
Ресурсы
SourceBench: Can AI Answers Reference Quality Web Sources? Hexi Jin, Stephen Liu, Yuheng Li, Simran Malik, Yiying Zhang University of California, San Diego; GenseeAI Inc. Препринт, февраль 2026
