TL;DR
Исследователи проверили, как GPT-4o-mini и GPT-5 справляются с клиническими вопросами, основанными на доказательствах. Собрали датасет из трёх источников: систематические обзоры Cochrane (8,533 статьи), структурированные рекомендации Американской кардиологической ассоциации (2,581 рекомендация) и нарративные клинические руководства (289 документов). Модели отвечали на вопросы типа "Снижает ли химиолучевая терапия смертность при раке шейки матки?" с вариантами ответа: Yes/No/No evidence.
Главная находка: Точность зависит от структурированности источника, а не от сложности вопроса. На структурированных рекомендациях AHA (где каждая рекомендация чётко размечена: класс силы + уровень доказательств) модели показали 90-94% точности. На систематических обзорах и нарративных текстах — упали до 60-70%. Модели переоценивают уверенность там, где доказательств нет: в категории "No evidence" точность всего 30-37%, а на утвердительные "Yes" — 84%. Проблема не в сложности медицины, а в формате: модель видит структуру → понимает контекст → отвечает точнее.
Вторая находка: Точность коррелирует с цитируемостью исследований. Для обзоров с <10 цитирований точность ~50%, с >100 цитирований — ~80%. Каждое удвоение числа цитирований увеличивает вероятность правильного ответа на 30%. Это не эффект возраста публикации (проверили по году выпуска) — это эффект заметности исследования. Широко цитируемые работы чаще попадали в обучающие данные модели → модель лучше их "помнит".
Третья находка: Retrieval-Augmented Generation (RAG) резко улучшает результаты. Когда в контекст добавили правильный абстракт статьи, точность подскочила до 91-93%. Даже топ-3 релевантных абстракта из PubMed (без оригинальной статьи) подняли точность до 79-80% — против 60% без контекста. Случайные абстракты почти не повредили (упало до 58%), значит модели устойчивы к шуму. Вывод: Источник важнее размера модели. Дай модели правильный источник — и даже маленькая модель выдаст точный ответ.
Схема применения
Это не метод, а набор принципов для работы с медицинскими и доказательными вопросами:
ПРИНЦИП 1: Структурируй вопрос
Вопрос: [чёткая формулировка]
Ответ: [Yes/No/No evidence]
Качество доказательств: [High/Moderate/Low/Very Low]
Обоснование: [цитата или краткое резюме]
ПРИНЦИП 2: Добавь источники (RAG) Если есть доступ к релевантным статьям/обзорам — скопируй абстракт в контекст. Точность вырастет с 60% до 79-93%.
ПРИНЦИП 3: Требуй честности при отсутствии данных Явно попроси: "Если недостаточно доказательств, ответь 'No evidence', не угадывай"
Пример применения
Задача: Ты маркетолог в фармкомпании, готовишь презентацию про новый препарат. Нужно проверить, действительно ли статины снижают риск инфаркта у людей без диабета.
Промпт без структуры (типичный):
Снижают ли статины риск инфаркта у людей без диабета?
Промпт со структурой + RAG:
Вопрос: Снижают ли статины риск инфаркта у людей без диабета?
Контекст: [вставить абстракт релевантного мета-анализа]
Ответь в формате:
Ответ: Yes/No/No evidence
Качество доказательств: High/Moderate/Low/Very Low
Обоснование: [кратко, с отсылкой к данным]
Если недостаточно данных для однозначного ответа, выбери "No evidence".
Результат: Модель выдаст структурированный ответ с чётким указанием на качество доказательств. Вместо расплывчатого "исследования показывают..." получишь: "Yes, качество доказательств High (HR=0.76, 95% CI 0.65–0.89, мета-анализ 15 РКИ)". Если данных нет — честно скажет "No evidence", а не будет выдумывать.
Почему это работает
Слабость LLM: Модели склонны к уверенным ответам даже там, где доказательств нет. В этом исследовании на вопросах с ответом "No evidence" точность упала до 30% — модель выдумывала "Yes" или "No" вместо честного "не знаю". Проблема усугубляется на малоизвестных темах: если исследование цитировали <10 раз, точность ~50%; если >100 раз — ~80%. Модель лучше "помнит" широко известные факты, но на редких темах начинает гадать.
Сильная сторона LLM: Модели отлично работают со структурированными данными и явным контекстом. Когда вопрос размечен по полям (вопрос/ответ/обоснование) и есть релевантный источник в контексте, модель переключается из режима "угадывания" в режим "извлечения информации". Это механически похоже на Chain-of-Thought: структура заставляет модель следовать логике, а не полагаться на паттерны из обучающих данных.
Как метод использует сильную сторону:
- Структурированный формат убирает двусмысленность — модель видит явный шаблон ответа и не сочиняет произвольный текст
- Добавление источников (RAG) даёт модели "якорь" для рассуждений — вместо "я помню что-то про статины" модель опирается на конкретный абстракт
- Явное требование честности ("если нет данных → No evidence") меняет режим генерации — модель не пытается "быть полезной любой ценой", а следует инструкции
Рычаги управления:
- Число категорий ответа: Yes/No/No evidence vs. более детальная шкала (Yes/Probably Yes/Uncertain/Probably No/No) — чем больше градаций, тем сложнее модели, но точнее для тебя
- Требование обоснования: "с цитатой" vs. "кратко" vs. "без обоснования" — цитата заставляет модель искать конкретный фрагмент, снижает галлюцинации
- Источники в RAG: абстракт vs. полный текст vs. топ-3 похожих статей — золотой источник даёт 91% точности, топ-3 релевантных — 79%, случайные — вредят
- Честность: "если нет данных → скажи" vs. по умолчанию — явная инструкция резко снижает уверенные, но неверные ответы
Шаблон промпта
Вопрос: {твой_вопрос}
Контекст (если есть): {релевантная_статья_или_источник}
Ответь в формате:
Ответ: [Yes/No/No evidence]
Качество доказательств: [High/Moderate/Low/Very Low/Unknown]
Обоснование: [кратко, с отсылкой к данным из контекста]
Правила:
1. Если недостаточно данных для уверенного ответа, выбери "No evidence"
2. Не угадывай — опирайся только на информацию в контексте или достоверные знания
3. Укажи качество доказательств честно: если источник слабый или его нет — признай это
Что подставлять:
{твой_вопрос}— сформулируй вопрос чётко, избегай двусмысленности. Пример: "Снижает ли омега-3 риск деменции у людей старше 65 лет?"{релевантная_статья_или_источник}— если есть доступ к статье/обзору, скопируй сюда абстракт или ключевые выводы. Если нет — пропусти эту строку, но точность упадёт
Адаптация под свои задачи:
- Замени категории ответа на свои: вместо Yes/No/No evidence можно использовать Да/Нет/Неясно, Доказано/Опровергнуто/Противоречиво и т.д.
- Убери "Качество доказательств", если не важно — но это поле заставляет модель критически оценивать источник
- Добавь "Противоречия: [есть/нет]", если важно знать, расходятся ли данные из разных исследований
Ограничения
⚠️ Малоизвестные темы: Точность падает на редко цитируемых исследованиях. Если тема узкоспециализированная (например, редкое генетическое заболевание), модель скорее ошибётся. Решение: добавь релевантные источники в контекст.
⚠️ Нарративные тексты: На неструктурированных руководствах (особенно с двойными отрицаниями типа "не даёт дополнительной пользы") точность упала до 56%. Модель склонна игнорировать отрицание и отвечать "Yes". Решение: переформулируй вопрос прямо: "Даёт ли X пользу?" вместо "Не даёт ли X дополнительной пользы?"
⚠️ Переоценка уверенности: Модели склонны давать категоричные ответы там, где данных нет. Без явной инструкции "если не знаешь → No evidence" точность на таких вопросах всего 30-37%. Всегда добавляй эту инструкцию.
⚠️ RAG требует качественных источников: Случайные абстракты не улучшают точность (упало с 60% до 58%). Топ-3 релевантных поднимают до 79%, но релевантность критична. Если поиск по PubMed выдал нерелевантные статьи — не поможет.
Как исследовали
Исследователи собрали 8,533 абстракта систематических обзоров из Cochrane Library (2010–2025), 2,581 рекомендацию из клинических руководств Американской кардиологической ассоциации (2020–2025) и 289 нарративных руководств от профессиональных обществ и страховых компаний. Для каждого источника GPT-4o сгенерировал вопросы и правильные ответы: для Cochrane — вопросы типа "Снижает ли X смертность?" с ответами Yes/No/No evidence + оценка качества доказательств; для AHA — оценка силы рекомендации и уровня доказательств; для нарративных текстов — вопросы по структуре PICO (Population/Intervention/Comparator/Outcome).
Вручную проверили 100 QA-пар из Cochrane: 86% полностью корректны, 6% частично (из-за двусмысленных формулировок), 8% ошибок. Затем тестировали GPT-4o-mini и GPT-5 в двух режимах: (1) без контекста (только вопрос), (2) с контекстом (правильный абстракт, топ-3 из PubMed, случайный абстракт). Основная метрика — exact-match accuracy: совпадение ответа модели с ground truth.
Почему результаты получились именно такими: Структурированные рекомендации AHA дали 90-94% точности, потому что каждая рекомендация явно размечена по классам силы (I/IIa/IIb/III) и уровням доказательств (A/B/C). Модель видит паттерн → извлекает информацию. На систематических обзорах точность упала до 60-70%, потому что выводы часто завёрнуты в нарративный текст без чёткой структуры. На нарративных руководствах — ещё хуже (56%), потому что там много двойных отрицаний и размытых формулировок типа "не предоставляет дополнительной пользы".
Что удивило: Корреляция с цитируемостью оказалась сильнее корреляции с годом публикации. Логично было бы ожидать, что старые статьи точнее (больше времени для попадания в обучающие данные), но нет — важнее влиятельность исследования. Модель лучше "помнит" работы, которые часто цитируют, независимо от года. Это значит, что модели не просто "видели текст в интернете", а закодировали структуру академического авторитета.
Инсайт для практики: Если задаёшь вопрос по малоизвестной теме (редкое заболевание, узкая специализация), модель скорее ошибётся — даже если тема "медицинская" и кажется, что "модель должна знать". Решение: добавь источник в контекст. RAG с правильным абстрактом поднял точность с 60% до 91% — это 31 п.п. улучшения просто от того, что дал модели увидеть первоисточник.
Ресурсы
"Evaluating Large Language Models for Evidence-Based Clinical Question Answering"
Can Wang, Yiqun Chen (Johns Hopkins University)
Датасет и код: https://github.com/yiqunchen/MEDAL
Источники данных:
- Cochrane Library систематические обзоры: https://www.cochranelibrary.com/cdsr/reviews
- AHA клинические рекомендации: https://professional.heart.org/en/guidelines-statements-search
