arXiv:2509.10843 72 13 сент. 2025 г. FREE

Структурированные вопросы + RAG: как получать точные ответы от LLM на медицинские вопросы

КЛЮЧЕВАЯ СУТЬ

Парадокс: Точность LLM на клинических вопросах зависит не от сложности медицины, а от структуры данных. На размеченных рекомендациях (где каждая помечена: класс силы + уровень доказательств) GPT показал 90-94% точности. На тех же темах, но в нарративных текстах — упал до 60-70%. Фишка: дай модели структурированный формат ответа (Yes/No/No evidence + обоснование) и релевантный источник в контексте — точность подскакивает с 60% до 91%. Модель перестаёт угадывать и начинает извлекать информацию из источника. Главная боль: модели переоценивают уверенность — на вопросах где ответ "нет доказательств" точность всего 30-37%, вместо честного "не знаю" выдают категоричное "да" или "нет".

Адаптировать под запрос

⚡

TL;DR

Исследователи проверили, как GPT-4o-mini и GPT-5 справляются с клиническими вопросами, основанными на доказательствах. Собрали датасет из трёх источников: систематические обзоры Cochrane (8,533 статьи), структурированные рекомендации Американской кардиологической ассоциации (2,581 рекомендация) и нарративные клинические руководства (289 документов). Модели отвечали на вопросы типа "Снижает ли химиолучевая терапия смертность при раке шейки матки?" с вариантами ответа: Yes/No/No evidence.

Главная находка: Точность зависит от структурированности источника, а не от сложности вопроса. На структурированных рекомендациях AHA (где каждая рекомендация чётко размечена: класс силы + уровень доказательств) модели показали 90-94% точности. На систематических обзорах и нарративных текстах — упали до 60-70%. Модели переоценивают уверенность там, где доказательств нет: в категории "No evidence" точность всего 30-37%, а на утвердительные "Yes" — 84%. Проблема не в сложности медицины, а в формате: модель видит структуру → понимает контекст → отвечает точнее.

Вторая находка: Точность коррелирует с цитируемостью исследований. Для обзоров с <10 цитирований точность ~50%, с >100 цитирований — ~80%. Каждое удвоение числа цитирований увеличивает вероятность правильного ответа на 30%. Это не эффект возраста публикации (проверили по году выпуска) — это эффект заметности исследования. Широко цитируемые работы чаще попадали в обучающие данные модели → модель лучше их "помнит".

Третья находка: Retrieval-Augmented Generation (RAG) резко улучшает результаты. Когда в контекст добавили правильный абстракт статьи, точность подскочила до 91-93%. Даже топ-3 релевантных абстракта из PubMed (без оригинальной статьи) подняли точность до 79-80% — против 60% без контекста. Случайные абстракты почти не повредили (упало до 58%), значит модели устойчивы к шуму. Вывод: Источник важнее размера модели. Дай модели правильный источник — и даже маленькая модель выдаст точный ответ.

📌

Схема применения

Это не метод, а набор принципов для работы с медицинскими и доказательными вопросами:

ПРИНЦИП 1: Структурируй вопрос

Вопрос: [чёткая формулировка]
Ответ: [Yes/No/No evidence]
Качество доказательств: [High/Moderate/Low/Very Low]
Обоснование: [цитата или краткое резюме]

ПРИНЦИП 2: Добавь источники (RAG) Если есть доступ к релевантным статьям/обзорам — скопируй абстракт в контекст. Точность вырастет с 60% до 79-93%.

ПРИНЦИП 3: Требуй честности при отсутствии данных Явно попроси: "Если недостаточно доказательств, ответь 'No evidence', не угадывай"

🚀

Пример применения

Задача: Ты маркетолог в фармкомпании, готовишь презентацию про новый препарат. Нужно проверить, действительно ли статины снижают риск инфаркта у людей без диабета.

Промпт без структуры (типичный):

Снижают ли статины риск инфаркта у людей без диабета?

Промпт со структурой + RAG:

Вопрос: Снижают ли статины риск инфаркта у людей без диабета?

Контекст: [вставить абстракт релевантного мета-анализа]

Ответь в формате:
Ответ: Yes/No/No evidence
Качество доказательств: High/Moderate/Low/Very Low
Обоснование: [кратко, с отсылкой к данным]

Если недостаточно данных для однозначного ответа, выбери "No evidence".

Результат: Модель выдаст структурированный ответ с чётким указанием на качество доказательств. Вместо расплывчатого "исследования показывают..." получишь: "Yes, качество доказательств High (HR=0.76, 95% CI 0.65–0.89, мета-анализ 15 РКИ)". Если данных нет — честно скажет "No evidence", а не будет выдумывать.

🧠

Почему это работает

Слабость LLM: Модели склонны к уверенным ответам даже там, где доказательств нет. В этом исследовании на вопросах с ответом "No evidence" точность упала до 30% — модель выдумывала "Yes" или "No" вместо честного "не знаю". Проблема усугубляется на малоизвестных темах: если исследование цитировали <10 раз, точность ~50%; если >100 раз — ~80%. Модель лучше "помнит" широко известные факты, но на редких темах начинает гадать.

Сильная сторона LLM: Модели отлично работают со структурированными данными и явным контекстом. Когда вопрос размечен по полям (вопрос/ответ/обоснование) и есть релевантный источник в контексте, модель переключается из режима "угадывания" в режим "извлечения информации". Это механически похоже на Chain-of-Thought: структура заставляет модель следовать логике, а не полагаться на паттерны из обучающих данных.

Как метод использует сильную сторону:

Структурированный формат убирает двусмысленность — модель видит явный шаблон ответа и не сочиняет произвольный текст
Добавление источников (RAG) даёт модели "якорь" для рассуждений — вместо "я помню что-то про статины" модель опирается на конкретный абстракт
Явное требование честности ("если нет данных → No evidence") меняет режим генерации — модель не пытается "быть полезной любой ценой", а следует инструкции

Рычаги управления:

Число категорий ответа: Yes/No/No evidence vs. более детальная шкала (Yes/Probably Yes/Uncertain/Probably No/No) — чем больше градаций, тем сложнее модели, но точнее для тебя
Требование обоснования: "с цитатой" vs. "кратко" vs. "без обоснования" — цитата заставляет модель искать конкретный фрагмент, снижает галлюцинации
Источники в RAG: абстракт vs. полный текст vs. топ-3 похожих статей — золотой источник даёт 91% точности, топ-3 релевантных — 79%, случайные — вредят
Честность: "если нет данных → скажи" vs. по умолчанию — явная инструкция резко снижает уверенные, но неверные ответы

📋

Шаблон промпта

Вопрос: {твой_вопрос}

Контекст (если есть): {релевантная_статья_или_источник}

Ответь в формате:
Ответ: [Yes/No/No evidence]
Качество доказательств: [High/Moderate/Low/Very Low/Unknown]
Обоснование: [кратко, с отсылкой к данным из контекста]

Правила:
1. Если недостаточно данных для уверенного ответа, выбери "No evidence"
2. Не угадывай — опирайся только на информацию в контексте или достоверные знания
3. Укажи качество доказательств честно: если источник слабый или его нет — признай это

Что подставлять:

{твой_вопрос} — сформулируй вопрос чётко, избегай двусмысленности. Пример: "Снижает ли омега-3 риск деменции у людей старше 65 лет?"
{релевантная_статья_или_источник} — если есть доступ к статье/обзору, скопируй сюда абстракт или ключевые выводы. Если нет — пропусти эту строку, но точность упадёт

Адаптация под свои задачи:

Замени категории ответа на свои: вместо Yes/No/No evidence можно использовать Да/Нет/Неясно, Доказано/Опровергнуто/Противоречиво и т.д.
Убери "Качество доказательств", если не важно — но это поле заставляет модель критически оценивать источник
Добавь "Противоречия: [есть/нет]", если важно знать, расходятся ли данные из разных исследований

⚠️

Ограничения

⚠️ Малоизвестные темы: Точность падает на редко цитируемых исследованиях. Если тема узкоспециализированная (например, редкое генетическое заболевание), модель скорее ошибётся. Решение: добавь релевантные источники в контекст.

⚠️ Нарративные тексты: На неструктурированных руководствах (особенно с двойными отрицаниями типа "не даёт дополнительной пользы") точность упала до 56%. Модель склонна игнорировать отрицание и отвечать "Yes". Решение: переформулируй вопрос прямо: "Даёт ли X пользу?" вместо "Не даёт ли X дополнительной пользы?"

⚠️ Переоценка уверенности: Модели склонны давать категоричные ответы там, где данных нет. Без явной инструкции "если не знаешь → No evidence" точность на таких вопросах всего 30-37%. Всегда добавляй эту инструкцию.

⚠️ RAG требует качественных источников: Случайные абстракты не улучшают точность (упало с 60% до 58%). Топ-3 релевантных поднимают до 79%, но релевантность критична. Если поиск по PubMed выдал нерелевантные статьи — не поможет.

🔍

Как исследовали

Исследователи собрали 8,533 абстракта систематических обзоров из Cochrane Library (2010–2025), 2,581 рекомендацию из клинических руководств Американской кардиологической ассоциации (2020–2025) и 289 нарративных руководств от профессиональных обществ и страховых компаний. Для каждого источника GPT-4o сгенерировал вопросы и правильные ответы: для Cochrane — вопросы типа "Снижает ли X смертность?" с ответами Yes/No/No evidence + оценка качества доказательств; для AHA — оценка силы рекомендации и уровня доказательств; для нарративных текстов — вопросы по структуре PICO (Population/Intervention/Comparator/Outcome).

Вручную проверили 100 QA-пар из Cochrane: 86% полностью корректны, 6% частично (из-за двусмысленных формулировок), 8% ошибок. Затем тестировали GPT-4o-mini и GPT-5 в двух режимах: (1) без контекста (только вопрос), (2) с контекстом (правильный абстракт, топ-3 из PubMed, случайный абстракт). Основная метрика — exact-match accuracy: совпадение ответа модели с ground truth.

Почему результаты получились именно такими: Структурированные рекомендации AHA дали 90-94% точности, потому что каждая рекомендация явно размечена по классам силы (I/IIa/IIb/III) и уровням доказательств (A/B/C). Модель видит паттерн → извлекает информацию. На систематических обзорах точность упала до 60-70%, потому что выводы часто завёрнуты в нарративный текст без чёткой структуры. На нарративных руководствах — ещё хуже (56%), потому что там много двойных отрицаний и размытых формулировок типа "не предоставляет дополнительной пользы".

Что удивило: Корреляция с цитируемостью оказалась сильнее корреляции с годом публикации. Логично было бы ожидать, что старые статьи точнее (больше времени для попадания в обучающие данные), но нет — важнее влиятельность исследования. Модель лучше "помнит" работы, которые часто цитируют, независимо от года. Это значит, что модели не просто "видели текст в интернете", а закодировали структуру академического авторитета.

Инсайт для практики: Если задаёшь вопрос по малоизвестной теме (редкое заболевание, узкая специализация), модель скорее ошибётся — даже если тема "медицинская" и кажется, что "модель должна знать". Решение: добавь источник в контекст. RAG с правильным абстрактом поднял точность с 60% до 91% — это 31 п.п. улучшения просто от того, что дал модели увидеть первоисточник.

🔗

Ресурсы

"Evaluating Large Language Models for Evidence-Based Clinical Question Answering"

Can Wang, Yiqun Chen (Johns Hopkins University)

Датасет и код: https://github.com/yiqunchen/MEDAL

Источники данных:

Cochrane Library систематические обзоры: https://www.cochranelibrary.com/cdsr/reviews
AHA клинические рекомендации: https://professional.heart.org/en/guidelines-statements-search

📋 Дайджест исследования

Ключевая суть

Принцип работы

Структурируй вопрос по полям: Вопрос → Ответ (Yes/No/No evidence) → Качество доказательств → Обоснование. Добавь релевантный источник в контекст (абстракт статьи, ключевые выводы) — это даёт модели якорь для рассуждений. Явно требуй честности: "Если недостаточно данных — ответь 'No evidence', не угадывай". Модель видит жёсткий шаблон → переключается из режима "сочинить что-то полезное" в режим "извлечь факт из источника".

Почему работает

Модели плохо говорят "не знаю" — склонны угадывать даже там, где данных нет. Жесть: на вопросах с ответом "No evidence" точность упала до 30% — модель выдумывала "да" или "нет" вместо честного признания. Структурированный формат убирает эту проблему механически: модель видит явный шаблон ответа → не может сочинить произвольный текст → вынуждена следовать инструкции. Добавление источника (Retrieval-Augmented Generation) усиливает эффект: точность с правильным абстрактом 91-93% против 60% без контекста. Даже топ-3 релевантных статьи из PubMed (без оригинала) подняли до 79%. Это работает потому что модель опирается на конкретный текст, а не на "память" из обучающих данных. Бонус: точность коррелирует с цитируемостью исследования — каждое удвоение цитирований даёт +30% к правильному ответу (широко известные работы модель "помнит" лучше).

Когда применять

Доказательная медицина → проверка клинических вопросов ("Снижают ли статины риск инфаркта?"), особенно когда нужна честность "недостаточно данных". Научная работа → верификация фактов из статей, когда критична ссылка на источник. Фармкомпании/биотех → подготовка презентаций, регуляторных документов — где нельзя галлюцинировать. НЕ подходит для узкоспециализированных редких тем (цитируемость <10) без добавления источников — модель начнёт гадать.

Мини-рецепт

1. Структурируй вопрос: Вопрос: [чёткая формулировка] → Ответ: [Yes/No/No evidence] → Качество доказательств: [High/Moderate/Low/Very Low] → Обоснование: [кратко с отсылкой к данным]
2. Добавь источник: Если есть релевантная статья/обзор — скопируй абстракт или ключевые выводы в контекст перед вопросом. Нет источника — точность упадёт с 91% до 60%.
3. Требуй честности: Явно пропиши правило:

Если недостаточно данных для уверенного ответа, выбери "No evidence". Не угадывай — опирайся только на информацию в контексте

4. Адаптируй категории: Вместо Yes/No можно использовать Да/Нет/Неясно, Доказано/Опровергнуто/Противоречиво — под свою задачу

Примеры

[ПЛОХО] : Снижают ли статины риск инфаркта у людей без диабета? (модель выдаст расплывчатое "исследования показывают..." или уверенное "да" без обоснования)

[ХОРОШО] :

Вопрос: Снижают ли статины риск инфаркта у людей без диабета?

Контекст: [вставить абстракт релевантного мета-анализа]

Ответь в формате:
Ответ: Yes/No/No evidence
Качество доказательств: High/Moderate/Low/Very Low
Обоснование: [кратко, с отсылкой к данным]

Если недостаточно данных для однозначного ответа, выбери "No evidence".

(Результат: модель выдаст структурированный ответ Yes, качество доказательств High (HR=0.76, 95% CI 0.65–0.89, мета-анализ 15 РКИ) вместо воды)

Источник: Evaluating Large Language Models for Evidence-Based Clinical Question Answering

ArXiv ID: 2509.10843 | Сгенерировано: 2026-01-12 05:53

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

Выберите модель ИИ:

Ваш запрос:

0 / 2000

~0.5-2 N-токенов ~10-30с

~0.3-1 N-токенов ~5-15с

Меню