TL;DR
LLM тихо урезают медицинскую информацию, когда видят вопрос без терминов и структуры. Это не отказ отвечать и не добавление дисклеймеров — модель честно отвечает, но опускает механизмы, пороговые значения, временны́е рамки и конкретные следующие шаги. Авторы назвали это Differential Information Dilution — разбавление ответа в зависимости от того, как сформулирован вопрос.
Ключевой инсайт: модель не видит вопрос — она видит сигналы компетентности. Нет терминов — значит собеседник, который не поймёт детали. Модель «заботливо» упрощает. При этом фактические ошибки не появляются — просто исчезает всё, что помогало бы человеку принимать самостоятельные решения: механизм болезни, когда бить тревогу, что конкретно делать.
Эффект устойчив, но есть спасение. Добавить в начало разговора инструкцию сохранения информации — и модель начинает отвечать одинаково полно независимо от формулировки. Claude и Qwen отреагировали сильнее всего: прирост полноты около 8% и 6% соответственно.
Схема метода
ШАГ 1: Обычный вопрос (своими словами, без терминов)
→ модель видит «низкую медицинскую грамотность»
→ урезает: убирает механизм, порог, конкретный шаг
ШАГ 2: Тот же вопрос + инструкция сохранения информации (перед вопросом)
→ модель держит содержание полным,
адаптирует только язык (упрощает слова, не суть)
→ остаются: механизм, риски, когда обратиться к врачу,
конкретные действия
Оба шага — в одном чате, одном запросе. Инструкция идёт до вопроса в том же сообщении.
Пример применения
Задача: Спросить у ChatGPT или Claude про тревожность — но простыми словами, как обычный человек, не врач
Промпт:
Независимо от того, как сформулирован мой вопрос — простым или специальным
языком — отвечай с одинаковой глубиной:
• Объясни механизм (почему это происходит в организме)
• Укажи конкретные пороги и временны́е рамки (когда норма, когда нет)
• Скажи чётко что делать: шаги, а не «обратитесь к специалисту»
• Укажи — когда именно нужен врач и почему
• Не заменяй содержание дисклеймерами
Мой вопрос: у меня последние две недели постоянно тревожно на душе
без причины, сложно расслабиться, хочу понять — это нормальный стресс
или уже что-то серьёзное?
Результат: Вместо общего «тревога — это нормально, обратитесь к специалисту при необходимости» модель выдаст: что именно происходит с нервной системой, конкретный временной порог (2+ недели — клинически значимо), как выглядит генерализованное тревожное расстройство vs ситуативный стресс, шкала GAD-7 для самопроверки, и чёткий критерий — когда к врачу конкретно.
Почему это работает
LLM во время обучения «видела» паттерн: простые вопросы → простые ответы. Специализированные вопросы с терминами → развёрнутые ответы с механизмами. Это не злой умысел — это статистический рефлекс. Модель адаптирует сложность ответа под предполагаемую аудиторию.
Проблема в том, что упрощение языка ≠ упрощение содержания. Сказать «болит колено уже месяц» вместо «посттравматический артроз медиального мениска» — это только стиль, не уровень нужной информации. Но модель срезает и стиль, и содержание вместе.
Инструкция сохранения информации разрывает этот рефлекс: модель получает явную директиву держать содержание инвариантным и адаптировать только форму. Рычаги управления: можно добавить конкретные домены («особенно — механизм и временны́е рамки»), убрать пункты которые не нужны, или расширить на нужные темы.
Шаблон промпта
Независимо от того, как сформулирован мой вопрос — отвечай с полной
медицинской глубиной:
• Объясни механизм: почему это происходит
• Укажи пороги и временны́е рамки: когда норма, когда нет
• Дай конкретные следующие шаги — не «проконсультируйтесь», а что именно делать
• Скажи когда нужен врач — и почему именно тогда
• Не заменяй содержательный ответ дисклеймерами и общими фразами
Мой вопрос: {вопрос своими словами}
Что подставлять:
- {вопрос своими словами} — вопрос как вы его обычно формулируете, без специальных терминов
🚀 Быстрый старт — вставь в чат:
Вот шаблон для медицинских вопросов. Адаптируй под мою ситуацию: {твоя ситуация}.
Задавай уточняющие вопросы чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит о конкретной теме и симптомах — потому что инструкция работает лучше когда вопрос конкретен, а не абстрактен.
Почему НЕ добавлять "я знаю, что ты не врач"
Одна из неожиданных находок исследования — фразы, которые кажутся полезными, на самом деле делают хуже.
Пользователи часто добавляют: - "Я знаю, что ты не врач, но..." — считая, что это снимет ограничения - "Согласно рекомендациям ВОЗ..." — считая, что ссылка на авторитет добавит серьёзности
Эффект противоположный. Оба варианта увеличивали разбавление информации в сравнении с нейтральным вопросом. Особенно в английском языке. "Я знаю, что ты не врач" — это для модели сигнал "пользователь уже снял ответственность с модели", что парадоксально снижает полноту ответа.
Правило: Не добавляйте защитные оговорки перед медицинским вопросом. Вместо этого — инструкция сохранения информации выше.
Оригинал из исследования
Точный текст митигирующего промпта не приведён в основной части статьи (вынесен в Appendix F). Описание принципов проектирования:
The prompt instructs models to hold medical content invariant across
user-side signal conditions while adapting linguistic register to
the user's expression. Where applicable, it emphasizes direct answers,
plain-language explanations, medical mechanisms or background, risk
boundaries, indications for professional care, and actionable next steps.
It explicitly proscribes template disclaimers, vacuous reassurance,
and referral without substantive explanation.
Контекст: Исследователи разрабатывали митигирующий промпт совместно с медицинскими экспертами как доказательство концепции.
Адаптации и экстраполяции
Принцип за пределами медицины
Тот же эффект — разбавление содержания при простых формулировках — вероятно работает везде, где есть градиент компетентности. Юридические вопросы, финансовые, технические. Модель видит "простой вопрос" — и упрощает ответ, теряя нюансы.
💡 Адаптация для юридических вопросов:
Отвечай с полной юридической точностью независимо от формулировки: • Укажи конкретные статьи и нормы (не только "по закону") • Назови сроки исковой давности и процессуальные дедлайны • Скажи что конкретно делать: какой документ, куда нести, в какой срок • Чётко разграничь: что можно решить самому, а где нужен адвокат Мой вопрос: {вопрос}
🔧 Техника: диагностика урезания → полный ответ
Сначала спросите без инструкции — получите базовый ответ. Потом добавьте:
Твой предыдущий ответ был правильным, но неполным. Добавь: механизм почему так происходит, конкретные пороговые значения, и точные следующие шаги. Не добавляй новых оговорок — расширь содержание.Это позволяет увидеть разницу и получить полный ответ в два хода.
Ограничения
⚠️ Узкий домен: Исследование проводилось только на медицинских вопросах. Насколько эффект переносится на юридические, финансовые или технические темы — не проверялось.
⚠️ Митигирующий промпт не универсален: Llama 3.3 70B практически не отреагировала на митигацию. Инструкция сохранения информации работает лучше с Claude, GPT, Qwen, DeepSeek.
⚠️ Эффект небольшой по размеру: Снижение разбавления на 6-8% — статистически значимо, но не полное устранение. Даже с митигацией часть информации может теряться.
⚠️ Только низкорисковые вопросы: Исследование исключало кризисные ситуации, острые состояния, суицидальные темы. Там поведение модели другое.
Как исследовали
Команда взяла 60 медицинских вопросов из 9 категорий по МКБ-11 — от HPV-вакцин до тревожного расстройства. Каждый вопрос переформулировали 72 способами: менял язык (русский/английский → в оригинале китайский/английский), стиль (официальный/разговорный) и уровень медицинской грамотности (терминология vs бытовые слова). Получили 4320 промптов.
Каждый промпт прогнали через пять моделей и оценили три вещи: полноту информации, наличие конкретных следующих шагов, и фактическую точность. Фактические ошибки искали вручную два медика — и не нашли ни одной. То есть модели не врали — они просто замалчивали. Два медицинских специалиста-аннотатора независимо проверяли выборку из 230 ответов — согласие с автоматической оценкой было высоким (QWK 0.78-0.82).
Самое неожиданное: китайские вопросы получали более полные ответы, чем английские в тех же условиях. Исследователи предположили что DeepSeek и Qwen, обученные на китайском корпусе, менее склонны урезать при китайских формулировках. Языковой эффект полностью зависел от модели — одна закономерность для всех здесь не работала. Зато эффект уровня грамотности был стабильным у всех пяти моделей без исключений.
Ресурсы
MIRA: A Bilingual Benchmark for Medical Information Response Audit
Mengyu Xu (University of Chicago), Qiaoxin Yang (SynAI Technologies Inc.), Qianqian Wang (Jinzhou Medical University), Xiwei Dai (Zhejiang University), Weiyi Wu (Dartmouth College), Chongyang Gao (Northwestern University)
Контакт: mxu09@uchicago.edu, cygao@u.northwestern.edu
