TL;DR
Исследование показало, что обобщённые утверждения без квантификаторов (generics типа "statins reduce cardiovascular events" вместо "some statins reduce...") воспринимаются радикально по-разному тремя группами: обычными людьми, учёными и LLM. 432 человека и 100 ответов от двух LLM (ChatGPT-5 и DeepSeek) оценивали одни и те же научные утверждения в трёх формах: голый generic, прошедшее время ("reduced"), и с оговоркой ("might reduce" или "study suggests").
Главная находка: LLM воспринимают generics ещё шире и достовернее чем обычные люди. Психологи и биомедики оценивали generics как менее обобщаемые и достоверные чем обычные люди (у них срабатывает профессиональная осторожность). Но ChatGPT-5 и DeepSeek показали обратный паттерн — они ставили generics более высокие оценки по всем параметрам: обобщаемость, достоверность, важность. Когда утверждение меняли с generic на прошедшее время, учёные снижали оценки сильнее чем обычные люди, а LLM наоборот — повышали.
Это создаёт двойной риск: учёные могут использовать generics думая что аудитория понимает ограничения, но обычные люди понимают шире чем intended. А LLM при суммировании научных текстов систематически overgeneralize — они воспринимают и транслируют findings как более универсальные чем есть на самом деле. Модели усиливают утверждения вместо того чтобы квалифицировать их.
Что это значит для работы с LLM
Проблема: Когда просишь LLM пересказать научную статью или finding, она склонна:
- Воспринимать ограниченные findings как универсальные
- Убирать оговорки и квантификаторы
- Повышать уверенность в выводах
Это происходит потому что:
В обучающих данных generics статистически ассоциированы с "качественным контентом" — они чаще встречаются в authoritative sources, в abstract и conclusions секциях научных статей, в учебниках. LLM научилась паттерну: generic framing = higher confidence = more generalizable. Это чисто статистическая закономерность без понимания эпистемологии.
Нет внутреннего механизма epistemic vigilance (критической оценки границ применимости), которым обладают учёные — они автоматически спрашивают "на ком проверяли? какие ограничения?". Для LLM generic — это signal качества, для учёного — потенциальный red flag.
Техники компенсации
🔧 Техника 1: Явный запрос на квалификацию утверждений
Когда просишь summarize научный текст:
Summarize {статья}.
Правила формулировок:
- НЕ используй голые generics ("X causes Y", "A is effective for B")
- Всегда добавляй контекст: "In this study, among [группа], X was associated with..."
- Для каждого key finding укажи:
• На какой выборке проверяли
• Размер эффекта если указан
• Ключевые ограничения
🔧 Техника 2: Двухшаговая проверка
Шаг 1: Summarize исследование
Шаг 2: Проверь свой summary — какие утверждения слишком широкие?
Где ты написал "X reduces Y" но в исследовании это было только для
конкретной группы или с оговорками? Переформулируй эти места.
🔧 Техника 3: Формат с обязательными полями
Для каждого finding используй формат:
"[Finding] (tested on: [выборка], effect size: [если есть], limitations: [1-2 главных])"
Пример применения
Задача: Просишь ChatGPT пересказать медицинское исследование для презентации клиенту или для отчёта
❌ Без компенсации риска:
Summarize this study about statins and cardiovascular events
Результат: LLM напишет "Statins reduce cardiovascular events" — звучит как универсальная истина для всех людей
✅ С компенсацией:
Summarize this study about statins and cardiovascular events.
Важно: не используй bare generics. Для каждого finding укажи:
- на какой группе пациентов тестировали (возраст, пол, диагнозы)
- какой был размер эффекта
- какие ограничения отмечают авторы
Используй формулировки типа "In this study, among [группа], statins reduced..."
вместо просто "statins reduce..."
Результат: Модель даст summary с квалификаторами и контекстом — "Among adults aged 50-75 with high cholesterol (n=2,400), statins reduced cardiovascular events by 23% (moderate effect). Limitations: predominantly male sample, 12-month follow-up may be insufficient for long-term effects."
Почему это работает
Слабость LLM: Generics в обучающих данных статистически коррелируют с authoritative contexts. Модель научилась: generic = более качественное/универсальное утверждение. Это pattern matching без эпистемологического понимания. Когда видит научный текст, склонна воспроизводить или даже усиливать generics.
Сильная сторона LLM: Модель отлично следует явным структурным инструкциям. Если задаёшь формат "tested on [X], effect size [Y], limitations [Z]", она корректно заполнит эти поля — умеет извлекать такую информацию из текста.
Как техника использует сильную сторону: Даёшь LLM явный шаблон который требует квалифицировать каждое утверждение. Это перекрывает её склонность к overgeneralization структурным требованием. Вместо того чтобы полагаться на несуществующее "понимание" границ применимости, делаешь квалификацию частью задачи.
Рычаги управления:
- Формат вывода ("tested on X в скобках") → forced transparency, нельзя skip квалификацию
- Двухшаговая проверка (summarize + self-critique) → выявляет overgeneralizations через рефлексию
- Explicit quantifiers ("используй some/many") → убирает ambiguity generics, forcing precision
- Negative instruction ("НЕ используй bare generics") → сильнее чем просто "добавляй контекст"
Уменьши требования для простых задач (например, убери "effect size") чтобы экономить токены. Для критически важных summaries усиль — попроси таблицу с колонками Finding | Population | Limitations.
Шаблон промпта
Summarize {статья/текст}.
Правила формулировок:
- НЕ используй голые generics ("X causes Y", "A is effective")
- Всегда добавляй контекст: "In this study, among {характеристики выборки}, X was associated with..."
- Для каждого key finding укажи:
• Выборка: размер, ключевые характеристики
• Размер эффекта (если указан)
• Главные ограничения из статьи
Формат для каждого finding:
"[Finding] (n={размер выборки}, {характеристики}; effect: {размер}; limitations: {1-2 основных})"
Что подставлять:
- {статья/текст} — научная статья, abstract, пресс-релиз, любой текст с научными findings
- {характеристики выборки} — возраст, пол, диагноз, geography и т.д. — LLM сама извлечёт если есть в тексте
- {размер выборки} и {размер эффекта} — LLM заполнит автоматически из текста
Ограничения
⚠️ Garbage in, garbage out: Если в оригинальном тексте уже используются generics без оговорок (частая проблема в пресс-релизах, некоторых abstract), LLM нечего извлекать. Техника работает когда детали есть в methods/results, но могут быть похоронены.
⚠️ Не решает проблему полностью: Даже с явными инструкциями LLM может пропустить important qualifiers или не заметить subtle limitations в тексте. Это компенсация, не fix.
⚠️ Не про все generics: Некоторые generics допустимы ("The Earth orbits the Sun", "Water boils at 100°C"). Техника полезна для scientific claims о populations/treatments/interventions, где границы applicability критичны.
Как исследовали
Исследователи дали 432 людям (обычные люди без научной степени + учёные из психологии и биомедицины) и двум LLM (ChatGPT-5 и DeepSeek, по 50 ответов каждая через web UI) одни и те же 18 научных утверждений в трёх формах. Пример: "statins reduce cardiovascular events" (generic), "statins reduced cardiovascular events" (past tense), "statins might reduce..." или "the study suggests that statins reduce..." (hedged). Каждый участник видел все 18 утверждений, но формы были randomized между участниками.
Для каждого утверждения просили оценить по шкале 1-5: (1) generalizability — насколько широко применимо (только для исследуемой группы vs для всех людей), (2) credibility — насколько достоверно, (3) impact — насколько это важно (склонность читать больше, делиться, использовать в мышлении).
Ключевые цифры: Психологи и biomedical researchers оценивали generics как менее обобщаемые чем laypeople (regression coefficient b = –0.32 и –0.48) и менее достоверные (b = –0.22 и –0.24). Но ChatGPT-5 и DeepSeek показали противоположный паттерн: generalizability выше чем у laypeople на +0.25/+0.53, credibility на +1.05/+0.69.
Ещё интереснее взаимодействие с framing: Когда меняли с generic на past tense, психологи дополнительно снижали generalizability на –0.49 по сравнению с laypeople (сверх базовой разницы), а LLM повышали на +0.20/+0.28. Это показывает что LLM систематически воспринимают generics как signal of higher quality/universality.
Почему такие результаты: Учёные обучены epistemic vigilance — они автоматически активируют вопросы "на ком проверяли? какие ограничения? какой был контроль?". Для них generic без квантификатора — это potential red flag на overgeneralization. Но LLM обучены на корпусах где generics часто используются в authoritative contexts (textbooks conclusions, well-cited papers, summaries), создавая статистическую ассоциацию: generic framing = higher confidence/scope/quality.
Практический вывод для коммуникации: Когда учёный пишет для публики используя generics (привычная практика в academic writing), он может думать что "это понятно что с ограничениями — коллеги так понимают". Но публика понимает буквально и шире. А когда LLM суммирует такой текст — она делает ещё хуже, systematically amplifying the generalization через свой bias к generics.
Ресурсы
"Generics in science communication: Misaligned interpretations across laypeople, scientists, and large language models" — Uwe Peters, Andrea Bertazzoli, Jasmine M. DeJesus, Gisela J. van der Velden, Benjamin Chin-Yee (Utrecht University, University of North Carolina at Greensboro, Western University). Forthcoming in Public Understanding of Science.
