3,583 papers
arXiv:2602.06190 73 5 фев. 2026 г. FREE

Generics в научной коммуникации: как люди и LLM по-разному понимают обобщённые утверждения

КЛЮЧЕВАЯ СУТЬ
Обнаружено: LLM систематически раздувает научные выводы. Видит 'statins reduce cardiovascular events' (без 'some' или 'in this study') и понимает это шире чем даже обычный человек – а учёные наоборот, автоматически занижают обобщаемость таких утверждений. Эксперимент на 432 людях и 100 ответах от ChatGPT-5/DeepSeek показал: при суммировании научных текстов модели систематически превращают ограниченные находки в универсальные истины – проблема в том что обобщённые формулировки без квантификаторов ('X causes Y' вместо 'some X caused Y in study') статистически ассоциированы с качественным контентом в обучающих данных. Для LLM это signal авторитетности, а не повод уточнить границы применимости. Решение: явные структурные инструкции которые делают квалификацию выводов частью задачи – промпт с обязательными полями 'tested on / limitations' перекрывает склонность к раздуванию.
Адаптировать под запрос

TL;DR

Исследование показало, что обобщённые утверждения без квантификаторов (generics типа "statins reduce cardiovascular events" вместо "some statins reduce...") воспринимаются радикально по-разному тремя группами: обычными людьми, учёными и LLM. 432 человека и 100 ответов от двух LLM (ChatGPT-5 и DeepSeek) оценивали одни и те же научные утверждения в трёх формах: голый generic, прошедшее время ("reduced"), и с оговоркой ("might reduce" или "study suggests").

Главная находка: LLM воспринимают generics ещё шире и достовернее чем обычные люди. Психологи и биомедики оценивали generics как менее обобщаемые и достоверные чем обычные люди (у них срабатывает профессиональная осторожность). Но ChatGPT-5 и DeepSeek показали обратный паттерн — они ставили generics более высокие оценки по всем параметрам: обобщаемость, достоверность, важность. Когда утверждение меняли с generic на прошедшее время, учёные снижали оценки сильнее чем обычные люди, а LLM наоборот — повышали.

Это создаёт двойной риск: учёные могут использовать generics думая что аудитория понимает ограничения, но обычные люди понимают шире чем intended. А LLM при суммировании научных текстов систематически overgeneralize — они воспринимают и транслируют findings как более универсальные чем есть на самом деле. Модели усиливают утверждения вместо того чтобы квалифицировать их.

📌

Что это значит для работы с LLM

Проблема: Когда просишь LLM пересказать научную статью или finding, она склонна: - Воспринимать ограниченные findings как универсальные - Убирать оговорки и квантификаторы

- Повышать уверенность в выводах

Это происходит потому что:

В обучающих данных generics статистически ассоциированы с "качественным контентом" — они чаще встречаются в authoritative sources, в abstract и conclusions секциях научных статей, в учебниках. LLM научилась паттерну: generic framing = higher confidence = more generalizable. Это чисто статистическая закономерность без понимания эпистемологии.

Нет внутреннего механизма epistemic vigilance (критической оценки границ применимости), которым обладают учёные — они автоматически спрашивают "на ком проверяли? какие ограничения?". Для LLM generic — это signal качества, для учёного — потенциальный red flag.

📌

Техники компенсации

🔧 Техника 1: Явный запрос на квалификацию утверждений

Когда просишь summarize научный текст:

Summarize {статья}.

Правила формулировок:
- НЕ используй голые generics ("X causes Y", "A is effective for B")
- Всегда добавляй контекст: "In this study, among [группа], X was associated with..."
- Для каждого key finding укажи:
  • На какой выборке проверяли
  • Размер эффекта если указан  
  • Ключевые ограничения

🔧 Техника 2: Двухшаговая проверка

Шаг 1: Summarize исследование

Шаг 2: Проверь свой summary — какие утверждения слишком широкие? 
Где ты написал "X reduces Y" но в исследовании это было только для 
конкретной группы или с оговорками? Переформулируй эти места.

🔧 Техника 3: Формат с обязательными полями

Для каждого finding используй формат:
"[Finding] (tested on: [выборка], effect size: [если есть], limitations: [1-2 главных])"
🚀

Пример применения

Задача: Просишь ChatGPT пересказать медицинское исследование для презентации клиенту или для отчёта

❌ Без компенсации риска:

Summarize this study about statins and cardiovascular events

Результат: LLM напишет "Statins reduce cardiovascular events" — звучит как универсальная истина для всех людей

✅ С компенсацией:

Summarize this study about statins and cardiovascular events.

Важно: не используй bare generics. Для каждого finding укажи:
- на какой группе пациентов тестировали (возраст, пол, диагнозы)
- какой был размер эффекта
- какие ограничения отмечают авторы

Используй формулировки типа "In this study, among [группа], statins reduced..." 
вместо просто "statins reduce..."

Результат: Модель даст summary с квалификаторами и контекстом — "Among adults aged 50-75 with high cholesterol (n=2,400), statins reduced cardiovascular events by 23% (moderate effect). Limitations: predominantly male sample, 12-month follow-up may be insufficient for long-term effects."

🧠

Почему это работает

Слабость LLM: Generics в обучающих данных статистически коррелируют с authoritative contexts. Модель научилась: generic = более качественное/универсальное утверждение. Это pattern matching без эпистемологического понимания. Когда видит научный текст, склонна воспроизводить или даже усиливать generics.

Сильная сторона LLM: Модель отлично следует явным структурным инструкциям. Если задаёшь формат "tested on [X], effect size [Y], limitations [Z]", она корректно заполнит эти поля — умеет извлекать такую информацию из текста.

Как техника использует сильную сторону: Даёшь LLM явный шаблон который требует квалифицировать каждое утверждение. Это перекрывает её склонность к overgeneralization структурным требованием. Вместо того чтобы полагаться на несуществующее "понимание" границ применимости, делаешь квалификацию частью задачи.

Рычаги управления:

  • Формат вывода ("tested on X в скобках") → forced transparency, нельзя skip квалификацию
  • Двухшаговая проверка (summarize + self-critique) → выявляет overgeneralizations через рефлексию
  • Explicit quantifiers ("используй some/many") → убирает ambiguity generics, forcing precision
  • Negative instruction ("НЕ используй bare generics") → сильнее чем просто "добавляй контекст"

Уменьши требования для простых задач (например, убери "effect size") чтобы экономить токены. Для критически важных summaries усиль — попроси таблицу с колонками Finding | Population | Limitations.

📋

Шаблон промпта

Summarize {статья/текст}.

Правила формулировок:
- НЕ используй голые generics ("X causes Y", "A is effective")  
- Всегда добавляй контекст: "In this study, among {характеристики выборки}, X was associated with..."
- Для каждого key finding укажи:
  • Выборка: размер, ключевые характеристики
  • Размер эффекта (если указан)
  • Главные ограничения из статьи

Формат для каждого finding:
"[Finding] (n={размер выборки}, {характеристики}; effect: {размер}; limitations: {1-2 основных})"

Что подставлять: - {статья/текст} — научная статья, abstract, пресс-релиз, любой текст с научными findings

- {характеристики выборки} — возраст, пол, диагноз, geography и т.д. — LLM сама извлечёт если есть в тексте - {размер выборки} и {размер эффекта} — LLM заполнит автоматически из текста

⚠️

Ограничения

⚠️ Garbage in, garbage out: Если в оригинальном тексте уже используются generics без оговорок (частая проблема в пресс-релизах, некоторых abstract), LLM нечего извлекать. Техника работает когда детали есть в methods/results, но могут быть похоронены.

⚠️ Не решает проблему полностью: Даже с явными инструкциями LLM может пропустить important qualifiers или не заметить subtle limitations в тексте. Это компенсация, не fix.

⚠️ Не про все generics: Некоторые generics допустимы ("The Earth orbits the Sun", "Water boils at 100°C"). Техника полезна для scientific claims о populations/treatments/interventions, где границы applicability критичны.

🔍

Как исследовали

Исследователи дали 432 людям (обычные люди без научной степени + учёные из психологии и биомедицины) и двум LLM (ChatGPT-5 и DeepSeek, по 50 ответов каждая через web UI) одни и те же 18 научных утверждений в трёх формах. Пример: "statins reduce cardiovascular events" (generic), "statins reduced cardiovascular events" (past tense), "statins might reduce..." или "the study suggests that statins reduce..." (hedged). Каждый участник видел все 18 утверждений, но формы были randomized между участниками.

Для каждого утверждения просили оценить по шкале 1-5: (1) generalizability — насколько широко применимо (только для исследуемой группы vs для всех людей), (2) credibility — насколько достоверно, (3) impact — насколько это важно (склонность читать больше, делиться, использовать в мышлении).

Ключевые цифры: Психологи и biomedical researchers оценивали generics как менее обобщаемые чем laypeople (regression coefficient b = –0.32 и –0.48) и менее достоверные (b = –0.22 и –0.24). Но ChatGPT-5 и DeepSeek показали противоположный паттерн: generalizability выше чем у laypeople на +0.25/+0.53, credibility на +1.05/+0.69.

Ещё интереснее взаимодействие с framing: Когда меняли с generic на past tense, психологи дополнительно снижали generalizability на –0.49 по сравнению с laypeople (сверх базовой разницы), а LLM повышали на +0.20/+0.28. Это показывает что LLM систематически воспринимают generics как signal of higher quality/universality.

Почему такие результаты: Учёные обучены epistemic vigilance — они автоматически активируют вопросы "на ком проверяли? какие ограничения? какой был контроль?". Для них generic без квантификатора — это potential red flag на overgeneralization. Но LLM обучены на корпусах где generics часто используются в authoritative contexts (textbooks conclusions, well-cited papers, summaries), создавая статистическую ассоциацию: generic framing = higher confidence/scope/quality.

Практический вывод для коммуникации: Когда учёный пишет для публики используя generics (привычная практика в academic writing), он может думать что "это понятно что с ограничениями — коллеги так понимают". Но публика понимает буквально и шире. А когда LLM суммирует такой текст — она делает ещё хуже, systematically amplifying the generalization через свой bias к generics.

🔗

Ресурсы

"Generics in science communication: Misaligned interpretations across laypeople, scientists, and large language models" — Uwe Peters, Andrea Bertazzoli, Jasmine M. DeJesus, Gisela J. van der Velden, Benjamin Chin-Yee (Utrecht University, University of North Carolina at Greensboro, Western University). Forthcoming in Public Understanding of Science.


📋 Дайджест исследования

Ключевая суть

Обнаружено: LLM систематически раздувает научные выводы. Видит 'statins reduce cardiovascular events' (без 'some' или 'in this study') и понимает это шире чем даже обычный человек – а учёные наоборот, автоматически занижают обобщаемость таких утверждений. Эксперимент на 432 людях и 100 ответах от ChatGPT-5/DeepSeek показал: при суммировании научных текстов модели систематически превращают ограниченные находки в универсальные истины – проблема в том что обобщённые формулировки без квантификаторов ('X causes Y' вместо 'some X caused Y in study') статистически ассоциированы с качественным контентом в обучающих данных. Для LLM это signal авторитетности, а не повод уточнить границы применимости. Решение: явные структурные инструкции которые делают квалификацию выводов частью задачи – промпт с обязательными полями 'tested on / limitations' перекрывает склонность к раздуванию.

Принцип работы

Не полагайся на несуществующее 'понимание' границ применимости. Сделай квалификацию выводов частью структуры промпта – вместо 'пересечи статью' даёшь шаблон: Для каждого вывода укажи: [Finding] (tested on: [выборка], limitations: [1-2 главных]). Плюс явный запрет на голые обобщения: 'НЕ используй bare generics типа «X causes Y»'. Это сильнее чем просто 'добавляй контекст' – негативная инструкция работает как жёсткое ограничение.

Почему работает

В обучающих данных обобщённые формулировки ('statins reduce' вместо 'some statins reduced') статистически чаще встречаются в authoritative contexts – abstract и conclusions научных статей, учебники, quality sources. LLM научилась паттерну: обобщённая формулировка = более качественное/универсальное утверждение. Это чисто статистическая закономерность без эпистемологического понимания. Нет встроенного 'нюха на переобобщение' которым обладают учёные – они автоматически спрашивают 'на ком проверяли? какие ограничения?'. Но: модель отлично следует явным структурным инструкциям. Шаблон с обязательными полями (tested on / effect size / limitations) использует эту сильную сторону – квалификация становится требованием задачи, а не ожиданием 'понимания'.

Когда применять

Суммирование научных статей → конкретно для медицинских findings, психологических исследований, любых текстов где границы применимости критичны (возраст группы, размер выборки, ограничения). Особенно когда результат идёт клиенту, в презентацию или отчёт – там цена ошибки высока (overgeneralized claim может ввести в заблуждение). НЕ для: общеизвестных фактов ('вода кипит при 100°C') или когда нужен быстрый draft а детали не критичны.

Мини-рецепт

1. Дай шаблон с обязательными полями: 'Для каждого key finding укажи: tested on [выборка], effect size [если есть], limitations [1-2 главных]'
2. Запрети голые обобщения явно: 'НЕ используй bare generics типа «X causes Y» или «A is effective». Всегда добавляй контекст: In this study, among [группа], X was associated with...'
3. Опционально для критичных задач: двухшаговая проверка – сначала Summarize, потом Проверь свой summary – какие утверждения слишком широкие? Переформулируй с квалификаторами
4. Для высокой точности: попроси таблицу с колонками Finding | Population | Effect Size | Limitations – формат убирает возможность skip квалификацию

Примеры

[ПЛОХО] : Summarize this study about statins and cardiovascular events → получишь 'Statins reduce cardiovascular events' (звучит как универсальная истина для всех)
[ХОРОШО] : Summarize this study about statins. Правила: НЕ используй bare generics. Для каждого finding укажи: tested on [группа], effect size, limitations из статьи. Формат: [Finding] (n=X, характеристики; effect: Y; limitations: Z) → получишь 'Among adults aged 50-75 with high cholesterol (n=2,400), statins reduced cardiovascular events by 23% (moderate effect). Limitations: predominantly male sample, 12-month follow-up may be insufficient'
Источник: Generics in science communication: Misaligned interpretations across laypeople, scientists, and large language models (2025)
ArXiv ID: 2602.06190 | Сгенерировано: 2026-02-09 06:33

Проблемы LLM

ПроблемаСутьКак обойти
Модель усиливает утверждения вместо квалификацииПросишь пересказать научное исследование. Модель убирает оговорки. Вместо "среди мужчин 50-75 лет снизило на 23%" пишет "снижает риск". Превращает ограниченный вывод в универсальное правило. Это происходит даже когда в исходном тексте есть чёткие границы применимости. Модель активно расширяет утверждения, не просто копируетДай структурный формат с обязательными полями: "для каждого вывода укажи: выборка (размер, характеристики), размер эффекта, ограничения". Модель не сможет пропустить квалификацию — формат требует заполнить поля. Структура перекрывает склонность к усилению
📖 Простыми словами

Generics in science communication: Misaligned interpretations across laypeople, scientists, andlargelanguagemodels

arXiv: 2602.06190

Научные новости часто превращаются в испорченный телефон из-за одной лингвистической ловушки — обобщенных утверждений без уточнений. Когда ты слышишь, что «статины снижают риск инфаркта», твой мозг воспринимает это как универсальную истину, применимую ко всем и всегда. Проблема в том, что ученые, обыватели и нейросети считывают такие фразы совершенно по-разному. Это фундаментальный баг коммуникации: отсутствие слов «некоторые» или «в ряде случаев» превращает конкретный научный факт в размытый миф, который каждый трактует в меру своей испорченности.

Это как если бы ты спросил у друга, вкусные ли в этом ресторане бургеры, а он ответил: «Бургеры — это еда». Формально он прав, но ты-то хочешь знать, стоит ли тратить деньги на конкретный ужин. Ученый в этой ситуации подразумевает сложную выборку и статистическую значимость, а обычный человек слышит гарантию качества. В итоге мы имеем ситуацию, где все говорят на одном языке, но живут в разных реальностях, и это полный провал для понимания науки.

Исследование показало, что ChatGPT и DeepSeek лажают здесь сильнее всего, потому что они натренированы на текстах, где обобщения всегда выглядят солидно и авторитетно. Модели используют pattern matching вместо логики: они видят научный контекст и автоматически выкручивают уверенность на максимум, превращая осторожное «исследование предполагает» в железобетонное «это работает именно так». В тесте на 432 людях и сотне запросов к LLM выяснилось, что нейросети склонны усиливать обобщения, игнорируя нюансы, которые для ученого являются критически важными.

Этот принцип универсален и касается не только медицины, но и любого контента, который ты генерируешь через AI. Будь то бизнес-отчеты, юридические справки или технические мануалы — если в промпте нет жесткого требования сохранять квантификаторы и модальность, модель превратит твой текст в набор лозунгов. SEO-копирайтинг умирает, уступая место точности, но AI пока упорно тянет нас назад к упрощениям, потому что для него обобщение равно качеству.

Короче: никогда не доверяй нейросети пересказ важных данных без проверки на «всиошность». Если видишь в саммари голый факт без оговорок вроде «в данной группе» или «вероятно» — это галлюцинация уверенности. Чтобы не плодить дезинформацию, заставляй модель сохранять все «может быть» и «некоторые», иначе на выходе получишь вредную фигню вместо экспертного контента. Точность важнее красоты, особенно когда на кону стоит понимание реальности.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с