3,583 papers
arXiv:2605.09661 74 10 мая 2026 г. FREE

MedMeta: синтез из нескольких источников — как работает, где ломается и главная ловушка LLM

КЛЮЧЕВАЯ СУТЬ
Ни одна протестированная модель — даже топовые — не смогла отличить перевёрнутые факты от правдивых. Дал ложные источники — получил уверенный, связный, неверный вывод. Метод позволяет правильно выстроить синтез из нескольких документов — через два режима в зависимости от того, есть у тебя источники или нет. Ключевой инсайт: документы в промпте — это якорь, а не просто контекст. Когда источники вставлены явно, модель опирается на конкретные фрагменты, а не плавит обрывки из памяти. Без источников — декомпозиция вопроса на 5–7 подвопросов даёт +30% к качеству против прямого запроса.
Адаптировать под запрос

TL;DR

Когда просишь LLM обобщить несколько документов, качество вывода почти полностью зависит от одного фактора: есть источники в промпте или нет. Если вставить тексты — модель синтезирует в разы лучше, чем если она опирается на свою память. Это не очевидно: кажется, что «умная модель» и так знает достаточно. На деле — нет.

Главная находка: модели не проверяют источники на достоверность. Если дать модели документы с перевёрнутыми фактами или ложной информацией — она синтезирует их в связный, уверенный и неверный вывод. Ни одна протестированная модель не смогла этому противостоять. Это работает против пользователя дважды: когда источники хорошие — это сила, когда плохие — это ловушка.

Когда источников нет, помогает декомпозиция с Chain-of-Thought: разбить задачу на подвопросы → ответить на каждый → собрать черновик → оценить и доработать. Это даёт прирост ~30% по сравнению с прямым запросом «сделай вывод».


🔬

Схема метода

Два режима — в зависимости от того, есть ли у тебя исходные документы.

Режим 1 — Есть документы (RAG-стиль):

ШАГ 1: Вставь все источники в промпт
ШАГ 2: Попроси синтезировать вывод по конкретному вопросу
→ один запрос

Режим 2 — Нет документов (P-CoT):

ШАГ 1: Декомпозируй вопрос → 5–7 подвопросов
ШАГ 2: Ответь на каждый подвопрос
ШАГ 3: Собери подвопросы → черновой вывод
ШАГ 4: Оцени черновик → если слабый, сгенерируй новые подвопросы → повтори
→ один промпт с явными шагами или несколько запросов

🚀

Пример применения

Задача: Ты инвестиционный аналитик. Есть три аналитических материала о рынке маркетплейсов в России — Wildberries, Ozon и Яндекс Маркет. Нужно вытащить единый вывод: куда двигается рынок и на что ставить.

**Промпт (Режим 1 — есть тексты):**

Ты — аналитик инвестиционного фонда.

Ниже три аналитических текста о российском рынке маркетплейсов:

[ТЕКСТ 1 — вставить]
[ТЕКСТ 2 — вставить]
[ТЕКСТ 3 — вставить]

Задача: синтезируй единый аналитический вывод по вопросу:
«В каком направлении развивается рынок маркетплейсов в России 
и какие факторы определяют победителей?»

Структура вывода:
1. Зоны консенсуса — в чём источники сходятся
2. Противоречия — где расходятся и почему это важно
3. Главный вывод — 2–3 предложения, что следует из совокупности данных
**Промпт (Режим 2 — текстов нет):**

Ты — аналитик инвестиционного фонда.

Вопрос для синтеза: «В каком направлении развивается рынок 
маркетплейсов в России и какие факторы определяют победителей?»

Работай по шагам:

Шаг 1. Разбей вопрос на 5–7 конкретных подвопросов, 
ответы на которые дадут полную картину.

Шаг 2. Ответь на каждый подвопрос по отдельности.

Шаг 3. Собери ответы в черновой аналитический вывод (3–4 абзаца).

Шаг 4. Оцени черновик: есть ли пробелы, противоречия, 
неподкреплённые утверждения? Если да — добавь подвопросы и уточни вывод.

Шаг 5. Финальный вывод — чистый, без черновиков и рассуждений.

Результат: В Режиме 1 модель покажет структурированный синтез с явным указанием зон согласия и расхождения между источниками. В Режиме 2 — разворачивание от подвопросов к финальному выводу, видно как строится аргументация. Качество Режима 1 будет ощутимо выше — особенно если источники хорошие.


🧠

Почему это работает

LLM плохо «помнит» без опоры. Когда модель синтезирует «из головы», она смешивает обрывки обучающих данных, статистические паттерны и правдоподобные конструкции. Результат звучит связно, но может быть устаревшим или просто неверным. Особенно плохо это работает для конкретных, фактурных задач — аналитика, медицина, право.

Документы в промпте — это якорь. Когда источники вставлены явно, модель генерирует текст, опираясь на конкретные фрагменты. Это убирает галлюцинации, добавляет точность и позволяет синтезировать противоречия между источниками. Именно поэтому «вставь источник → попроси вывод» работает принципиально лучше, чем «скажи мне о теме».

Декомпозиция расширяет рабочее пространство модели. Прямой запрос «сделай вывод» сжимает пространство ответа до одного шага. Разбивка на подвопросы заставляет модель пройти по разным аспектам — больше информации активируется, вывод полнее. Это работает даже без внешних источников.

Рычаги управления: - Число подвопросов → больше = глубже, но медленнее. Для быстрого обзора — 3–4, для серьёзного анализа — 7–8 - Шаг оценки черновика → убери, если задача простая. Оставь, если важна полнота и точность - Явная структура вывода (зоны консенсуса / противоречия / итог) → добавляет порядок, убирает кашу из тезисов


📋

Шаблон промпта

Режим 1 (есть документы):

Ты — {роль}.

Ниже {число} источников по теме {тема}:

[ИСТОЧНИК 1 — вставить]
[ИСТОЧНИК 2 — вставить]
[ИСТОЧНИК 3 — вставить]

Синтезируй вывод по вопросу: «{конкретный вопрос}»

Структура:
1. Зоны консенсуса — в чём источники сходятся
2. Противоречия — где расходятся и почему важно
3. Главный вывод — {число_предложений} предложения

Режим 2 (нет документов):

Ты — {роль}.

Вопрос для синтеза: «{конкретный вопрос}»

Шаг 1. Разбей вопрос на {число} подвопросов для полного охвата.
Шаг 2. Ответь на каждый подвопрос отдельно.
Шаг 3. Собери ответы в черновой вывод.
Шаг 4. Найди пробелы или противоречия → уточни.
Шаг 5. Финальный вывод — чистый текст, {число_абзацев} абзаца.

Плейсхолдеры: - {роль} — аналитик, эксперт, консультант — кто угодно с нужной оптикой - {конкретный вопрос} — точный, не «расскажи о теме», а «каков главный вывод о X» - {число} подвопросов — 5 для быстрого анализа, 7–8 для глубокого - {число_предложений} — сколько хочешь в финальном выводе

🚀 Быстрый старт — вставь в чат:

Вот шаблон для синтеза нескольких источников. 
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит про роль, конкретный вопрос и есть ли у тебя источники — потому что ответы определяют какой режим (Режим 1 или 2) и как структурировать вывод.


⚠️

Ограничения

⚠️ Главная уязвимость: Модель не проверяет источники на правдивость. Если вставить ложные или противоречивые данные — она синтезирует их в уверенный, связный, но неверный вывод. Это работает у всех протестированных моделей, даже у топовых. Правило: мусор на входе → убедительный мусор на выходе.

⚠️ Режим «рассуждений» не всегда помогает: У моделей с явным режимом рассуждений (Chain-of-Thought reasoning mode) не обнаружили стабильного прироста для задач синтеза. Для абстрагирования и перефразирования предоставленной информации — прямое следование инструкции часто точнее.

⚠️ Слабые модели чувствительны к шуму: Более слабые модели страдают при большом количестве нерелевантных документов в контексте. Если модель слабее, давай меньше источников, но точнее. Топовые модели (GPT-4, Gemini) справляются с большим объёмом лучше.

⚠️ Работает для фактурных задач: Метод наиболее ценен для синтеза фактов, данных, аналитики. Для субъективных суждений (нравится/не нравится, эстетика, стиль) разница менее выражена.


🔍

Как исследовали

Исследователи взяли 14,2 млн статей из PubMed и через несколько стадий фильтрации отобрали 81 мета-анализ из 24 медицинских областей — от онкологии до педиатрии. Задача для модели была нетривиальной: по абстрактам первичных исследований воспроизвести итоговый вывод мета-анализа, написанный реальными учёными.

Проверяли шесть режимов работы: от простого запроса «из головы» до идеального сценария, где модели давали точно те источники, на которых написан оригинальный вывод. Плюс провокационный тест: источники с полностью перевёрнутыми фактами — если исследование показывало «X помогает», в тест подавали «X не помогает». Все модели провалили этот тест, синтезировав ложь в связный текст.

Для оценки качества выводов подключили панель из трёх судей-LLM (Gemini 2.5 Pro, O4 mini, Qwen3 235B) и сравнили их с девятью живыми экспертами-медиками. Корреляция между LLM-судьями и людьми оказалась высокой (r = 0.65–0.81), а систематического смещения — почти нет. Это важный методологический результат: LLM-панель как замена людям-экспертам для оценки — работает.

Самый неожиданный вывод: дообученная на медицинских данных модель (MedGemma) не обогнала базовую (Gemma), как только появились источники в промпте. Специализация помогала только без контекста — как только документы вставлены, преимущество исчезало. Это прямо говорит: давай контекст → экономишь на специализированных инструментах.


💡

Адаптации и экстраполяции

🔧 Добавь верификационный шаг — защита от мусорных источников

Поскольку модели некритически синтезируют ложные источники, можно добавить явный шаг проверки перед синтезом:

Перед синтезом выполни предварительную проверку источников:

[ИСТОЧНИК 1]
[ИСТОЧНИК 2]
[ИСТОЧНИК 3]

Шаг 0. Проверь каждый источник:
- Есть ли внутренние противоречия?
- Противоречат ли источники друг другу в ключевых фактах?
- Есть ли утверждения, которые выглядят неправдоподобно?

Отметь проблемные источники или фрагменты. 
Затем синтезируй вывод — с пометкой, 
если какие-то части основаны на сомнительных данных.

⚠️ Это не устраняет уязвимость полностью, но заставляет модель явно назвать противоречия вместо того, чтобы их замести под ковёр.

🔧 Декомпозиция для сложных решений без источников

Режим 2 (P-CoT) применим не только к аналитике — подходит для любого решения, где нужно взвесить много факторов:

Вопрос: {сложное решение}

Шаг 1. Какие 6 подвопросов нужно прояснить, 
чтобы принять взвешенное решение?

Шаг 2. Ответь на каждый.

Шаг 3. Где ответы противоречат друг другу?

Шаг 4. Итоговая рекомендация с учётом противоречий.

🔗

Ресурсы

MedMeta: A Benchmark for LLMs in Synthesizing Meta-Analysis Conclusion from Medical Studies Huy Hoang Ha, Benoit Favre, François Portet Laboratoire d'Informatique de Grenoble (LIG), Université Grenoble Alpes Preprint, 2025

Датасет: публичный репозиторий авторов (PubMed 2018–2025, 81 мета-анализ, 2 250 первичных исследований)


📋 Дайджест исследования

Ключевая суть

Ни одна протестированная модель — даже топовые — не смогла отличить перевёрнутые факты от правдивых. Дал ложные источники — получил уверенный, связный, неверный вывод. Метод позволяет правильно выстроить синтез из нескольких документов — через два режима в зависимости от того, есть у тебя источники или нет. Ключевой инсайт: документы в промпте — это якорь, а не просто контекст. Когда источники вставлены явно, модель опирается на конкретные фрагменты, а не плавит обрывки из памяти. Без источников — декомпозиция вопроса на 5–7 подвопросов даёт +30% к качеству против прямого запроса.

Принцип работы

Два режима — выбираешь по наличию источников. Режим 1 (есть документы): вставь все источники → задай конкретный вопрос → один запрос. Всё. Режим 2 (нет документов): разбей вопрос на подвопросы → ответь на каждый → собери черновик → найди пробелы → финальный вывод. Это пошаговые рассуждения (Chain-of-Thought), только в прикладной упаковке. Контринтуитивный момент: у моделей со встроенным режимом глубоких рассуждений стабильного прироста для синтеза нет. Для задач с закреплённой структурой из чужих текстов — прямые инструкции работают точнее, чем глубокие думайки.

Почему работает

Когда источников нет, модель мешает обрывки из обучения, статистические паттерны и правдоподобные конструкции. Звучит связно — может быть устаревшим или просто ложным. Особенно плохо это работает на конкретных задачах: аналитика, медицина, право. Вставленный документ — якорь для генерации. Модель берёт фрагменты из текста, а не придумывает из воздуха. Галлюцинации падают, противоречия между источниками становятся видны. Декомпозиция на подвопросы расширяет рабочее пространство. Прямой запрос «сделай вывод» — один шаг, одна плоскость. Разбивка на подвопросы заставляет модель пройти по разным аспектам — активируется больше, вывод полнее.

Когда применять

Аналитика и исследования → синтез нескольких отчётов, статей, документов — особенно когда нужно найти зоны согласия и противоречий между источниками. Хорошо работает для медицины, права, бизнес-анализа — задач, где важны конкретные факты. НЕ подходит: для субъективных суждений (нравится/не нравится, эстетика, стиль) — разница между режимами там слабее. Слабым моделям давай меньше источников, но точнее — они плывут при большом объёме ненужных документов в контексте.

Мини-рецепт

1. Реши: есть у тебя источники или нет. Это определяет режим.
2. Режим 1 (есть документы): вставь все источники в промпт. Задай конкретный вопрос — не «расскажи о теме», а «каков главный вывод о X». Попроси структуру: зоны согласия → противоречия → итог.
3. Режим 2 (нет документов): задай роль, потом — задачу синтеза с явными шагами: разбей на 5–7 подвопросов → ответь на каждый → собери черновик → найди пробелы → финальный вывод.
4. Проверь источники вручную перед тем как вставлять. Модель не будет этого делать. Мусор на входе — убедительный мусор на выходе.

Примеры

[ПЛОХО] : Вот три статьи о рынке маркетплейсов. Скажи что думаешь.
[ХОРОШО] : Ты — аналитик. Ниже три отчёта о рынке маркетплейсов. Синтезируй вывод по вопросу: «Какие факторы определяют победителей в 2025 году?» Структура ответа: 1) зоны согласия между источниками, 2) противоречия и почему они важны, 3) главный вывод — 2–3 предложения. [ИСТОЧНИК 1][ИСТОЧНИК 2][ИСТОЧНИК 3]
Источник: MedMeta: A Benchmark for LLMs in Synthesizing Meta-Analysis Conclusion from Medical Studies
ArXiv ID: 2605.09661 | Сгенерировано: 2026-05-12 05:32

Проблемы LLM

ПроблемаСутьКак обойти
Модель не проверяет правдивость источниковВставляешь документы в запрос. Модель синтезирует их содержимое. Проблема: она не отличает правду от лжи. Ложный источник синтезируется так же уверенно, как верный. Вывод будет связным, убедительным и неверным. Работает для всех моделей. Это не баг конкретной версии — это системное поведениеПроверяй источники до того как вставляешь. Не делегируй проверку модели. Правило одно: мусор на входе — убедительный мусор на выходе

Методы

МетодСуть
Декомпозиция вопроса — синтез без источниковКогда нет документов под рукой, не пиши «расскажи о теме». Вместо этого попроси модель: 1) разбить вопрос на 5–7 подвопросов, 2) ответить на каждый отдельно, 3) собрать черновой вывод, 4) найти пробелы и уточнить, 5) выдать финальный текст. Почему работает: Прямой запрос сжимает ответ до одного шага. Разбивка на подвопросы заставляет модель пройти по разным аспектам — активируется больше релевантного содержимого, вывод полнее. Когда применять: синтез по широким вопросам, анализ, обзор темы. Когда не нужно: задача простая и узкая — прямой запрос быстрее
📖 Простыми словами

MedMeta: A Benchmark forLLMsin Synthesizing Meta-Analysis Conclusion from Medical Studies

arXiv: 2605.09661

Суть в том, что нейросети — это не ходячие энциклопедии, а скорее гениальные импровизаторы, которым жизненно необходим текст перед глазами. Исследование MedMeta на примере сложнейших медицинских мета-анализов доказало: качество выводов LLM напрямую зависит от наличия исходников в промпте. Если ты просишь модель обобщить данные, опираясь на её «память», она начинает выдавать усреднённую кашу. Но стоит подсунуть ей конкретные документы, и точность синтеза взлетает, потому что модель переключается из режима фантазий в режим строгой обработки фактов.

Это как пытаться пересказать содержание пяти книг, которые ты читал пять лет назад, против того, чтобы делать конспект, когда эти книги лежат перед тобой открытыми. В первом случае ты неизбежно начнёшь сочинять детали, путать авторов и выдавать общие фразы, чтобы не ударить в грязь лицом. Модель ведет себя так же: без опоры на текст она просто подбирает наиболее вероятные слова, создавая иллюзию знания, которая в медицине или аналитике может стоить слишком дорого.

В работе это выглядит так: берется метод прямого извлечения данных, где модель заставляют работать только с тем, что «дано». Когда в промпт вшиты конкретные исследования, LLM гораздо лучше справляется с синтезом противоречий и выделением главного. Она перестает галлюцинировать и начинает реально сопоставлять цифры и выводы разных авторов. Без этого «костыля» в виде контекста даже самая мощная модель превращается в уверенного в себе дилетанта, который вроде бы в теме, но постоянно лажает в деталях.

Представь, что ты инвестиционный аналитик и тебе нужно выкатить прогноз по рынку маркетплейсов. Если ты просто спросишь ChatGPT «что там с Ozon и Wildberries», ты получишь набор банальностей из интернета двухлетней давности. Но если ты закинешь в нее три свежих отчета и попросишь сделать сводный вывод, магия сработает: модель вытащит пересекающиеся тренды и укажет на уникальные риски каждого игрока. Принцип универсален — будь то медицинский диагноз или стратегия продаж, RAG-подход (поиск с опорой на документы) всегда бьет «голую» эрудицию модели.

Главный вывод прост: никогда не доверяй нейросети обобщение того, чего нет в её текущем окне контекста. Если хочешь получить адекватный синтез, а не набор галлюцинаций, скармливай ей исходники напрямую. Модель — это мощный процессор, а не надежный жесткий диск. Заставляй её работать с твоими данными, иначе рискуешь получить отчет, который звучит красиво, но на деле является полной фигней и выдумкой.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с