TL;DR
Когда просишь LLM обобщить несколько документов, качество вывода почти полностью зависит от одного фактора: есть источники в промпте или нет. Если вставить тексты — модель синтезирует в разы лучше, чем если она опирается на свою память. Это не очевидно: кажется, что «умная модель» и так знает достаточно. На деле — нет.
Главная находка: модели не проверяют источники на достоверность. Если дать модели документы с перевёрнутыми фактами или ложной информацией — она синтезирует их в связный, уверенный и неверный вывод. Ни одна протестированная модель не смогла этому противостоять. Это работает против пользователя дважды: когда источники хорошие — это сила, когда плохие — это ловушка.
Когда источников нет, помогает декомпозиция с Chain-of-Thought: разбить задачу на подвопросы → ответить на каждый → собрать черновик → оценить и доработать. Это даёт прирост ~30% по сравнению с прямым запросом «сделай вывод».
Схема метода
Два режима — в зависимости от того, есть ли у тебя исходные документы.
Режим 1 — Есть документы (RAG-стиль):
ШАГ 1: Вставь все источники в промпт
ШАГ 2: Попроси синтезировать вывод по конкретному вопросу
→ один запрос
Режим 2 — Нет документов (P-CoT):
ШАГ 1: Декомпозируй вопрос → 5–7 подвопросов
ШАГ 2: Ответь на каждый подвопрос
ШАГ 3: Собери подвопросы → черновой вывод
ШАГ 4: Оцени черновик → если слабый, сгенерируй новые подвопросы → повтори
→ один промпт с явными шагами или несколько запросов
Пример применения
Задача: Ты инвестиционный аналитик. Есть три аналитических материала о рынке маркетплейсов в России — Wildberries, Ozon и Яндекс Маркет. Нужно вытащить единый вывод: куда двигается рынок и на что ставить.
**Промпт (Режим 1 — есть тексты):**
Ты — аналитик инвестиционного фонда.
Ниже три аналитических текста о российском рынке маркетплейсов:
[ТЕКСТ 1 — вставить]
[ТЕКСТ 2 — вставить]
[ТЕКСТ 3 — вставить]
Задача: синтезируй единый аналитический вывод по вопросу:
«В каком направлении развивается рынок маркетплейсов в России
и какие факторы определяют победителей?»
Структура вывода:
1. Зоны консенсуса — в чём источники сходятся
2. Противоречия — где расходятся и почему это важно
3. Главный вывод — 2–3 предложения, что следует из совокупности данных
**Промпт (Режим 2 — текстов нет):**
Ты — аналитик инвестиционного фонда.
Вопрос для синтеза: «В каком направлении развивается рынок
маркетплейсов в России и какие факторы определяют победителей?»
Работай по шагам:
Шаг 1. Разбей вопрос на 5–7 конкретных подвопросов,
ответы на которые дадут полную картину.
Шаг 2. Ответь на каждый подвопрос по отдельности.
Шаг 3. Собери ответы в черновой аналитический вывод (3–4 абзаца).
Шаг 4. Оцени черновик: есть ли пробелы, противоречия,
неподкреплённые утверждения? Если да — добавь подвопросы и уточни вывод.
Шаг 5. Финальный вывод — чистый, без черновиков и рассуждений.
Результат: В Режиме 1 модель покажет структурированный синтез с явным указанием зон согласия и расхождения между источниками. В Режиме 2 — разворачивание от подвопросов к финальному выводу, видно как строится аргументация. Качество Режима 1 будет ощутимо выше — особенно если источники хорошие.
Почему это работает
LLM плохо «помнит» без опоры. Когда модель синтезирует «из головы», она смешивает обрывки обучающих данных, статистические паттерны и правдоподобные конструкции. Результат звучит связно, но может быть устаревшим или просто неверным. Особенно плохо это работает для конкретных, фактурных задач — аналитика, медицина, право.
Документы в промпте — это якорь. Когда источники вставлены явно, модель генерирует текст, опираясь на конкретные фрагменты. Это убирает галлюцинации, добавляет точность и позволяет синтезировать противоречия между источниками. Именно поэтому «вставь источник → попроси вывод» работает принципиально лучше, чем «скажи мне о теме».
Декомпозиция расширяет рабочее пространство модели. Прямой запрос «сделай вывод» сжимает пространство ответа до одного шага. Разбивка на подвопросы заставляет модель пройти по разным аспектам — больше информации активируется, вывод полнее. Это работает даже без внешних источников.
Рычаги управления: - Число подвопросов → больше = глубже, но медленнее. Для быстрого обзора — 3–4, для серьёзного анализа — 7–8 - Шаг оценки черновика → убери, если задача простая. Оставь, если важна полнота и точность - Явная структура вывода (зоны консенсуса / противоречия / итог) → добавляет порядок, убирает кашу из тезисов
Шаблон промпта
Режим 1 (есть документы):
Ты — {роль}.
Ниже {число} источников по теме {тема}:
[ИСТОЧНИК 1 — вставить]
[ИСТОЧНИК 2 — вставить]
[ИСТОЧНИК 3 — вставить]
Синтезируй вывод по вопросу: «{конкретный вопрос}»
Структура:
1. Зоны консенсуса — в чём источники сходятся
2. Противоречия — где расходятся и почему важно
3. Главный вывод — {число_предложений} предложения
Режим 2 (нет документов):
Ты — {роль}.
Вопрос для синтеза: «{конкретный вопрос}»
Шаг 1. Разбей вопрос на {число} подвопросов для полного охвата.
Шаг 2. Ответь на каждый подвопрос отдельно.
Шаг 3. Собери ответы в черновой вывод.
Шаг 4. Найди пробелы или противоречия → уточни.
Шаг 5. Финальный вывод — чистый текст, {число_абзацев} абзаца.
Плейсхолдеры:
- {роль} — аналитик, эксперт, консультант — кто угодно с нужной оптикой
- {конкретный вопрос} — точный, не «расскажи о теме», а «каков главный вывод о X»
- {число} подвопросов — 5 для быстрого анализа, 7–8 для глубокого
- {число_предложений} — сколько хочешь в финальном выводе
🚀 Быстрый старт — вставь в чат:
Вот шаблон для синтеза нескольких источников.
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит про роль, конкретный вопрос и есть ли у тебя источники — потому что ответы определяют какой режим (Режим 1 или 2) и как структурировать вывод.
Ограничения
⚠️ Главная уязвимость: Модель не проверяет источники на правдивость. Если вставить ложные или противоречивые данные — она синтезирует их в уверенный, связный, но неверный вывод. Это работает у всех протестированных моделей, даже у топовых. Правило: мусор на входе → убедительный мусор на выходе.
⚠️ Режим «рассуждений» не всегда помогает: У моделей с явным режимом рассуждений (Chain-of-Thought reasoning mode) не обнаружили стабильного прироста для задач синтеза. Для абстрагирования и перефразирования предоставленной информации — прямое следование инструкции часто точнее.
⚠️ Слабые модели чувствительны к шуму: Более слабые модели страдают при большом количестве нерелевантных документов в контексте. Если модель слабее, давай меньше источников, но точнее. Топовые модели (GPT-4, Gemini) справляются с большим объёмом лучше.
⚠️ Работает для фактурных задач: Метод наиболее ценен для синтеза фактов, данных, аналитики. Для субъективных суждений (нравится/не нравится, эстетика, стиль) разница менее выражена.
Как исследовали
Исследователи взяли 14,2 млн статей из PubMed и через несколько стадий фильтрации отобрали 81 мета-анализ из 24 медицинских областей — от онкологии до педиатрии. Задача для модели была нетривиальной: по абстрактам первичных исследований воспроизвести итоговый вывод мета-анализа, написанный реальными учёными.
Проверяли шесть режимов работы: от простого запроса «из головы» до идеального сценария, где модели давали точно те источники, на которых написан оригинальный вывод. Плюс провокационный тест: источники с полностью перевёрнутыми фактами — если исследование показывало «X помогает», в тест подавали «X не помогает». Все модели провалили этот тест, синтезировав ложь в связный текст.
Для оценки качества выводов подключили панель из трёх судей-LLM (Gemini 2.5 Pro, O4 mini, Qwen3 235B) и сравнили их с девятью живыми экспертами-медиками. Корреляция между LLM-судьями и людьми оказалась высокой (r = 0.65–0.81), а систематического смещения — почти нет. Это важный методологический результат: LLM-панель как замена людям-экспертам для оценки — работает.
Самый неожиданный вывод: дообученная на медицинских данных модель (MedGemma) не обогнала базовую (Gemma), как только появились источники в промпте. Специализация помогала только без контекста — как только документы вставлены, преимущество исчезало. Это прямо говорит: давай контекст → экономишь на специализированных инструментах.
Адаптации и экстраполяции
🔧 Добавь верификационный шаг — защита от мусорных источников
Поскольку модели некритически синтезируют ложные источники, можно добавить явный шаг проверки перед синтезом:
Перед синтезом выполни предварительную проверку источников:
[ИСТОЧНИК 1]
[ИСТОЧНИК 2]
[ИСТОЧНИК 3]
Шаг 0. Проверь каждый источник:
- Есть ли внутренние противоречия?
- Противоречат ли источники друг другу в ключевых фактах?
- Есть ли утверждения, которые выглядят неправдоподобно?
Отметь проблемные источники или фрагменты.
Затем синтезируй вывод — с пометкой,
если какие-то части основаны на сомнительных данных.
⚠️ Это не устраняет уязвимость полностью, но заставляет модель явно назвать противоречия вместо того, чтобы их замести под ковёр.
🔧 Декомпозиция для сложных решений без источников
Режим 2 (P-CoT) применим не только к аналитике — подходит для любого решения, где нужно взвесить много факторов:
Вопрос: {сложное решение}
Шаг 1. Какие 6 подвопросов нужно прояснить,
чтобы принять взвешенное решение?
Шаг 2. Ответь на каждый.
Шаг 3. Где ответы противоречат друг другу?
Шаг 4. Итоговая рекомендация с учётом противоречий.
Ресурсы
MedMeta: A Benchmark for LLMs in Synthesizing Meta-Analysis Conclusion from Medical Studies Huy Hoang Ha, Benoit Favre, François Portet Laboratoire d'Informatique de Grenoble (LIG), Université Grenoble Alpes Preprint, 2025
Датасет: публичный репозиторий авторов (PubMed 2018–2025, 81 мета-анализ, 2 250 первичных исследований)
