TL;DR
Саммари от LLM читается легко — но это ловушка. Когда просишь модель сделать краткий пересказ, она выдаёт текст, который течёт плавно и кажется связным. Именно поэтому большинство людей считают такие саммари лучше человеческих. На самом деле это иллюзия: под гладкой поверхностью скрываются пропущенные детали, упрощённые выводы и фактические ошибки.
Ключевая находка исследования: LLM и люди проигрывают на разных полях. Модели выигрывают по беглости и связности — текст читается хорошо. Люди выигрывают по информативности и точности — в тексте больше нужного. Когда оценщикам задают вопрос "какой саммари лучше?" целиком, они выбирают LLM — потому что гладкость перебивает содержательность в общем впечатлении. Но когда оценивают по отдельным критериям — картина переворачивается.
Из этого вытекает простой принцип для работы с LLM: не спрашивай "хороший ли саммари?" — спрашивай по критериям отдельно. Информативность, точность, связность, краткость — это разные вещи. Смешиваешь их в один запрос — получаешь ответ, который оценивает только то, что бросается в глаза (гладкость). Разделяешь — видишь реальную картину.
Схема метода
Это не единая техника, а связка из двух практик, которые следуют из исследования:
ПРАКТИКА 1 — Размерная проверка саммари (все шаги в одном промпте)
ШАГ 1: Попроси LLM создать саммари
ШАГ 2: Попроси оценить тот же саммари по 4 критериям ОТДЕЛЬНО:
→ Информативность: всё ли важное включено?
→ Точность (верность): нет ли искажений смысла?
→ Связность: легко ли читается?
→ Краткость: нет ли лишнего?
ШАГ 3: Получи слабые места и попроси доработать
ПРАКТИКА 2 — Проверка фактов не только по источнику
ШАГ 1: Попроси LLM проверить утверждения в саммари
ШАГ 2: Явно укажи: «сверяй с общими знаниями, не только с текстом»
→ Это ловит реальные галлюцинации, а не случаи, когда
автор добавил полезный контекст из головы
Пример применения
Выбираю сильную зону метода: задачи, где пропущенная информация или фактическая ошибка дорого стоит — юридические документы, инвестиционные предложения, медицинские тексты, договоры. Не подходит для случаев, где нужна субъективная оценка или творческий текст.
Задача: Ты сделал саммари длинного инвестиционного меморандума по стартапу — например, перед встречей с партнёром из Сколково. Нужно убедиться, что ничего важного не потерялось и нет фактических ошибок.
Промпт:
Вот саммари инвестиционного меморандума, которое ты только что составил:
[вставь саммари]
Оцени его по четырём критериям — строго по отдельности, не общей оценкой:
1. ИНФОРМАТИВНОСТЬ: Что из ключевых фактов (цифры, риски, условия, команда)
могло быть упущено или сильно сжато? Перечисли конкретно.
2. ТОЧНОСТЬ: Есть ли утверждения, которые искажают смысл оригинала
или звучат как обобщения там, где в источнике было конкретное условие?
3. СВЯЗНОСТЬ: Легко ли читается? Есть ли места, где логика рвётся
или переходы непонятны?
4. КРАТКОСТЬ: Есть ли повторы, воду или очевидное, что можно убрать
без потери смысла?
После оценки — доработай саммари, устранив найденные проблемы.
Приоритет: информативность и точность важнее краткости.
Результат: Модель выдаст оценку по каждому критерию отдельно — с конкретными указаниями что пропущено, что искажено, что лишнее. Затем предложит доработанную версию. Ключевое отличие от просто "улучши текст": слабые места станут видны явно, а не растворятся в общей оценке. Часто оказывается, что "ничего не потеряно" — пока не спросишь прицельно.
Почему это работает
LLM оптимизирована на то, чтобы текст звучал хорошо. Она обучалась на огромных объёмах человеческого текста, где гладкость и связность — сигналы качества. Поэтому когда модель генерирует саммари "в лоб", она неосознанно жертвует деталями ради плавности. Информация, которая нарушает ритм или усложняет текст — вылетает первой.
Тот же эффект работает при оценке. Когда просишь модель (или человека) дать общую оценку, гладкость перебивает всё остальное — это называется эффект ореола. Спрашиваешь "хороший ли текст?" — получаешь ответ про то, насколько приятно читать. Спрашиваешь "что пропущено?" — получаешь честный разбор по существу.
Разделение критериев ломает этот паттерн. Задавая вопросы по одному критерию за раз, ты не даёшь модели смешать их в одно "общее впечатление". Каждый критерий требует отдельного внимания — и слабые места, которые тонут в общей оценке, всплывают на поверхность.
Рычаги управления: - Порядок критериев → ставь информативность и точность первыми — модель уделяет им больше внимания - Явный приоритет в конце ("информативность важнее краткости") → смещает баланс при доработке - Фраза "перечисли конкретно" → убирает общие слова вроде "текст достаточно информативен" - Проверка фактов → добавь отдельным запросом "сверяй с общими знаниями, не только с текстом источника"
Шаблон промпта
Вот {тип документа} — саммари, которое ты составил:
[вставь саммари]
Оцени по четырём критериям строго отдельно:
1. ИНФОРМАТИВНОСТЬ: Что важного из {тип контента: цифры / риски / условия / аргументы}
упущено или чрезмерно упрощено? Перечисли конкретно.
2. ТОЧНОСТЬ: Есть ли утверждения, которые искажают смысл источника
или заменяют конкретику на обобщения?
3. СВЯЗНОСТЬ: Где логика рвётся или переходы непонятны?
4. КРАТКОСТЬ: Что можно убрать без потери смысла?
Доработай саммари с учётом найденных проблем.
Приоритет: {критерий_1} важнее {критерий_2}.
Плейсхолдеры:
- {тип документа} — договор, статья, меморандум, отчёт, конспект
- {тип контента} — то, что критично именно для этого документа: цифры, риски, условия сделки, ключевые аргументы
- {критерий_1} / {критерий_2} — расставь приоритеты под задачу (для юридических: точность важнее краткости; для питча: информативность важнее связности)
🚀 Быстрый старт — вставь в чат:
Вот шаблон для размерной проверки саммари. Адаптируй под мою задачу
и задай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит что за документ и что в нём критично — потому что без этого она не знает, какую информацию считать "пропущенной" в пункте про информативность.
Ограничения
⚠️ Субъективный контент: Для творческих текстов, колонок мнений, неформальных пересказов — метод избыточен. Критерий "информативность" теряет смысл, когда нет объективного набора фактов, которые "должны быть".
⚠️ Не заменяет экспертную проверку: Даже с размерной оценкой LLM может пропустить узкоспециальные ошибки — в медицинских, юридических и финансовых текстах нужен человек-эксперт для финальной проверки.
⚠️ Стилистическая однородность сохраняется: Все LLM пишут похоже — структурированно, нейтрально, с предсказуемыми паттернами. Если нужен саммари с выраженным авторским голосом или нестандартной подачей — это нужно задавать явно отдельной инструкцией.
⚠️ Длинные документы: При очень длинных источниках модель всё равно склонна усекать детали в краткой части контекста. Размерная оценка помогает, но не решает проблему полностью.
Как исследовали
Команда из Саарландского университета, Кембриджа, Эдинбурга и Tencent YouTu Lab взялась проверить расхожее утверждение: "LLM уже пишут саммари не хуже людей". Они взяли пять топовых моделей — GPT, Claude, Gemini, Qwen, Kimi — и сравнили их с человеческими саммари на пяти разных датасетах: новости, научная коммуникация, многодокументные источники, мультимодальный контент и многоязычные тексты.
Главная хитрость дизайна: исследователи разделили оценку на измерения. Вместо одного вопроса "какой саммари лучше?" — четыре отдельных (информативность, точность, связность, краткость). Это сразу изменило картину. При холистической оценке LLM-саммари побеждают — именно так работают большинство предыдущих исследований. При размерной — люди лидируют по информативности и точности почти во всех сравнениях.
Отдельно проверяли галлюцинации — и здесь был важный методологический сдвиг. Стандартный подход: "всё, чего нет в источнике = галлюцинация". Но это несправедливо. Человек-автор добавляет контекст из общих знаний намеренно, LLM — через генеративные артефакты. Когда верификацию провели против внешних знаний (не только против источника), выяснилось: человеческие саммари фактически надёжнее по всем четырём метрикам проверки фактов.
Неожиданный результат: ни одна из пяти моделей не доминировала стабильно — рейтинги менялись в зависимости от датасета. Это говорит о том, что "лучшей модели для саммари" не существует — зависит от типа задачи.
Адаптации и экстраполяции
1. Проверка фактов с разграничением типов контента
🔧 Техника: разделяй "факт из источника" и "факт из мира" → честная верификация
Стандартный запрос "есть ли галлюцинации?" — некорректен. Модель сравнивает только с тем, что дал ты. Но хороший саммари часто добавляет контекст из общих знаний (что такое ключевая ставка ЦБ, что за компания упоминается). Это не ошибка — это ценность.
Проверь утверждения в этом саммари в два прохода:
ПРОХОД 1 — Верность источнику:
Есть ли утверждения, которые противоречат исходному тексту или
искажают его смысл? Цитируй конкретные места.
ПРОХОД 2 — Верность общим знаниям:
Есть ли утверждения, добавленные сверх источника?
Для каждого определи: это полезный контекст или потенциальная ошибка?
Для сомнительных — укажи, что именно вызывает вопрос.
[исходный текст]
[саммари]
2. Явный запрос на лексическое разнообразие
🔧 Техника: борьба со стилистической однородностью → добавь в промпт инструкцию о языке
Исследование показало: все LLM пишут похоже — простые предложения, нейтральный тон, предсказуемые конструкции. Если тебе важен живой язык:
При составлении саммари:
- Используй разную длину предложений — чередуй короткие и развёрнутые
- Избегай канцелярита и шаблонных связок ("следует отметить", "таким образом")
- Если у автора источника есть характерный стиль — сохрани его тон
Ресурсы
Работа: "Summarization is Not Dead Yet"
Авторы: Dongqi Liu, Chenxi Whitehouse, Zheng Zhao, Zhuchen Cao, Jian Li, Yabiao Wang
Организации: Saarland University, Max Planck Institute for Informatics, University of Cambridge, University of Edinburgh, Zhejiang University, Tencent YouTu Lab
Смежные техники из исследования: - Chain of Density prompting (Adams et al., 2023) — итеративное уплотнение саммари через GPT-4 - LLM-as-Judge с исключением самооценки (self-exclusion protocol) — способ снизить предвзятость при оценке
