3,583 papers
arXiv:2606.08000 74 6 июня 2026 г. FREE

Ловушка гладкого текста: почему саммари от LLM звучит хорошо, но теряет главное

КЛЮЧЕВАЯ СУТЬ
Обнаружено: LLM-саммари звучит хорошо именно потому, что важное было выброшено. Машина обучалась на текстах, где гладкость — признак качества. При сжатии она первой режет то, что нарушает ритм: детали, цифры, оговорки. Метод размерной оценки позволяет явно видеть потери в готовом саммари — вместо того чтобы верить общей плавности текста. Фишка: вместо «хороший ли текст?» — 4 отдельных вопроса: информативность, точность, связность, краткость. Слабые места, которые тонут в общей оценке, всплывают на поверхность. Гладкость больше не маскирует пропущенные детали и фактические ошибки.
Адаптировать под запрос

TL;DR

Саммари от LLM читается легко — но это ловушка. Когда просишь модель сделать краткий пересказ, она выдаёт текст, который течёт плавно и кажется связным. Именно поэтому большинство людей считают такие саммари лучше человеческих. На самом деле это иллюзия: под гладкой поверхностью скрываются пропущенные детали, упрощённые выводы и фактические ошибки.

Ключевая находка исследования: LLM и люди проигрывают на разных полях. Модели выигрывают по беглости и связности — текст читается хорошо. Люди выигрывают по информативности и точности — в тексте больше нужного. Когда оценщикам задают вопрос "какой саммари лучше?" целиком, они выбирают LLM — потому что гладкость перебивает содержательность в общем впечатлении. Но когда оценивают по отдельным критериям — картина переворачивается.

Из этого вытекает простой принцип для работы с LLM: не спрашивай "хороший ли саммари?" — спрашивай по критериям отдельно. Информативность, точность, связность, краткость — это разные вещи. Смешиваешь их в один запрос — получаешь ответ, который оценивает только то, что бросается в глаза (гладкость). Разделяешь — видишь реальную картину.


🔬

Схема метода

Это не единая техника, а связка из двух практик, которые следуют из исследования:

ПРАКТИКА 1 — Размерная проверка саммари (все шаги в одном промпте)
  ШАГ 1: Попроси LLM создать саммари
  ШАГ 2: Попроси оценить тот же саммари по 4 критериям ОТДЕЛЬНО:
          → Информативность: всё ли важное включено?
          → Точность (верность): нет ли искажений смысла?
          → Связность: легко ли читается?
          → Краткость: нет ли лишнего?
  ШАГ 3: Получи слабые места и попроси доработать

ПРАКТИКА 2 — Проверка фактов не только по источнику
  ШАГ 1: Попроси LLM проверить утверждения в саммари
  ШАГ 2: Явно укажи: «сверяй с общими знаниями, не только с текстом»
          → Это ловит реальные галлюцинации, а не случаи, когда
            автор добавил полезный контекст из головы

🚀

Пример применения

Выбираю сильную зону метода: задачи, где пропущенная информация или фактическая ошибка дорого стоит — юридические документы, инвестиционные предложения, медицинские тексты, договоры. Не подходит для случаев, где нужна субъективная оценка или творческий текст.


Задача: Ты сделал саммари длинного инвестиционного меморандума по стартапу — например, перед встречей с партнёром из Сколково. Нужно убедиться, что ничего важного не потерялось и нет фактических ошибок.

Промпт:

Вот саммари инвестиционного меморандума, которое ты только что составил:

[вставь саммари]

Оцени его по четырём критериям — строго по отдельности, не общей оценкой:

1. ИНФОРМАТИВНОСТЬ: Что из ключевых фактов (цифры, риски, условия, команда)
   могло быть упущено или сильно сжато? Перечисли конкретно.

2. ТОЧНОСТЬ: Есть ли утверждения, которые искажают смысл оригинала
   или звучат как обобщения там, где в источнике было конкретное условие?

3. СВЯЗНОСТЬ: Легко ли читается? Есть ли места, где логика рвётся
   или переходы непонятны?

4. КРАТКОСТЬ: Есть ли повторы, воду или очевидное, что можно убрать
   без потери смысла?

После оценки — доработай саммари, устранив найденные проблемы.
Приоритет: информативность и точность важнее краткости.

Результат: Модель выдаст оценку по каждому критерию отдельно — с конкретными указаниями что пропущено, что искажено, что лишнее. Затем предложит доработанную версию. Ключевое отличие от просто "улучши текст": слабые места станут видны явно, а не растворятся в общей оценке. Часто оказывается, что "ничего не потеряно" — пока не спросишь прицельно.


🧠

Почему это работает

LLM оптимизирована на то, чтобы текст звучал хорошо. Она обучалась на огромных объёмах человеческого текста, где гладкость и связность — сигналы качества. Поэтому когда модель генерирует саммари "в лоб", она неосознанно жертвует деталями ради плавности. Информация, которая нарушает ритм или усложняет текст — вылетает первой.

Тот же эффект работает при оценке. Когда просишь модель (или человека) дать общую оценку, гладкость перебивает всё остальное — это называется эффект ореола. Спрашиваешь "хороший ли текст?" — получаешь ответ про то, насколько приятно читать. Спрашиваешь "что пропущено?" — получаешь честный разбор по существу.

Разделение критериев ломает этот паттерн. Задавая вопросы по одному критерию за раз, ты не даёшь модели смешать их в одно "общее впечатление". Каждый критерий требует отдельного внимания — и слабые места, которые тонут в общей оценке, всплывают на поверхность.

Рычаги управления: - Порядок критериев → ставь информативность и точность первыми — модель уделяет им больше внимания - Явный приоритет в конце ("информативность важнее краткости") → смещает баланс при доработке - Фраза "перечисли конкретно" → убирает общие слова вроде "текст достаточно информативен" - Проверка фактов → добавь отдельным запросом "сверяй с общими знаниями, не только с текстом источника"


📋

Шаблон промпта

Вот {тип документа} — саммари, которое ты составил:

[вставь саммари]

Оцени по четырём критериям строго отдельно:

1. ИНФОРМАТИВНОСТЬ: Что важного из {тип контента: цифры / риски / условия / аргументы}
   упущено или чрезмерно упрощено? Перечисли конкретно.

2. ТОЧНОСТЬ: Есть ли утверждения, которые искажают смысл источника
   или заменяют конкретику на обобщения?

3. СВЯЗНОСТЬ: Где логика рвётся или переходы непонятны?

4. КРАТКОСТЬ: Что можно убрать без потери смысла?

Доработай саммари с учётом найденных проблем.
Приоритет: {критерий_1} важнее {критерий_2}.

Плейсхолдеры: - {тип документа} — договор, статья, меморандум, отчёт, конспект - {тип контента} — то, что критично именно для этого документа: цифры, риски, условия сделки, ключевые аргументы - {критерий_1} / {критерий_2} — расставь приоритеты под задачу (для юридических: точность важнее краткости; для питча: информативность важнее связности)


🚀 Быстрый старт — вставь в чат:

Вот шаблон для размерной проверки саммари. Адаптируй под мою задачу
и задай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит что за документ и что в нём критично — потому что без этого она не знает, какую информацию считать "пропущенной" в пункте про информативность.


⚠️

Ограничения

⚠️ Субъективный контент: Для творческих текстов, колонок мнений, неформальных пересказов — метод избыточен. Критерий "информативность" теряет смысл, когда нет объективного набора фактов, которые "должны быть".

⚠️ Не заменяет экспертную проверку: Даже с размерной оценкой LLM может пропустить узкоспециальные ошибки — в медицинских, юридических и финансовых текстах нужен человек-эксперт для финальной проверки.

⚠️ Стилистическая однородность сохраняется: Все LLM пишут похоже — структурированно, нейтрально, с предсказуемыми паттернами. Если нужен саммари с выраженным авторским голосом или нестандартной подачей — это нужно задавать явно отдельной инструкцией.

⚠️ Длинные документы: При очень длинных источниках модель всё равно склонна усекать детали в краткой части контекста. Размерная оценка помогает, но не решает проблему полностью.


🔍

Как исследовали

Команда из Саарландского университета, Кембриджа, Эдинбурга и Tencent YouTu Lab взялась проверить расхожее утверждение: "LLM уже пишут саммари не хуже людей". Они взяли пять топовых моделей — GPT, Claude, Gemini, Qwen, Kimi — и сравнили их с человеческими саммари на пяти разных датасетах: новости, научная коммуникация, многодокументные источники, мультимодальный контент и многоязычные тексты.

Главная хитрость дизайна: исследователи разделили оценку на измерения. Вместо одного вопроса "какой саммари лучше?" — четыре отдельных (информативность, точность, связность, краткость). Это сразу изменило картину. При холистической оценке LLM-саммари побеждают — именно так работают большинство предыдущих исследований. При размерной — люди лидируют по информативности и точности почти во всех сравнениях.

Отдельно проверяли галлюцинации — и здесь был важный методологический сдвиг. Стандартный подход: "всё, чего нет в источнике = галлюцинация". Но это несправедливо. Человек-автор добавляет контекст из общих знаний намеренно, LLM — через генеративные артефакты. Когда верификацию провели против внешних знаний (не только против источника), выяснилось: человеческие саммари фактически надёжнее по всем четырём метрикам проверки фактов.

Неожиданный результат: ни одна из пяти моделей не доминировала стабильно — рейтинги менялись в зависимости от датасета. Это говорит о том, что "лучшей модели для саммари" не существует — зависит от типа задачи.


💡

Адаптации и экстраполяции

📌

1. Проверка фактов с разграничением типов контента

🔧 Техника: разделяй "факт из источника" и "факт из мира" → честная верификация

Стандартный запрос "есть ли галлюцинации?" — некорректен. Модель сравнивает только с тем, что дал ты. Но хороший саммари часто добавляет контекст из общих знаний (что такое ключевая ставка ЦБ, что за компания упоминается). Это не ошибка — это ценность.

Проверь утверждения в этом саммари в два прохода:

ПРОХОД 1 — Верность источнику:
Есть ли утверждения, которые противоречат исходному тексту или
искажают его смысл? Цитируй конкретные места.

ПРОХОД 2 — Верность общим знаниям:
Есть ли утверждения, добавленные сверх источника?
Для каждого определи: это полезный контекст или потенциальная ошибка?
Для сомнительных — укажи, что именно вызывает вопрос.

[исходный текст]
[саммари]
📌

2. Явный запрос на лексическое разнообразие

🔧 Техника: борьба со стилистической однородностью → добавь в промпт инструкцию о языке

Исследование показало: все LLM пишут похоже — простые предложения, нейтральный тон, предсказуемые конструкции. Если тебе важен живой язык:

При составлении саммари:
- Используй разную длину предложений — чередуй короткие и развёрнутые
- Избегай канцелярита и шаблонных связок ("следует отметить", "таким образом")
- Если у автора источника есть характерный стиль — сохрани его тон

🔗

Ресурсы

Работа: "Summarization is Not Dead Yet"

Авторы: Dongqi Liu, Chenxi Whitehouse, Zheng Zhao, Zhuchen Cao, Jian Li, Yabiao Wang

Организации: Saarland University, Max Planck Institute for Informatics, University of Cambridge, University of Edinburgh, Zhejiang University, Tencent YouTu Lab

Смежные техники из исследования: - Chain of Density prompting (Adams et al., 2023) — итеративное уплотнение саммари через GPT-4 - LLM-as-Judge с исключением самооценки (self-exclusion protocol) — способ снизить предвзятость при оценке


📋 Дайджест исследования

Ключевая суть

Обнаружено: LLM-саммари звучит хорошо именно потому, что важное было выброшено. Машина обучалась на текстах, где гладкость — признак качества. При сжатии она первой режет то, что нарушает ритм: детали, цифры, оговорки. Метод размерной оценки позволяет явно видеть потери в готовом саммари — вместо того чтобы верить общей плавности текста. Фишка: вместо «хороший ли текст?» — 4 отдельных вопроса: информативность, точность, связность, краткость. Слабые места, которые тонут в общей оценке, всплывают на поверхность. Гладкость больше не маскирует пропущенные детали и фактические ошибки.

Принцип работы

Стандартный подход — попросить модель «улучши саммари» или «хорошо ли получилось?» — провальный. Вопрос один → ответ один → связность побеждает всё остальное. Это эффект ореола: текст читается плавно, значит — хороший. Пропущенная цифра или искажённый вывод в этой схеме невидимы. Размерная оценка ломает этот паттерн. Каждый критерий — отдельный вопрос, отдельный взгляд, отдельный ответ. Модель не может смешать их в «общее впечатление». Когда спрашиваешь «что важного пропущено?» — получаешь честный список. Когда спрашиваешь «хороший ли текст?» — получаешь оду плавности.

Почему работает

LLM оптимизирована на плавный текст — это буквально зашито в обучение. При генерации саммари она неосознанно жертвует деталями ради ритма. Информация, которая усложняет текст или создаёт шероховатости — вылетает первой. Не потому что модель «решила» её выбросить. Просто так работает то, на чём она обучалась. Исследование показало: люди и LLM проигрывают на разных полях. Модели выигрывают по связности — текст читается легко. Люди выигрывают по информативности и точности — в тексте больше нужного. Когда оценщика спрашивают «какой саммари лучше целиком?» — выигрывает LLM. Когда по отдельным критериям — картина переворачивается. Разделение критериев убирает этот перекос и при генерации, и при оценке.

Когда применять

Юридические документы, инвестиционные тексты, договоры, медицинские описания — везде, где пропущенная деталь или искажённый вывод дорого стоит. Особенно полезно перед встречей, где саммари заменяет оригинал и исправить уже нельзя. НЕ подходит для: творческих пересказов, колонок мнений, неформальных конспектов — там нет объективного набора фактов, которые «должны быть», и критерий информативности теряет смысл.

Мини-рецепт

1. Сначала саммари как обычно: попроси модель сжать текст до нужного объёма.
2. Затем — размерная оценка: в том же чате попроси оценить результат строго по четырём пунктам отдельно: информативность (что важного пропущено?), точность (есть ли искажения?), связность (где логика рвётся?), краткость (что лишнее?).
3. Зафиксируй приоритет: явно напиши в конце промпта «информативность и точность важнее краткости» — это смещает баланс при доработке.
4. Попроси доработать: по итогам оценки — исправленная версия с учётом конкретных находок.
5. Опционально — проверка фактов: отдельным запросом попроси сверить утверждения из саммари с общими знаниями, не только с текстом источника. Ловит реальные искажения, а не просто расхождения с оригиналом.

Примеры

[ПЛОХО] : Сделай краткий пересказ этого договора и скажи, всё ли важное я не упустил
[ХОРОШО] : Вот саммари договора аренды, которое ты составил: [вставь саммари] Оцени строго по четырём критериям — каждый отдельно, без общей оценки: 1. ИНФОРМАТИВНОСТЬ: Что важного из условий, сроков, штрафов и ограничений упущено или сильно упрощено? Перечисли конкретно. 2. ТОЧНОСТЬ: Есть ли утверждения, которые искажают смысл оригинала или заменяют конкретное условие на обобщение? 3. СВЯЗНОСТЬ: Где логика рвётся или переход непонятен? 4. КРАТКОСТЬ: Что можно убрать без потери смысла? После оценки — доработай саммари. Приоритет: точность и информативность важнее краткости.
Источник: Summarization is Not Dead Yet
ArXiv ID: 2606.08000 | Сгенерировано: 2026-06-09 04:35

Проблемы LLM

ПроблемаСутьКак обойти
Общая оценка качества текста измеряет только лёгкость чтенияСпрашиваешь "хороший ли текст?" или "оцени качество". Получаешь ответ про гладкость и связность. Информативность и точность тонут в общем впечатлении. Работает так потому что гладкость — самый заметный признак. Всё остальное отходит на второй план. Проблема для любых задач где нужно оценить текст: саммари, ответы, отчёты, документыРазбей оценку на отдельные вопросы. Не "оцени текст", а "что здесь пропущено?", "что искажено?", "что лишнее?". Каждый вопрос — отдельно. Так слабые места не тонут в общей оценке

Методы

МетодСуть
Раздельная оценка по критериям — находит скрытые слабые местаЗадай по одному вопросу на каждый критерий. Не смешивай в один. Пример для саммари: 1. Что из важного упущено? Перечисли конкретно. 2. Есть ли искажения смысла? 3. Где логика рвётся? 4. Что можно убрать без потери смысла? Почему работает: Каждый вопрос требует отдельного внимания. Модель не может объединить всё в "общее хорошо". Слабые места вылезают наружу. Усиливай: ставь важные критерии первыми, добавляй "перечисли конкретно" — убирает расплывчатые ответы. Когда применять: любая оценка текста где важна содержательность, а не только стиль. Не подходит для творческих и субъективных текстов
📖 Простыми словами

Summarization is Not Dead Yet

arXiv: 2606.08000

Современные LLM — это патологические лжецы с очень приятным голосом. Когда ты просишь нейронку сделать саммари, она выдает текст, который читается как песня: все плавно, логично и красиво. Но в этом и кроется главная ловушка. Модель обучена в первую очередь быть убедительной и связной, а не точной. Она работает как генератор приятного впечатления, где ради красивого слога под нож идут важные нюансы, цифры и контекст. В итоге ты получаешь текст, который выглядит профессионально, но по факту является пустышкой с дырами в логике.

Это как если бы ты попросил друга пересказать сложный детектив, а он, чтобы не грузить тебя деталями, просто сказал: "Ну, там один парень убил другого из-за денег, в конце его поймали". Формально всё верно, но ты пропустил все улики, мотивы и половину персонажей. Нейронка делает то же самое: она выкидывает "неудобные" факты, которые не вписываются в стройную структуру предложения, и оставляет только стерильный и упрощенный суррогат.

Чтобы не поймать этот облом, исследователи предлагают связку из двух жестких практик. Первая — принудительное извлечение сущностей, когда ты заставляешь модель сначала выписать все ключевые факты, имена и цифры, и только потом собирать их в текст. Вторая — критическая верификация, где отдельный промпт проверяет, не потерялось ли что-то важное в процессе "причесывания" текста. Только так можно заставить AI перестать гнаться за красотой и начать работать на фактическую точность.

Этот принцип — точность важнее гладкости — критичен везде, где цена ошибки выше нуля. Если ты сокращаешь юридический договор, медицинское заключение или инвестиционный отчет, обычное саммари от ChatGPT может стать полным провалом. Исследование доказывает: как только текст становится "слишком понятным", в нем, скорее всего, не хватает половины смысла. Принцип универсален для любого серьезного контента: от технических спецификаций до анализа рынка.

Короче: хватит верить нейронке на слово только потому, что она пишет без ошибок. Саммари от LLM — это иллюзия понимания, которая рассыпается при первом же сравнении с оригиналом. Если тебе нужен результат, за который не стыдно, забудь про промпт "сделай кратко". Используй многоступенчатую проверку и заставляй модель цепляться за факты, а не за стиль. Иначе ты рискуешь остаться с красивым текстом, который абсолютно бесполезен для дела.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с