3,583 papers
arXiv:2508.11816 82 15 авг. 2025 г. FREE

Plan-Driven Simplification: двухшаговое упрощение через явное планирование

КЛЮЧЕВАЯ СУТЬ
LLM плохо упрощают текст 'в лоб' — модель пытается делать всё сразу: анализировать сложность, выбирать стратегию, переписывать. Результат: упрощение без чёткой логики, модель может удалить важное или оставить сложное. Plan-Driven разделяет процесс на два явных шага — сначала модель выбирает стратегию (переформулировать, удалить, разбить, объединить), потом применяет её. Для документов сначала создаёт краткое резюме как якорь смысла, потом упрощает оригинал держа фокус на ключевых идеях из резюме.
Адаптировать под запрос

TL;DR

Plan-Driven Simplification — техника упрощения текста в два явных шага: сначала LLM выбирает стратегию (переформулировать, удалить, разбить, пропустить, объединить), затем применяет её. Вместо "упрости текст" → даём модели метауровень: "реши КАК упростить, потом упрости". На уровне документа используют summary-guided подход — сначала генерируют краткое резюме, потом упрощают оригинал с оглядкой на резюме.

LLM плохо упрощают "в лоб" — модель пытается делать всё сразу: анализировать сложность, выбирать стратегию, переписывать. Результат: упрощение без чёткой логики, модель может удалить важное или оставить сложное. В документах без структурного якоря модель теряет главную мысль, упрощение превращается в бессвязный пересказ.

Техника разделяет процесс: планирование отдельно, выполнение отдельно. Для предложений: модель сначала явно выбирает одну из пяти стратегий (rephrase/delete/split/ignore/merge), потом применяет. Для документов: сначала создаёт сжатое резюме с ключевыми идеями, потом упрощает оригинал держа фокус на резюме — это якорь против потери смысла.


🔬

Схема метода

📌

Sentence-level (предложения):

ШАГ 1: Планирование → выбрать стратегию из: rephrase, delete, split, ignore, merge
ШАГ 2: Упрощение → переписать предложение согласно выбранной стратегии

Два отдельных запроса к LLM

📌

Document-level (документы):

ШАГ 1: Резюмирование → создать краткое резюме документа (ключевые идеи, структура)
ШАГ 2: Упрощение с якорем → упростить оригинал, ориентируясь на резюме

Два отдельных запроса к LLM


🚀

Пример применения

Задача: Упрости сложную статью о новом законе для публикации в корпоративном блоге компании.

Промпт (Шаг 1 — Резюме):

Прочитай эту статью о новом законе 442-ФЗ про маркетплейсы. 
Напиши краткое резюме на 3-4 предложения: главная суть, ключевые изменения, 
кого это касается.

[вставить текст статьи]

Промпт (Шаг 2 — Упрощение):

Вот оригинальная статья и её резюме. Перепиши статью простым языком 
для непрофессионалов. Сохрани структуру и все ключевые идеи из резюме, 
но убери юридический жаргон и сложные конструкции.

Оригинал:
[текст статьи]

Резюме:
[резюме из шага 1]

Упрощённая версия:

Результат: Модель создаст упрощённый текст с сохранением главных тезисов из резюме. Структура будет ясной, терминология — доступной. Резюме работает как якорь смысла: модель не уйдёт в детали и не потеряет суть закона.


🧠

Почему это работает

Слабость LLM: При упрощении "в лоб" модель смешивает уровни: одновременно анализирует, решает что делать и переписывает. Это создаёт когнитивную перегрузку — модель теряет фокус, может удалить важное или сохранить сложное без причины.

Сильная сторона LLM: Модель отлично следует явным инструкциям и умеет держать контекст между шагами. Если дать чёткую схему "сначала это, потом то" — выполнит точно.

Как метод использует сильную сторону:

  • Sentence-level: Явное разделение на планирование и выполнение убирает неопределённость. Модель не додумывает "что делать" — выбирает из списка, затем следует выбору.
  • Document-level: Резюме задаёт каркас смысла. Модель упрощает текст не абстрактно, а с явной целью: сохранить идеи из резюме.

Рычаги управления:

  • Список стратегий (rephrase/delete/split) → замени на свои категории под задачу: "добавь пример", "убери метафоры", "технически точно"
  • Резюме → вместо полного резюме попроси фокус на конкретном аспекте: "резюме для HR", "резюме для инвесторов"
  • Двухэтапность → если текст простой, пропусти шаг планирования и упрощай сразу (экономия токенов)

📋

Шаблон промпта

📌

Для предложений:

Шаг 1 — Планирование:

Ты эксперт по упрощению текстов.

Вот предложение: "{сложное_предложение}"
Контекст (следующее предложение): "{следующее_предложение}"

Выбери одну стратегию упрощения из списка:
- rephrase (переформулировать проще)
- delete (удалить, если избыточно)
- split (разбить на несколько простых)
- ignore (оставить как есть)
- merge (объединить со следующим)

Напиши только название стратегии.

Шаг 2 — Упрощение:

Стратегия: {стратегия_из_шага_1}
Исходное предложение: "{сложное_предложение}"

Примени стратегию и напиши упрощённое предложение. Только результат, без объяснений.
📌

Для документов:

Шаг 1 — Резюме:

Прочитай документ и напиши краткое резюме на {N} предложений. 
Резюме должно отражать главные идеи, структуру и ключевые выводы.

Документ:
{текст_документа}

Шаг 2 — Упрощение:

Вот сложный документ и его резюме. Перепиши документ простым языком, 
сохраняя все идеи из резюме. Используй простые слова и короткие предложения.

Оригинал:
{текст_документа}

Резюме:
{резюме_из_шага_1}

Упрощённая версия:

Как заполнять:

  • {сложное_предложение} — предложение, которое нужно упростить
  • {следующее_предложение} — следующее предложение для контекста (опционально)
  • {текст_документа} — полный текст документа
  • {N} — количество предложений в резюме (обычно 3-5)

🚀 Быстрый старт — вставь в чат:

Вот шаблон Plan-Driven Simplification для упрощения текста. 
Адаптируй под мою задачу: {опиши свою задачу}. 
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит какой текст упростить, для кого упрощаешь (чтобы подобрать уровень), нужен ли контекст — потому что strategy selection зависит от окружающих предложений. Она возьмёт двухшаговую структуру из шаблона и адаптирует под задачу.


⚠️

Ограничения

⚠️ Два запроса: Метод требует два отдельных обращения к LLM — сначала планирование/резюме, потом упрощение. Для больших документов это затратно по токенам.

⚠️ Не для простых текстов: Если текст уже понятен, двухэтапная схема избыточна. Метод показывает силу на действительно сложных научных, юридических, технических текстах.

⚠️ BLEU ниже: Упрощённый текст может сильно отличаться от оригинала лексически (низкий BLEU в исследовании 6-10), но сохранять смысл. Если важна близость к оригинальным формулировкам — метод даст вольный пересказ.


🔍

Как исследовали

Команда из Georgia Tech проверила подход на биомедицинских текстах Cochrane — это рефераты клинических исследований, написанные для врачей. Взяли два набора: 37 парных рефератов (сложный + упрощённый эталон) и 217 Plain Language Summaries.

Сравнивали plan-driven подход с базовым LLM-упрощением. Использовали llama-3.3-70b-versatile — мощную открытую модель. Измеряли стандартными метриками упрощения: SARI (насколько правильно добавили/удалили/сохранили слова), BLEU (похожесть на эталон), FKGL (уровень читаемости по школьной шкале).

Результаты: Plan-driven показал 42.9 SARI против 42.8 у базового — минимальная разница, но стабильная. FKGL снизился с 13.3 до 7.8 — текст стал проще на 5 классов по сложности. Но BLEU упал до 6-10 — упрощение получилось вольным пересказом, не дословным переводом.

Почему summary-guided работает слабее по метрикам, но интереснее: Прямое упрощение выиграло по BLEU (44.7 vs 31.7) и BERTScore, но summary-guided создал более короткие тексты (250 токенов vs 257) и структурно целостные. Это как разница между дословным пересказом и осмысленным кратким изложением — второе может быть полезнее для читателя, хотя формально "менее похоже" на оригинал.

Что удивило: План-управляемый подход не дал прорыва в метриках (+0.1 SARI), но дал предсказуемость — модель явно выбирает стратегию, можно проверить логику. Это ценно для продакшн-систем.

Инсайт для практики: Двухшаговый подход нужен не для лучших чисел, а для контроля процесса. Если просто "упрости" — чёрный ящик. Если "сначала реши КАК, потом упрости" — видишь логику, можешь корректировать.


📄

Оригинал из исследования

📌

Sentence-level Plan-Driven Prompt:

You are a sentence simplifier.
Given a document, a sentence from that document, and the next 
sentence for context, choose an internal simplification strategy 
from the following options:
'rephrase', 'delete', 'split', 'ignore', 'merge'.
Then output ONLY the simplified sentence, based on your chosen 
strategy.

Document: The economic report showed a significant downturn in the 
last quarter.

Sentence: The economic report showed a significant downturn in the 
last quarter.
Next Sentence: Unemployment rates also rose sharply.
Simplified: The report said the economy got worse last quarter.

Document: Online social media provide users with unprecedented 
opportunities to engage with diverse opinions.
Sentence: Online social media provide users with unprecedented 
opportunities to engage with diverse opinions.
Next Sentence: They also enable misinformation to spread quickly.
Simplified: Social media let people easily share their opinions.

[примеры из биомедицинской области опущены для краткости]

Document: {document}
Sentence: {sentence}
Next Sentence: {next_sentence}
Simplified:

Контекст: Исследователи использовали few-shot промптинг — дали модели 2-3 примера из разных доменов (экономика, соцсети), чтобы модель поняла паттерн.

📌

Document-level Summary-Guided Prompts:

Шаг 1 — Генерация резюме:

You are given a complex document. Your task is to write a clear and 
concise summary that captures the essential information, main 
arguments, and key findings.

Guidelines:
- Do not include minor details or examples unless crucial to the 
 main idea.
- Focus on the overall message and structure of the document.
- Use simple and accessible language.
- The summary should be understandable without reading the original 
 document.

Document:
{document}

Summary:

Шаг 2 — Упрощение с якорем на резюме:

You are given a complex document and its summary. Your task is to 
rewrite the complex document in a simpler, clearer way while 
ensuring the meaning aligns with the provided summary.

Guidelines:
- Keep the rewritten version faithful to both the original document 
 and its summary.
- Use simple, accessible vocabulary and sentence structures.
- Avoid introducing new information not present in the original 
 document.
- Retain the key ideas, structure, and intent captured in the 
 summary.

Complex Document:
{document}

Summary:
{summary}

Simplified Document:

Контекст: Исследователи тестировали на llama-3.3-70b-versatile. Резюме создавалось без примеров (zero-shot), упрощение — с явным указанием держать фокус на резюме.


💡

Адаптации и экстраполяции

📌

💡 Адаптация для юридических документов:

Вместо биомедицинских текстов — договоры, законы, регламенты.

Изменённый промпт (Sentence-level):

Ты юрист-переводчик со сложного языка на простой.

Вот статья закона: "{текст_статьи}"
Контекст (следующая статья): "{следующая_статья}"

Выбери стратегию:
- rephrase (переформулировать без юридического жаргона)
- explain (добавить пример из жизни)
- delete (удалить техническую подробность)
- split (разбить сложное условие на шаги)
- keep (оставить как есть, если критично точное формулировка)

Напиши только стратегию.

Почему это работает: Юридические тексты имеют жёсткую структуру и точные формулировки. Strategy selection позволяет контролировать где упростить, где сохранить точность.


📌

🔧 Техника: Видимое планирование → прозрачность процесса

Вместо "напиши только стратегию" попроси объяснить выбор.

Изменённый промпт:

Выбери стратегию упрощения И объясни почему в 1 предложении:

Стратегия: [выбор]
Причина: [почему эта стратегия подходит для данного предложения]

Эффект: Видишь логику модели, можешь корректировать если модель ошиблась. Полезно для обучения команды или дебага сложных кейсов.


📌

🔧 Техника: Adaptive summary length → гибкое резюме

Вместо фиксированного "3-5 предложений" используй адаптивную длину.

Изменённый промпт:

Прочитай документ. Если он короткий (<500 слов) — резюме на 2 предложения.
Если средний (500-2000) — на 4 предложения. 
Если длинный (>2000) — на 6-8 предложений с подзаголовками по секциям.

[документ]

Эффект: Резюме масштабируется под размер документа — короткие тексты не раздуваются, длинные не сжимаются до потери смысла.


📌

💡 Экстраполяция: Комбинация с Chain-of-Thought

Добавь промежуточный шаг анализа аудитории перед выбором стратегии.

Трёхшаговый промпт:

ШАГ 1 — Анализ аудитории:
Для кого текст: {описание_аудитории}
Что аудитория УЖЕ знает: [перечисли]
Где может споткнуться: [термины, концепции]

ШАГ 2 — Выбор стратегии:
На основе анализа выбери стратегию для каждого предложения.

ШАГ 3 — Упрощение:
Примени стратегии.

Пример для продуктовой документации:

ШАГ 1:
Аудитория: менеджеры продукта без технического бэкграунда
Знают: базовые IT-термины (API, база данных)
Споткнутся: архитектура микросервисов, паттерны проектирования

ШАГ 2:
Предложение "Система использует event-driven architecture с CQRS паттерном" 
→ Стратегия: rephrase + explain

ШАГ 3:
Упрощение: "Система реагирует на события в реальном времени. 
Это как уведомления в мессенджере — что-то произошло, система сразу обрабатывает."

Эффект: Упрощение становится персонализированным — учитывает не абстрактную "простоту", а конкретные знания аудитории.


🔗

Ресурсы

LLM-Guided Planning and Summary-Based Scientific Text Simplification: DS@GT at CLEF 2025 SimpleText

  • Авторы: Krishna Chaitanya Marturi, Heba H. Elwazzan (Georgia Institute of Technology)
  • Задача: CLEF 2025 SimpleText Task 1
  • Датасет: Cochrane-Auto (биомедицинские рефераты)
  • Модель: llama-3.3-70b-versatile

Связанные работы:

  • Cochrane-Auto dataset (Bakker & Kamps, 2024) — парный датасет сложных/упрощённых биомедицинских текстов
  • Progressive Document-Level Simplification (Fang et al., 2025) — иерархический подход через discourse/topic/lexical уровни
  • SARI metric (Xu et al., 2016) — стандартная метрика для оценки упрощения текста

📋 Дайджест исследования

Ключевая суть

LLM плохо упрощают текст 'в лоб' — модель пытается делать всё сразу: анализировать сложность, выбирать стратегию, переписывать. Результат: упрощение без чёткой логики, модель может удалить важное или оставить сложное. Plan-Driven разделяет процесс на два явных шага — сначала модель выбирает стратегию (переформулировать, удалить, разбить, объединить), потом применяет её. Для документов сначала создаёт краткое резюме как якорь смысла, потом упрощает оригинал держа фокус на ключевых идеях из резюме.

Принцип работы

Разделяй планирование и выполнение. Не проси 'упрости текст' — дай модели метауровень. Для предложений: шаг 1 — модель явно выбирает одну из пяти стратегий (rephrase, delete, split, ignore, merge), шаг 2 — применяет выбранную стратегию. Для документов: шаг 1 — создаёт сжатое резюме с ключевыми идеями, шаг 2 — упрощает оригинал ориентируясь на резюме. Два отдельных запроса к LLM вместо одного размытого 'сделай проще'. Резюме работает как структурный каркас — модель не уходит в детали и не теряет суть.

Почему работает

При упрощении 'в лоб' модель смешивает уровни — одновременно анализирует, решает что делать и переписывает. Это создаёт когнитивную перегрузку: модель теряет фокус, может удалить важное или сохранить сложное без причины. Явное разделение на планирование и выполнение убирает неопределённость — модель не додумывает 'что делать', а выбирает из списка, затем следует выбору. Для документов резюме задаёт каркас смысла — модель упрощает не абстрактно, а с явной целью: сохранить идеи из резюме. LLM отлично следует чётким инструкциям и держит контекст между шагами — метод использует эту сильную сторону.

Когда применять

Упрощение сложных текстов → конкретно для научных статей, юридических документов, технических инструкций — особенно когда текст насыщен терминами и длинными конструкциями. Работает для корпоративных блогов (переписать отчёт для непрофессионалов), образовательных материалов (адаптировать учебник под школьников), внутренних коммуникаций (упростить регламент для сотрудников). НЕ подходит для уже простых текстов — двухэтапная схема будет избыточной, проще упростить сразу.

Мини-рецепт

Для предложений (sentence-level):
1. Шаг 1 — Планирование: Дай модели предложение и список стратегий (rephrase/delete/split/ignore/merge). Попроси выбрать одну стратегию, только название.
2. Шаг 2 — Упрощение: Передай выбранную стратегию и исходное предложение. Попроси применить стратегию и написать упрощённый вариант.

Для документов (document-level):
1. Шаг 1 — Резюме: Попроси создать краткое резюме документа на 3-5 предложений. Резюме должно отражать главные идеи, структуру, ключевые выводы.
2. Шаг 2 — Упрощение с якорем: Передай оригинал и резюме. Попроси переписать документ простым языком, сохраняя все идеи из резюме. Укажи целевую аудиторию (например, 'для непрофессионалов').

Примеры

[ПЛОХО]: `Упрости эту статью о новом законе 442-ФЗ. Сделай понятнее для обычных людей.` (Модель делает всё сразу — анализирует, решает что оставить, переписывает. Результат: может потерять ключевые пункты закона или оставить юридический жаргон.) [ХОРОШО — документ]: Шаг 1: `Прочитай статью о законе 442-ФЗ про маркетплейсы. Напиши резюме на 3-4 предложения: главная суть, ключевые изменения, кого касается. [текст статьи]` Шаг 2: `Вот оригинал и резюме. Перепиши статью простым языком для непрофессионалов. Сохрани структуру и все идеи из резюме, убери юридический жаргон. Оригинал: [текст] Резюме: [резюме из шага 1]` (Резюме работает как якорь — модель упрощает текст с фокусом на ключевых тезисах, структура ясная, терминология доступная.)
Источник: LLM-Guided Planning and Summary-Based Scientific Text Simplification: DS@GT at CLEF 2025 SimpleText
ArXiv ID: 2508.11816 | Сгенерировано: 2026-01-12 01:49

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с