3,583 papers
arXiv:2512.06228 73 5 дек. 2025 г. FREE

Explicit Policy для упрощения текста: два режима работы LLM

КЛЮЧЕВАЯ СУТЬ
LLM плохо понимает размытые инструкции типа «упрости текст» — то меняет только пару слов, то переписывает всё. Причина: модель не знает СКОЛЬКО упрощать и КАКИЕ правки разрешены. Метод позволяет управлять типом редактирования через явную политику: «только замена слов, структуру не трогай» или «меняй всё — слова, структуру, дели предложения». Фишка: превращаешь размытую задачу в список ограничений — модель понимает границы. Вместо «сделай проще» → «разрешено: замена слов; запрещено: менять структуру».
Адаптировать под запрос

TL;DR

Исследование показывает, как явное указание политики упрощения в промпте меняет поведение LLM. Вместо абстрактного "упрости текст" можно указать конкретный тип редактирования: lexical-paraphrasing (только замена сложных слов, структура остаётся) или overall-rewriting (меняй и слова, и структуру, можно удалять детали). Это как переключатель между "деликатная правка" и "полная переработка".

Проблема: LLM без явных указаний делают упрощение "как придётся" — то консервативно (мало правок), то агрессивно (меняют всё). Особенно это заметно на задачах для разной аудитории: продвинутым ученикам нужна только замена сложных слов (чтобы учить новые), начинающим — полная переработка с упрощением структуры. GPT-4o хорош в общем упрощении, но не чувствителен к нюансам политики — делает примерно одно и то же независимо от инструкции.

Авторы создали систему обучения моделей через LLM-as-a-Judge с reasoning: судья-модель оценивает варианты упрощения по лексическим и структурным критериям отдельно, затем выбирает лучший/худший для обучения. Маленькие модели (Phi-3-mini-3.8B) после обучения превзошли GPT-4o на задачах лексического упрощения и сравнялись на общем.

🔬

Схема метода (как исследовали)

Это research pipeline, не техника для чата:

ШАГ 1: Генерация кандидатов
4 разные LLM создают варианты упрощения одного предложения → 4 кандидата

ШАГ 2: LLM-as-a-Judge с reasoning
Qwen3-32B в режиме think оценивает каждого кандидата:
  - Lexical aspect (качество замен слов)
  - Structural aspect (качество изменений структуры)
  - Overall (комбинация)
Выбирает preferred/dispreferred пару

ШАГ 3: Preference Optimization
Обучение модели на 8k preference triplets через ARPO
(Adaptive Rejection Preference Optimization)

→ Модель учится различать хорошее/плохое упрощение под каждую политику

Требует: Python, GPU, preference optimization framework — не для чата.

📌

Extractable Principles

Хотя сама система требует код, из неё можно извлечь три принципа для ручной работы в чате:

📌

1. Explicit Policy Specification

Суть: Вместо "упрости текст" — укажи ЧТО именно менять.

Два режима:

Lexical-paraphrasing (деликатный): - Замени сложные слова на простые синонимы - Сохрани структуру предложения - Не удаляй детали, не дели на части

Overall-rewriting (агрессивный): - Меняй и слова, и структуру - Дели длинные предложения - Можно удалить второстепенные детали ради простоты

Применение в чате:

Вместо:
"Упрости этот текст"

Пиши:
"Упрости этот текст. Политика: только замена сложных слов 
на простые синонимы, сохраняй структуру предложений."

Или:
"Упрости этот текст. Политика: меняй и слова, и структуру, 
дели длинные предложения, удаляй второстепенные детали."
📌

2. Multi-Aspect Evaluation

Суть: Оценивай упрощение по двум аспектам отдельно, потом комбинируй.

Два аспекта: - Lexical: качество замен слов (сложное → простое, сохранён смысл?) - Structural: качество изменений структуры (разбивка, перестановки, удаления)

Применение в чате:

После генерации упрощения:

"Оцени это упрощение по двум критериям:
1. LEXICAL: Все ли сложные слова заменены на простые? 
   Сохранён ли смысл? Не заменены ли уже простые слова?
2. STRUCTURAL: Улучшилась ли читаемость структуры? 
   Есть ли ненужные усложнения?

Потом дай общую оценку."
📌

3. Multi-Candidate Selection

Суть: Сгенерируй несколько вариантов упрощения, потом выбери лучший по критериям.

Применение в чате:

ШАГ 1 (один запрос):
"Создай 3 варианта упрощения этого предложения. 
Политика: {твоя политика}"

ШАГ 2 (второй запрос):
"Какой из этих трёх вариантов лучше всего соответствует политике?
Оцени каждый по lexical и structural аспектам, выбери лучший."
🚀

Пример применения

Задача: Упростить фрагмент tech-статьи для разных аудиторий.

Исходный текст:

Kubernetes оркестрирует контейнеризированные приложения, 
автоматизируя deployment, масштабирование и управление 
распределёнными системами посредством декларативной конфигурации.

Запрос 1 — для продвинутых (lexical-paraphrasing):

Упрости этот текст. Политика: только замена сложных слов 
на простые синонимы, сохраняй структуру предложения.

[текст выше]

Результат (ожидаемый): Модель заменит "оркестрирует" → "управляет", "декларативной" → "описательной", "посредством" → "через", но сохранит структуру и термины (Kubernetes, deployment, контейнеризированные).


Запрос 2 — для начинающих (overall-rewriting):

Упрости этот текст. Политика: меняй и слова, и структуру, 
дели длинные предложения, удаляй технические детали.

[тот же текст]

Результат (ожидаемый): Модель разобьёт на 2-3 предложения, заменит "контейнеризированные приложения" → "программы в контейнерах", упростит структуру, возможно уберёт "декларативной конфигурации" → просто "настроек".

🧠

Почему это работает

Слабость LLM: Модели игнорируют нюансы абстрактных инструкций типа "упрости". Они не понимают СКОЛЬКО упрощать и КАКОЙ ТИП правок нужен. GPT-4o делает примерно одинаковое упрощение независимо от того, попросили "деликатно" или "агрессивно" — потому что инструкция размытая.

Сильная сторона LLM: Модели отлично следуют конкретным ограничениям при явном перечислении: "замени слова, НЕ меняй структуру" → модель понимает границы. Это как разница между "сделай красиво" (непонятно) и "используй только синий и белый, без градиентов" (чётко).

Как метод использует это: Вместо общей инструкции даётся спецификация политики: - Что МОЖНО менять (слова / слова + структура) - Что НЕЛЬЗЯ (удалять детали / менять структуру) - Приоритет (сохранить смысл > упростить / упростить > сохранить детали)

Это превращает размытую задачу в constraint satisfaction problem — модель хороша в таких задачах.

Рычаги управления (что можно менять в промпте):

  1. Набор разрешённых операций:

    • Minimal: "только замена слов"
    • Moderate: "замена слов + разбивка предложений"
    • Maximal: "замена + разбивка + удаление деталей"
  2. Приоритет при конфликте:

    • "Если упрощение вредит смыслу — пропусти" (консервативно)
    • "Жертвуй деталями ради простоты" (агрессивно)
  3. Целевая аудитория (вместо абстрактной политики):

    • "Для читателя с уровнем B1 английского"
    • "Для школьника 7 класса"
    • "Для человека с дислексией"

    Модель лучше понимает аудиторию, чем абстрактные термины "lexical-paraphrasing".

📋

Шаблоны промптов

📌

Шаблон 1: Lexical-paraphrasing (деликатное упрощение)

Упрости этот текст по следующей политике:

РАЗРЕШЕНО:
- Замена сложных слов на простые синонимы
- Замена редких терминов на общеупотребительные

ЗАПРЕЩЕНО:
- Менять структуру предложений
- Делить предложения на части
- Удалять детали или информацию

Целевая аудитория: {описание аудитории}

Текст:
{текст}

Выведи только упрощённую версию.

Подставь: - {описание аудитории} — "продвинутые изучающие русский", "специалисты смежной области", "читатели с дислексией" - {текст} — твой текст


📌

Шаблон 2: Overall-rewriting (полная переработка)

Упрости этот текст по следующей политике:

РАЗРЕШЕНО:
- Замена сложных слов на простые
- Изменение структуры предложений
- Разбивка длинных предложений на короткие
- Удаление второстепенных деталей

ПРИОРИТЕТ: Простота и понятность выше полноты деталей.

Целевая аудитория: {описание аудитории}

Текст:
{текст}

Выведи только упрощённую версию.

Подставь: - {описание аудитории} — "начинающие изучающие русский", "школьники 5-6 класса", "люди без технического бэкграунда" - {текст} — твой текст


📌

Шаблон 3: Multi-candidate с оценкой (два запроса)

Запрос 1:

Создай 3 варианта упрощения этого текста.
Политика: {политика из шаблона 1 или 2}

Текст:
{текст}

Выведи три варианта с нумерацией.

Запрос 2 (скопируй результат из первого запроса):

Вот 3 варианта упрощения.

{результат из запроса 1}

Оцени каждый вариант по двум критериям:
1. LEXICAL: Качество замен слов (сложное→простое, сохранён смысл?)
2. STRUCTURAL: Качество структуры (читаемость, нет ненужных усложнений?)

Выбери лучший вариант согласно политике: {политика}.
Объясни выбор.
⚠️

Ограничения

⚠️ Требует явной спецификации: Принцип работает только если ты сам понимаешь какая политика нужна. Если не знаешь "консервативно или агрессивно" — принцип не поможет выбрать.

⚠️ Качество зависит от модели: Исследование показало, что GPT-4o плохо чувствителен к нюансам политики — делает примерно одинаково независимо от инструкции. Маленькие специализированные модели (обученные на preference data) были лучше, но в чате доступна только GPT-4o/Claude. Claude может быть более чувствительна к explicit constraints.

⚠️ Узкая применимость: Полезно только для задач text simplification — адаптация образовательного контента, документации, инструкций. Для общей работы с текстом принцип избыточен.

⚠️ Multi-candidate = больше токенов: Генерация 3 вариантов + оценка = в 4-5 раз дороже по токенам чем одна генерация.

🔗

Ресурсы

Policy-based Sentence Simplification: Replacing Parallel Corpora with LLM-as-a-Judge Исследование про обучение моделей упрощению текста через предпочтения, генерируемые LLM-судьёй с reasoning. Сравнение двух политик редактирования (lexical vs overall), автоматическая генерация preference data.

Xuanxin Wu (Osaka University), Yuki Arase (Institute of Science Tokyo), Masaaki Nagata (NTT Inc.)


📋 Дайджест исследования

Ключевая суть

LLM плохо понимает размытые инструкции типа «упрости текст» — то меняет только пару слов, то переписывает всё. Причина: модель не знает СКОЛЬКО упрощать и КАКИЕ правки разрешены. Метод позволяет управлять типом редактирования через явную политику: «только замена слов, структуру не трогай» или «меняй всё — слова, структуру, дели предложения». Фишка: превращаешь размытую задачу в список ограничений — модель понимает границы. Вместо «сделай проще» → «разрешено: замена слов; запрещено: менять структуру».

Принцип работы

Размытая инструкция → модель сама решает что упрощать. Явная политика → модель следует ограничениям. Две политики под разные задачи: Лексическая (lexical) — только замена сложных слов на простые, структура предложения остаётся (для продвинутых читателей). Полная переработка (overall) — меняй и слова, и структуру, дели длинные предложения, удаляй детали (для начинающих). Это как переключатель между деликатной правкой и полной перестройкой.

Почему работает

LLM плохи в интерпретации нюансов абстрактных инструкций. GPT-4o делает примерно одинаковое упрощение независимо от того, попросили «деликатно» или «агрессивно» — потому что не понимает разницы. Но модели отлично следуют конкретным ограничениям: «замени слова, НЕ меняй структуру» → чёткие границы. Явная политика превращает размытую задачу в constraint satisfaction problem — тут модели сильны. Исследование показало: маленькие специализированные модели (Phi-3-mini-3.8B) после обучения на таких политиках превзошли GPT-4o в лексическом упрощении — парадокс, но объяснимый: они видели явные примеры каждой политики.

Когда применять

Упрощение текста для разной аудитории → конкретно для образовательного контента, технической документации, инструкций, особенно когда нужна разная степень упрощения для продвинутых (только слова) vs начинающих (всё). НЕ подходит для общей редактуры или улучшения текста — там политики размыты.

Мини-рецепт

1. Определи аудиторию: продвинутые читатели → лексическая политика, начинающие → полная переработка.
2. Укажи политику явно: не упрости текст, а Политика: замена сложных слов на простые синонимы, сохраняй структуру предложений. Запрещено: делить предложения, удалять детали.
3. Добавь целевую аудиторию: Для читателя с уровнем B1 английского или Для школьника 7 класса — модель лучше понимает аудиторию чем абстрактные термины.
4. Опционально — multi-candidate: Создай 3 варианта упрощения → потом Оцени каждый по качеству замен слов и структуры, выбери лучший.

Примеры

[ПЛОХО] : Упрости этот текст: «Kubernetes оркестрирует контейнеризированные приложения, автоматизируя deployment посредством декларативной конфигурации» (модель сама решает что менять)
[ХОРОШО] : Упрости этот текст. Политика: только замена сложных слов на простые синонимы, сохраняй структуру предложения. Целевая аудитория: продвинутые изучающие IT-термины. Текст: «Kubernetes оркестрирует контейнеризированные приложения, автоматизируя deployment посредством декларативной конфигурации» (модель заменит «оркестрирует» → «управляет», «посредством» → «через», но сохранит термины и структуру)
Источник: Policy-based Sentence Simplification: Replacing Parallel Corpora with LLM-as-a-Judge
ArXiv ID: 2512.06228 | Сгенерировано: 2026-01-09 00:08
📖 Простыми словами

Explicit Policy для упрощения текста: два режима работы LLM

arXiv: 2512.06228

Суть в том, что современные нейронки при всей своей крутости — жуткие лентяи, когда дело касается правок. Если ты просишь модель просто «упростить текст», она выдает некий средний результат, который ни туда ни сюда. Проблема в размытости инструкций: для AI «упрости» — это пустой звук, он не понимает, нужно ли заменить пару умных слов или переписать всё к чертям, выкинув половину смысла. В итоге GPT-4o или Gemini просто выдают безопасный вариант, который часто вообще не решает задачу пользователя.

Это как зайти в парикмахерскую и сказать: «Сделайте мне покрасивее». Мастер, скорее всего, просто подровняет кончики, чтобы не рисковать, хотя ты, может, хотел ирокез или вообще побриться налысо. Исследователи поняли, что нейронке нужен не просто запрос, а явная политика редактирования. Без четкого «переключателя» в голове модель лажает, потому что пытается угадать твои желания, основываясь на статистике, а не на логике.

Чтобы это исправить, ввели два конкретных режима. Первый — lexical-paraphrasing, это когда мы меняем только сложные термины на простые синонимы, но не трогаем скелет предложения. Второй — overall-rewriting, когда модели разрешают кромсать структуру, объединять фразы и выбрасывать лишние детали. Это работает, потому что мы убираем неопределенность: теперь AI точно знает, какой инструмент брать в руки — скальпель для точечных правок или кувалду для полной перестройки.

Хотя метод тестировали на упрощении текстов, принцип универсален для любого взаимодействия с LLM. Это касается написания кода, редактуры статей или создания отчетов. Если ты не задаешь жесткие рамки стиля, модель всегда будет скатываться в «среднюю температуру по больнице». Вместо того чтобы надеяться на интеллект машины, нужно самому выступать в роли строгого судьи, который диктует правила игры еще до начала генерации.

Короче: хватит кормить нейронку абстрактными просьбами в духе «сделай лучше». Если хочешь предсказуемый результат, внедряй конкретные политики правок прямо в промпт. Либо ты четко ограничиваешь модель в методах, либо получаешь унылый текст, который формально упрощен, но по факту бесполезен. Кто научится управлять этими «переключателями», тот и получит от AI максимум, пока остальные жалуются на посредственные ответы.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с