TL;DR
Исследование показывает, как явное указание политики упрощения в промпте меняет поведение LLM. Вместо абстрактного "упрости текст" можно указать конкретный тип редактирования: lexical-paraphrasing (только замена сложных слов, структура остаётся) или overall-rewriting (меняй и слова, и структуру, можно удалять детали). Это как переключатель между "деликатная правка" и "полная переработка".
Проблема: LLM без явных указаний делают упрощение "как придётся" — то консервативно (мало правок), то агрессивно (меняют всё). Особенно это заметно на задачах для разной аудитории: продвинутым ученикам нужна только замена сложных слов (чтобы учить новые), начинающим — полная переработка с упрощением структуры. GPT-4o хорош в общем упрощении, но не чувствителен к нюансам политики — делает примерно одно и то же независимо от инструкции.
Авторы создали систему обучения моделей через LLM-as-a-Judge с reasoning: судья-модель оценивает варианты упрощения по лексическим и структурным критериям отдельно, затем выбирает лучший/худший для обучения. Маленькие модели (Phi-3-mini-3.8B) после обучения превзошли GPT-4o на задачах лексического упрощения и сравнялись на общем.
Схема метода (как исследовали)
Это research pipeline, не техника для чата:
ШАГ 1: Генерация кандидатов
4 разные LLM создают варианты упрощения одного предложения → 4 кандидата
ШАГ 2: LLM-as-a-Judge с reasoning
Qwen3-32B в режиме think оценивает каждого кандидата:
- Lexical aspect (качество замен слов)
- Structural aspect (качество изменений структуры)
- Overall (комбинация)
Выбирает preferred/dispreferred пару
ШАГ 3: Preference Optimization
Обучение модели на 8k preference triplets через ARPO
(Adaptive Rejection Preference Optimization)
→ Модель учится различать хорошее/плохое упрощение под каждую политику
Требует: Python, GPU, preference optimization framework — не для чата.
Extractable Principles
Хотя сама система требует код, из неё можно извлечь три принципа для ручной работы в чате:
1. Explicit Policy Specification
Суть: Вместо "упрости текст" — укажи ЧТО именно менять.
Два режима:
Lexical-paraphrasing (деликатный): - Замени сложные слова на простые синонимы - Сохрани структуру предложения - Не удаляй детали, не дели на части
Overall-rewriting (агрессивный): - Меняй и слова, и структуру - Дели длинные предложения - Можно удалить второстепенные детали ради простоты
Применение в чате:
Вместо:
"Упрости этот текст"
Пиши:
"Упрости этот текст. Политика: только замена сложных слов
на простые синонимы, сохраняй структуру предложений."
Или:
"Упрости этот текст. Политика: меняй и слова, и структуру,
дели длинные предложения, удаляй второстепенные детали."
2. Multi-Aspect Evaluation
Суть: Оценивай упрощение по двум аспектам отдельно, потом комбинируй.
Два аспекта: - Lexical: качество замен слов (сложное → простое, сохранён смысл?) - Structural: качество изменений структуры (разбивка, перестановки, удаления)
Применение в чате:
После генерации упрощения:
"Оцени это упрощение по двум критериям:
1. LEXICAL: Все ли сложные слова заменены на простые?
Сохранён ли смысл? Не заменены ли уже простые слова?
2. STRUCTURAL: Улучшилась ли читаемость структуры?
Есть ли ненужные усложнения?
Потом дай общую оценку."
3. Multi-Candidate Selection
Суть: Сгенерируй несколько вариантов упрощения, потом выбери лучший по критериям.
Применение в чате:
ШАГ 1 (один запрос):
"Создай 3 варианта упрощения этого предложения.
Политика: {твоя политика}"
ШАГ 2 (второй запрос):
"Какой из этих трёх вариантов лучше всего соответствует политике?
Оцени каждый по lexical и structural аспектам, выбери лучший."
Пример применения
Задача: Упростить фрагмент tech-статьи для разных аудиторий.
Исходный текст:
Kubernetes оркестрирует контейнеризированные приложения,
автоматизируя deployment, масштабирование и управление
распределёнными системами посредством декларативной конфигурации.
Запрос 1 — для продвинутых (lexical-paraphrasing):
Упрости этот текст. Политика: только замена сложных слов
на простые синонимы, сохраняй структуру предложения.
[текст выше]
Результат (ожидаемый): Модель заменит "оркестрирует" → "управляет", "декларативной" → "описательной", "посредством" → "через", но сохранит структуру и термины (Kubernetes, deployment, контейнеризированные).
Запрос 2 — для начинающих (overall-rewriting):
Упрости этот текст. Политика: меняй и слова, и структуру,
дели длинные предложения, удаляй технические детали.
[тот же текст]
Результат (ожидаемый): Модель разобьёт на 2-3 предложения, заменит "контейнеризированные приложения" → "программы в контейнерах", упростит структуру, возможно уберёт "декларативной конфигурации" → просто "настроек".
Почему это работает
Слабость LLM: Модели игнорируют нюансы абстрактных инструкций типа "упрости". Они не понимают СКОЛЬКО упрощать и КАКОЙ ТИП правок нужен. GPT-4o делает примерно одинаковое упрощение независимо от того, попросили "деликатно" или "агрессивно" — потому что инструкция размытая.
Сильная сторона LLM: Модели отлично следуют конкретным ограничениям при явном перечислении: "замени слова, НЕ меняй структуру" → модель понимает границы. Это как разница между "сделай красиво" (непонятно) и "используй только синий и белый, без градиентов" (чётко).
Как метод использует это: Вместо общей инструкции даётся спецификация политики: - Что МОЖНО менять (слова / слова + структура) - Что НЕЛЬЗЯ (удалять детали / менять структуру) - Приоритет (сохранить смысл > упростить / упростить > сохранить детали)
Это превращает размытую задачу в constraint satisfaction problem — модель хороша в таких задачах.
Рычаги управления (что можно менять в промпте):
Набор разрешённых операций:
- Minimal: "только замена слов"
- Moderate: "замена слов + разбивка предложений"
- Maximal: "замена + разбивка + удаление деталей"
Приоритет при конфликте:
- "Если упрощение вредит смыслу — пропусти" (консервативно)
- "Жертвуй деталями ради простоты" (агрессивно)
Целевая аудитория (вместо абстрактной политики):
- "Для читателя с уровнем B1 английского"
- "Для школьника 7 класса"
- "Для человека с дислексией"
Модель лучше понимает аудиторию, чем абстрактные термины "lexical-paraphrasing".
Шаблоны промптов
Шаблон 1: Lexical-paraphrasing (деликатное упрощение)
Упрости этот текст по следующей политике:
РАЗРЕШЕНО:
- Замена сложных слов на простые синонимы
- Замена редких терминов на общеупотребительные
ЗАПРЕЩЕНО:
- Менять структуру предложений
- Делить предложения на части
- Удалять детали или информацию
Целевая аудитория: {описание аудитории}
Текст:
{текст}
Выведи только упрощённую версию.
Подставь:
- {описание аудитории} — "продвинутые изучающие русский", "специалисты смежной области", "читатели с дислексией"
- {текст} — твой текст
Шаблон 2: Overall-rewriting (полная переработка)
Упрости этот текст по следующей политике:
РАЗРЕШЕНО:
- Замена сложных слов на простые
- Изменение структуры предложений
- Разбивка длинных предложений на короткие
- Удаление второстепенных деталей
ПРИОРИТЕТ: Простота и понятность выше полноты деталей.
Целевая аудитория: {описание аудитории}
Текст:
{текст}
Выведи только упрощённую версию.
Подставь:
- {описание аудитории} — "начинающие изучающие русский", "школьники 5-6 класса", "люди без технического бэкграунда"
- {текст} — твой текст
Шаблон 3: Multi-candidate с оценкой (два запроса)
Запрос 1:
Создай 3 варианта упрощения этого текста.
Политика: {политика из шаблона 1 или 2}
Текст:
{текст}
Выведи три варианта с нумерацией.
Запрос 2 (скопируй результат из первого запроса):
Вот 3 варианта упрощения.
{результат из запроса 1}
Оцени каждый вариант по двум критериям:
1. LEXICAL: Качество замен слов (сложное→простое, сохранён смысл?)
2. STRUCTURAL: Качество структуры (читаемость, нет ненужных усложнений?)
Выбери лучший вариант согласно политике: {политика}.
Объясни выбор.
Ограничения
⚠️ Требует явной спецификации: Принцип работает только если ты сам понимаешь какая политика нужна. Если не знаешь "консервативно или агрессивно" — принцип не поможет выбрать.
⚠️ Качество зависит от модели: Исследование показало, что GPT-4o плохо чувствителен к нюансам политики — делает примерно одинаково независимо от инструкции. Маленькие специализированные модели (обученные на preference data) были лучше, но в чате доступна только GPT-4o/Claude. Claude может быть более чувствительна к explicit constraints.
⚠️ Узкая применимость: Полезно только для задач text simplification — адаптация образовательного контента, документации, инструкций. Для общей работы с текстом принцип избыточен.
⚠️ Multi-candidate = больше токенов: Генерация 3 вариантов + оценка = в 4-5 раз дороже по токенам чем одна генерация.
Ресурсы
Policy-based Sentence Simplification: Replacing Parallel Corpora with LLM-as-a-Judge Исследование про обучение моделей упрощению текста через предпочтения, генерируемые LLM-судьёй с reasoning. Сравнение двух политик редактирования (lexical vs overall), автоматическая генерация preference data.
Xuanxin Wu (Osaka University), Yuki Arase (Institute of Science Tokyo), Masaaki Nagata (NTT Inc.)
