TL;DR
Исследование сравнивает два подхода к автоматической пост-редактуре (APE) машинных переводов: по одному предложению (APEseg) и с полным контекстом документа (APEdoc). Задача APE — взять машинный перевод и исправить оставшиеся ошибки, как это делает профессиональный редактор. Тестировали GPT-4o, GPT-4o-mini и open-weight модели (LLaMA3-8B, Qwen2.5-32B) на переводах с английского на корейский.
Главная находка: Proprietary модели (GPT-4o/mini) достигают качества человеческой редактуры даже с простым промптом, но не используют документный контекст для улучшения. APEdoc и APEseg дают почти одинаковое качество — модели игнорируют окружающие предложения. Open-weight модели ещё хуже — длинный контекст их сбивает: они начинают галлюцинировать, вставлять фразы из других частей документа, переписывать перевод полностью. Для длинных документов у LLaMA3-8B показатель TER вырос с 34 до 52 (больше = хуже), а в 50-65% случаев модель вообще выдавала TER > 100 (полная перезапись).
Цена контекста: APEdoc требует +6000% токенов, +4300% стоимости и +147% времени по сравнению с sentence-level подходом (данные для GPT-4o-mini). Для Qwen2.5-32B: +1536% токенов, +1030% времени, но 65% выводов нестабильны (меняется длина при одинаковых настройках). При этом качество не растёт — наивный document-level промптинг экономически нецелесообразен.
Схема исследования
Сравнивали два промпта для APE:
APEseg (sentence-level):
Источник: {предложение}
Перевод: {перевод предложения}
Задача: Отредактируй перевод, исправь ошибки
APEdoc (document-level):
Источник: {предложение}
Перевод: {перевод предложения}
Задача: Отредактируй перевод
Контекст документа:
[весь исходный документ]
[весь переведённый документ]
Оба промпта включали one-shot ICL пример (без него модель плохо следует инструкциям при длинных промптах). Контекст размещали в конце промпта — в начале модель игнорировала задачу и выдавала весь документ целиком.
Почему это важно
Слабость LLM: Модели не умеют автоматически выделять релевантный контекст из длинного документа. Когда даёшь 500+ предложений, модель либо игнорирует контекст (proprietary), либо захлёбывается в нём (open-weight) — начинает копировать случайные фразы из других частей текста.
Три механизма провала:
Proprietary модели (GPT-4o/mini): Устойчивы к шуму в контексте, но слишком устойчивы — игнорируют даже полезную информацию. Редактируют предложение так же, как если бы контекста не было вообще. Робастность превратилась в глухоту.
Open-weight модели (LLaMA3, Qwen2.5): Уязвимы к data poisoning — длинный контекст с мусором сбивает модель с курса. Она путает задачу, галлюцинирует, вставляет чужие фразы. Для LLaMA3-8B: в 50% случаев на длинных документах TER > 100 (полная перезапись или бред). Причина: недостаточная фильтрация контекста — модель не понимает что важно, а что шум.
Экономика контекста: Чтобы дать документ в промпт, нужно загрузить тысячи токенов. Для GPT-4o-mini один документ = 15,696 токенов vs 284 токена для sentence-level. При этом качество не растёт. Ты платишь в 43 раза больше за тот же результат.
Рычаги управления:
- Объём контекста: Полный документ vs только предложение → Для APE задач sentence-level эффективнее
- Позиция контекста: Начало vs конец промпта → Конец лучше (в начале модель может проигнорировать задачу)
- ICL пример: С ним vs без → Критически важен для длинных промптов (без него модель не следует инструкциям)
- Длина документа: Короткий vs длинный → На коротких даже слабые модели справляются, на длинных (500+ предложений) — коллапс
Метрики обманывают: BLEU/ChrF падают сильно (до -44 для LLaMA3), но COMET почти не меняется (-0.02 до -0.27). Это значит модель переписывает текст синонимами, не меняя смысла. Но когда модель галлюцинирует, COMET всё равно даёт 0.78 — метрика не ловит семантический дрейф. Human evaluation показала: APEseg и APEdoc статистически неразличимы, обе близки к человеческой редактуре.
Применимые принципы
1. Sentence-level vs Document-level для редактуры
Контекст: Когда редактируешь текст (перевод, черновик, генерацию AI) — что загружать в промпт?
Принцип: Для задач исправления ошибок (не связности!) sentence-level эффективнее: - Меньше токенов → дешевле и быстрее - Модель фокусируется на задаче → меньше шансов сбиться - Качество то же (подтверждено human eval)
Когда нужен документ целиком: - Проверка связности между частями (анафора, местоимения, повторы) - Единство стиля/тона (формальный vs casual) - Фактическая согласованность (имена, даты, термины должны совпадать)
Для остального: Бей по предложениям. Экономия в 40-60 раз по токенам.
2. Placement контекста в промпте
Принцип: Контекст в конец, инструкция в начало.
Почему: - Контекст в начале → модель думает задача = пересказать/скопировать документ - Контекст в конце → модель сначала читает что делать, потом смотрит на вспомогательный материал
Применение:
Задача: [что делать с ЭТИМ объектом]
Объект: [предложение/текст для работы]
Дополнительный контекст:
[справочная информация]
3. ICL для длинных промптов
Принцип: Когда промпт > 1000 токенов, one-shot пример критичен для соблюдения инструкций.
Без примера модель может: - Проигнорировать часть инструкций - Сбиться на другую задачу - Выдать неправильный формат вывода
Применение: Перед длинным списком/документом покажи один полный цикл задачи:
Вот как нужно работать:
Вход: [пример]
Выход: [твой желаемый формат]
Теперь твоя задача:
Вход: [реальные данные]
Выход: ?
4. Когда контекст вредит
Принцип: Open-weight модели уязвимы к большому шумному контексту — начинают копировать случайные фрагменты, галлюцинировать.
Как проявляется: - Ответ становится длиннее и избыточнее - Появляются фразы не относящиеся к задаче - Модель "забывает" что делает и начинает пересказывать контекст
Что делать: - Фильтруй контекст — давай только релевантное - Для слабых моделей лучше дать меньше, но точнее - Proprietary модели устойчивее, но тоже могут игнорировать контекст
Индикатор проблемы: Если модель при добавлении контекста начинает давать совсем другие ответы (не улучшения, а другую логику) — это data poisoning.
Ограничения
⚠️ Узкая задача: Исследование про post-editing машинных переводов En-Ko. Принципы применимы шире, но данные специфичны.
⚠️ Метрики не ловят галлюцинации: COMET даёт высокий балл (0.78) даже когда модель вставляет фразы из другого места документа. Для критических задач нужна ручная проверка.
⚠️ Стоимость замеров: Цифры по токенам/стоимости для конкретных моделей и языковой пары, но тренд (x40-60 дороже для document-level) универсален.
⚠️ Proprietary модели игнорируют контекст: GPT-4o/mini не используют документный контекст для contextual error correction (анафора, согласование времён). Для таких задач нужны другие подходы.
Ресурсы
Do LLMs Truly Benefit from Longer Context in Automatic Post-Editing? WMT24++ dataset (Deutsch et al., 2025) Ahrii Kim, Seong-heum Kim Soongsil University, AI-Bio Convergence Research Institute
