3,583 papers
arXiv:2601.19410 72 27 янв. 2026 г. FREE

Длинный контекст в APE: когда больше контекста не значит лучше

КЛЮЧЕВАЯ СУТЬ
Загрузил в промпт весь документ вместо одного предложения? Заплатил в 43 раза больше, а качество не выросло. Исследование показывает: для задач исправления ошибок (редактура, пост-обработка переводов) sentence-level подход эффективнее document-levelproprietary модели (GPT-4o) игнорируют длинный контекст, open-weight (LLaMA3, Qwen) захлёбываются и галлюцинируют. Метод позволяет понять когда полный документ в промпте оправдан, а когда это просто слив бюджета. Механика провала: GPT-4o редактирует предложение одинаково — есть контекст или нет, а LLaMA3-8B на длинных документах в 50-65% случаев выдаёт TER > 100 (полная перезапись или вставка фраз из других частей текста).
Адаптировать под запрос

TL;DR

Исследование сравнивает два подхода к автоматической пост-редактуре (APE) машинных переводов: по одному предложению (APEseg) и с полным контекстом документа (APEdoc). Задача APE — взять машинный перевод и исправить оставшиеся ошибки, как это делает профессиональный редактор. Тестировали GPT-4o, GPT-4o-mini и open-weight модели (LLaMA3-8B, Qwen2.5-32B) на переводах с английского на корейский.

Главная находка: Proprietary модели (GPT-4o/mini) достигают качества человеческой редактуры даже с простым промптом, но не используют документный контекст для улучшения. APEdoc и APEseg дают почти одинаковое качество — модели игнорируют окружающие предложения. Open-weight модели ещё хуже — длинный контекст их сбивает: они начинают галлюцинировать, вставлять фразы из других частей документа, переписывать перевод полностью. Для длинных документов у LLaMA3-8B показатель TER вырос с 34 до 52 (больше = хуже), а в 50-65% случаев модель вообще выдавала TER > 100 (полная перезапись).

Цена контекста: APEdoc требует +6000% токенов, +4300% стоимости и +147% времени по сравнению с sentence-level подходом (данные для GPT-4o-mini). Для Qwen2.5-32B: +1536% токенов, +1030% времени, но 65% выводов нестабильны (меняется длина при одинаковых настройках). При этом качество не растёт — наивный document-level промптинг экономически нецелесообразен.

📌

Схема исследования

Сравнивали два промпта для APE:

APEseg (sentence-level):

Источник: {предложение}
Перевод: {перевод предложения}
Задача: Отредактируй перевод, исправь ошибки

APEdoc (document-level):

Источник: {предложение}
Перевод: {перевод предложения}
Задача: Отредактируй перевод

Контекст документа:
[весь исходный документ]
[весь переведённый документ]

Оба промпта включали one-shot ICL пример (без него модель плохо следует инструкциям при длинных промптах). Контекст размещали в конце промпта — в начале модель игнорировала задачу и выдавала весь документ целиком.

📌

Почему это важно

Слабость LLM: Модели не умеют автоматически выделять релевантный контекст из длинного документа. Когда даёшь 500+ предложений, модель либо игнорирует контекст (proprietary), либо захлёбывается в нём (open-weight) — начинает копировать случайные фразы из других частей текста.

Три механизма провала:

  1. Proprietary модели (GPT-4o/mini): Устойчивы к шуму в контексте, но слишком устойчивы — игнорируют даже полезную информацию. Редактируют предложение так же, как если бы контекста не было вообще. Робастность превратилась в глухоту.

  2. Open-weight модели (LLaMA3, Qwen2.5): Уязвимы к data poisoning — длинный контекст с мусором сбивает модель с курса. Она путает задачу, галлюцинирует, вставляет чужие фразы. Для LLaMA3-8B: в 50% случаев на длинных документах TER > 100 (полная перезапись или бред). Причина: недостаточная фильтрация контекста — модель не понимает что важно, а что шум.

  3. Экономика контекста: Чтобы дать документ в промпт, нужно загрузить тысячи токенов. Для GPT-4o-mini один документ = 15,696 токенов vs 284 токена для sentence-level. При этом качество не растёт. Ты платишь в 43 раза больше за тот же результат.

Рычаги управления:

  • Объём контекста: Полный документ vs только предложение → Для APE задач sentence-level эффективнее
  • Позиция контекста: Начало vs конец промпта → Конец лучше (в начале модель может проигнорировать задачу)
  • ICL пример: С ним vs без → Критически важен для длинных промптов (без него модель не следует инструкциям)
  • Длина документа: Короткий vs длинный → На коротких даже слабые модели справляются, на длинных (500+ предложений) — коллапс

Метрики обманывают: BLEU/ChrF падают сильно (до -44 для LLaMA3), но COMET почти не меняется (-0.02 до -0.27). Это значит модель переписывает текст синонимами, не меняя смысла. Но когда модель галлюцинирует, COMET всё равно даёт 0.78 — метрика не ловит семантический дрейф. Human evaluation показала: APEseg и APEdoc статистически неразличимы, обе близки к человеческой редактуре.

📌

Применимые принципы

⚖️

1. Sentence-level vs Document-level для редактуры

Контекст: Когда редактируешь текст (перевод, черновик, генерацию AI) — что загружать в промпт?

Принцип: Для задач исправления ошибок (не связности!) sentence-level эффективнее: - Меньше токенов → дешевле и быстрее - Модель фокусируется на задаче → меньше шансов сбиться - Качество то же (подтверждено human eval)

Когда нужен документ целиком: - Проверка связности между частями (анафора, местоимения, повторы) - Единство стиля/тона (формальный vs casual) - Фактическая согласованность (имена, даты, термины должны совпадать)

Для остального: Бей по предложениям. Экономия в 40-60 раз по токенам.

📋

2. Placement контекста в промпте

Принцип: Контекст в конец, инструкция в начало.

Почему: - Контекст в начале → модель думает задача = пересказать/скопировать документ - Контекст в конце → модель сначала читает что делать, потом смотрит на вспомогательный материал

Применение:

Задача: [что делать с ЭТИМ объектом]
Объект: [предложение/текст для работы]

Дополнительный контекст:
[справочная информация]
📋

3. ICL для длинных промптов

Принцип: Когда промпт > 1000 токенов, one-shot пример критичен для соблюдения инструкций.

Без примера модель может: - Проигнорировать часть инструкций - Сбиться на другую задачу - Выдать неправильный формат вывода

Применение: Перед длинным списком/документом покажи один полный цикл задачи:

Вот как нужно работать:
Вход: [пример]
Выход: [твой желаемый формат]

Теперь твоя задача:
Вход: [реальные данные]
Выход: ?
📌

4. Когда контекст вредит

Принцип: Open-weight модели уязвимы к большому шумному контексту — начинают копировать случайные фрагменты, галлюцинировать.

Как проявляется: - Ответ становится длиннее и избыточнее - Появляются фразы не относящиеся к задаче - Модель "забывает" что делает и начинает пересказывать контекст

Что делать: - Фильтруй контекст — давай только релевантное - Для слабых моделей лучше дать меньше, но точнее - Proprietary модели устойчивее, но тоже могут игнорировать контекст

Индикатор проблемы: Если модель при добавлении контекста начинает давать совсем другие ответы (не улучшения, а другую логику) — это data poisoning.

⚠️

Ограничения

⚠️ Узкая задача: Исследование про post-editing машинных переводов En-Ko. Принципы применимы шире, но данные специфичны.

⚠️ Метрики не ловят галлюцинации: COMET даёт высокий балл (0.78) даже когда модель вставляет фразы из другого места документа. Для критических задач нужна ручная проверка.

⚠️ Стоимость замеров: Цифры по токенам/стоимости для конкретных моделей и языковой пары, но тренд (x40-60 дороже для document-level) универсален.

⚠️ Proprietary модели игнорируют контекст: GPT-4o/mini не используют документный контекст для contextual error correction (анафора, согласование времён). Для таких задач нужны другие подходы.

🔗

Ресурсы

Do LLMs Truly Benefit from Longer Context in Automatic Post-Editing? WMT24++ dataset (Deutsch et al., 2025) Ahrii Kim, Seong-heum Kim Soongsil University, AI-Bio Convergence Research Institute


📋 Дайджест исследования

Ключевая суть

Загрузил в промпт весь документ вместо одного предложения? Заплатил в 43 раза больше, а качество не выросло. Исследование показывает: для задач исправления ошибок (редактура, пост-обработка переводов) sentence-level подход эффективнее document-levelproprietary модели (GPT-4o) игнорируют длинный контекст, open-weight (LLaMA3, Qwen) захлёбываются и галлюцинируют. Метод позволяет понять когда полный документ в промпте оправдан, а когда это просто слив бюджета. Механика провала: GPT-4o редактирует предложение одинаково — есть контекст или нет, а LLaMA3-8B на длинных документах в 50-65% случаев выдаёт TER > 100 (полная перезапись или вставка фраз из других частей текста).

Принцип работы

Не грузи весь документ если задача = исправить ошибки. Document-level нужен для связности (анафора, местоимения, единство стиля), но для точечных правок ты платишь +6000% токенов за нулевой прирост качества. Sentence-level для исправлений — document-level для связности. Если уж грузишь контекст: инструкция в начало, контекст в конец (иначе модель думает что задача = пересказать документ). Для промптов > 1000 токенов добавь one-shot пример — без него модель плохо следует инструкциям.

Почему работает

Три механизма провала документного контекста. Proprietary модели (GPT-4o/mini): Устойчивы к шуму — настолько что игнорируют даже полезный контекст. Редактируют так же как будто документа нет. Робастность превратилась в глухоту. Open-weight модели (LLaMA3, Qwen2.5): Уязвимы к data poisoning — длинный контекст с мусором сбивает с курса. Для LLaMA3-8B на документах 500+ предложений: в 50% случаев TER > 100 (модель вставляет фразы из других частей или галлюцинирует). Недостаточная фильтрация контекста — модель не понимает что важно, что шум. Экономика: Один документ для GPT-4o-mini = 15,696 токенов vs 284 для sentence-level. +4300% стоимости, +147% времени, качество не растёт. Ты платишь в 43 раза больше за тот же результат.

Когда применять

Редактура текстов (переводы, AI-генерация, черновики) → Sentence-level когда задача = исправить ошибки (грамматика, точность, фактчекинг). Document-level когда нужна связность между частями: проверка анафоры (местоимения, отсылки), единство стиля/тона, согласованность терминов/имён/дат. Не используй document-level для точечных правок — экономия в 40-60 раз по токенам при том же качестве.

Мини-рецепт

1. Определи тип задачи: Исправление ошибок (sentence-level) vs проверка связности (document-level)
2. Если sentence-level: Бей текст на предложения, редактируй по одному. Инструкция: Исправь ошибки в этом предложении: [текст]
3. Если нужен контекст: Помести его в конец промпта после инструкции и объекта работы. Структура: Задача → Объект → Дополнительный контекст
4. Для промптов > 1000 токенов: Добавь one-shot пример перед задачей — покажи полный цикл (вход → желаемый выход)
5. Для open-weight моделей: Фильтруй контекст жёстко — давай только релевантное, иначе модель захлебнётся и начнёт копировать случайные фразы

Примеры

[ПЛОХО] : Вот перевод статьи на 500 предложений [весь документ]. Отредактируй предложение №247: [текст]. Контекст: [весь исходник + весь перевод]
[ХОРОШО] : Отредактируй перевод этого предложения, исправь ошибки: Источник: The company announced quarterly results Перевод: 회사는 분기 결과를 발표했습니다 Контекст (если нужна связность): Предыдущее: CEO stepped down last month Перевод предыдущего: CEO는 지난달 사임했습니다 — даёшь только соседние предложения, не весь документ
Источник: Do LLMs Truly Benefit from Longer Context in Automatic Post-Editing?
ArXiv ID: 2601.19410 | Сгенерировано: 2026-01-28 05:35

Концепты не выделены.

📖 Простыми словами

DoLLMsTruly Benefit from Longer Context in Automatic Post-Editing?

arXiv: 2601.19410

Вся индустрия переводов сейчас помешана на длинном контексте: мол, чем больше текста мы скормим нейронке, тем лучше она поймет нюансы и исправит ошибки. Исследователи решили проверить эту догму на задаче автоматической пост-редактуры (APE) — это когда AI берет корявый машинный перевод и доводит его до ума. Сравнивали два подхода: APEseg, где модель мучает каждое предложение по отдельности, и APEdoc, где ей дают весь документ целиком. Тестировали тяжеловесов вроде GPT-4o и модели попроще типа Qwen2.5-32B, надеясь, что широкий контекст станет той самой «волшебной таблеткой» для качества.

На деле же вера в длинный контекст — это как попытка прочитать лекцию студенту, пока он пытается собрать кубик Рубика. Ты думаешь, что помогаешь ему видеть картину целиком, а на самом деле просто забиваешь ему голову лишним шумом. Модель начинает путаться в деталях, теряет фокус на конкретных словах и в итоге выдает результат хуже, чем если бы она работала с одним коротким предложением. Больше данных не равно больше ума, чаще это просто больше поводов для галлюцинаций и лени.

Цифры подтверждают этот облом: APEseg (посегментная правка) стабильно обходит контекстный подход. Оказалось, что даже топовые модели вроде GPT-4o не умеют эффективно использовать гору текста для исправления мелких косяков перевода. Вместо того чтобы филигранно править стиль, они начинают «плыть» и пропускать элементарные ошибки. В итоге локальный фокус выигрывает у глобального видения просто потому, что нейронка не захлебывается в объеме информации.

Этот принцип универсален и касается не только перевода с английского на корейский. Это работает везде, где мы пытаемся заставить LLM делать микро-правки в макро-объеме. Будь то рефакторинг кода, редактура статьи или проверка юридического договора — если ты засунешь в промпт слишком много «фона», модель с большой вероятностью пропустит важную запятую или изменит смысл фразы. Эффект длинного контекста часто оказывается маркетинговым мифом, который разбивается о суровую реальность вычислительной деградации.

Короче, не пытайся скормить нейронке «Войну и мир», если тебе нужно просто исправить опечатки. Посегментная обработка до сих пор остается королем качества, а длинный контекст в его нынешнем виде — это скорее обуза, чем преимущество. Если хочешь чистый результат без мусора, дроби задачу на части. Пока разработчики не научат модели реально понимать связи в огромных массивах данных, стратегия «разделяй и властвуй» будет приносить больше пользы, чем любая попытка запихнуть невпихуемое.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с