3,583 papers
arXiv:2512.17738 73 19 дек. 2025 г. FREE

Guideline-aware Translation: явные инструкции для перевода нестандартного контента

КЛЮЧЕВАЯ СУТЬ
LLM не знает, как переводить пользовательский контент (посты, комментарии): исправлять "ааааа спасибооо" в нейтральное "а, спасибо" или сохранить эмоцию? Скопировать хештег #WorldCup или перевести в #ЧемпионатМира? По умолчанию модель угадывает — Gemma нормализует всё подчистую, LLaMA блокирует мат, Tower игнорит детальные инструкции. Guideline-aware Translation позволяет явно указать LLM правила обработки каждого нестандартного элемента (ошибки, сленг, эмодзи, капс, мат, хештеги). Фишка: пропиши 5-7 правил в промпте — модель перестаёт угадывать твои ожидания. Исследование выделило 12 типов явлений + 5 возможных действий — когда инструкции совпадают со стилем задачи, оценка перевода растёт до +9 пунктов (метрика COMET).
Адаптировать под запрос

TL;DR

Guideline-aware Translation — принцип явного указания LLM, как обращаться с нестандартными элементами при переводе пользовательского контента (UGC): ошибками, сленгом, повторениями букв, эмодзи, матом, хештегами. Исследователи проанализировали 4 датасета переводов из соцсетей и форумов, выделили 12 типов нестандартных явлений и 5 возможных действий с ними. Оказалось, что разные датасеты используют противоположные подходы — от "исправить всё" до "сохранить стиль". Без явных инструкций LLM переводит непредсказуемо — может нормализовать, скопировать как есть, пропустить или отказаться переводить.

Проблема: При переводе поста из соцсети LLM сталкивается с дилеммой — исправить "ааааа спасибооо" в "а, спасибо" или сохранить эмоциональность? Перевести "LOL" как "laughing out loud" или оставить/заменить на русский эквивалент "ржу"? Скопировать хештег #WorldCup или перевести в #ЧемпионатМира? По умолчанию модель выбирает сама — и её выбор может не совпадать с вашими ожиданиями. Gemma склонна нормализовать всё, LLaMA отказывается переводить мат, Tower игнорирует детальные инструкции.

Решение: Явно пропиши в промпте правила для каждого типа нестандартного контента — что исправить (NORMALISE), что скопировать (COPY), что адаптировать под язык перевода (TRANSFER), что пропустить (OMIT). Исследование показало: когда инструкции совпадают с ожидаемым стилем, оценки перевода улучшаются до 9 пунктов (по метрике COMET). Модели могут следовать детальным гайдлайнам — но их нужно дать явно.

🔬

Схема метода

ШАГ 1: Определи типы нестандартных явлений в тексте
→ Грамматика, опечатки, повторения букв, капитализация, 
  аббревиатуры, акронимы, хештеги, упоминания @username,
  эмодзи, пунктуация, мат, самоцензура мата (f**k)

ШАГ 2: Выбери действие для каждого типа
→ NORMALISE (исправить), COPY (скопировать), 
  TRANSFER (адаптировать), OMIT (пропустить), CENSOR (смягчить)

ШАГ 3: Добавь правила в промпт перед переводом
→ "Переводи с [язык] на [язык]. При этом: [список правил]"

Всё выполняется в одном промпте.

🚀

Пример применения

Задача: Перевести пост из Twitter про новый продукт Яндекса — нужно сохранить эмоциональность и хештеги, но исправить опечатки.

Промпт:

Переведи с русского на английский. При переводе соблюдай правила:

1. Грамматические и орфографические ошибки — исправь
2. Повторения букв для эмоции (аааа, оооо) — сохрани эквивалент на английском
3. Капитализацию для акцента (ОЧЕНЬ) — сохрани
4. Хештеги — переведи содержание, сохрани формат #
5. @упоминания и эмодзи — скопируй как есть
6. Сленг и аббревиатуры — замени на английский эквивалент

Текст:
"@yandex СПАСИИИИБО за новый поиск!! Это ОЧЕНЬ круто, теперьь всё находится за секунду 🔥 #яндекспоиск #лучшеегугла"

Результат: Модель выдаст перевод с сохранением структуры: исправит "теперьь" → "now", растянет "СПАСИИИИБО" → "THAAANKS", оставит капс в "VERY", переведёт хештеги в #yandexsearch #betterthanGoogle, скопирует @yandex и 🔥 без изменений. Стиль поста останется живым, но читаемость улучшится.

🧠

Почему это работает

LLM не знает, какой стиль вы хотите в переводе. По умолчанию она применяет свою "политику" — Gemma склонна нормализовать всё в стандартный текст, LLaMA блокирует мат, Tower держится своего стиля. Это происходит потому, что модель обучена на разнородных данных — где-то UGC переводили "как есть", где-то исправляли. Без явных указаний она угадывает.

Явные инструкции убирают неопределённость. Когда вы прописываете правила для каждого типа явления, модель следует им как чеклисту. Исследование показало: Gemma-2-9B хорошо выполняет детальные инструкции — оценка перевода выросла на 9 пунктов (COMET) на датасете MMTC при применении подходящих гайдлайнов. Ключевой момент: инструкции должны быть конкретными ("хештеги переводи, сохраняя формат"), а не общими ("переводи естественно").

Рычаги управления: - Степень нормализации — укажи "исправь только грамматику" или "исправь всё, включая стиль" → первое сохранит живость, второе даст формальный текст - Обработка эмодзи и эмотиконов — "скопируй" или "опиши словами" → первое для соцсетей, второе для документов - Мат и резкие выражения — "сохрани", "смягчи" или "пропусти" → выбирай по контексту аудитории - Хештеги — "скопируй", "переведи с #", "переведи без #" → зависит от платформы - Исключения — добавь "LOL и OMG не расшифровывай — они употребимы в сокращении" → модель учтёт частотность

Структура "12 явлений + 5 действий" даёт ментальную карту для составления своих правил под конкретную задачу.

📋

Шаблон промпта

Переведи с {исходный_язык} на {целевой_язык}. При переводе соблюдай правила:

1. Грамматические ошибки — {действие: исправь / сохрани}
2. Орфографические ошибки — {действие: исправь / сохрани}
3. Повторения букв для эмоции (аааа, оооо) — {действие: исправь / сохрани эквивалент / убери}
4. Капитализация для акцента (ОЧЕНЬ ВАЖНО, вОт ТаК) — {действие: исправь / сохрани / адаптируй}
5. Неформальные аббревиатуры (спс, пжлст) — {действие: расшифруй / замени эквивалентом / сохрани}
6. Акронимы (LOL, OMG, ИМХО) — {действие: расшифруй / замени эквивалентом / сохрани}
7. Хештеги (#яндекс) — {действие: переведи с # / скопируй / переведи без # / пропусти}
8. @упоминания, RT, URL — {действие: скопируй как есть / пропусти}
9. Эмодзи и эмотиконы — {действие: скопируй / опиши словами / пропусти}
10. Пунктуация (повторы !!!, отсутствие) — {действие: нормализуй / сохрани}
11. Мат — {действие: сохрани / смягчи / замени на приемлемый вариант}
12. Самоцензура мата (бл*, на х**) — {действие: переведи полностью / сохрани цензуру / смягчи}

{исключения — например: "LOL и OMG не расшифровывай, они употребимы в сокращении"}

Текст: {текст_для_перевода}

Плейсхолдеры: - {исходный_язык}, {целевой_язык} — языки перевода - {действие} — выбери из списка выше для каждого пункта - {исключения} — опционально, для частных случаев - {текст_для_перевода} — сам контент

Адаптация: Не нужно заполнять все 12 пунктов. Выбери релевантные для твоего контента (например, для мемов важны 3, 4, 9; для комментариев — 1, 2, 11).

🚀 Быстрый старт — вставь в чат:

Вот шаблон для перевода пользовательского контента с контролем стиля. 
Адаптируй под мою задачу: [опиши задачу — например: "перевести посты из Telegram-канала про технологии, сохранить эмодзи и стиль, но исправить ошибки"]. 
Задавай вопросы, чтобы заполнить правила.

[вставить шаблон выше]

LLM спросит про каждый тип явления, есть ли он в твоём контенте и как его обрабатывать — потому что шаблон показывает структуру принятия решений. Она возьмёт список из 12 пунктов и составит компактный набор правил под твою задачу.

📌

Почему это важно

Перевод UGC — это не просто замена слов, это выбор стиля. Одна и та же фраза "OMG this is sooo cooool!!! 🔥" может стать "О боже, это так круто! 🔥" или "Боже мой, это очень хорошо." — и обе технически правильны, но для разных контекстов. Первая сохраняет энергию соцсети, вторая подходит для отчёта.

Исследование показало: "золотой стандарт" не един. Датасет RoCS-MT исправлял всё подчистую, PFSMB сохранял максимум стиля — разница в подходах привела к разнице в оценках переводов до 5-9 пунктов при перекрёстном тестировании. Это значит: без указания стиля оценка "правильности" перевода UGC условна — правильно относительно чьих ожиданий?

Практический вывод: При работе с UGC (посты, комментарии, отзывы, чаты) всегда добавляй в промпт 3-5 правил для нестандартных элементов. Это: - Уберёт лотерею — модель не будет угадывать ваш стиль - Сделает результат предсказуемым — для одинаковых правил одинаковый подход - Даст контроль — можно явно выбрать "формально" или "как в оригинале"

Особенно критично для: - Локализации мемов — эмоциональность = суть контента - Перевода отзывов клиентов — аутентичность голоса важна для анализа - Субтитров для соцсетей — стилистика = часть идентичности автора - Модерации контента — нужно сохранить мат/сленг для анализа тональности

⚠️

Ограничения

⚠️ Не все модели следуют инструкциям: Tower-7B игнорировал детальные гайдлайны и переводил "по-своему" — вариация между разными наборами правил была < 0.5 балла COMET (практически неразличима). Выбор модели критичен.

⚠️ Цензура блокирует контент: LLaMA-3.1-8B отказывался переводить до 8% текстов при добавлении инструкции "сохраняй мат" — модель считает это нарушением политики. Для работы с "острым" контентом нужны менее цензурные модели.

⚠️ Сложные правила путают модель: Чем больше исключений ("LOL не расшифровывай, но ASAP расшифруй"), тем выше шанс ошибки. Держи правила простыми и однозначными — максимум 1-2 исключения на категорию.

⚠️ Не подходит для формального текста: Метод про UGC — документы, новости, научные тексты там нечего контролировать, нестандартных явлений почти нет. Для них стандартный промпт перевода эффективнее.

⚠️ Требует знания языка-источника: Чтобы составить правила, нужно понимать, какие нестандартные явления есть в исходном тексте. Для незнакомых языков/культур это сложно.

🔍

Как исследовали

Исследователи из Inria (Франция) проанализировали 4 параллельных датасета переводов UGC: RoCS-MT (англ–фр), FooTweets (англ–нем), MMTC (фр–англ), PFSMB (фр–англ). Извлекли гайдлайны для переводчиков из документации датасетов и составили таксономию: 12 типов нестандартных явлений (грамматика, опечатки, удлинение слов, капитализация, аббревиатуры, акронимы, хештеги, упоминания/URL, эмодзи, пунктуация, мат, цензурированный мат) и 5 действий (NORMALISE, COPY, TRANSFER, OMIT, CENSOR).

Обнаружили спектр стандартизации: RoCS-MT нормализует максимально (9-10 явлений исправляются), PFSMB минимально (сохраняет 7-8 явлений), FooTweets и MMTC — посередине. Например, RoCS-MT исправляет "sooo cooool" → "so cool", а PFSMB переводит в эквивалент "teeellement cooool".

Протестировали 3 LLM (LLaMA-3.1-8B, Gemma-2-9B, Tower-7B) и базовую модель NLLB-3B. Для каждой LLM создали 11 конфигураций промптов: без гайдлайнов + с гайдлайнами каждого из 4 датасетов. Измерили качество метриками COMET (семантическое сходство с референсом), COMET-Kiwi (без референса) и BLEU (лексическое совпадение).

Ключевые находки: - Gemma-2-9B следует гайдлайнам: когда промпт с правилами RoCS-MT применяли к RoCS-MT — лучший результат, когда PFSMB к PFSMB — тоже лучший. Перекрёстное применение (PFSMB-правила на RoCS-MT текст) снижало оценку до 5-9 пунктов COMET. - Tower-7B игнорирует инструкции: вариация оценок между разными гайдлайнами < 0.3 COMET, лексическое сходство (BLEU) между выводами с разными правилами > 95% — модель переводила "по-своему". - LLaMA-3.1-8B цензурирует: отказывалась переводить 3-8% текстов (особенно с матом) при наличии правила "сохраняй нецензурную лексику", без правил — только 3% на самом "остром" датасете. - COMET-Kiwi устойчив к стилю: reference-less метрика показала малую вариацию (< 1 пункт) между конфигурациями — не чувствительна к степени стандартизации, оценивает "общее качество".

Вывод исследования: справедливая оценка перевода UGC требует alignment между правилами модели и референса — иначе "хороший" перевод в одном стиле получит низкую оценку по референсу в другом стиле.

🔗

Ресурсы

When the Gold Standard isn't Necessarily Standard: Challenges of Evaluating the Translation of User-Generated Content Датасеты: RoCS-MT, FooTweets, MMTC, PFSMB Авторы: Lydia Nishimwe, Benoît Sagot, Rachel Bawden — Inria, Париж, Франция


📋 Дайджест исследования

Ключевая суть

LLM не знает, как переводить пользовательский контент (посты, комментарии): исправлять "ааааа спасибооо" в нейтральное "а, спасибо" или сохранить эмоцию? Скопировать хештег #WorldCup или перевести в #ЧемпионатМира? По умолчанию модель угадывает — Gemma нормализует всё подчистую, LLaMA блокирует мат, Tower игнорит детальные инструкции. Guideline-aware Translation позволяет явно указать LLM правила обработки каждого нестандартного элемента (ошибки, сленг, эмодзи, капс, мат, хештеги). Фишка: пропиши 5-7 правил в промпте — модель перестаёт угадывать твои ожидания. Исследование выделило 12 типов явлений + 5 возможных действий — когда инструкции совпадают со стилем задачи, оценка перевода растёт до +9 пунктов (метрика COMET).

Принцип работы

Не полагайся на "модель сама поймёт стиль". Перед переводом определи типы нестандартных явлений в контенте (грамматика, опечатки, повторения букв "ооооо", капс для акцента, аббревиатуры типа LOL, хештеги, эмодзи, мат, самоцензура "бл*"). Для каждого типа выбери действие: NORMALISE (исправь), COPY (скопируй как есть), TRANSFER (адаптируй под язык перевода), OMIT (пропусти), CENSOR (смягчи). Добавь список правил в промпт: "Переводи с [язык] на [язык]. При этом: хештеги — переведи содержание, сохрани формат #; повторения букв — сохрани эквивалент; мат — замени на приемлемый вариант". Всё в одном промпте перед текстом.

Почему работает

LLM обучена на разнородных данных — где-то пользовательский контент переводили "как есть", где-то исправляли. Без явных указаний она применяет свою политику (Gemma склонна нормализовать, LLaMA цензурит). Явные инструкции убирают неопределённость — модель следует правилам как чеклисту. Gemma-2-9B хорошо выполняет детальные указания: оценка перевода выросла на 9 пунктов при применении подходящих правил к датасету MMTC. Ключевой момент: инструкции должны быть конкретными ("хештеги переводи, сохраняя #"), а не общими ("переводи естественно"). Исследование показало: "золотой стандарт" не един — датасет RoCS-MT исправлял всё, PFSMB сохранял стиль максимально — разница в оценках до 5-9 пунктов при перекрёстном тестировании. Без указания стиля "правильность" условна.

Когда применять

Локализация пользовательского контента → конкретно для постов в соцсетях, комментариев, отзывов клиентов, мемов, чатов → особенно когда важна эмоциональность или аутентичность голоса. Критично для перевода мемов (эмоция = суть), анализа отзывов (голос клиента), субтитров для соцсетей (стиль = идентичность автора), модерации контента (нужен оригинальный тон для анализа). НЕ подходит для формального текста (документы, новости, научные статьи) — там нестандартных явлений почти нет, стандартный промпт эффективнее.

Мини-рецепт

1. Определи типы явлений: Пробегись по тексту — есть ли повторения букв, капс, хештеги, эмодзи, сленг, мат? Выпиши релевантные (не нужно все 12, только что встречается)
2. Выбери действия: Для каждого типа реши — исправить (NORMALISE), скопировать (COPY), адаптировать под язык (TRANSFER), пропустить (OMIT), смягчить (CENSOR). Например: хештеги — переведи с #, эмодзи — скопируй, мат — замени приемлемым
3. Пропиши в промпте: Формат Переводи с [язык] на [язык]. При переводе: 1) хештеги — переведи, сохрани #; 2) эмодзи — скопируй как есть; 3) повторения букв — сохрани эквивалент на [язык]... Список перед текстом
4. Добавь исключения (опционально): Если нужно — укажи частные случаи типа "LOL и OMG не расшифровывай, они употребимы в сокращении"

Примеры

[ПЛОХО] : Переведи этот пост из Twitter на английский: "@yandex СПАСИИИИБО за новый поиск!! Это ОЧЕНЬ круто, теперьь всё находится за секунду 🔥 #яндекспоиск #лучшеегугла" Модель угадывает стиль — может нормализовать "СПАСИИИИБО" в нейтральное "thank you", пропустить эмодзи или оставить хештеги без перевода. Результат непредсказуем.
[ХОРОШО] : Переведи с русского на английский. При переводе соблюдай: 1) Грамматические ошибки — исправь; 2) Повторения букв для эмоции (ааааа) — сохрани эквивалент на английском; 3) Капитализация для акцента (ОЧЕНЬ) — сохрани; 4) Хештеги — переведи содержание, сохрани формат #; 5) @упоминания и эмодзи — скопируй как есть. Текст: "@yandex СПАСИИИИБО за новый поиск!! Это ОЧЕНЬ круто, теперьь всё находится за секунду 🔥 #яндекспоиск #лучшеегугла" Модель выдаст предсказуемый результат: исправит "теперьь", растянет в "THAAANKS", сохранит капс VERY, переведёт хештеги в #yandexsearch #betterthanGoogle, скопирует @yandex и 🔥. Стиль живой, читаемость улучшена.
Источник: When the Gold Standard isn't Necessarily Standard: Challenges of Evaluating the Translation of User-Generated Content
ArXiv ID: 2512.17738 | Сгенерировано: 2026-01-08 23:53

Методы

МетодСуть
Явные правила для нестандартных элементов — контроль стиля при переводе постов и комментариевПри переводе из соцсетей/форумов добавь в промпт правила для каждого типа нестандартного элемента: ошибки, повторы букв (аааа), КАПС, сленг, хештеги, эмодзи, мат. Формат: "Переведи с X на Y. При этом: 1. Грамматические ошибки — исправь. 2. Эмодзи — скопируй. 3. Хештеги — переведи с #". Без правил модель угадывает стиль (обучена на разных данных) — с правилами +9 пунктов COMET при совпадении с ожиданиями. Таксономия: 12 типов явлений (ошибки, капитализация, аббревиатуры, акронимы, хештеги, @упоминания, эмодзи, пунктуация, мат, самоцензура) × 5 действий (нормализуй/скопируй/адаптируй/пропусти/смягчи). Для: посты, отзывы, чаты, мемы. НЕ для: формальный текст (документы, новости). Tower-7B игнорирует детальные правила, Gemma-2-9B следует хорошо
📖 Простыми словами

Guideline-aware Translation: явные инструкции для перевода нестандартного контента

arXiv: 2512.17738

Проблема перевода постов из соцсетей в том, что LLM не понимает контекст задачи и мечется между крайностями. Когда ты скармливаешь модели текст со сленгом, матом или кучей скобочек, она не знает, что с этим делать: вылизать до уровня учебника или оставить как есть. В итоге перевод превращается в лотерею, где Gemma всё нормализует, а LLaMA впадает в ступор от крепкого словца. Фундаментально это происходит потому, что обучающие данные — это винегрет, где одни переводчики исправляли опечатки, а другие бережно переносили каждый лишний восклицательный знак.

Это как если бы ты попросил друга пересказать сплетню из бара, а он начал бы цитировать её голосом диктора новостей. Формально смысл передан, но вайб потерян полностью, и ты сидишь с ощущением, что тебя обманули. Исследователи выделили 12 типов нестандартных явлений — от хештегов до повторов букв — и поняли, что без четкого пинка модель просто не знает, какую роль ей играть: цензора, корректора или живого собеседника.

Решение проблемы — метод Guideline-aware Translation, который по сути является набором жестких правил для нейронки. Нужно четко прописать 5 возможных действий для каждого типа «мусора» в тексте: например, «исправляй опечатки, но не трогай сленг» или «оставляй эмодзи, но вырезай мат». Без такой инструкции модель лажает в 10 из 15 случаев, просто потому что пытается угадать твои скрытые желания, опираясь на свои внутренние фильтры.

Хотя эксперименты ставили на переводах из соцсетей, этот принцип универсален для любого контента, созданного людьми. Это касается отзывов на маркетплейсах, чатов поддержки или игровых диалогов — везде, где живая речь сталкивается с алгоритмом. Если не задать рамки, AI превратит сочный отзыв в стерильный корпоративный текст, который никто не захочет читать. SEO-тексты уходят в прошлое, теперь важно, чтобы AI сохранял человеческое лицо контента.

Короче: хватит надеяться на «ум» модели — она просто статистический калькулятор, который усредняет всё до серости. Если хочешь адекватный перевод или обработку текста, используй явные инструкции по стилю. Либо ты диктуешь правила игры, либо получаешь на выходе унылую фигню, которая убивает всю эмоциональность. Контроль над стилем — это не опция, а необходимость, иначе твой контент просто не пройдет проверку на искренность.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с