TL;DR
Guideline-aware Translation — принцип явного указания LLM, как обращаться с нестандартными элементами при переводе пользовательского контента (UGC): ошибками, сленгом, повторениями букв, эмодзи, матом, хештегами. Исследователи проанализировали 4 датасета переводов из соцсетей и форумов, выделили 12 типов нестандартных явлений и 5 возможных действий с ними. Оказалось, что разные датасеты используют противоположные подходы — от "исправить всё" до "сохранить стиль". Без явных инструкций LLM переводит непредсказуемо — может нормализовать, скопировать как есть, пропустить или отказаться переводить.
Проблема: При переводе поста из соцсети LLM сталкивается с дилеммой — исправить "ааааа спасибооо" в "а, спасибо" или сохранить эмоциональность? Перевести "LOL" как "laughing out loud" или оставить/заменить на русский эквивалент "ржу"? Скопировать хештег #WorldCup или перевести в #ЧемпионатМира? По умолчанию модель выбирает сама — и её выбор может не совпадать с вашими ожиданиями. Gemma склонна нормализовать всё, LLaMA отказывается переводить мат, Tower игнорирует детальные инструкции.
Решение: Явно пропиши в промпте правила для каждого типа нестандартного контента — что исправить (NORMALISE), что скопировать (COPY), что адаптировать под язык перевода (TRANSFER), что пропустить (OMIT). Исследование показало: когда инструкции совпадают с ожидаемым стилем, оценки перевода улучшаются до 9 пунктов (по метрике COMET). Модели могут следовать детальным гайдлайнам — но их нужно дать явно.
Схема метода
ШАГ 1: Определи типы нестандартных явлений в тексте
→ Грамматика, опечатки, повторения букв, капитализация,
аббревиатуры, акронимы, хештеги, упоминания @username,
эмодзи, пунктуация, мат, самоцензура мата (f**k)
ШАГ 2: Выбери действие для каждого типа
→ NORMALISE (исправить), COPY (скопировать),
TRANSFER (адаптировать), OMIT (пропустить), CENSOR (смягчить)
ШАГ 3: Добавь правила в промпт перед переводом
→ "Переводи с [язык] на [язык]. При этом: [список правил]"
Всё выполняется в одном промпте.
Пример применения
Задача: Перевести пост из Twitter про новый продукт Яндекса — нужно сохранить эмоциональность и хештеги, но исправить опечатки.
Промпт:
Переведи с русского на английский. При переводе соблюдай правила:
1. Грамматические и орфографические ошибки — исправь
2. Повторения букв для эмоции (аааа, оооо) — сохрани эквивалент на английском
3. Капитализацию для акцента (ОЧЕНЬ) — сохрани
4. Хештеги — переведи содержание, сохрани формат #
5. @упоминания и эмодзи — скопируй как есть
6. Сленг и аббревиатуры — замени на английский эквивалент
Текст:
"@yandex СПАСИИИИБО за новый поиск!! Это ОЧЕНЬ круто, теперьь всё находится за секунду 🔥 #яндекспоиск #лучшеегугла"
Результат: Модель выдаст перевод с сохранением структуры: исправит "теперьь" → "now", растянет "СПАСИИИИБО" → "THAAANKS", оставит капс в "VERY", переведёт хештеги в #yandexsearch #betterthanGoogle, скопирует @yandex и 🔥 без изменений. Стиль поста останется живым, но читаемость улучшится.
Почему это работает
LLM не знает, какой стиль вы хотите в переводе. По умолчанию она применяет свою "политику" — Gemma склонна нормализовать всё в стандартный текст, LLaMA блокирует мат, Tower держится своего стиля. Это происходит потому, что модель обучена на разнородных данных — где-то UGC переводили "как есть", где-то исправляли. Без явных указаний она угадывает.
Явные инструкции убирают неопределённость. Когда вы прописываете правила для каждого типа явления, модель следует им как чеклисту. Исследование показало: Gemma-2-9B хорошо выполняет детальные инструкции — оценка перевода выросла на 9 пунктов (COMET) на датасете MMTC при применении подходящих гайдлайнов. Ключевой момент: инструкции должны быть конкретными ("хештеги переводи, сохраняя формат"), а не общими ("переводи естественно").
Рычаги управления: - Степень нормализации — укажи "исправь только грамматику" или "исправь всё, включая стиль" → первое сохранит живость, второе даст формальный текст - Обработка эмодзи и эмотиконов — "скопируй" или "опиши словами" → первое для соцсетей, второе для документов - Мат и резкие выражения — "сохрани", "смягчи" или "пропусти" → выбирай по контексту аудитории - Хештеги — "скопируй", "переведи с #", "переведи без #" → зависит от платформы - Исключения — добавь "LOL и OMG не расшифровывай — они употребимы в сокращении" → модель учтёт частотность
Структура "12 явлений + 5 действий" даёт ментальную карту для составления своих правил под конкретную задачу.
Шаблон промпта
Переведи с {исходный_язык} на {целевой_язык}. При переводе соблюдай правила:
1. Грамматические ошибки — {действие: исправь / сохрани}
2. Орфографические ошибки — {действие: исправь / сохрани}
3. Повторения букв для эмоции (аааа, оооо) — {действие: исправь / сохрани эквивалент / убери}
4. Капитализация для акцента (ОЧЕНЬ ВАЖНО, вОт ТаК) — {действие: исправь / сохрани / адаптируй}
5. Неформальные аббревиатуры (спс, пжлст) — {действие: расшифруй / замени эквивалентом / сохрани}
6. Акронимы (LOL, OMG, ИМХО) — {действие: расшифруй / замени эквивалентом / сохрани}
7. Хештеги (#яндекс) — {действие: переведи с # / скопируй / переведи без # / пропусти}
8. @упоминания, RT, URL — {действие: скопируй как есть / пропусти}
9. Эмодзи и эмотиконы — {действие: скопируй / опиши словами / пропусти}
10. Пунктуация (повторы !!!, отсутствие) — {действие: нормализуй / сохрани}
11. Мат — {действие: сохрани / смягчи / замени на приемлемый вариант}
12. Самоцензура мата (бл*, на х**) — {действие: переведи полностью / сохрани цензуру / смягчи}
{исключения — например: "LOL и OMG не расшифровывай, они употребимы в сокращении"}
Текст: {текст_для_перевода}
Плейсхолдеры:
- {исходный_язык}, {целевой_язык} — языки перевода
- {действие} — выбери из списка выше для каждого пункта
- {исключения} — опционально, для частных случаев
- {текст_для_перевода} — сам контент
Адаптация: Не нужно заполнять все 12 пунктов. Выбери релевантные для твоего контента (например, для мемов важны 3, 4, 9; для комментариев — 1, 2, 11).
🚀 Быстрый старт — вставь в чат:
Вот шаблон для перевода пользовательского контента с контролем стиля.
Адаптируй под мою задачу: [опиши задачу — например: "перевести посты из Telegram-канала про технологии, сохранить эмодзи и стиль, но исправить ошибки"].
Задавай вопросы, чтобы заполнить правила.
[вставить шаблон выше]
LLM спросит про каждый тип явления, есть ли он в твоём контенте и как его обрабатывать — потому что шаблон показывает структуру принятия решений. Она возьмёт список из 12 пунктов и составит компактный набор правил под твою задачу.
Почему это важно
Перевод UGC — это не просто замена слов, это выбор стиля. Одна и та же фраза "OMG this is sooo cooool!!! 🔥" может стать "О боже, это так круто! 🔥" или "Боже мой, это очень хорошо." — и обе технически правильны, но для разных контекстов. Первая сохраняет энергию соцсети, вторая подходит для отчёта.
Исследование показало: "золотой стандарт" не един. Датасет RoCS-MT исправлял всё подчистую, PFSMB сохранял максимум стиля — разница в подходах привела к разнице в оценках переводов до 5-9 пунктов при перекрёстном тестировании. Это значит: без указания стиля оценка "правильности" перевода UGC условна — правильно относительно чьих ожиданий?
Практический вывод: При работе с UGC (посты, комментарии, отзывы, чаты) всегда добавляй в промпт 3-5 правил для нестандартных элементов. Это: - Уберёт лотерею — модель не будет угадывать ваш стиль - Сделает результат предсказуемым — для одинаковых правил одинаковый подход - Даст контроль — можно явно выбрать "формально" или "как в оригинале"
Особенно критично для: - Локализации мемов — эмоциональность = суть контента - Перевода отзывов клиентов — аутентичность голоса важна для анализа - Субтитров для соцсетей — стилистика = часть идентичности автора - Модерации контента — нужно сохранить мат/сленг для анализа тональности
Ограничения
⚠️ Не все модели следуют инструкциям: Tower-7B игнорировал детальные гайдлайны и переводил "по-своему" — вариация между разными наборами правил была < 0.5 балла COMET (практически неразличима). Выбор модели критичен.
⚠️ Цензура блокирует контент: LLaMA-3.1-8B отказывался переводить до 8% текстов при добавлении инструкции "сохраняй мат" — модель считает это нарушением политики. Для работы с "острым" контентом нужны менее цензурные модели.
⚠️ Сложные правила путают модель: Чем больше исключений ("LOL не расшифровывай, но ASAP расшифруй"), тем выше шанс ошибки. Держи правила простыми и однозначными — максимум 1-2 исключения на категорию.
⚠️ Не подходит для формального текста: Метод про UGC — документы, новости, научные тексты там нечего контролировать, нестандартных явлений почти нет. Для них стандартный промпт перевода эффективнее.
⚠️ Требует знания языка-источника: Чтобы составить правила, нужно понимать, какие нестандартные явления есть в исходном тексте. Для незнакомых языков/культур это сложно.
Как исследовали
Исследователи из Inria (Франция) проанализировали 4 параллельных датасета переводов UGC: RoCS-MT (англ–фр), FooTweets (англ–нем), MMTC (фр–англ), PFSMB (фр–англ). Извлекли гайдлайны для переводчиков из документации датасетов и составили таксономию: 12 типов нестандартных явлений (грамматика, опечатки, удлинение слов, капитализация, аббревиатуры, акронимы, хештеги, упоминания/URL, эмодзи, пунктуация, мат, цензурированный мат) и 5 действий (NORMALISE, COPY, TRANSFER, OMIT, CENSOR).
Обнаружили спектр стандартизации: RoCS-MT нормализует максимально (9-10 явлений исправляются), PFSMB минимально (сохраняет 7-8 явлений), FooTweets и MMTC — посередине. Например, RoCS-MT исправляет "sooo cooool" → "so cool", а PFSMB переводит в эквивалент "teeellement cooool".
Протестировали 3 LLM (LLaMA-3.1-8B, Gemma-2-9B, Tower-7B) и базовую модель NLLB-3B. Для каждой LLM создали 11 конфигураций промптов: без гайдлайнов + с гайдлайнами каждого из 4 датасетов. Измерили качество метриками COMET (семантическое сходство с референсом), COMET-Kiwi (без референса) и BLEU (лексическое совпадение).
Ключевые находки: - Gemma-2-9B следует гайдлайнам: когда промпт с правилами RoCS-MT применяли к RoCS-MT — лучший результат, когда PFSMB к PFSMB — тоже лучший. Перекрёстное применение (PFSMB-правила на RoCS-MT текст) снижало оценку до 5-9 пунктов COMET. - Tower-7B игнорирует инструкции: вариация оценок между разными гайдлайнами < 0.3 COMET, лексическое сходство (BLEU) между выводами с разными правилами > 95% — модель переводила "по-своему". - LLaMA-3.1-8B цензурирует: отказывалась переводить 3-8% текстов (особенно с матом) при наличии правила "сохраняй нецензурную лексику", без правил — только 3% на самом "остром" датасете. - COMET-Kiwi устойчив к стилю: reference-less метрика показала малую вариацию (< 1 пункт) между конфигурациями — не чувствительна к степени стандартизации, оценивает "общее качество".
Вывод исследования: справедливая оценка перевода UGC требует alignment между правилами модели и референса — иначе "хороший" перевод в одном стиле получит низкую оценку по референсу в другом стиле.
Ресурсы
When the Gold Standard isn't Necessarily Standard: Challenges of Evaluating the Translation of User-Generated Content Датасеты: RoCS-MT, FooTweets, MMTC, PFSMB Авторы: Lydia Nishimwe, Benoît Sagot, Rachel Bawden — Inria, Париж, Франция
