TL;DR
Перевод LLM искажает не только смысл, но и воспринимаемую срочность, тональность, призыв к действию. Исследование показало: один и тот же кризисный сценарий LLM оценивает как "некритичный" на китайском, "высокая срочность" на английском и "критично" на испанском. Даже когда перевод лингвистически корректен, эмоциональный вес и побуждение к действию меняются непредсказуемо — слова передаются точно, но контекст их восприятия нет.
Люди оценивают срочность согласованно независимо от языка — LLM нет. Когда людей на разных языках (испанский, греческий, бенгали, хинди) просили оценить уровень срочности одних и тех же сценариев, распределение оценок сильно совпадало. LLM же непредсказуемо меняет оценку в зависимости от языка промпта: сценарий переведён корректно, но модель "видит" разный уровень угрозы. На некоторых языках модель вообще отказывается классифицировать или галлюцинирует ответы вне заданных категорий.
Ключевой паттерн: перевод С английского хуже, чем НА английский. Во всех тестах качество перевода с английского на другие языки было ниже, чем обратный перевод на английский. Это значит LLM лучше понимает инпут на других языках, чем генерирует на них — она может прочитать вашу задачу на русском и ответить на английском точнее, чем прочитать на английском и ответить на русском. Для критичных задач (письмо партнёрам, инструкция по безопасности, оценка жалоб клиентов) это создаёт риск — переведённый текст может звучать спокойнее или тревожнее, чем оригинал, меняя реакцию получателя.
Применимые принципы
Это исследование не даёт готовую технику, но раскрывает три принципа работы с LLM для многоязычных задач:
1. Принцип двухшагового процесса для оценки
Если нужно оценить тон, срочность, эмоциональный окрас контента на другом языке:
Шаг 1: Переведи на английский (или язык, на котором модель обучалась лучше всего)
Шаг 2: Дай задачу оценки на этом языке
Почему: Модель лучше анализирует контент на английском — её "чувство" срочности/тональности там стабильнее. Но есть риск каскадной ошибки: если перевод исказил нюанс, оценка будет неточной.
2. Принцип обратной проверки для критичного контента
Если переводишь важное сообщение (объявление, инструкция, письмо партнёрам) и критично сохранить тон:
Шаг 1: Переведи текст
Шаг 2: Оцени тональность оригинала и перевода отдельными запросами
Шаг 3: Сравни — если оценки расходятся, перефразируй перевод
Пример: Оригинал на русском оценён как "настойчивый призыв к действию", перевод на английский — как "нейтральная информация". Значит перевод потерял urgency.
3. Принцип осторожности с многоязычной аналитикой
Если анализируешь отзывы, комментарии, жалобы на разных языках — знай, что LLM может систематически занижать или завышать проблемы в зависимости от языка инпута.
Что делать: Стандартизируй процесс — переведи всё на один язык, потом анализируй. Или тестируй модель на нескольких примерах с известной оценкой перед запуском.
Пример применения
Задача: Ты сделал объявление для клиентов о технических работах на сайте завтра вечером. Нужно перевести на английский для партнёров и проверить — не потерялась ли срочность, не звучит ли слишком тревожно.
Промпт:
Оригинальный текст (русский):
"Завтра с 22:00 до 02:00 МСК запланированы технические работы. Рекомендуем завершить все операции до 21:30. Доступ к платформе будет временно ограничен."
Задача:
1. Переведи на английский
2. Отдельно оцени тональность оригинала по шкале: нейтрально / информативно / настойчиво / срочно / критично
3. Отдельно оцени тональность перевода по той же шкале
4. Если оценки различаются — объясни почему и предложи альтернативный перевод
Результат:
Модель выдаст перевод, две оценки тональности и сравнение. Если оригинал оценён как "настойчиво" (из-за "рекомендуем завершить"), а перевод как "информативно" — ты поймёшь что английская версия звучит слишком расслабленно. Модель предложит версию с "please ensure" вместо "we recommend" для сохранения тона.
Почему это происходит
LLM обучены на текстах, где одно и то же слово имеет разный контекст в разных языках. Слово "immediately" в английском может переводиться как "немедленно", "сразу", "в ближайшее время" — формально все варианты корректны, но эмоциональный вес разный. Модель выбирает вариант по статистике употребления, не по передаче urgency.
Проблема усугубляется для низкоресурсных языков. Если модель видела мало примеров, где бенгальское слово использовалось в кризисном контексте, она не научилась распознавать маркеры срочности на этом языке. Она переводит формально правильно, но теряет сигнал "это требует быстрой реакции".
Перевод С английского хуже, потому что генерация сложнее понимания. Модель лучше парсит паттерны (понимает входящий текст на любом языке), чем генерирует естественные фразы (выдаёт текст на целевом языке). Когда она переводит НА английский, задача проще — английских примеров в обучающих данных больше, паттерны фраз устойчивее. Когда переводит С английского на редкий язык, она импровизирует на основе меньшего числа примеров — отсюда нестабильность.
Рычаги управления:
- Явно указывай сохранение тона: "переведи, сохраняя уровень срочности оригинала" → модель будет искать более сильные слова
- Дай референсную шкалу: "оригинал звучит как 7 из 10 по срочности, перевод должен быть таким же" → численная привязка снижает произвольность
- Попроси несколько вариантов: "дай 3 версии перевода: нейтральную, умеренную, настойчивую" → выбираешь closest по тону к оригиналу
Шаблон промпта
Для проверки искажения тона при переводе:
Оригинал ({язык_оригинала}):
{текст}
Задача:
1. Переведи на {целевой_язык}
2. Оцени тональность оригинала по шкале: {шкала_оценки}
3. Оцени тональность перевода по той же шкале
4. Если оценки расходятся — объясни причину и предложи исправленный вариант
Где:
- {язык_оригинала} / {целевой_язык} — русский, английский, испанский и т.д.
- {текст} — твой контент
- {шкала_оценки} — например: нейтрально / информативно / настойчиво / срочно / критично
Можно упростить шкалу до числовой: "оцени срочность от 1 до 5, где 1 — спокойная информация, 5 — требует немедленных действий".
Для аналитики многоязычного контента:
У меня {количество} отзывов/комментариев/жалоб на {язык}.
Задача:
1. Переведи каждый на {базовый_язык}
2. Оцени каждый по критериям: {критерии}
3. Сгруппируй по уровню {критерий}
4. Покажи топ-3 самых {прилагательное}
Где:
- {количество} / {язык} / {базовый_язык} — твои данные
- {критерии} — срочность, тональность, тип проблемы
- {критерий} / {прилагательное} — например "срочность" / "критичных"
Ограничения
⚠️ Узкая применимость: Принципы полезны только если ты работаешь с многоязычным контентом или переводишь критичные сообщения. Для монолингвальной работы неактуально.
⚠️ Нет гарантий точности: Двухшаговый процесс (перевод → оценка) снижает, но не устраняет риск потери нюансов. Для по-настоящему критичных кейсов (медицина, безопасность, юридические тексты) нужна проверка человеком.
⚠️ Зависимость от домена: Исследование проводилось на кризисных сценариях (COVID-19, катастрофы). В бизнес-коммуникациях, маркетинге, техдокументации паттерны могут быть другими, но общий принцип сохраняется — тон искажается непредсказуемо.
⚠️ Нестабильность низкоресурсных языков: Для языков, на которых модель обучалась слабо (африканские, некоторые азиатские диалекты), качество перевода настолько низкое (spBLEU <20), что любые оценки тональности бессмысленны. В исследовании для языков как тигринья и курдский сорани все модели показали провал.
Как исследовали
Команда из George Mason University взяла датасет TICO-19 — 2000 кризисных сообщений про COVID-19 (статьи, публикации, NGO-коммуникации), переведённых людьми на 39 языков (африканские, азиатские, ближневосточные, латиноамериканские). Проверили 4 типа моделей: специализированные переводчики (NLLB-200), мультиязычные LLM (Aya101, Llama-3.2), LLM-переводчики (X-ALMA). Мерили качество перевода метриками spBLEU и chrF++ — грубо говоря, насколько машинный перевод совпадает с человеческим.
Ключевая находка по качеству: NLLB-200 стабильнее всех (18 побед из 32 языков), но даже она проваливается на конфликтных регионах. Llama и X-ALMA летают между крутыми результатами и полным провалом — отлично работают для португальского или персидского, но ломаются на языках типа ганда или дари (spBLEU<15, это "смысл угадывается, но текст разрушен").
Потом создали собственный датасет UrgencyScenarios — 100 кризисных сценариев на английском (сгенерировали через ChatGPT, вручную отобрали), перевели через NLLB на 32 языка. Попросили носителей языка (испанский, греческий, бенгали, хинди) оценить срочность по шкале от "некритично" до "критично". Половину сценариев показали на английском, половину — на родном языке аннотатора.
Вывод про людей: Люди согласованы независимо от языка. Распределение оценок сильно пересекается, разногласия минимальны и логичны (например, "очень низкая" в английском становится "низкой" в переводе — сдвиг на соседний уровень).
Вывод про LLM (Llama 3.2 как тестовая модель): Та же модель оценивает один сценарий как "некритично" на китайском, "высокая срочность" на английском, "критично" на испанском. Из 32 языков только 14 дали хотя бы 80% классификацию — на остальных модель часто отказывалась отвечать, галлюцинировала или давала ответы вне заданных категорий. Когда модель отвечала, она перестраховывалась — массово метила всё как "среднее", "высокое" или "критично", делая оценку бесполезной для триажа.
Почему так получилось: Перевод меняет ключевые слова ("immediately" может стать "в ближайшее время" или "немедленно"), и LLM считывает urgency с этих маркеров. Если маркер потерян или ослаблен — оценка падает. Если перевод добавил излишнюю драматичность — оценка взлетает. LLM не понимает urgency как концепт, она паттерн-матчит слова.
Ресурсы
LLM-Powered Automatic Translation and Urgency in Crisis Scenarios
Belu Ticona, Antonios Anastasopoulos
George Mason University, Archimedes AI Research Unit (Athena RC, Greece)
Датасет TICO-19: https://tico-19.github.io (публичный, 39 языков, COVID-19 контент)
Модели: NLLB-200 (Meta), Aya101 (Cohere Labs), Llama-3.2 (Meta), X-ALMA
