3,583 papers
arXiv:2602.13452 73 13 фев. 2026 г. FREE

Искажение тона и срочности при переводе: слепое пятно LLM в многоязычной работе

КЛЮЧЕВАЯ СУТЬ
Переводишь письмо партнёрам через LLM — слова передаются точно, но эмоциональный вес меняется непредсказуемо. Один и тот же кризисный сценарий модель оценивает как "некритичный" на китайском, "высокая срочность" на английском и "критично" на испанском. Фишка проблемы: перевод лингвистически корректен, но контекст восприятия теряется — слово "immediately" переводится как "немедленно", "сразу" или "в ближайшее время", формально все верно, но читатель воспринимает разный уровень угрозы.
Адаптировать под запрос

TL;DR

Перевод LLM искажает не только смысл, но и воспринимаемую срочность, тональность, призыв к действию. Исследование показало: один и тот же кризисный сценарий LLM оценивает как "некритичный" на китайском, "высокая срочность" на английском и "критично" на испанском. Даже когда перевод лингвистически корректен, эмоциональный вес и побуждение к действию меняются непредсказуемо — слова передаются точно, но контекст их восприятия нет.

Люди оценивают срочность согласованно независимо от языка — LLM нет. Когда людей на разных языках (испанский, греческий, бенгали, хинди) просили оценить уровень срочности одних и тех же сценариев, распределение оценок сильно совпадало. LLM же непредсказуемо меняет оценку в зависимости от языка промпта: сценарий переведён корректно, но модель "видит" разный уровень угрозы. На некоторых языках модель вообще отказывается классифицировать или галлюцинирует ответы вне заданных категорий.

Ключевой паттерн: перевод С английского хуже, чем НА английский. Во всех тестах качество перевода с английского на другие языки было ниже, чем обратный перевод на английский. Это значит LLM лучше понимает инпут на других языках, чем генерирует на них — она может прочитать вашу задачу на русском и ответить на английском точнее, чем прочитать на английском и ответить на русском. Для критичных задач (письмо партнёрам, инструкция по безопасности, оценка жалоб клиентов) это создаёт риск — переведённый текст может звучать спокойнее или тревожнее, чем оригинал, меняя реакцию получателя.


📌

Применимые принципы

Это исследование не даёт готовую технику, но раскрывает три принципа работы с LLM для многоязычных задач:

📌

1. Принцип двухшагового процесса для оценки

Если нужно оценить тон, срочность, эмоциональный окрас контента на другом языке:

Шаг 1: Переведи на английский (или язык, на котором модель обучалась лучше всего)

Шаг 2: Дай задачу оценки на этом языке

Почему: Модель лучше анализирует контент на английском — её "чувство" срочности/тональности там стабильнее. Но есть риск каскадной ошибки: если перевод исказил нюанс, оценка будет неточной.

📌

2. Принцип обратной проверки для критичного контента

Если переводишь важное сообщение (объявление, инструкция, письмо партнёрам) и критично сохранить тон:

Шаг 1: Переведи текст

Шаг 2: Оцени тональность оригинала и перевода отдельными запросами

Шаг 3: Сравни — если оценки расходятся, перефразируй перевод

Пример: Оригинал на русском оценён как "настойчивый призыв к действию", перевод на английский — как "нейтральная информация". Значит перевод потерял urgency.

📌

3. Принцип осторожности с многоязычной аналитикой

Если анализируешь отзывы, комментарии, жалобы на разных языках — знай, что LLM может систематически занижать или завышать проблемы в зависимости от языка инпута.

Что делать: Стандартизируй процесс — переведи всё на один язык, потом анализируй. Или тестируй модель на нескольких примерах с известной оценкой перед запуском.


🚀

Пример применения

Задача: Ты сделал объявление для клиентов о технических работах на сайте завтра вечером. Нужно перевести на английский для партнёров и проверить — не потерялась ли срочность, не звучит ли слишком тревожно.

Промпт:

Оригинальный текст (русский):
"Завтра с 22:00 до 02:00 МСК запланированы технические работы. Рекомендуем завершить все операции до 21:30. Доступ к платформе будет временно ограничен."

Задача:
1. Переведи на английский
2. Отдельно оцени тональность оригинала по шкале: нейтрально / информативно / настойчиво / срочно / критично
3. Отдельно оцени тональность перевода по той же шкале
4. Если оценки различаются — объясни почему и предложи альтернативный перевод

Результат:

Модель выдаст перевод, две оценки тональности и сравнение. Если оригинал оценён как "настойчиво" (из-за "рекомендуем завершить"), а перевод как "информативно" — ты поймёшь что английская версия звучит слишком расслабленно. Модель предложит версию с "please ensure" вместо "we recommend" для сохранения тона.


📌

Почему это происходит

LLM обучены на текстах, где одно и то же слово имеет разный контекст в разных языках. Слово "immediately" в английском может переводиться как "немедленно", "сразу", "в ближайшее время" — формально все варианты корректны, но эмоциональный вес разный. Модель выбирает вариант по статистике употребления, не по передаче urgency.

Проблема усугубляется для низкоресурсных языков. Если модель видела мало примеров, где бенгальское слово использовалось в кризисном контексте, она не научилась распознавать маркеры срочности на этом языке. Она переводит формально правильно, но теряет сигнал "это требует быстрой реакции".

Перевод С английского хуже, потому что генерация сложнее понимания. Модель лучше парсит паттерны (понимает входящий текст на любом языке), чем генерирует естественные фразы (выдаёт текст на целевом языке). Когда она переводит НА английский, задача проще — английских примеров в обучающих данных больше, паттерны фраз устойчивее. Когда переводит С английского на редкий язык, она импровизирует на основе меньшего числа примеров — отсюда нестабильность.

Рычаги управления:

  • Явно указывай сохранение тона: "переведи, сохраняя уровень срочности оригинала" → модель будет искать более сильные слова
  • Дай референсную шкалу: "оригинал звучит как 7 из 10 по срочности, перевод должен быть таким же" → численная привязка снижает произвольность
  • Попроси несколько вариантов: "дай 3 версии перевода: нейтральную, умеренную, настойчивую" → выбираешь closest по тону к оригиналу

📋

Шаблон промпта

📌

Для проверки искажения тона при переводе:

Оригинал ({язык_оригинала}):
{текст}

Задача:
1. Переведи на {целевой_язык}
2. Оцени тональность оригинала по шкале: {шкала_оценки}
3. Оцени тональность перевода по той же шкале
4. Если оценки расходятся — объясни причину и предложи исправленный вариант

Где: - {язык_оригинала} / {целевой_язык} — русский, английский, испанский и т.д. - {текст} — твой контент - {шкала_оценки} — например: нейтрально / информативно / настойчиво / срочно / критично

Можно упростить шкалу до числовой: "оцени срочность от 1 до 5, где 1 — спокойная информация, 5 — требует немедленных действий".


📌

Для аналитики многоязычного контента:

У меня {количество} отзывов/комментариев/жалоб на {язык}.

Задача:
1. Переведи каждый на {базовый_язык}
2. Оцени каждый по критериям: {критерии}
3. Сгруппируй по уровню {критерий}
4. Покажи топ-3 самых {прилагательное}

Где: - {количество} / {язык} / {базовый_язык} — твои данные - {критерии} — срочность, тональность, тип проблемы - {критерий} / {прилагательное} — например "срочность" / "критичных"


⚠️

Ограничения

⚠️ Узкая применимость: Принципы полезны только если ты работаешь с многоязычным контентом или переводишь критичные сообщения. Для монолингвальной работы неактуально.

⚠️ Нет гарантий точности: Двухшаговый процесс (перевод → оценка) снижает, но не устраняет риск потери нюансов. Для по-настоящему критичных кейсов (медицина, безопасность, юридические тексты) нужна проверка человеком.

⚠️ Зависимость от домена: Исследование проводилось на кризисных сценариях (COVID-19, катастрофы). В бизнес-коммуникациях, маркетинге, техдокументации паттерны могут быть другими, но общий принцип сохраняется — тон искажается непредсказуемо.

⚠️ Нестабильность низкоресурсных языков: Для языков, на которых модель обучалась слабо (африканские, некоторые азиатские диалекты), качество перевода настолько низкое (spBLEU <20), что любые оценки тональности бессмысленны. В исследовании для языков как тигринья и курдский сорани все модели показали провал.


🔍

Как исследовали

Команда из George Mason University взяла датасет TICO-19 — 2000 кризисных сообщений про COVID-19 (статьи, публикации, NGO-коммуникации), переведённых людьми на 39 языков (африканские, азиатские, ближневосточные, латиноамериканские). Проверили 4 типа моделей: специализированные переводчики (NLLB-200), мультиязычные LLM (Aya101, Llama-3.2), LLM-переводчики (X-ALMA). Мерили качество перевода метриками spBLEU и chrF++ — грубо говоря, насколько машинный перевод совпадает с человеческим.

Ключевая находка по качеству: NLLB-200 стабильнее всех (18 побед из 32 языков), но даже она проваливается на конфликтных регионах. Llama и X-ALMA летают между крутыми результатами и полным провалом — отлично работают для португальского или персидского, но ломаются на языках типа ганда или дари (spBLEU<15, это "смысл угадывается, но текст разрушен").

Потом создали собственный датасет UrgencyScenarios — 100 кризисных сценариев на английском (сгенерировали через ChatGPT, вручную отобрали), перевели через NLLB на 32 языка. Попросили носителей языка (испанский, греческий, бенгали, хинди) оценить срочность по шкале от "некритично" до "критично". Половину сценариев показали на английском, половину — на родном языке аннотатора.

Вывод про людей: Люди согласованы независимо от языка. Распределение оценок сильно пересекается, разногласия минимальны и логичны (например, "очень низкая" в английском становится "низкой" в переводе — сдвиг на соседний уровень).

Вывод про LLM (Llama 3.2 как тестовая модель): Та же модель оценивает один сценарий как "некритично" на китайском, "высокая срочность" на английском, "критично" на испанском. Из 32 языков только 14 дали хотя бы 80% классификацию — на остальных модель часто отказывалась отвечать, галлюцинировала или давала ответы вне заданных категорий. Когда модель отвечала, она перестраховывалась — массово метила всё как "среднее", "высокое" или "критично", делая оценку бесполезной для триажа.

Почему так получилось: Перевод меняет ключевые слова ("immediately" может стать "в ближайшее время" или "немедленно"), и LLM считывает urgency с этих маркеров. Если маркер потерян или ослаблен — оценка падает. Если перевод добавил излишнюю драматичность — оценка взлетает. LLM не понимает urgency как концепт, она паттерн-матчит слова.


🔗

Ресурсы

LLM-Powered Automatic Translation and Urgency in Crisis Scenarios

Belu Ticona, Antonios Anastasopoulos

George Mason University, Archimedes AI Research Unit (Athena RC, Greece)

Датасет TICO-19: https://tico-19.github.io (публичный, 39 языков, COVID-19 контент)

Модели: NLLB-200 (Meta), Aya101 (Cohere Labs), Llama-3.2 (Meta), X-ALMA


📋 Дайджест исследования

Ключевая суть

Переводишь письмо партнёрам через LLM — слова передаются точно, но эмоциональный вес меняется непредсказуемо. Один и тот же кризисный сценарий модель оценивает как "некритичный" на китайском, "высокая срочность" на английском и "критично" на испанском. Фишка проблемы: перевод лингвистически корректен, но контекст восприятия теряется — слово "immediately" переводится как "немедленно", "сразу" или "в ближайшее время", формально все верно, но читатель воспринимает разный уровень угрозы.

Принцип работы

Люди оценивают срочность согласованно независимо от языка — LLM нет. Когда людей на испанском, греческом, бенгали просили оценить уровень угрозы одних сценариев, распределение оценок совпадало. LLM же меняет оценку в зависимости от языка промпта: сценарий переведён, но модель "видит" разную степень опасности. Ключевой паттерн: перевод С английского на другие языки хуже, чем обратный перевод НА английский. Модель лучше понимает инпут на редких языках, чем генерирует на них — она прочитает задачу на русском и ответит на английском точнее, чем прочитает на английском и ответит на русском.

Почему работает

Модель обучена на текстах, где одно слово имеет разный контекст в разных языках. "Immediately" переводится как "немедленно" / "сразу" / "в ближайшее время" — все варианты формально корректны, но эмоциональный вес разный. Модель выбирает по статистике употребления, не по передаче urgency. Генерация сложнее понимания — поэтому перевод С английского проваливается. Когда модель переводит НА английский, задача проще: английских примеров в обучающих данных больше, паттерны фраз устойчивее. Когда переводит на редкий язык — импровизирует на меньшем числе примеров, теряя нюансы тона.

Когда применять

Многоязычная работа: переводы важных сообщений (письма партнёрам, объявления клиентам, инструкции по безопасности) и аналитика контента на разных языках (отзывы, жалобы, комментарии). Критично когда нужно сохранить тон — настойчивость, срочность, эмоциональный окрас. НЕ подходит для монолингвальной работы, для формальных переводов где тон не важен (техдокументация, списки товаров).

Мини-рецепт

1. Переведи текст на целевой язык через LLM
2. Оцени тональность оригинала: дай задачу Оцени срочность от 1 до 5, где 1 — спокойная информация, 5 — требует немедленных действий
3. Оцени тональность перевода: отдельным запросом по той же шкале
4. Сравни оценки: если оригинал = 4 (настойчиво), перевод = 2 (нейтрально) — перевод потерял urgency
5. Попроси исправить: Оригинал звучит как 4 из 5 по срочности, перевод должен быть таким же — предложи альтернативные формулировки

Примеры

[ПЛОХО] : Переведи на английский: "Завтра с 22:00 до 02:00 запланированы технические работы. Рекомендуем завершить все операции до 21:30" — получаешь формально правильный перевод, но не знаешь, сохранился ли тон настойчивости.
[ХОРОШО] : Оригинал (русский): "Завтра с 22:00 до 02:00 запланированы технические работы. Рекомендуем завершить все операции до 21:30." Задача: 1) Переведи на английский 2) Оцени тональность оригинала по шкале: нейтрально / информативно / настойчиво / срочно / критично 3) Оцени тональность перевода 4) Если оценки расходятся — объясни и предложи исправленный вариант — видишь что оригинал "настойчиво" (из-за "рекомендуем завершить"), перевод "информативно" (слишком расслаблено), модель предлагает "please ensure" вместо "we recommend".
Источник: LLM-Powered Automatic Translation and Urgency in Crisis Scenarios
ArXiv ID: 2602.13452 | Сгенерировано: 2026-02-17 05:37

Проблемы LLM

ПроблемаСутьКак обойти
Перевод искажает тональность и срочностьПереводишь текст на другой язык. Смысл передан правильно. Но эмоциональный вес меняется. Фраза "рекомендуем завершить операции до 21:30" на русском звучит настойчиво. На английском может стать нейтральной подсказкой. Или наоборот — спокойное уведомление превращается в панику. Почему плохо: В критичных ситуациях (инструкции безопасности, общение с партнёрами, кризисные объявления) получатель воспринимает не ту степень важности. Действует медленнее или паникует без причиныДвухшаговая проверка: 1) Переведи текст 2) Попроси модель оценить тональность оригинала и перевода отдельно (например "оцени срочность от 1 до 5") 3) Сравни оценки — если расходятся, попроси переформулировать перевод чтобы сохранить тон
Перевод С английского хуже чем НА английскийМодель лучше понимает текст на любом языке, чем генерирует на нём. Переводишь с русского на английский — качество выше. Переводишь с английского на русский — качество ниже. Почему: У модели больше примеров английских фраз в обучающих данных. Когда она читает русский и пишет английский — опирается на устойчивые паттерны. Когда читает английский и пишет русский — импровизирует на основе меньшего числа примеров. Почему плохо: Если переводишь важный документ С английского на язык клиента, риск потери нюансов вышеДля критичного контента: переводи НА английский вместо С английского где возможно. Если нужен перевод С английского — используй двухшаговую проверку тональности (см. выше)
📖 Простыми словами

LLM-Powered Automatic Translation and Urgency in Crisis Scenarios

arXiv: 2602.13452

Суть проблемы в том, что современные нейронки — это не словари, а культурные хамелеоны, которые невольно искажают реальность. Когда LLM переводит текст, она не просто меняет слова, она пересчитывает «градус паники» под конкретный язык. В итоге получается абсурд: модель берет одно и то же сообщение о катастрофе и на английском выдает высокую срочность, а на китайском — пожимает плечами и помечает его как некритичное. Смысл вроде тот же, но эмоциональный заряд испаряется, превращая призыв к спасению в скучную констатацию факта.

Это как если бы ты крикнул «Пожар!», а переводчик передал бы это соседу-иностранцу спокойным тоном, мол, «кажется, наблюдается избыточное тепловыделение». Формально он не соврал, но сосед продолжит пить чай, пока дом догорает. Исследование 2602.13452 доказывает, что LLM лажают именно в этом «переводе чувств», делая сообщения либо слишком вялыми, либо неоправданно истеричными в зависимости от того, на каком языке они «думают».

Что реально ломает систему: искажение тональности (когда просьба превращается в приказ или наоборот), потеря призыва к действию (глагол есть, но он не мотивирует) и непредсказуемый вес слов. В испанском варианте ситуация может выглядеть как полный апокалипсис, а в английском — как мелкая неприятность. Модели типа GPT или Claude обучены на разных пластах культуры, и их внутренние веса настроены так, что одно и то же понятие вызывает разную реакцию в разных языковых средах.

Хотя ученые мучили нейронки кризисными сценариями, принцип универсален для любого бизнеса. Если ты переводишь через AI пост о скидках, письмо инвестору или инструкцию к таблеткам, ты рискуешь получить эффект испорченного телефона. Твой «дружелюбный совет» на немецком может прозвучать как пассивно-агрессивный наезд, а важное предупреждение о багах в коде — как невнятное бормотание, на которое все забьют. SEO-оптимизация тут не поможет, здесь работает чистая психолингвистика.

Короче: никогда не доверяй LLM перевод «между строк», если на кону стоят деньги или безопасность. Модель может идеально переставить подлежащее и сказуемое, но полностью слить контекст восприятия. Если нужно передать именно срочность или специфический вайб, проверяй результат через носителей или хотя бы проси нейронку сделать обратный перевод с анализом эмоций. Иначе твой месседж дойдет до адресата, но будет выглядеть как бессвязная фигня, лишенная всякого смысла.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с