3,583 papers
arXiv:2602.04729 72 4 фев. 2026 г. FREE

Культурные слепые зоны перевода: почему LLM теряют идиомы и каламбуры

КЛЮЧЕВАЯ СУТЬ
LLM переводят праздники и культурные термины на 2.20/3, а идиомы и каламбуры – всего 1.45/3. Парадокс: термины кажутся сложнее, но модель их переводит лучше, потому что там работает прямое замещение слов. Метод позволяет получать качественный перевод культурно насыщенного контента – идиом, каламбуров, игр слов – вместо дословной кальки или пропуска. Явно называешь категорию ('здесь идиома про бездействие') и просишь 2-3 варианта адаптации вместо прямого перевода. Модель переключается с автоматического режима на креативный поиск культурных эквивалентов – вместо 'бить баклуши' получишь 'twiddling thumbs', 'sitting on hands', 'goofing off' для американской аудитории.
Адаптировать под запрос

TL;DR

Исследование проверило как 7 современных LLM переводят культурно насыщенный контент — идиомы, каламбуры, упоминания праздников, культурные концепции. 75 носителей языка оценивали переводы на 15 языков по шкале 0-3. Все модели получили один и тот же промпт: "Переведи этот email для использования в [язык] в [страна]".

Модели справляются с прямыми культурными концепциями (праздники — 2.20/3, культурные термины — 2.19/3), но проваливаются на переносном смысле: идиомы получили 1.65/3, каламбуры — 1.45/3. Идиомы чаще всего вообще не переводятся — модель оставляет английский текст как есть. Даже топовые модели (GPT-5, Claude Sonnet 3.7, Mistral Medium 3.1) не справляются с фигуральным языком.

Разница в сложности объясняется тем, что праздники и термины можно перевести прямо (заменить словами), а идиомы и каламбуры требуют найти культурный эквивалент в целевом языке — это задача на креативность и глубокое понимание обеих культур. LLM обучались на параллельных корпусах, где идиомы часто переведены дословно или пропущены, и модель воспроизводит этот паттерн.


🚀

Пример применения

Задача: Переводишь email-рассылку для российского стартапа на английский. В тексте есть фраза "бить баклуши" и игра слов "заряжаться от розетки и от команды".

Промпт:

Переведи этот email на английский для американской аудитории.

В тексте есть:
1. Идиома "бить баклуши" (про бездействие)
2. Каламбур "заряжаться от розетки и от команды"

Сначала переведи весь текст. Потом отдельно предложи 2-3 варианта перевода для идиомы и каламбура, которые сохранят культурный смысл для американцев.

[текст email]

Результат: Получишь основной перевод + блок с вариантами адаптации. Для "бить баклуши" модель предложит американские эквиваленты вроде "twiddling thumbs", "sitting on hands", "goofing off". Для каламбура — игру слов понятную англоязычной аудитории. Сможешь выбрать лучший вариант или скомбинировать.


🧠

Почему это работает

LLM обучались на параллельных корпусах, где идиомы часто переведены дословно или вообще пропущены. Модель научилась воспроизводить этот паттерн: при встрече идиомы либо переводит слово в слово (что теряет смысл), либо оставляет на английском.

Модель хорошо справляется с прямым замещением (названия праздников, культурные термины — есть словарный эквивалент), но плохо с культурной адаптацией (нужно найти эквивалент по смыслу и контексту, а не по словам).

Когда ты явно называешь категорию ("здесь идиома", "здесь каламбур") и просишь варианты, ты активируешь другой режим работы — не автоматический перевод, а креативный поиск эквивалентов. Запрос нескольких вариантов вместо одного перевода снижает цену ошибки — ты сам выберешь лучший.

Рычаг управления: Можешь попросить модель объяснить логику каждого варианта — почему этот американский эквивалент передаёт тот же культурный смысл. Это поможет выбрать не просто звучащий вариант, а точно попадающий в контекст.


📋

Шаблон промпта

Переведи текст на {язык} для {целевая страна/регион}.

В тексте есть культурно насыщенные элементы:
- Идиомы: {список идиом}
- Каламбуры: {список каламбуров}
- Упоминания праздников: {список}
- Культурные концепции: {список терминов}

Сначала переведи весь текст.

Затем для каждой идиомы и каламбура предложи 2-3 варианта адаптации, которые сохранят смысл и эмоциональный тон для {целевая аудитория}.

В {список идиом} укажи фразы, которые нельзя переводить дословно (например, "бить баклуши", "вешать лапшу на уши").

В {список каламбуров} — игры слов, которые работают только в твоём языке.

В {список терминов} — слова специфичные для твоей культуры, которых может не быть в целевом языке (например, "субботник", "авоська", "koozie", "sweetheart" в романтическом смысле).


⚠️

Ограничения

⚠️ Направление перевода: Исследование проверяло перевод С английского. Для перевода НА английский или между другими языками паттерны могут отличаться.

⚠️ Домен: Тестировали маркетинговые email. В новостях, юридических текстах, разговорах модели могут вести себя иначе.

⚠️ Субъективность: Оценки культурной уместности зависят от демографии, региона, личного опыта носителя. То, что один эксперт считает хорошим переводом идиомы, другой может счесть неточным.


🔍

Как исследовали

Команда набрала 75 носителей языка из 15 стран (5 человек на язык) и дала каждому оценить переводы маркетинговых email. Взяли 5 настоящих рекламных рассылок e-commerce с идиомами, каламбурами, упоминаниями праздников и культурных терминов.

7 моделей (GPT-5, Claude Sonnet 3.7, Mistral Medium 3.1, DeepSeek V3.1, Llama 4, gpt-oss 120B, Aya Expanse 8B) получили один и тот же промпт: "Переведи этот email для использования в [язык] в [страна]". Каждая модель переводила в отдельной чистой сессии.

Оценщики ставили баллы 0-3 за весь текст целиком (качество, стиль, уместность для аудитории) и отдельно за каждый культурно насыщенный фрагмент. Для фрагментов была опция "NA" — не переведено, оставлен английский текст.

Удивительно: язык и алфавит почти не влияли на качество перевода. Ожидали, что иероглифы или арабская вязь создадут проблемы, но статистически это не подтвердилось. Гораздо сильнее влияла категория контента (идиома vs праздник) и модель.

GPT-5, Claude Sonnet 3.7 и Mistral Medium 3.1 оказались в топе, но ни одна модель не справилась с идиомами и каламбурами хорошо. Даже лидеры получили 1.45-1.65 из 3 — чуть выше половины максимума. Это значит, что проблема не в конкретной модели, а в самом подходе к обучению переводу — в данных мало примеров культурно адаптированных идиом.

Самая слабая модель Aya Expanse 8B не только хуже переводила, но и чаще всего просто пропускала идиомы — оставляла английский текст. Это защитное поведение: "не знаю как — не трогаю". Но даже когда модели пытались перевести идиому, качество оставалось низким — проблема не только в осторожности, но и в отсутствии культурной компетенции.


💡

Адаптации и экстраполяции

🔧 Техника: Трёхшаговый перевод для маркетинга

Для важных текстов (лендинги, рекламные кампании, pitch deck) раздели перевод на три шага:

Шаг 1: Переведи текст на {язык}.

Шаг 2: Найди в переводе все места, где возможна культурная неуместность:
- Фразы, которые звучат неестественно
- Прямые переводы идиом
- Упоминания праздников/концепций незнакомых {целевая аудитория}

Шаг 3: Для каждого найденного места предложи культурно адаптированный вариант с объяснением почему он лучше.

Первый шаг даёт базовый перевод. Второй — заставляет модель критически посмотреть на результат своими глазами. Третий — генерирует альтернативы уже с пониманием проблемы.


🔧 Техника: Запрос культурного эквивалента вместо перевода

Вместо "переведи идиому" попроси найти функциональный эквивалент:

В русском есть идиома "бить баклуши" = бездельничать, лениться.

Какая английская идиома передаёт тот же смысл (лёгкое бездействие, потеря времени на ерунду) и подходит для делового контекста?

Дай 3 варианта с объяснением оттенков каждого.

Слово "идиома" активирует поиск в пространстве фразеологизмов целевого языка, а не попытку перевести слова исходной фразы.


🔗

Ресурсы

"Be My Cheese?": Cultural Nuance Benchmarking for Machine Translation in Multilingual LLMs

Madison Van Doren, Casey Ford, Jennifer Barajas, Cory Holland (Appen)


📋 Дайджест исследования

Ключевая суть

LLM переводят праздники и культурные термины на 2.20/3, а идиомы и каламбуры – всего 1.45/3. Парадокс: термины кажутся сложнее, но модель их переводит лучше, потому что там работает прямое замещение слов. Метод позволяет получать качественный перевод культурно насыщенного контента – идиом, каламбуров, игр слов – вместо дословной кальки или пропуска. Явно называешь категорию ('здесь идиома про бездействие') и просишь 2-3 варианта адаптации вместо прямого перевода. Модель переключается с автоматического режима на креативный поиск культурных эквивалентов – вместо 'бить баклуши' получишь 'twiddling thumbs', 'sitting on hands', 'goofing off' для американской аудитории.

Принцип работы

Не давай модели переводить всё одним проходом – она воспроизведёт паттерн дословного перевода. Раздели на два этапа: сначала основной перевод, потом отдельный запрос вариантов для идиом и каламбуров. Запрос нескольких вариантов вместо одного снижает цену ошибки – ты сам выберешь точно попадающий в контекст целевой культуры.

Почему работает

LLM обучались на параллельных корпусах, где идиомы часто переведены дословно или вообще пропущены. Модель научилась воспроизводить этот паттерн: встретила идиому → перевела слово в слово (смысл потерян) или оставила на английском. Когда ты явно называешь категорию и просишь варианты, активируешь другой режим – не автоматическое копирование из обучающих данных, а креативный поиск эквивалентов по смыслу и культурному контексту. Исследование показало: модели хорошо справляются с прямым замещением (праздники, термины – есть словарный эквивалент), но плохо с культурной адаптацией (нужно найти эквивалент не по словам, а по смыслу в целевой культуре).

Когда применять

Перевод маркетинговых материалов → конкретно для email-рассылок, лендингов, рекламных текстов, где есть идиомы, каламбуры, культурные отсылки. Особенно когда целевая аудитория из другой культуры и дословный перевод убьёт смысл. НЕ подходит для технической документации или юридических текстов, где идиомы редки и нужна точность терминов, а не креативность.

Мини-рецепт

1. Найди культурно насыщенные элементы в исходном тексте: идиомы ('бить баклуши', 'вешать лапшу'), каламбуры (игры слов работающие только в твоём языке), культурные концепции ('субботник', 'авоська', 'sweetheart' в романтическом смысле)
2. Дай базовый запрос на перевод: Переведи этот текст на {язык} для {целевая страна}
3. Отдельным блоком перечисли найденные элементы: 'В тексте есть: 1) Идиома [фраза] про [суть], 2) Каламбур [фраза]...'
4. Попроси варианты: 'Для каждой идиомы и каламбура предложи 2-3 варианта адаптации, которые сохранят смысл и эмоциональный тон для {целевая аудитория}'
5. Опционально попроси объяснение: 'Объясни почему каждый вариант передаёт тот же культурный смысл' – поможет выбрать не просто звучащий, а точно попадающий

Примеры

[ПЛОХО] : Переведи этот email на английский для американской аудитории: [текст с идиомами и каламбурами]
[ХОРОШО] : Переведи этот email на английский для американской аудитории. В тексте есть: 1. Идиома 'бить баклуши' (про бездействие) 2. Каламбур 'заряжаться от розетки и от команды' Сначала переведи весь текст. Потом отдельно предложи 2-3 варианта перевода для идиомы и каламбура, которые сохранят культурный смысл для американцев. [текст email] Получишь основной перевод + блок с вариантами: для 'бить баклуши' – 'twiddling thumbs', 'sitting on hands', 'goofing off'. Для каламбура – игру слов понятную англоязычной аудитории. Выберешь лучший или скомбинируешь.
Источник: Be My Cheese?: Cultural Nuance Benchmarking for Machine Translation in Multilingual LLMs
ArXiv ID: 2602.04729 | Сгенерировано: 2026-02-05 06:25

Концепты не выделены.

📖 Простыми словами

"Be My Cheese?": Cultural Nuance Benchmarking for Machine Translation in MultilingualLLMs

arXiv: 2602.04729

Современные нейронки — это не переводчики, а скорее начитанные попугаи, которые спотыкаются на первой же попытке выйти за рамки словаря. Когда ты просишь ChatGPT перевести письмо, она не вникает в контекст, а просто подбирает наиболее вероятные цепочки слов. Проблема в том, что культурный код в эти цепочки не зашит. Если в тексте встречается идиома или локальный прикол, модель видит в них обычный набор слов и переводит их в лоб, потому что в её обучающей выборке «бить баклуши» и «бить посуду» выглядят примерно одинаково.

Это как если бы ты нанял переводчика, который выучил язык по словарю, но ни разу не выходил из комнаты. Он знает все слова, но не понимает, почему фраза «Be My Cheese?» в одном языке звучит мило, а в другом — как бред сумасшедшего. В итоге ты получаешь текст, который грамматически правилен, но по смыслу напоминает разговор с роботом, который пытается притвориться человеком. Формально всё на месте, но пахнет пластиком.

Исследование прогнало 7 топовых моделей через 15 языков и выяснило, что культурные нюансы — это их ахиллесова пята. Что реально лажает: каламбуры (модели просто убивают шутку), идиомы (переводятся дословно, превращаясь в абракадабру) и локальные концепции. Если ты пишешь в рассылке про «зарядку от команды», нейронка, скорее всего, решит, что ты буквально втыкаешь вилку в коллег. Носители языка в 15 странах оценили такие «шедевры» крайне низко, потому что модели игнорируют контекст страны, даже если их об этом прямо попросить в промпте.

Тестировали на письмах и поздравлениях, но этот облом касается любого контента: от маркетинговых слоганов до интерфейсов приложений. Принцип везде один: если твой текст сложнее, чем инструкция к табуретке, LLM его испортит. Это не значит, что нейронки бесполезны, просто их «знание» языков поверхностно. SEO-перевод они сделают, но культурную адаптацию — нет. Пока ты не объяснишь модели каждый подтекст на пальцах, она будет выдавать стерильный и часто нелепый результат.

Короче: не надейся, что AI поймёт твою иронию или тонкую игру слов. Если хочешь, чтобы перевод не выглядел как испанский стыд, либо вычищай из оригинала все идиомы, либо проверяй результат с живым носителем. 7 из 7 моделей лажают на метафорах, и это риск потерять лояльность аудитории просто потому, что твой текст звучит чужеродно. Пиши проще или готовься к тому, что твой «креатив» превратится в тыкву сразу после нажатия кнопки «Generate».

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с