3,583 papers
arXiv:2606.11009 74 9 июня 2026 г. FREE

Синдром пасхального яйца на Ид: почему «правильно выглядящий» культурный контент от LLM может быть глубоко неверным

КЛЮЧЕВАЯ СУТЬ
Парадокс: текст для индийских студентов на бенгальском языке выглядит местным. Но модель использует валюту Бангладеш — просто потому что оба связаны с «бенгальским» в обучающих текстах. Пасхальные яйца превращаются в активность на Ид — не исчезают, а перекрашиваются. Поверхностная убедительность прячет глубокие ошибки. Метод явного контракта позволяет получить адаптацию, где ошибки видны — не замаскированы правильно звучащим текстом. Прописываешь что менять, что не трогать, просишь отметить неуверенность — получаешь не только адаптированный текст, но карту рисков для финальной проверки.
Адаптировать под запрос

TL;DR

Когда просишь LLM адаптировать текст под другую культуру — получаешь грамотно звучащий, но потенциально культурно ошибочный результат. Это работает так: модель заменяет поверхностные маркеры (имена, валюту, еду), но путает регионы, смешивает культуры и сжимает разнообразие в несколько «безопасных» шаблонных вариантов. Проблема не заметна на одном тексте — она проявляется только при взгляде на десятки адаптаций.

Ключевой провал: поверхностная убедительность маскирует глубокие ошибки. Текст для индийских студентов на бенгальском языке выглядит локальным — но модель использует валюту Бангладеш, потому что тоже «бенгальский». Задача для мусульманской аудитории выглядит адаптированной — но пасхальные яйца превращаются в активность на Ид, вместо того чтобы исчезнуть совсем. Глаз не замечает, потому что язык правильный.

Исследование фиксирует три механизма провала. Первый — нестабильность между моделями: Claude, GPT и Gemini производят разные культурные миры при одном и том же промпте. Второй — сжатие разнообразия (entropy collapse): вместо богатого культурного контекста модели снова и снова выбирают одно-два «канонических» имени или блюда. Третий — перепутывание регионов: «Индия» и «бенгальский» — это достаточно для модели, чтобы перепутать Западную Бенгалию с Бангладеш.


📌

Схема провалов и как их предотвратить

ТИПИЧНЫЙ ЗАПРОС: "Адаптируй текст для {страна}, язык {язык}"
        ↓
Модель меняет: имена, еду, валюту (поверхность)
Модель сохраняет: структуры, системы, допущения (глубина)  
Модель путает: регионы внутри страны, соседние культуры
        ↓
Выглядит ✅ — Работает ❌

ИСПРАВЛЕННЫЙ ЗАПРОС: (см. шаблон ниже)
        ↓
Явное перечисление что менять / что не трогать
Конкретный регион, не страна
Просьба отметить культурно спорные замены
        ↓
Выглядит ✅ — Работает значительно лучше ✅

Всё в одном промпте — дополнительных запросов не требуется.


🚀

Пример применения

Задача: Тимур ведёт образовательный Telegram-канал для предпринимателей из Татарстана. Он хочет адаптировать кейс "Как Airbnb нашёл первых клиентов" для местной аудитории — с татарскими именами, локальными реалиями, привычными примерами. Просит LLM сделать адаптацию — получает текст с "Казанью" и именем "Айгуль", который выглядит локальным, но при этом использует московские ценовые реалии и упоминает "дачу" как понятие, которое не резонирует с татарским предпринимательским контекстом.

Промпт после инсайтов из исследования:

Адаптируй текст кейса об Airbnb для аудитории — 
предприниматели из Татарстана (Казань и средние города республики), 
30-45 лет, часто говорят и по-татарски, и по-русски, 
близки к исламской культуре и татарским традициям.

ЗАМЕНИ на аутентичное для Татарстана:
- Имена → татарские (не просто "красивые мусульманские", 
  а именно татарские: Айрат, Гульнара, Ильнур, Алина)
- Примеры локаций → конкретные места Казани или города РТ
- Бытовые примеры → татарский контекст (сабантуй, 
  чак-чак как часть культуры, не как экзотика)
- Денежные суммы → актуальные рублёвые цифры для РТ

НЕ МЕНЯЙ:
- Бизнес-механику и логику кейса
- Профессиональные термины
- Структуру нарратива

ИЗБЕГАЙ ЭТИХ ОШИБОК:
- Не используй башкирский или казахский контекст 
  (другие регионы, другая культура)
- Не заменяй татарские специфические элементы 
  на "общемусульманские" или "общероссийские"
- Не смешивай казанский и сельский татарский контекст 
  без нужды

ПОСЛЕ АДАПТАЦИИ укажи:
1. Что именно изменил и почему
2. Какие замены ты сделал неуверенно — где советуешь 
   проверить с носителем культуры

Вот текст кейса:
{вставь текст}

Результат: Модель выдаст адаптированный текст плюс отдельный блок — список изменений с пояснениями и флаги на спорные замены. Это важная часть: без явной просьбы флагировать неуверенность модель не скажет, что могла ошибиться. С флагами — у тебя есть список для финальной проверки.


🧠

Почему это работает

LLM не "знает культуру" — она статистически предсказывает, какие слова встречались рядом с "Индия" или "Татарстан" в обучающих текстах. Бангладеш и Западная Бенгалия оба связаны с бенгальским языком — модель путает их, потому что они рядом в пространстве текстов.

Когда ты не указываешь явно что менять, модель замечает самое очевидное — имена, еду, деньги. Это поверхностный слой. Глубокий слой — кто принимает решения в семье, как устроена местная торговля, что significa "праздник" в конёт контексте — модель не трогает, потому что об этом не спрашивали.

Рычаг управления — явное разделение на "менять" и "не трогать" плюс просьба флагировать неуверенность. Это убирает самый опасный паттерн: уверенный тон при неверном содержании. Модель по умолчанию говорит уверенно всегда. Попросив её отметить неуверенность — получаешь карту рисков.


📋

Шаблон промпта

Адаптируй {тип контента} для аудитории: {точное описание — 
регион, город, возраст, культурный контекст, язык}.

ЗАМЕНИ на аутентичное для {конкретный регион/сообщество}:
- {элемент 1} → {что искать на замену}
- {элемент 2} → {что искать на замену}
- {элемент 3} → {что искать на замену}

НЕ МЕНЯЙ:
- {что должно остаться неизменным}
- {структурные элементы, термины}

ИЗБЕГАЙ:
- Путать {целевой регион} с {соседним/похожим регионом}
- Использовать {общую категорию} вместо {специфики}

ПОСЛЕ АДАПТАЦИИ перечисли:
1. Что изменил и почему
2. Где был(а) неуверен(а) — что стоит проверить с носителем

Вот исходный текст:
{текст}

Плейсхолдеры: - {тип контента} — кейс, обучающий текст, маркетинговое письмо, задача - {точное описание аудитории} — конкретнее, чем страна: город, субкультура, возраст, контекст - {конкретный регион/сообщество} — не "Россия", а "Казань" или "дагестанские предприниматели" - {соседний/похожим регионом} — то, что модель может перепутать (Бангладеш/Западная Бенгалия, Башкирия/Татарстан)


🚀 Быстрый старт — вставь в чат:

Вот шаблон для культурной адаптации контента. 
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить все поля.

[вставить шаблон выше]

LLM спросит про целевую аудиторию, регион, что важно сохранить — потому что без этих данных явный список замен и флаги неуверенности не составить. Она возьмёт структуру шаблона и адаптирует под твой контекст.


🧠

Почему это работает (механика)

Слабость LLM: модель хорошо имитирует правильность, но плохо знает разницу между похожими культурами. Казань и Уфа — оба тюркских, оба мусульманских, оба в России. Для модели с недостаточным сигналом — это почти одно. Текст выйдет грамотный, но с башкирскими вкраплениями в татарском контексте.

Сильная сторона LLM: модель отлично следует явным спискам ограничений и умеет оценивать собственную неуверенность, если её об этом попросить. По умолчанию — не скажет. По запросу — скажет.

Как метод использует это: Превращаем неявную задачу ("адаптируй для Татарстана") в явный контракт с разделёнными правилами. Добавляем механизм обратной связи — список флагов. Это не решает проблему полностью, но делает ошибки видимыми, а не скрытыми за поверхностной убедительностью.

Рычаги управления: - Специфичность региона → чем точнее, тем меньше путаницы: "Казань, 2025" лучше чем "Татарстан", лучше чем "Россия" - Явный список "не трогать" → без него модель может "улучшить" то, что трогать не надо - Флаги неуверенности → убери этот блок если доверяешь своей культурной экспертизе, оставь если нет - Список "чего избегать" → самый сильный рычаг против смешения похожих культур


⚠️

Ограничения

⚠️ Требует культурной экспертизы для проверки: Промпт помогает получить флаги, но интерпретировать их — работа человека, который знает культуру. Без носителя или эксперта ты можешь получить список ошибок, но не понять какие из них критичны.

⚠️ Поверхностный слой всё равно ненадёжен: Даже с лучшим промптом модели систематически предпочитают одни и те же "канонические" замены. Если нужно разнообразие — просить явно ("дай 5 вариантов имён, не повторяй типичные").

⚠️ Глубокий культурный слой LLM почти не трогает: Структуры принятия решений, неписаные нормы, специфику регистра — модель либо сохраняет из исходного текста, либо заменяет неверным аналогом. Это требует ручной проверки, промпт не спасает.

⚠️ Выбор модели — это культурный выбор: Claude локализует агрессивно (меняет больше), GPT сохраняет консервативно (меняет меньше), Gemini чаще перестраивает категории. Для разных задач — разная логика выбора.


🔍

Как исследовали

Исследователи взяли 60 задач из GSM8K — популярного датасета школьных математических задач — и попросили три модели (Claude Opus 4, GPT-4.1, Gemini 2.5 Pro) адаптировать каждую для семи языков: бенгальский, хинди, пенджаби (для Индии), урду и синдхи (для Пакистана), итальянский и сицилийский. Итого 1260 переводов.

Интереснее всего методология разметки: команда вручную аннотировала 6489 трансформаций отдельных культурных элементов — имён, еды, валют, мест, институтов. Каждой паре "исходный элемент → переводной элемент" присвоили одну из пяти меток: сохранён, локализован, обобщён, изменён по типу, пропущен. Это позволило видеть не "хороший ли перевод в целом", а конкретно — что модель сделала с каждым элементом.

Самый неожиданный результат: все три модели показали entropy collapse — разнообразие элементов в переводах меньше, чем в исходниках. То есть 60 разных задач с богатым набором имён, блюд и мест превращаются в несколько повторяющихся "канонических" замен. Модели не расширяют культурный мир — они его сужают. Это системный эффект, невидимый при взгляде на одну задачу.

Второй сюрприз: согласие между моделями на конкретные замены — всего 33.5%. То есть в двух из трёх случаев модели выбирают разные слова, имена, места при одинаковом запросе. Модель — это культурный выбор, а не технический.


📋

Оригинальный промпт из исследования

You are an elementary school math teacher in [country], 
teaching students in [language]. 
Translate the following math word problem from English 
into [language] and adapt the problem so that it fits 
the cultural context of students in [country].

Контекст: Это базовый промпт, который исследователи использовали для всех 1260 переводов. Никаких дополнительных инструкций о том, что менять, что сохранять, как проверить региональную точность. Именно эта вариативность и открытость позволила выявить системные провалы.


💡

Адаптации и экстраполяции

📌

💡 Адаптация для маркетинга и локализации контента

Та же логика применима к рекламным текстам, email-рассылкам, постам в соцсетях. Если пишешь для аудитории "Юг России" — это Краснодар, Ростов, Ставрополь, которые заметно отличаются по культуре. Модель без явных инструкций выберет "усреднённый юг".

Адаптируй этот рекламный текст для аудитории: 
жители Краснодара, 25-40 лет, семейные, 
ориентированы на качество, локальный патриотизм (Кубань как идентичность).

ЗАМЕНИ: абстрактные примеры → краснодарские реалии 
(ЗИП-парк, набережная, краснодарский рынок, станицы рядом).
Тон: тёплый, без столичной снисходительности.

НЕ ПУТАЙ с Ростовом — другой менталитет, 
другие точки идентичности.

ФЛАГИ: отметь всё, в чём был(а) неуверен(а) 
по краснодарской специфике.

Текст:
{текст}

📌

🔧 Техника: добавь "культурного рецензента" как второй шаг

После адаптации — отдельный запрос для верификации:

Ты культурный консультант по {регион}.
Вот адаптированный текст: {текст}

Найди:
1. Культурные несоответствия — что звучит чужеродно
2. Смешения с другими регионами или культурами
3. Поверхностные маркеры, за которыми скрыты чужие допущения

Отвечай конкретно: "элемент X — проблема, потому что..."

Это двухшаговая схема: сначала адаптация, потом аудит. Модель в роли критика замечает другие вещи, чем в роли переводчика.


📌

🔧 Техника: запрос нескольких вариантов против "канонического сжатия"

Главный системный баг — модели снова и снова дают одни и те же "безопасные" замены. Контрмера:

Адаптируй этот текст для {аудитория}.

При замене имён и примеров:
- Дай 3 разных варианта адаптации
- Избегай самых очевидных, первых приходящих замен
- В каждом варианте используй разные имена и локации

Покажи все три варианта, потом объясни различия между ними.

Три варианта вместо одного — прямой ответ на entropy collapse из исследования.


🔗

Ресурсы

Название: Who Brought Easter Eggs to Eid? Auditing Cultural Translation of Math Word Problems Across Diverse Languages and Regions

Авторы: Parisa Suchdev, Juniper Lovato

Организация: Computational Ethics Lab, Vermont Complex Systems Center, Department of Computer Science, University of Vermont; Complexity Science Hub

Датасет-основа: GSM8K (Cobbe et al., 2021) — 8500 школьных математических задач

Смежные работы упомянутые в статье: - Karim et al. (2025) — как культурный контекст влияет на точность решения задач LLM - Tomar et al. (2025) — региональные варианты GSM8K для Африки, Индии, Китая, Кореи, Японии - Naous et al. (2024) — культурные ошибки LLM в арабском контексте - Wang et al. (2024) — английские культурные дефолты в неанглийских промптах


📋 Дайджест исследования

Ключевая суть

Парадокс: текст для индийских студентов на бенгальском языке выглядит местным. Но модель использует валюту Бангладеш — просто потому что оба связаны с «бенгальским» в обучающих текстах. Пасхальные яйца превращаются в активность на Ид — не исчезают, а перекрашиваются. Поверхностная убедительность прячет глубокие ошибки. Метод явного контракта позволяет получить адаптацию, где ошибки видны — не замаскированы правильно звучащим текстом. Прописываешь что менять, что не трогать, просишь отметить неуверенность — получаешь не только адаптированный текст, но карту рисков для финальной проверки.

Принцип работы

Стандартный запрос адаптируй для Татарстана — это просьба без рецепта. Модель хватает самое очевидное: имена, еду, деньги. Поверхностный слой. Глубокий слой — кто принимает решения в семье, как устроена местная торговля, что значит «праздник» в этом контексте — не трогает. Никто не просил. Фишка: разбиваешь задачу на явный контракт — список «менять», список «не трогать», список «избегать», запрос флагировать неуверенность. Модель по умолчанию говорит уверенно — даже когда ошибается. Попросишь отметить сомнения — получишь список для проверки носителем. Без этого запроса список не появится никогда.

Почему работает

LLM не знает культуру. Она предсказывает, какие слова чаще стояли рядом с «Индия» или «Татарстан» в текстах, на которых обучалась. Бангладеш и Западная Бенгалия оба близки к «бенгальскому» — модель путает их, потому что они рядом в пространстве текстов, а не на карте. Ещё хуже: модели снова и снова выбирают одни и те же «канонические» имена и блюда — живое культурное разнообразие сжимается в 2-3 шаблона. Claude, GPT и Gemini при одном и том же запросе производят разные культурные миры — и ни один не спросит, нужен ли тебе татарский контекст или башкирский. Явные ограничения — единственный способ выбраться из этого круга.

Когда применять

Образовательный и маркетинговый контент → адаптация задач, кейсов, обучающих текстов, рассылок под конкретную региональную аудиторию. Особенно когда рядом есть похожие культуры или языки, которые модель может перепутать: Татарстан/Башкирия, Индия/Бангладеш, арабские страны друг с другом. НЕ подходит: если нужна глубокая культурная точность без эксперта или носителя на проверке. Метод делает ошибки видимыми — но интерпретировать флаги всё равно придётся человеку.

Мини-рецепт

1. Опиши аудиторию точнее чем страна: не «Россия», а «предприниматели из Казани, 30-45 лет, близки к татарской культуре и исламским традициям».

2. Раздели задачу на явные списки:
— ЗАМЕНИ: укажи конкретно что и на что (имена → татарские: Айрат, Ильнур, Гульнара — не просто «мусульманские»)
— НЕ МЕНЯЙ: бизнес-логику, структуру, профессиональные термины
— ИЗБЕГАЙ: перечисли соседние культуры, которые нельзя смешивать (не башкирский, не «общероссийский» контекст)

3. Попроси флаги неуверенности: «После адаптации перечисли: что изменил и почему, и где был неуверен — что стоит проверить с носителем культуры».

4. Проверь флаги с носителем или экспертом: именно этот блок и есть карта рисков. Без него адаптация выглядит готовой, но может содержать скрытые ошибки.

Примеры

[ПЛОХО] : Адаптируй этот обучающий текст для татарской аудитории
[ХОРОШО] : Адаптируй текст для аудитории: предприниматели из Казани и средних городов Татарстана, 30-45 лет, близки к татарской культуре и исламским традициям. ЗАМЕНИ на аутентичное для Татарстана: — Имена → татарские (Айрат, Ильнур, Гульнара — не общемусульманские) — Локации → конкретные места Казани или городов РТ — Бытовые примеры → татарский контекст (сабантуй, чак-чак как часть культуры) — Суммы → актуальные рублёвые цифры для региона НЕ МЕНЯЙ: — Бизнес-логику и структуру кейса — Профессиональные термины ИЗБЕГАЙ: — Путать татарский контекст с башкирским или казахским — Использовать «общероссийские» замены вместо татарской специфики ПОСЛЕ АДАПТАЦИИ перечисли: 1. Что изменил и почему 2. Где был неуверен — что стоит проверить с носителем Текст: {вставь текст}
Источник: Who Brought Easter Eggs to Eid? Auditing Cultural Translation of Math Word Problems Across Diverse Languages and Regions
ArXiv ID: 2606.11009 | Сгенерировано: 2026-06-10 05:24

Проблемы LLM

ПроблемаСутьКак обойти
Модель путает похожие регионы и языкиПросишь адаптировать под конкретную культуру. Модель цепляется за ближайший сигнал — язык, религию, страну. Находит похожую культуру рядом и берёт оттуда. Бенгальский язык модель берёт из Бангладеш, хотя задача про Индию. Текст выглядит локальным. Ошибка не видна без знания культурыВ промпте явно пиши чего избегать: "не путай с {соседний регион}". Называй конкретный город, не страну. "Казань, 2025" — лучше чем "Татарстан", лучше чем "Россия"
Без запроса разнообразия модель выбирает одно-два шаблонных вариантаПросишь имена, еду, примеры для культуры X. Получаешь одно-два "канонических" слова снова и снова. Богатство культуры схлопывается до штампа. На одном тексте незаметно. На десяти — очевидноДобавляй явный запрос: "дай 5 вариантов имён, не повторяй типичные". Без этого — всегда штамп

Методы

МетодСуть
Контракт адаптации: менять / не трогать / избегать + флагиРаздели задачу на три явных блока. ЗАМЕНИ: список элементов и что искать на замену. НЕ МЕНЯЙ: структуру, механику, термины. ИЗБЕГАЙ: конкретные ошибки смешения культур. Четвёртый блок — попроси отчёт: что изменил и где был неуверен. ПОСЛЕ АДАПТАЦИИ перечисли: 1. Что изменил и почему. 2. Где был неуверен — что стоит проверить с носителем. Почему работает: без явного списка модель меняет только самое очевидное — имена и еду. С явным разделением она следует контракту. Без запроса на флаги говорит уверенно всегда. С запросом — даёт карту рисков. Когда применять: любая задача адаптации под конкретную аудиторию — маркетинг, обучение, кейсы. Когда не спасает: глубокий культурный слой (неписаные нормы, регистр, структуры решений) — требует проверки носителем
📖 Простыми словами

Who Brought Easter Eggs to Eid? Auditing Cultural Translation of Math Word Problems Across DiverseLanguagesand Regions

arXiv: 2606.11009

Нейросети не понимают культуру — они просто жонглируют статистическими вероятностями слов. Когда ты просишь модель адаптировать задачу или текст под конкретный регион, она не вникает в традиции, а включает режим поверхностного макияжа. Модель находит в тексте маркеры вроде имен, валюты или праздников и меняет их на те, что чаще всего встречаются в обучающей выборке рядом с названием нужной страны. Проблема в том, что за этой сменой вывески скрывается полная каша в логике: модель может вставить пасхальные яйца в контекст мусульманского праздника просто потому, что оба понятия помечены в её «голове» как праздничные атрибуты.

Это похоже на голливудский фильм, где действие происходит в Москве, но на улицах стоят пальмы, а герои пьют водку из самовара. Вроде бы слова русские и локации подписаны правильно, но любой местный сразу поймет, что это картонная декорация. Модель работает как ленивый декоратор: она красит фасад в нужный цвет, но оставляет внутреннюю планировку здания абсолютно чужой, создавая культурного Франкенштейна, который выглядит грамотно, но ощущается как полная дичь.

Исследователи проверили это на математических задачах и выяснили, что LLM страдает галлюцинациями локализации. Она легко путает Бангладеш и Западную Бенгалию, потому что там и там говорят на бенгальском, или пихает типично американские социальные сценарии в декорации арабских стран. Самое паршивое, что нейронка стремится к «безопасному среднему»: она схлопывает всё многообразие мира до нескольких шаблонных стереотипов. Если Индия — то обязательно карри и крикет, если Татарстан — то Айгуль и чак-чак, даже если в контексте бизнеса это выглядит максимально неуместно.

Этот принцип универсален и касается не только математики. Если ты адаптируешь рекламный креатив, пост для блога или сценарий обучения через ChatGPT, ты рискуешь получить эффект зловещей долины. Текст будет звучать на правильном языке, но транслировать чуждые ценности или бытовые детали, которые в целевом регионе просто не существуют. Модель не учитывает разницу в ценах, климате или этикете — она просто меняет «Джона» на «Ахмеда», оставляя его при этом типичным жителем пригорода Огайо.

Короче: никогда не доверяй нейронке «локализацию под ключ» без жесткого фактчекинга. Она мастерски имитирует форму, но абсолютно не вывозит содержание сложных культурных контекстов. Если не хочешь выглядеть как корпоративный робот, который пытается сойти за своего, используя мемы десятилетней давности, проверяй каждую деталь. Культурная адаптация от AI — это пока лишь раскраска по номерам, где модель постоянно вылезает за границы и путает цвета.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с