3,583 papers
arXiv:2604.21751 74 23 апр. 2026 г. FREE

LLM-культурный дефолт: почему модели «думают» по-японски и что с этим делать

КЛЮЧЕВАЯ СУТЬ
Парадокс: все ожидали американский уклон в LLM — оказалось, лидирует Япония. 6 из 8 топовых моделей при любом культурном вопросе без явного контекста притягиваются к японским референсам, уверенно обгоняя США, Индию и Китай. Метод позволяет получать культурно точные ответы для любого региона — России, Казахстана, Нигерии, Турции — вместо очередного токийского минимализма. Фишка: промпт без указания культуры — это вакуум, модель заполняет его своими прайорами. Назови список нужных стран — и получишь именно их паттерны.
Адаптировать под запрос

TL;DR

Без явного указания культурного контекста LLM автоматически привязывает ответы к Японии или США — даже когда задаёшь вопрос на русском о еде, искусстве, образовании или деловых практиках. Это не случайность и не влияние языка: приоритет «Япония прежде всего» стабильно выявился у шести из восьми протестированных топовых моделей.

Главная неожиданность: до этого исследования все думали, что LLM предвзяты в сторону США и Западной Европы. Оказалось — нет. Япония стабильно выходит на первое место среди «чужих» культур, опережая США, Индию, Китай и Францию. При этом у каждой модели есть и «домашняя» привязка: если спрашивать на языке, у которого есть страна-носитель, модель в 43–78% случаев ответит отсылками к этой стране. На русском получишь Россию как фон, на испанском — Испанию или Латинскую Америку. Но стоит этим «своим» ответам исчезнуть — сразу приходит Япония.

Главный рычаг управления этим поведением — явное указание культурного контекста в промпте. Без этого модель заполняет культурный пробел своими дефолтами. С явным контекстом — генерирует именно то, что нужно.


📌

Схема применения

БЕЗ контекста:
Вопрос о культуре → [пробел] → модель заполняет дефолтом → Япония / США

С явным контекстом:
Вопрос о культуре + {регион} → модель следует указанию → релевантный ответ

Если нужна ДИВЕРСИФИКАЦИЯ:
Вопрос + «приведи примеры из 5 разных культур: {список}» → модель расширяет охват

Всё выполняется в одном промпте, никаких дополнительных запросов не нужно.


🚀

Пример применения

Задача: Павел Дуров попросил команду подготовить концепцию для нового продукта — социальной сети для профессионалов. Нужно понять, как оформить онбординг: какие культурные паттерны уважения к труду и карьере заложить в UX-тексты для разных рынков.

Промпт без указания культурного контекста (что делают большинство пользователей):

Опиши культурные нормы отношения к карьере и профессиональному успеху. Как люди воспринимают работу, достижения и статус?

Модель вернёт японскую трудовую этику и американский культ достижений. Турция, Бразилия, Россия, Нигерия — не появятся.


Промпт с явным культурным контекстом:

Я делаю профессиональную социальную сеть и хочу локализовать 
онбординг для разных рынков.

Опиши культурные нормы отношения к карьере, профессиональному 
статусу и достижениям в каждой из этих культур:
- Россия и СНГ
- Турция
- Бразилия
- Нигерия
- Германия

Для каждой культуры: как люди говорят о работе публично, 
что считается хвастовством, а что — нормальной демонстрацией 
компетентности, какие ценности в профессии на первом месте.

Не обобщай — давай конкретные культурные паттерны.

Результат: Модель даст структурированный разбор по каждой культуре с конкретными паттернами поведения, локальными нюансами и различиями в восприятии. Без явного запроса эти пять культур просто не появились бы в ответе.


🧠

Почему это работает

LLM не хранит знания равномерно по всем культурам. Данные о разных странах в интернете распределены крайне неравномерно — японская поп-культура, аниме, технологии создали огромный пласт текстов на всех языках. США доминируют в англоязычном тренировочном корпусе. Результат: при любом культурном вопросе модель «притягивается» к этим двум полюсам.

Важный механический инсайт: базовая модель (до fine-tuning) более нейтральна. После инструкционного дообучения (тот этап, который делает модель «разговорчивой» и послушной) культурные дефолты резко усиливаются. Это значит, что именно RLHF и SFT обучение — источник японской одержимости, а не изначально собранные данные.

Для тебя как пользователя это значит одно: промпт без культурного контекста — это вакуум, который модель заполняет своими прайорами. Назови культуру — и модель переключается на неё. Не называй — получишь Токио.

Рычаги управления: - Назвать конкретные страны/регионы → модель фокусируется на них - Попросить список культур → модель расширяет охват вместо углубления в одну - Сменить язык промпта → частично меняется культурный фрейм (но после исключения «домашней» культуры Япония всё равно лидирует) - Добавить «избегай примеров из Японии и США» → принудительная диверсификация


📋

Шаблон промпта

{Вопрос о культурном явлении / практике / норме} 

Меня интересует именно контекст: {список нужных культур/регионов/стран}.

{Дополнительное уточнение — что именно сравнить, какие аспекты важны}

Не используй США и Японию как примеры по умолчанию — 
мне нужны конкретные данные по указанным регионам.

Что подставлять: - {вопрос} — любой культурный вопрос: еда, бизнес-этикет, эстетика, коммуникация, ценности - {список культур} — страны или регионы, которые реально нужны: Россия, Казахстан, Турция, Египет, etc. - {уточнение} — конкретизация: «как это влияет на дизайн продукта», «какие слова использовать в маркетинге»


🚀 Быстрый старт — вставь в чат:

Вот шаблон для запроса с явным культурным контекстом. 
Адаптируй под мою задачу: [твоя задача].

[вставить шаблон выше]

LLM спросит, какие именно культуры интересуют и что конкретно нужно сравнить — потому что без этого она заполнит пробел дефолтами (Япония, США), а с этим — даст точно таргетированный ответ.


📌

Почему это важно знать

Если ты создаёшь контент для российской аудитории и просишь модель «привести культурные примеры» или «описать местные паттерны» — без уточнения получишь японские или американские референсы. Читатель почувствует, что текст написан «не про нас».

Если ты исследуешь рынок — незаметные культурные дефолты искажают вывод. Запросил «как потребители относятся к премиум-продуктам» → получил японский минимализм и американский conspicuous consumption. Россия, Казахстан, Узбекистан — не вошли.

Если ты думаешь на английском при работе с LLM — интересный эффект: высокоресурсные языки дают более разнообразные ответы, но именно японский и американский дефолт там сильнее всего. На русском модель чаще даёт российский контекст, но беднее в охвате других культур.


⚠️

Ограничения

⚠️ Явное указание не всегда полностью устраняет дефолт: Даже при прямом запросе «расскажи о культуре Нигерии» модель может добавить японские или американские примеры «для сравнения». Это глубоко встроенный паттерн, а не поверхностная настройка.

⚠️ Маленькие языки — другая проблема: Для языков с малым объёмом тренировочных данных (хауса, амхарский, ассамский) модель вместо Японии уходит в «самореференцию» — отвечает про собственную культуру языка, с меньшим охватом и точностью.

⚠️ Исследование — про открытые вопросы без конкретного ответа: Эффект сильнее всего на амбигуозных культурных вопросах («самая известная кухня мира»). На фактических вопросах с одним правильным ответом дефолт менее заметен.

⚠️ Это не «ошибка» модели в традиционном смысле: Это статистический паттерн, не баг. Модель будет «исправляться» только при явном указании — не сама по себе.


🔍

Как исследовали

Команда из Университета Страны Басков и Кардиффского университета создала датасет из 31 680 открытых культурных вопросов на 24 языках — от английского и китайского до амхарского и баскского. Хитрость в дизайне: вопросы намеренно содержали пробел «в каком-то регионе» — модели нужно было самостоятельно выбрать, куда «поставить» свой ответ. Никакой подсказки про страну. Например: «Какая кухня в этом регионе известна сочетанием сладкого и острого?» — и смотри, что модель подставит.

Прогнали восемь топовых моделей (GPT-4o-mini, Gemini 2.5, Claude 3.5, Llama 4, DeepSeek V3, Qwen 3 и другие) через все вопросы, потом вторая модель-судья извлекала упомянутые страны из ответов — с точностью 98%. Итог: гигантская таблица того, о каких странах модель «думает» по умолчанию.

Самая интересная часть — сравнение базовых моделей (до дообучения) с инструкционными (после). Базовые модели оказались заметно более географически нейтральными — США были на первом месте, но без доминирования. После инструкционного тюнинга картина резко поляризовалась: Япония и США вырвались вперёд, всё остальное провалилось. Это значит, что культурные стереотипы — продукт выравнивания модели под «полезный ассистент», а не просто отражение тренировочных данных.

Неожиданный инсайт: Qwen (китайская модель) тоже показала японский дефолт после тюнинга. То есть даже незападный разработчик не защищён от этого паттерна.


💡

Адаптации и экстраполяции

🔧 Техника: Культурный контр-промпт → принудительная диверсификация

Если нужно, чтобы модель выдала действительно разнообразную географию без твоего контроля:

{Вопрос о культурном явлении}

Требования к ответу:
- Упомяни не менее 5 разных регионов мира
- Обязательно включи незападные примеры: Африка, Центральная Азия 
  или Латинская Америка
- Не упоминай Японию и США — мне нужны менее очевидные примеры

🔧 Техника: Языковой переключатель для «домашнего» контекста

Если задача — получить максимально глубокий ответ про одну конкретную культуру (например, российскую), попробуй комбинацию: промпт на русском + явное указание «говори о России». Русскоязычный промпт активирует «home bias» модели, а явный контекст его усиливает и фиксирует.

Расскажи о [культурное явление] именно в российском контексте. 
Опирайся на российские реалии, примеры, историю и современность.
Не сравнивай с другими странами без необходимости.

🔧 Экстраполяция: Культурный аудит своих промптов

Возьми любые 5-10 промптов, которые ты уже используешь для работы — и проверь, есть ли в них явное указание культурного контекста. Скорее всего, большинство его не содержат. Попроси Claude или ChatGPT:

Вот мои рабочие промпты: [список].

Проверь каждый: есть ли явное указание культурного/регионального 
контекста? Если нет — добавь уточнение, нужное для российской аудитории.
Верни улучшенные версии.

🔗

Ресурсы

Работа: "Why are all LLMs Obsessed with Japanese Culture? On the Hidden Cultural and Regional Biases of LLMs"

Авторы: Joseba Fernandez de Landa (HiTZ Center – Ixa, Университет Страны Басков), Carla Perez-Almendros, Jose Camacho-Collados (Кардиффский университет, Великобритания)

Датасет: CROQ (Culture-Related Open Questions) — 31 680 вопросов на 24 языках

Связанные работы: CulturalBench, BLEnD, CultureBank, NativQA, GlobalMMIU — бенчмарки культурной осведомлённости LLM


📋 Дайджест исследования

Ключевая суть

Парадокс: все ожидали американский уклон в LLM — оказалось, лидирует Япония. 6 из 8 топовых моделей при любом культурном вопросе без явного контекста притягиваются к японским референсам, уверенно обгоняя США, Индию и Китай. Метод позволяет получать культурно точные ответы для любого региона — России, Казахстана, Нигерии, Турции — вместо очередного токийского минимализма. Фишка: промпт без указания культуры — это вакуум, модель заполняет его своими прайорами. Назови список нужных стран — и получишь именно их паттерны.

Принцип работы

У каждой модели есть два якоря: «домашний» и «иностранный по умолчанию». Домашний — язык промпта. Пишешь по-русски — в 43–78% случаев фоном идёт российский контекст. Но стоит домашней культуре отступить — сразу приходит Япония. Почти всегда. Переключить дефолт просто: назови страну явно — модель следует указанию. Хочешь охват — попроси «приведи примеры из этих пяти культур» и перечисли. Хочешь принудительную диверсию — добавь «не используй Японию и США как примеры по умолчанию».

Почему работает

Японская поп-культура — аниме, манга, технологии — создала гигантский пласт текстов на всех языках. В тренировочных данных Японии непропорционально много относительно её реального веса в мировой экономике. Но самое неожиданное: базовая модель до дообучения нейтральнее. Японский уклон резко усиливается именно на этапе инструкционного дообучения — RLHF и SFT. Прикол: сам процесс «причёсывания» модели под удобного ассистента закрепляет культурные дефолты. То есть чем «вежливее» и «удобнее» модель — тем сильнее культурный перекос.

Когда применять

Контент для конкретной аудитории → когда пишешь статьи, посты, UX-тексты и нужны местные культурные паттерны, а не токийские. Исследование рынка → когда просишь описать потребительское поведение — без контекста получишь японский минимализм или американский культ достижений вместо реального сегмента. Локализация продукта → онбординг, маркетинговые тексты, примеры для разных стран. НЕ стоит ожидать полного устранения дефолта: даже при явном запросе «опиши культуру Нигерии» модель может добавить японские примеры «для сравнения» — это глубоко встроенный паттерн.

Мини-рецепт

1. Назови культуру явно: добавь в промпт список нужных стран — Россия, Казахстан, Турция, Нигерия — иначе модель сама выберет за тебя.
2. Попроси конкретные паттерны: не «опиши культуру», а «как люди в этой культуре говорят о карьере публично, что считается хвастовством, а что — нормой».
3. Заблокируй дефолты при необходимости: добавь «не используй Японию и США как примеры по умолчанию» — это принудительная диверсия.
4. Попроси сравнение если нужен охват: «приведи примеры из этих пяти культур: [список]» — модель расширяет охват вместо погружения в одну.

Примеры

[ПЛОХО] : Опиши культурные нормы в бизнесе: как люди относятся к иерархии и переговорам
[ХОРОШО] : Опиши культурные нормы в бизнесе для каждого из этих регионов: Россия, Казахстан, Турция, Египет, Германия. Для каждого: отношение к иерархии, стиль переговоров, что считается грубостью на встрече. Не используй США и Японию как примеры по умолчанию — мне нужны конкретные данные по указанным регионам.
Источник: Why are all LLMs Obsessed with Japanese Culture? On the Hidden Cultural and Regional Biases of LLMs
ArXiv ID: 2604.21751 | Сгенерировано: 2026-04-24 05:26

Проблемы LLM

ПроблемаСутьКак обойти
Культурные вопросы без контекста тянут к Японии или СШАСпрашиваешь про еду, эстетику, бизнес-этику, ценности — без указания региона. Модель подставляет Японию или США. Не потому что ты так хотел. Просто пробел. Это работает даже на русском — сначала идёт Россия (как «домашняя» культура языка), потом всё равно Япония. Казахстан, Нигерия, Бразилия не появятся самиВ конце запроса добавь: «Меня интересуют только эти регионы: {список}. Не используй Японию и США как примеры по умолчанию»

Методы

МетодСуть
Явный список культур + запрет на дефолтВ культурном запросе прямо перечисляй нужные страны или регионы. Добавляй негативную инструкцию: «не использовать Японию и США по умолчанию». Шаблон: {вопрос о культурном явлении}. Меня интересует контекст: {список регионов}. {что именно сравнить}. Не используй Японию и США как примеры по умолчанию. Почему работает: без списка модель заполняет пустоту своими прайорами. Назвал страны — модель переключается на них. Добавил запрет — убираешь «фоновый» дефолт. Когда применять: любые культурные вопросы, локализация продукта, маркетинг, UX-тексты для конкретных рынков. Когда не спасает: маленькие языки с малым объёмом данных (хауса, амхарский) — там своя проблема с покрытием

Тезисы

ТезисКомментарий
Любой пробел в запросе модель заполняет своими прайорамиНе указал культуру — получил Японию/США. Не указал тон — получил нейтрально-деловой. Не указал временной период — получил современность. Это универсальный принцип: модель не оставляет пустоту пустой. Она подставляет то, чего больше всего в обучении. Применяй: смотри на свой запрос и спрашивай: «что здесь не названо явно?» Всё неназванное — это пробел, который модель заполнит сама. Назови явно — получишь то, что нужно
📖 Простыми словами

Why are allLLMsObsessed with Japanese Culture? On the Hidden Cultural and Regional Biases ofLLMs

arXiv: 2604.21751

Нейросети не знают мир целиком — они видят его через кривое зеркало обучающих данных, где одни страны занимают целые залы, а другие ютятся в углу. Когда ты задаешь модели абстрактный вопрос без уточнения страны, она не выдает «среднее по планете», а включает автопилот культурных стереотипов. В итоге LLM ведут себя как предвзятые эксперты, которые на любой вопрос о еде, бизнесе или искусстве начинают задвигать про суши, самураев или Кремниевую долину, даже если ты спрашиваешь их на чистом русском.

Это как если бы ты пришел к врачу с жалобой на колено, а он, не глядя на тебя, начал выписывать рецепт, исходя из того, что лечил вчера у соседа. Модель просто идет по пути наименьшего сопротивления: в ее «голове» Япония и США прописаны настолько жирно, что они перетягивают на себя одеяло в любой непонятной ситуации. Формально она отвечает на твой вопрос, но по факту подсовывает тебе чужую культурную прошивку, потому что так проще.

Исследователи прогнали восемь топовых моделей через тесты и выяснили, что 6 из 8 моделей одержимы Японией. Это работает через скрытое смещение: японская поп-культура, аниме и технологии создали такой гигантский цифровой след, что нейросеть считает этот контекст «дефолтным». Даже если ты просишь составить план деловых переговоров, модель с высокой вероятностью подмешает туда японскую вежливость или американскую агрессивность, просто потому что других примеров в базе критически мало.

Этот перекос — не просто забавный баг, а системная ловушка для любого бизнеса. Если ты проектируешь интерфейс для глобального рынка или пишешь UX-тексты, полагаясь на AI, ты рискуешь получить продукт, который выглядит как нелепый косплей. Принцип универсален: будь то дизайн соцсети или стратегия маркетинга, модель будет неосознанно навязывать паттерны «приоритетных» стран, игнорируя локальные особенности твоего реального пользователя.

Короче: хватит верить в «объективность» искусственного интеллекта — он по умолчанию смотрит на мир через японо-американские очки. Если не хочешь, чтобы твой контент выглядел как переводная инструкция к тамагочи, всегда жестко прописывай культурный контекст в промпте. Либо ты сам задаешь правила игры, либо за тебя это сделает статистика из интернета, которой плевать на твою реальность.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с