TL;DR
Без явного указания культурного контекста LLM автоматически привязывает ответы к Японии или США — даже когда задаёшь вопрос на русском о еде, искусстве, образовании или деловых практиках. Это не случайность и не влияние языка: приоритет «Япония прежде всего» стабильно выявился у шести из восьми протестированных топовых моделей.
Главная неожиданность: до этого исследования все думали, что LLM предвзяты в сторону США и Западной Европы. Оказалось — нет. Япония стабильно выходит на первое место среди «чужих» культур, опережая США, Индию, Китай и Францию. При этом у каждой модели есть и «домашняя» привязка: если спрашивать на языке, у которого есть страна-носитель, модель в 43–78% случаев ответит отсылками к этой стране. На русском получишь Россию как фон, на испанском — Испанию или Латинскую Америку. Но стоит этим «своим» ответам исчезнуть — сразу приходит Япония.
Главный рычаг управления этим поведением — явное указание культурного контекста в промпте. Без этого модель заполняет культурный пробел своими дефолтами. С явным контекстом — генерирует именно то, что нужно.
Схема применения
БЕЗ контекста:
Вопрос о культуре → [пробел] → модель заполняет дефолтом → Япония / США
С явным контекстом:
Вопрос о культуре + {регион} → модель следует указанию → релевантный ответ
Если нужна ДИВЕРСИФИКАЦИЯ:
Вопрос + «приведи примеры из 5 разных культур: {список}» → модель расширяет охват
Всё выполняется в одном промпте, никаких дополнительных запросов не нужно.
Пример применения
Задача: Павел Дуров попросил команду подготовить концепцию для нового продукта — социальной сети для профессионалов. Нужно понять, как оформить онбординг: какие культурные паттерны уважения к труду и карьере заложить в UX-тексты для разных рынков.
Промпт без указания культурного контекста (что делают большинство пользователей):
Опиши культурные нормы отношения к карьере и профессиональному успеху. Как люди воспринимают работу, достижения и статус?
Модель вернёт японскую трудовую этику и американский культ достижений. Турция, Бразилия, Россия, Нигерия — не появятся.
Промпт с явным культурным контекстом:
Я делаю профессиональную социальную сеть и хочу локализовать
онбординг для разных рынков.
Опиши культурные нормы отношения к карьере, профессиональному
статусу и достижениям в каждой из этих культур:
- Россия и СНГ
- Турция
- Бразилия
- Нигерия
- Германия
Для каждой культуры: как люди говорят о работе публично,
что считается хвастовством, а что — нормальной демонстрацией
компетентности, какие ценности в профессии на первом месте.
Не обобщай — давай конкретные культурные паттерны.
Результат: Модель даст структурированный разбор по каждой культуре с конкретными паттернами поведения, локальными нюансами и различиями в восприятии. Без явного запроса эти пять культур просто не появились бы в ответе.
Почему это работает
LLM не хранит знания равномерно по всем культурам. Данные о разных странах в интернете распределены крайне неравномерно — японская поп-культура, аниме, технологии создали огромный пласт текстов на всех языках. США доминируют в англоязычном тренировочном корпусе. Результат: при любом культурном вопросе модель «притягивается» к этим двум полюсам.
Важный механический инсайт: базовая модель (до fine-tuning) более нейтральна. После инструкционного дообучения (тот этап, который делает модель «разговорчивой» и послушной) культурные дефолты резко усиливаются. Это значит, что именно RLHF и SFT обучение — источник японской одержимости, а не изначально собранные данные.
Для тебя как пользователя это значит одно: промпт без культурного контекста — это вакуум, который модель заполняет своими прайорами. Назови культуру — и модель переключается на неё. Не называй — получишь Токио.
Рычаги управления: - Назвать конкретные страны/регионы → модель фокусируется на них - Попросить список культур → модель расширяет охват вместо углубления в одну - Сменить язык промпта → частично меняется культурный фрейм (но после исключения «домашней» культуры Япония всё равно лидирует) - Добавить «избегай примеров из Японии и США» → принудительная диверсификация
Шаблон промпта
{Вопрос о культурном явлении / практике / норме}
Меня интересует именно контекст: {список нужных культур/регионов/стран}.
{Дополнительное уточнение — что именно сравнить, какие аспекты важны}
Не используй США и Японию как примеры по умолчанию —
мне нужны конкретные данные по указанным регионам.
Что подставлять:
- {вопрос} — любой культурный вопрос: еда, бизнес-этикет, эстетика, коммуникация, ценности
- {список культур} — страны или регионы, которые реально нужны: Россия, Казахстан, Турция, Египет, etc.
- {уточнение} — конкретизация: «как это влияет на дизайн продукта», «какие слова использовать в маркетинге»
🚀 Быстрый старт — вставь в чат:
Вот шаблон для запроса с явным культурным контекстом.
Адаптируй под мою задачу: [твоя задача].
[вставить шаблон выше]
LLM спросит, какие именно культуры интересуют и что конкретно нужно сравнить — потому что без этого она заполнит пробел дефолтами (Япония, США), а с этим — даст точно таргетированный ответ.
Почему это важно знать
Если ты создаёшь контент для российской аудитории и просишь модель «привести культурные примеры» или «описать местные паттерны» — без уточнения получишь японские или американские референсы. Читатель почувствует, что текст написан «не про нас».
Если ты исследуешь рынок — незаметные культурные дефолты искажают вывод. Запросил «как потребители относятся к премиум-продуктам» → получил японский минимализм и американский conspicuous consumption. Россия, Казахстан, Узбекистан — не вошли.
Если ты думаешь на английском при работе с LLM — интересный эффект: высокоресурсные языки дают более разнообразные ответы, но именно японский и американский дефолт там сильнее всего. На русском модель чаще даёт российский контекст, но беднее в охвате других культур.
Ограничения
⚠️ Явное указание не всегда полностью устраняет дефолт: Даже при прямом запросе «расскажи о культуре Нигерии» модель может добавить японские или американские примеры «для сравнения». Это глубоко встроенный паттерн, а не поверхностная настройка.
⚠️ Маленькие языки — другая проблема: Для языков с малым объёмом тренировочных данных (хауса, амхарский, ассамский) модель вместо Японии уходит в «самореференцию» — отвечает про собственную культуру языка, с меньшим охватом и точностью.
⚠️ Исследование — про открытые вопросы без конкретного ответа: Эффект сильнее всего на амбигуозных культурных вопросах («самая известная кухня мира»). На фактических вопросах с одним правильным ответом дефолт менее заметен.
⚠️ Это не «ошибка» модели в традиционном смысле: Это статистический паттерн, не баг. Модель будет «исправляться» только при явном указании — не сама по себе.
Как исследовали
Команда из Университета Страны Басков и Кардиффского университета создала датасет из 31 680 открытых культурных вопросов на 24 языках — от английского и китайского до амхарского и баскского. Хитрость в дизайне: вопросы намеренно содержали пробел «в каком-то регионе» — модели нужно было самостоятельно выбрать, куда «поставить» свой ответ. Никакой подсказки про страну. Например: «Какая кухня в этом регионе известна сочетанием сладкого и острого?» — и смотри, что модель подставит.
Прогнали восемь топовых моделей (GPT-4o-mini, Gemini 2.5, Claude 3.5, Llama 4, DeepSeek V3, Qwen 3 и другие) через все вопросы, потом вторая модель-судья извлекала упомянутые страны из ответов — с точностью 98%. Итог: гигантская таблица того, о каких странах модель «думает» по умолчанию.
Самая интересная часть — сравнение базовых моделей (до дообучения) с инструкционными (после). Базовые модели оказались заметно более географически нейтральными — США были на первом месте, но без доминирования. После инструкционного тюнинга картина резко поляризовалась: Япония и США вырвались вперёд, всё остальное провалилось. Это значит, что культурные стереотипы — продукт выравнивания модели под «полезный ассистент», а не просто отражение тренировочных данных.
Неожиданный инсайт: Qwen (китайская модель) тоже показала японский дефолт после тюнинга. То есть даже незападный разработчик не защищён от этого паттерна.
Адаптации и экстраполяции
🔧 Техника: Культурный контр-промпт → принудительная диверсификация
Если нужно, чтобы модель выдала действительно разнообразную географию без твоего контроля:
{Вопрос о культурном явлении}
Требования к ответу:
- Упомяни не менее 5 разных регионов мира
- Обязательно включи незападные примеры: Африка, Центральная Азия
или Латинская Америка
- Не упоминай Японию и США — мне нужны менее очевидные примеры
🔧 Техника: Языковой переключатель для «домашнего» контекста
Если задача — получить максимально глубокий ответ про одну конкретную культуру (например, российскую), попробуй комбинацию: промпт на русском + явное указание «говори о России». Русскоязычный промпт активирует «home bias» модели, а явный контекст его усиливает и фиксирует.
Расскажи о [культурное явление] именно в российском контексте.
Опирайся на российские реалии, примеры, историю и современность.
Не сравнивай с другими странами без необходимости.
🔧 Экстраполяция: Культурный аудит своих промптов
Возьми любые 5-10 промптов, которые ты уже используешь для работы — и проверь, есть ли в них явное указание культурного контекста. Скорее всего, большинство его не содержат. Попроси Claude или ChatGPT:
Вот мои рабочие промпты: [список].
Проверь каждый: есть ли явное указание культурного/регионального
контекста? Если нет — добавь уточнение, нужное для российской аудитории.
Верни улучшенные версии.
Ресурсы
Работа: "Why are all LLMs Obsessed with Japanese Culture? On the Hidden Cultural and Regional Biases of LLMs"
Авторы: Joseba Fernandez de Landa (HiTZ Center – Ixa, Университет Страны Басков), Carla Perez-Almendros, Jose Camacho-Collados (Кардиффский университет, Великобритания)
Датасет: CROQ (Culture-Related Open Questions) — 31 680 вопросов на 24 языках
Связанные работы: CulturalBench, BLEnD, CultureBank, NativQA, GlobalMMIU — бенчмарки культурной осведомлённости LLM
