TL;DR
Когда вы спрашиваете у LLM что-то локально-зависимое — возраст для покупки алкоголя, номер экстренной службы, конец налогового года, единицы измерения — модель молча подставляет американский стандарт. Даже если вы пишете на русском, французском или индонезийском. Язык запроса не защищает от этого: модель воспринимает его как сигнал о лингвистике, но не о географии.
Самый неочевидный инсайт: чем лучше модель "выровнена" под ассистента (GPT-4o, Claude, Gemini — всё что вы обычно используете), тем сильнее в ней американская предвзятость по сравнению с базовой версией. Это явление получило название Cultural Alignment Tax — дополнительная стоимость выравнивания. Процесс обучения ответственного ассистента, судя по всему, конвергирует модель к "безопасной универсальности", которая де-факто означает американский дефолт.
Второй структурный паттерн: модели работают как демографический двигатель вероятностей — чем больше носителей языка в стране, тем чаще модель её подразумевает. Спрашиваете на испанском? Модель думает про Мексику или США, а не про Боливию. На французском — про Францию, а не про Гаити или ДРК. Маленькие страны систематически "стираются".
Схема паттерна
ЗАПРОС БЕЗ ЛОКАЛИ:
Вопрос о законе / дате / цифре / стандарте
↓
Модель угадывает → выдаёт US-ответ (или ответ для крупней популяции)
↓
Вы получаете неверные данные без предупреждения
ЗАПРОС С ЛОКАЛЬЮ:
"...для России" / "в контексте РФ" / "по российским стандартам"
↓
Модель переключается на правильную региональную реальность
↓
Верный ответ + иногда сравнение с другими регионами
ДВОЙНАЯ ПРОВЕРКА:
Добавить в конце: "Убедись, что ответ не основан на американских стандартах"
↓
Модель явно проверяет и корректирует (если дала US-ответ — признаёт это)
Все три шага выполняются в одном чате, но второй и третий — в разных запросах для надёжности.
Пример применения
Задача: Консультант готовит справку для клиента — стартапа, выходящего на рынок Казахстана. Нужно уточнить базовые юридические параметры: возраст совершеннолетия, структура налогового года, стандартное напряжение в сети.
Промпт без защиты (как делают обычно):
Какой возраст совершеннолетия, когда заканчивается налоговый год
и какое напряжение в бытовой электросети?
Промпт с защитой от US-дефолта:
Я готовлю справку для выхода на рынок Казахстана.
Ответь на следующие вопросы строго для Казахстана,
без упоминания американских или европейских стандартов
если я не попрошу об этом:
1. Возраст совершеннолетия
2. Начало и конец налогового года
3. Стандартное напряжение в бытовой электросети (В) и частота (Гц)
4. Официальная форма записи даты (ДД.ММ.ГГГГ или другая)
После каждого пункта — одно предложение: чем это отличается
от российского стандарта (если отличается).
В конце явно подтверди: "Все ответы актуальны для Казахстана,
не для США или другой страны."
Результат: Модель выдаст ответы, явно привязанные к казахстанской реальности. Финальное подтверждение заставляет её перепроверить себя — если где-то "просочился" американский стандарт, она это заметит и исправит. Сравнение с РФ в каждом пункте помогает быстро заметить расхождения.
Почему это работает (и почему без защиты — не работает)
LLM не "знает" откуда вы. Язык запроса — слабый сигнал. Модель видит слово "налоговый год" и генерирует наиболее вероятное продолжение из обучающих данных. А там — преимущественно англоязычный интернет про американские реалии. Русский язык немного сдвигает вероятности, но не блокирует US-дефолт полностью.
Явное указание локали убирает двусмысленность. Когда вы пишете "для России" или "в контексте РФ", модель получает жёсткий якорь — и вероятностное пространство сужается в нужную сторону. Это не просьба, это сужение пространства возможных ответов.
Запрос на подтверждение ("убедись, что не US") активирует самопроверку. Модель генерирует ответ, потом перечитывает его через призму этого требования. Это дополнительный "прогон" по тексту — похоже на то, как работает Chain-of-Thought, только направленный на проверку географической точности.
Рычаги управления: - Убрать "без упоминания американских стандартов" → модель даст сравнение с US, полезно если нужен контекст - Добавить "перечисли страны, где стандарт отличается" → получите региональную карту различий - Заменить конечное подтверждение на "если ты не уверен в ответе для этой страны — скажи об этом" → модель будет честно признавать пробелы вместо подстановки US-дефолта
Шаблон промпта
Я работаю с контекстом {страна/регион}.
Ответь на следующие вопросы строго для {страна/регион}.
Не добавляй американские, европейские или другие стандарты,
если я явно не попрошу.
{вопросы}
В конце подтверди одной строкой:
"Все ответы актуальны для {страна/регион}, не для США или другой страны."
Если по какому-то пункту у тебя нет точных данных именно для {страна/регион} —
скажи об этом прямо.
Что подставлять:
- {страна/регион} — конкретно: "России", "Казахстана", "провинции Квебек", "Сингапура"
- {вопросы} — любые вопросы о законах, стандартах, датах, мерах, правилах
🚀 Быстрый старт — вставь в чат:
Вот шаблон для защиты от US-дефолта в LLM.
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит про страну/регион и конкретные вопросы — потому что без этого якоря она не сможет правильно сузить пространство ответов. Она возьмёт структуру с подтверждением и встроит в твой запрос.
Ограничения
⚠️ Явное указание локали не гарантирует точность: Модель может знать US-стандарт и не знать казахстанский. В таком случае она либо скажет "не знаю" (хороший исход) — либо всё равно подставит US-данные, теперь уже молча. Критически важные юридические и медицинские вопросы проверяйте в официальных источниках.
⚠️ Для малых стран риск выше: Чем меньше носителей языка и чем реже страна упоминается в интернете, тем слабее "якорь" от локали. Для условного El Salvador модель будет менее точной, чем для Германии — просто потому что данных меньше.
⚠️ Instruction-tuned модели (ChatGPT, Claude, Gemini) более US-предвзяты, чем базовые: Это значит, что именно те модели, которые вы используете каждый день, имеют наибольший дефолт в сторону США. Чем "умнее" и "безопаснее" выглядит модель — тем важнее явно указывать локаль.
⚠️ Язык запроса — слабая защита: Писать на русском недостаточно. Русский сужает вероятности, но не блокирует US-дефолт — особенно для вопросов, где американский и российский ответ различаются, но американский встречался в данных чаще.
Как исследовали
Исследователи из Google Research и Bar-Ilan University задались простым вопросом: что происходит, когда модель не знает, для какой страны отвечать? Они создали LocQA — набор из 2156 вопросов на 12 языках, намеренно оставив их без указания локали. Вопросы специально выбирались так, чтобы правильный ответ зависел от страны: номер скорой, валюта, налоговый год, возраст для покупки алкоголя. Никаких подсказок — только вопрос на языке пользователя.
Затем они прогнали через это 32 модели: от GPT-4o и Claude до open-source Qwen, Gemma, OLMo и Falcon. Важно, что для многих они тестировали и базовую версию (без выравнивания), и instruction-tuned (обученную быть ассистентом) — чтобы понять, что именно "создаёт" предвзятость.
Результат оказался неожиданным в двух местах. Первое: почти все 32 модели давали US-ответы значительно чаще, чем следовало бы статистически — в среднем 50% ответов содержали американский стандарт, хотя случайное попадание составляло бы только 26%. Второе, контринтуитивное: instruction-tuned версии (те что вы используете) показывали меньше региональной предвзятости (лучше различали Францию и Бельгию), но больше американской. То есть выравнивание "сгладило" разницу между регионами одного языка — но за счёт сдвига всего в сторону США. Авторы назвали это Cultural Alignment Tax.
Отдельно исследователи разобрали как именно модели вставляют US-ответы и выявили 4 паттерна: стирание (American заменяет местный ответ полностью), вторжение (правильный ответ дан, но US добавлен без запроса), выбор (когда оба ответа технически верны, модель выбирает US-совместимый) и фреймирование (ответ дан правильно, но "относительно США"). Самый частый — вторжение (18% ответов): модель отвечает верно, но зачем-то приписывает американский стандарт рядом.
Адаптации и экстраполяции
🔧 Техника: "Антифреймирование" — попроси модель не сравнивать с США
Если вы работаете с темами, где модель привычно пишет "в отличие от США...", "в то время как в Америке..." — добавьте явный запрет:
Отвечай про {страна} без сравнений с США, Европой
или другими регионами, если я не прошу об этом.
Только местная реальность.
Это блокирует фреймирование — один из четырёх выявленных паттернов US-предвзятости. Полезно когда нужен чистый локальный контент без постоянного "а вот в Америке".
🔧 Экстраполяция: Тест на локальную адекватность вашего промпта
Перед запуском любого промпта, который касается законов, норм, стандартов, дат — сначала спросите модель в лоб:
Если я спрошу тебя "{твой вопрос}",
для какой страны ты по умолчанию дашь ответ?
И почему?
Модель часто честно ответит "для США" или "для Великобритании". Это быстрый диагностический тест — стоит ли добавлять локаль в основной промпт или модель и так ориентируется правильно.
Ресурсы
Название работы: Location Not Found: Exposing Implicit Local and Global Biases in Multilingual LLMs (2026)
Датасет: github.com/google-research-datasets/locqa
Авторы: Guy Mor-Lan, Omer Goldman, Matan Eyal, Adi Mayrav Gilady, Sivan Eiger, Idan Szpektor, Avinatan Hassidim, Yossi Matias, Reut Tsarfaty
Организации: Google Research, Bar-Ilan University, University of Cambridge
