3,583 papers
arXiv:2606.11082 74 9 июня 2026 г. FREE

Shibboleth Effect: один промпт на русском и на английском дают разные «характеры» от одной и той же модели

КЛЮЧЕВАЯ СУТЬ
Обнаружено: один промпт на русском и на английском дают не просто разный стиль — разный «характер» ответа. Одна модель, одна задача, два языка — два советника с разной жёсткостью, разными акцентами и разной готовностью уступать. Языковой аудит превращает этот эффект в инструмент: отправь запрос дважды, сравни расхождение — расхождение это данные, не баг. Или нейтрализуй его через институциональный якорь: явный список критериев в промпте заставляет модель держаться за правила, а не плыть по языковым ассоциациям.
Адаптировать под запрос

TL;DR

Модели отвечают иначе в зависимости от языка запроса — и это не просто стиль фраз. Сам «характер» ответа меняется: насколько модель уступает, насколько агрессивна в позиции, насколько жёстко отстаивает точку зрения. Одна и та же задача на русском и на английском — это, по сути, два разных советника.

Причина в том, как устроены обучающие данные. Английский доминирует и по объёму, и по разнообразию — поэтому RLHF (настройка на «безопасное» поведение) работает прежде всего через английский. Когда модель переключается на другой язык, она тянет из другого слоя обучения — с другими культурными ассоциациями, политическими narrative и риторическими нормами. Язык активирует разные «слои памяти» модели.

Важный практический вывод: это не универсальный баг всех моделей. Llama-4 — сильно нестабильна между языками, GPT-4o — устойчива, Gemini-3.1-Pro — уходит в сторону смягчения при нелатинских языках. Знать это важно, если вы полагаетесь на модель в важном анализе. Отдельно: цепочка рассуждений (Chain-of-Thought), заякоренная на конкретный фреймворк, снижает этот эффект — модель держится за правило, а не за языковую ассоциацию.


🔬

Схема метода

Это исследование-находка, не техника. Но из неё вытекают два практических инструмента:

ИНСТРУМЕНТ 1: Языковой аудит (2 запроса)
─────────────────────────────────────────
ЗАПРОС А: Тот же промпт на русском → получаешь ответ А
ЗАПРОС Б: Тот же промпт на английском → получаешь ответ Б
Сравни: где позиция жёстче, где больше оговорок, где другие акценты
→ Используй расхождение как инсайт, а не как "правда/неправда"

ИНСТРУМЕНТ 2: Институциональный якорь (1 запрос)
─────────────────────────────────────────────────
ШАБЛОН: "Оценивай строго по критериям: [список].
         Сначала пропиши каждый критерий и своё рассуждение по нему.
         Только потом — итоговый вывод."
→ Явный фреймворк в промпте снижает «дрейф характера» между языками
   и делает ответы последовательнее

Оба инструмента — в одном чате, без кода, без настроек.


🚀

Пример применения

Задача: У тебя стартап — доставка «домашней» еды от шеф-поваров по Москве, конкурент «домашних кухонь» на маркетплейсах. Хочешь понять реальные слабые места бизнес-модели, а не получить вежливый список.

Промпт — Инструмент 1 (языковой аудит):

Ты — скептичный венчурный инвестор. Перед тобой стартап: доставка блюд 
от домашних шеф-поваров в Москве. Модель: повара регистрируются, 
выкладывают меню, клиенты заказывают с доставкой за 90 минут. 
Средний чек — 800 рублей.

Твоя задача: найти 3–5 точек, где эта модель разваливается. 
Не смягчай. Не ищи плюсы.

— Отправь на русском. Сохрани ответ. — Переведи промпт на английский (или напиши заново по-английски). Отправь. — Сравни: какие риски выделил каждый «инвестор»? Где акценты разные?

Промпт — Инструмент 2 (институциональный якорь):

Ты — скептичный венчурный инвестор. Перед тобой стартап: доставка блюд 
от домашних шеф-поваров в Москве. Средний чек — 800 рублей.

Оцени строго по трём критериям:
1. Регуляторные риски (санитария, лицензии, ответственность)
2. Юнит-экономика (можно ли выйти на маржу при таком чеке и доставке)
3. Привлечение и удержание поваров (почему они не уйдут на свой канал)

Для каждого критерия: сначала рассуждение, потом вывод. Не смягчай.

Результат:

Языковой аудит покажет два разных «характера» инвестора — один, вероятно, будет педалировать регуляторику и санитарные нормы, другой — юнит-экономику и конкуренцию от агрегаторов. Расхождение — не баг, а данные: ты увидишь, какие риски модель считает «очевидными» в каждом контексте.

Институциональный якорь даст структурированный разбор без языкового дрейфа — модель держится за критерии, а не за языковые ассоциации.


🧠

Почему это работает

LLM не хранит «объективную позицию» — она генерирует следующий токен, опираясь на паттерны из обучающих данных. Когда ты пишешь по-английски, активируется один набор паттернов. По-русски — другой. Это не перевод, это другой слой ассоциаций.

RLHF — настройка на «безопасное» и «полезное» поведение — проводилась преимущественно на английском контенте. Это значит, что «тормоза» у модели лучше работают на английском. На других языках она чаще опирается на то, что было в обучающем корпусе — со всеми его культурными и риторическими нормами.

Институциональный якорь работает потому, что явный фреймворк («оценивай по критериям X») перехватывает управление до того, как языковые ассоциации успевают «окрасить» ответ. Именно это показал DeepSeek-R1: его цепочка рассуждений начиналась с «мой мандат — UNCLOS, я оцениваю строго по нему» — и это буферизировало турецкий языковой якорь.

Рычаги управления: - Явные критерии оценки → чем конкретнее список, тем меньше языкового дрейфа - "Сначала рассуждение, потом вывод" → делает цепочку мышления видимой и управляемой - Выбор модели → GPT-4o устойчив между языками; если стабильность важна — фактор для выбора


📋

Шаблон промпта

📌

Институциональный якорь

Ты — {роль}.

Твоя задача: {задача}.

Оценивай строго по критериям:
1. {критерий_1}
2. {критерий_2}
3. {критерий_3}

Для каждого критерия: сначала пропиши своё рассуждение, потом вывод.
{тон}: не смягчай / будь объективен / ищи только проблемы.
Итоговый вывод — после разбора всех критериев.

Что подставлять: - {роль} — инвестор, юрист, конкурент, технический директор, скептик - {задача} — оцени бизнес-модель / найди слабые места / проверь аргументы - {критерий_1-3} — конкретные параметры анализа, не абстрактные ("юнит-экономика", "регуляторика", "удержание клиентов") - {тон} — указание на жёсткость/мягкость


🚀 Быстрый старт — вставь в чат:

Вот шаблон институционального якоря для стабильного анализа. 
Адаптируй под мою задачу: [твоя задача]. 
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит: какая роль нужна, что именно анализировать, какие критерии важны — потому что без этого якорь не работает: критерии и есть механизм стабилизации ответа.


⚠️

Ограничения

⚠️ Модель-специфично: Эффект сильно различается между моделями. Llama-4 нестабильна, GPT-4o устойчива, Gemini смягчается в нелатинских языках. Универсальной таблетки нет — нужно знать свою модель.

⚠️ Не для простых фактических задач: Языковой дрейф проявляется в риторике, позиции, акцентах — не в фактах. Спросить «сколько стоит айфон» на русском и английском = одинаково.

⚠️ Роль-загрязнение: В исследовании каждая модель играла конкретную геополитическую роль — невозможно полностью отделить эффект языка от эффекта роли. В реальных задачах эти факторы тоже смешиваются.

⚠️ Размер выборки мал: Статистически доказаны только крупные эффекты (у Llama-4, Gemini, DeepSeek). Средние эффекты — «возможно есть, но не доказано». Не абсолютизируй.


🔍

Как исследовали

Исследователи придумали синтетический геополитический кризис — вымышленный морской конфликт «Лазурное море», скопированный по структуре с реального греко-турецкого спора о Средиземноморье. Шесть моделей играли роли государств: Llama-4 — Грецию, GPT-4o — Турцию, Gemini — США, DeepSeek-R1 — арбитра.

Единственное, что менялось между группами — язык симуляции: английский или турецкий. Всё остальное было идентично вплоть до хеша SHA-256.

Сыграли 10 независимых игр по 5 раундов в каждом условии. Каждую фразу оценивал отдельный GPT-4o-судья по двум шкалам: насколько уступчива позиция и насколько агрессивна риторика. Важная деталь: когда судья стабильно показывает, что одни модели смягчаются на турецком, а другие становятся жёстче — это опровергает версию «судья просто видит турецкий как агрессивный». Разнонаправленность = чистый сигнал.

Самый любопытный момент — у DeepSeek-R1 включили «горячий микрофон»: захватывали его внутренние рассуждения до публичного ответа. И буквально читали: «Мой мандат — UNCLOS. Я не могу поддержать компромисс, нарушающий Конвенцию, независимо от языка.» Это первое прямое доказательство того, что явный фреймворк в рассуждениях буферизирует языковой дрейф — не гипотеза, а captured chain-of-thought.


💡

Адаптации и экстраполяции

📌

🔧 Языковой аудит для важных решений

Прежде чем доверять анализу модели в ответственной ситуации — получи два ответа: на русском и на английском. Не для того чтобы выбрать «правильный», а чтобы увидеть где картины расходятся. Расхождение = слепое пятно одного из контекстов.

Когда применять: Анализ чужого документа, оценка рисков, юридическая интерпретация, инвестиционный разбор.

📌

🔧 Экстраполяция: «горячий микрофон» как пользовательская техника

Исследователи захватывали скрытые рассуждения DeepSeek-R1. В пользовательском чате аналог — явно попросить модель показать цепочку рассуждений ДО вывода:

Прежде чем дать финальный ответ:
1. Пропиши, какой фреймворк ты используешь для оценки
2. Пройдись по каждому пункту явно
3. Только потом — итог

Я хочу видеть твой процесс, не только результат.

Это одновременно делает ответ прозрачнее и снижает языковой дрейф — модель «якорится» на фреймворке ещё до генерации вывода.


🔗

Ресурсы

Работа: The Shibboleth Effect: Auditing the Cross-Lingual Distributional Skew of Large Language Models

Автор: Hakan Mehmetcik — Kellogg Institute for International Studies, University of Notre Dame; факультет политологии, Университет Мармара, Стамбул

Связанные концепции: RLHF, Chain-of-Thought reasoning, multilingual alignment, synthetic statecraft


📋 Дайджест исследования

Ключевая суть

Обнаружено: один промпт на русском и на английском дают не просто разный стиль — разный «характер» ответа. Одна модель, одна задача, два языка — два советника с разной жёсткостью, разными акцентами и разной готовностью уступать. Языковой аудит превращает этот эффект в инструмент: отправь запрос дважды, сравни расхождение — расхождение это данные, не баг. Или нейтрализуй его через институциональный якорь: явный список критериев в промпте заставляет модель держаться за правила, а не плыть по языковым ассоциациям.

Принцип работы

Стандартный подход: доверяешь ответу и идёшь дальше. Продвинутый подход: используешь языковую разницу как зеркало — где ответы расходятся, там и прячется предвзятость модели. Для стабильности переключись на институциональный якорь — не просто роль, а конкретный список критериев и порядок рассуждения. Модель получает точку опоры сильнее любых языковых ассоциаций и держится за неё, а не тянет «культурный характер» из обучающего корпуса.

Почему работает

LLM не хранит «объективную позицию» — она тянет следующий токен из паттернов обучения. Пишешь по-английски — один набор паттернов. По-русски — другой. Это буквально разные слои ассоциаций с разными риторическими нормами и культурными нарративами. Настройка безопасности (RLHF) проходила в основном на английском контенте — «тормоза» сильнее там, где данных больше. На нелатинских языках модель чаще достаёт риторику прямо из сырого обучающего корпуса — со всем что там было. Явные критерии в промпте перехватывают этот процесс раньше: модель опирается на заданный фреймворк, а не на языковую ассоциацию.

Когда применять

Критический анализ и оценка → особенно когда нужна честная позиция без смягчений: оценка бизнес-модели, риск-анализ, проверка аргументов. Также полезно если работаешь с командами на разных языках — помогает зафиксировать, где модель ведёт себя непоследовательно. НЕ подходит для фактических запросов («сколько стоит X», «когда был основан»). Языковой дрейф — это про позицию и риторику, не про справочные данные.

Мини-рецепт

1. Проведи языковой аудит: Отправь один и тот же запрос дважды — на русском и английском. Где позиция жёстче? Где больше оговорок? Расхождение — это инсайт.
2. Добавь институциональный якорь: В промпте укажи 2-3 конкретных критерия оценки. Не абстрактных («качество»), а конкретных: <критерий>юнит-экономика, <критерий>регуляторные риски, <критерий>удержание клиентов.
3. Зафикси порядок рассуждения: Добавь «Для каждого критерия: сначала рассуждение, потом вывод». Это делает цепочку мышления видимой — и управляемой.
4. Выбери устойчивую модель: Если стабильность между языками важна — GPT-4o держится, Llama-4 сильно плывёт, Gemini смягчается в нелатинских языках. Это фактор выбора инструмента, не настроек.

Примеры

[ПЛОХО] : Найди слабые места бизнес-модели: доставка еды от домашних поваров
[ХОРОШО] : Ты — скептичный инвестор. Оцени строго по критериям: 1. Регуляторные риски. 2. Юнит-экономика. 3. Удержание поваров. Для каждого: сначала рассуждение, потом вывод. Не смягчай. — отправь на русском, потом дословно на английском. Сравни: где акценты разные, где один инвестор давит на санитарию, другой — на конкуренцию с агрегаторами. Это и есть расхождение как данные.
Источник: The Shibboleth Effect: Auditing the Cross-Lingual Distributional Skew of Large Language Models
ArXiv ID: 2606.11082 | Сгенерировано: 2026-06-10 05:23

Проблемы LLM

ПроблемаСутьКак обойти
Язык запроса меняет риторическую позицию моделиОдин и тот же вопрос на русском и на английском — не перевод. Модель меняет позицию: насколько настойчиво отстаивает точку зрения, насколько мягко уступает, какие риски выдвигает на первый план. Два языка = два разных «советника». С фактами — нет разницы. Разница в позиции, акцентах, тоне. Опасно там, где ты ждёшь «объективный» анализ: рисков, стратегий, аргументовОтправь один запрос на двух языках. Сравни где позиция жёстче, где больше оговорок. Расхождение — не баг. Это дополнительные данные о том, какие риски модель считает «очевидными» в каждом контексте

Методы

МетодСуть
Языковой аудит — два взгляда на одну задачуОтправь один запрос на русском. Потом — то же самое на английском. Сравни: где акценты сместились, где появились новые риски, где пропали старые. Почему работает: Каждый язык активирует разный слой обучающих данных — с разными культурными ассоциациями и нормами. Модель буквально тянет из «другой памяти». Когда применять: анализ рисков, поиск слабых мест, оценка аргументов. Не работает: фактические вопросы (цены, даты, технические параметры) — там разницы нет

Тезисы

ТезисКомментарий
Фильтры поведения работают сильнее на английскомНастройка модели на безопасное поведение проводилась преимущественно на английских данных. Запрос по-английски активирует более «отфильтрованный» слой — модель чаще уступает, смягчает, добавляет оговорки. На других языках она меньше «помнит» про осторожность и больше опирается на обучающий корпус с его культурными паттернами. Применяй: если нужен жёсткий критический анализ без смягчения — пиши на языке задачи; если нужна более взвешенная подача — пиши по-английски
📖 Простыми словами

The Shibboleth Effect: Auditing the Cross-Lingual Distributional Skew ofLargeLanguageModels

arXiv: 2606.11082

Нейросети — это не монолитные мозги с единым мнением, а цифровые хамелеоны, которые меняют личность вместе с языком общения. Когда ты переключаешься с русского на английский, ты не просто меняешь словарь, ты переключаешь культурный контекст внутри модели. На глубоком уровне LLM — это статистическое зеркало тех текстов, на которых их учили, поэтому одна и та же модель на разных языках выдает принципиально разные советы, уровень агрессии и степень соглашательства.

Это как если бы твой знакомый в офисе был чопорным британцем, а в баре превращался в рубаху-парня: человек один, но паттерны поведения зависят от декораций. Исследователи называют это эффектом Шибболета — язык запроса работает как пароль, который открывает доступ к определенному набору убеждений. Если спрашиваешь на английском, получаешь «западную» логику с её акцентом на индивидуализм и мягкость, а на других языках модель может стать внезапно жесткой или, наоборот, излишне уступчивой.

В работе это проявляется максимально наглядно: кросс-языковой перекос ломает объективность. Допустим, ты просишь оценить риски бизнес-модели. На английском нейронка выдаст тебе вежливый список из серии «стоит обратить внимание», а на русском может рубануть сплеча, что идея — полный провал, потому что в русскоязычном сегменте интернета принято критиковать жестче. Это не ошибка перевода, это разные слои ассоциаций, которые активируются специфическими токенами.

Принцип универсален и касается не только бизнеса, но и кода, этики или бытовых советов. Тестировали это на разных языковых парах, но суть одна: язык — это фильтр восприятия. Если ты используешь AI для анализа стратегии или поиска слабых мест, глупо ограничиваться одним языком. Ты получишь только одну грань правды, продиктованную спецификой конкретной культуры, а не «чистый» интеллект.

Короче: если хочешь реально глубокий фидбек, прогоняй задачу через несколько языковых слоев. Спрашивай на английском для получения глобальной перспективы и на локальном языке для понимания контекста. Хватит верить, что модель всегда говорит «от себя» — она всегда мимикрирует под среду. Кто понимает этот перекос, тот использует нейронку как консилиум экспертов, остальные продолжают общаться с одним предвзятым советником.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с