3,583 papers
arXiv:2603.12768 72 13 мар. 2026 г. FREE

SectEval: язык и локация меняют «убеждения» LLM на культурно чувствительные темы

КЛЮЧЕВАЯ СУТЬ
Один и тот же вопрос, одна и та же модель — смени язык, и получишь противоположную позицию. Этот эффект можно использовать осознанно: получать разные культурные углы зрения от одной модели на спорные темы — вместо усреднённой псевдонейтральности. Язык запроса — это невидимый параметр, который переключает модель между разными статистическими паттернами обучающих данных: GPT-4o на английском склонялась к шиитской позиции, на хинди — та же модель с теми же вопросами переключалась к суннитской. Добавь «Я из Ирана» — крупная модель сдвинется к иранской перспективе. Но попроси думать пошагово — уклон к большинству усилится, а не исчезнет.
Адаптировать под запрос

TL;DR

Одна и та же модель даёт противоположные ответы на один и тот же вопрос — просто потому что ты сменил язык. Исследование проверило 15 моделей на 88 вопросах о различиях между суннитами и шиитами: на английском GPT-4o и DeepSeek-V3 склонялись к шиитской позиции, на хинди — те же модели, с теми же вопросами, переключались на суннитскую. У пользователя нет ощущения, что что-то изменилось. Но ответ — другой.

Почему так происходит: у каждого языка своя «экосистема» текстов в обучающих данных. Хинди — это преимущественно Южная Азия, где мусульманское большинство суннитское, и это закрепляется в паттернах генерации. Английский охватывает глобально разнородные источники, поэтому там больше разнообразия. Модель не «думает» по-разному — она генерирует по разным статистическим паттернам в зависимости от языка. Фактически язык запроса — это невидимый фильтр, который незаметно смещает ответ на спорные темы.

Дополнительно исследователи обнаружили два рычага, которые меняют ответы модели: прямое указание страны пользователя ("Я из Ирана") и включение пошагового рассуждения (Chain-of-Thought). Оба работают — первый сдвигает ответ к местной культурной норме, второй неожиданно усиливает уклон в сторону большинства, а не нейтрализует его.


📌

Схема находок

НАХОДКА 1: Язык = невидимый фильтр
  Один вопрос → EN → одна позиция
  Тот же вопрос → RU/HI → другая позиция

НАХОДКА 2: Локационный прайминг работает
  "Я из [страна]" → модель смещает ответ к культуре этой страны
  Крупные модели (Claude, Grok) → высокая чувствительность к прайму
  Мелкие модели → игнорируют прайм, дают ответ по умолчанию

НАХОДКА 3: CoT усиливает уклон к большинству
  Без CoT → ответы вариативнее
  С Chain-of-Thought → сильнее притяжение к мейнстримной точке зрения

НАХОДКА 4: Размер модели ≠ нейтральность
  Мелкие модели (<8B) → жёсткий уклон к большинству
  Средние (8-20B) → наиболее сбалансированные
  Крупные (frontier) → адаптируются к контексту, но непредсказуемы

Все наблюдения получены в стандартном чате — никакого кода или API для применения выводов не нужно.


🚀

Пример применения

Задача: Ты исследуешь спорную историческую тему для статьи — например, оцениваешь как разные культуры интерпретируют одно и то же событие. Тебе нужно получить от AI несколько точек зрения, а не усреднённую «нейтральную» позицию.

Промпт:

Я пишу материал о [тема] для аудитории из [страна/регион].
Объясни ключевые точки зрения на [спорный вопрос] так, 
как их понимает человек, выросший в этой культуре.

Покажи:
— Какую позицию обычно занимают люди из [регион А]
— Какую позицию занимают люди из [регион Б]
— В чём принципиальное расхождение

Отвечай без оценок — мне нужно понять логику каждой стороны.

Затем задай тот же вопрос на английском — и сравни ответы. Расхождение покажет, где срабатывает языковой фильтр.

Результат: Модель даст структурированное описание позиций с логикой каждой стороны. При повторе на другом языке — ты увидишь, изменился ли акцент или выбор примеров. Это не баг, который нужно устранить — это инструмент для получения разных углов зрения на одну тему.


🧠

Почему это работает

Модель генерирует по паттернам обучающих данных, а не «думает» независимо. Если в русскоязычном интернете определённая точка зрения представлена чаще — модель будет воспроизводить её чаще. Это не злой умысел, это статистика.

Локационный прайминг ("Я из Тегерана", "Я из Эр-Рияда") работает потому, что крупные модели обучены учитывать пользовательский контекст. Они буквально переключают «режим аудитории» — и вместе с ним смещают акценты в ответе. Средние и мелкие модели этот контекст часто игнорируют.

CoT на спорных темах — контринтуитивная находка. Казалось бы, пошаговое рассуждение должно давать более взвешенный ответ. Но происходит обратное: когда модель «рассуждает вслух», она сильнее притягивается к статистически доминирующей позиции в данных. Без явного CoT модель менее предсказуема — и парадоксально, иногда более сбалансирована.

Рычаги управления: - Смена языка → другой угол зрения на культурно-чувствительный вопрос - "Я из [страна]" → сдвигает крупную модель к местной перспективе - Убрать "думай пошагово" → снижает притяжение к мейнстримной позиции - Выбор модели → средние open-weight модели нейтральнее на спорных темах


📋

Шаблон промпта

📌

Для получения разных культурных перспектив:

Я изучаю {тема} с точки зрения {культура/регион/страна}.

Объясни {вопрос} так, как это понимают люди из этого контекста:
— Какова их ключевая позиция
— На чём она основана (история, традиция, практика)
— Чем она отличается от позиции {другая группа}

Не оценивай позиции — только опиши логику каждой стороны.
📌

Для проверки языкового смещения модели:

Задай один и тот же вопрос в двух форматах:

1. [{вопрос на русском}]
2. [{тот же вопрос на английском}]

Сравни ответы — есть ли разница в акцентах, примерах, выводах.

Плейсхолдеры: - {тема} — область: история, религия, политика, культурные нормы - {культура/регион} — конкретно: "русскоязычной аудитории из Сибири", "жителей Ирана" - {вопрос} — конкретный спорный вопрос по теме - {другая группа} — вторая сторона для сравнения

🚀 Быстрый старт — вставь в чат:

Вот шаблон для получения культурных перспектив от AI. 
Адаптируй под мою задачу: {твоя задача}. 
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит — какую тему исследуешь, какие культуры или группы тебя интересуют, нужен ли сравнительный анализ — потому что без этого не сможет правильно настроить угол зрения.


🧠

Почему это работает (механика)

На практике пользователь обычно пишет запрос на одном языке и не подозревает, что язык — это один из параметров ответа, а не просто упаковка. Это исследование делает невидимое видимым.

Принцип простой: модель не хранит единую «истину» о спорных темах. Она хранит статистические паттерны из текстов на разных языках. Паттерны разных языков — разные. Поэтому переключение языка — это не перевод, это переключение между разными «версиями» обученной модели.

Это особенно важно, если ты: - Работаешь с международной аудиторией - Исследуешь политически или культурно чувствительные темы - Хочешь проверить, насколько AI нейтрален на конкретный вопрос


⚠️

Ограничения

⚠️ Узкий домен тестирования: Исследование проверено только на исламской теологии (сунниты vs шииты). Обобщение на другие культурные споры — это экстраполяция, не доказанный факт.

⚠️ Локационный прайминг — не универсален: Крупные модели хорошо реагируют на "Я из [страна]". Мелкие модели часто игнорируют этот контекст и выдают ответ по умолчанию — сдвига не будет.

⚠️ CoT-вывод контринтуитивен: Усиление мейнстримного уклона при пошаговом рассуждении — специфика спорных/теологических тем. На фактических вопросах CoT по-прежнему улучшает качество.

⚠️ Не для простых фактических вопросов: Языковой сдвиг проявляется на культурно-чувствительных, исторически спорных темах. На "сколько планет в Солнечной системе" — одинаково на всех языках.


🔍

Как исследовали

Исследователи из IIM Indore сделали элегантно: 88 вопросов с бинарным выбором — каждый вопрос имеет ровно два варианта ответа, один суннитский, один шиитский. Никаких открытых вопросов, где можно "уйти в нейтралитет". Модель вынуждена выбрать — и тем самым показывает скрытый уклон.

Те же 88 вопросов прогнали через 15 моделей дважды: на английском и на хинди. Это ключевой дизайн-ход — не разные вопросы, а буквально переводы одних и тех же. Любое расхождение в ответах — чисто языковой эффект.

Самый неожиданный результат: Claude-3.5 в английском режиме дал 9,1% суннитских ответов при контексте "Я из Ирана" — и 64,4% при "Я из Саудовской Аравии". Это не нейтральная модель, это очень чуткий хамелеон. А вот мелкие модели (Llama-3.2-3B) при контексте "Я из Ирана" всё равно давали 77–80% суннитских ответов — они просто не реагировали на прайминг.

Неожиданно и то, что средние по размеру модели (Mistral-Nemo-12B) оказались наиболее нейтральными — 49,6% / 50,4%. Интуиция подсказывает, что больше параметров = лучше. Но на культурно чувствительных темах это не так.


💡

Адаптации и экстраполяции

📌

🔧 Техника: языковой тест на нейтральность

Если тебе важно получить взвешенный ответ на спорную тему — задай вопрос на двух языках и сравни. Расхождение в акцентах скажет больше, чем любая оговорка модели о "нейтральности".

Ответь на вопрос дважды:

— [Вопрос на русском]
— [The same question in English]

Затем укажи: есть ли разница в акцентах, примерах или выводах между двумя ответами.

Модель сама укажет на расхождение — и это уже готовый материал для понимания, где её паттерны неоднородны.


📌

🔧 Техника: Anti-CoT для спорных тем

Если тебе нужно не мейнстримное мнение по культурно чувствительной теме — убери пошаговое рассуждение из запроса. Просто попроси ответ без "объясни по шагам" или "think step by step". По данным исследования, без CoT ответы вариативнее.

❌ "Думай пошагово и объясни..."
✅ "Кратко: какова позиция [группа] на [вопрос]?"

🔗

Ресурсы

SectEval: Evaluating the Latent Sectarian Preferences of Large Language Models Датасет: github.com/secteval/SectEval Авторы: Aditya Maheshwari, Amit Gajkeshwar, Kaushal Sharma, Vivek Patel Организация: Indian Institute of Management Indore, India


📋 Дайджест исследования

Ключевая суть

Один и тот же вопрос, одна и та же модель — смени язык, и получишь противоположную позицию. Этот эффект можно использовать осознанно: получать разные культурные углы зрения от одной модели на спорные темы — вместо усреднённой псевдонейтральности. Язык запроса — это невидимый параметр, который переключает модель между разными статистическими паттернами обучающих данных: GPT-4o на английском склонялась к шиитской позиции, на хинди — та же модель с теми же вопросами переключалась к суннитской. Добавь «Я из Ирана» — крупная модель сдвинется к иранской перспективе. Но попроси думать пошагово — уклон к большинству усилится, а не исчезнет.

Принцип работы

Модель не хранит единую «истину» о спорных темах. Она хранит разные статистические паттерны для каждого языка — потому что обучающие тексты на разных языках отражают разные культурные экосистемы. Хинди — это преимущественно Южная Азия с суннитским большинством. Английский — глобально разнородные источники с куда большим диапазоном точек зрения. Переключить язык — значит переключиться на другую «версию» модели, которая обучалась на другом наборе текстов. Поэтому язык запроса — это не упаковка ответа. Это скрытый параметр, который задаёт угол зрения раньше, чем ты написал первое слово.

Почему работает

Три рычага реально меняют ответ модели на спорные темы. Первый — язык. Разные языки закрепляют разные паттерны в данных. Работает всегда, на всех моделях. Второй — локационный прайм. «Я из Тегерана» заставляет крупные модели (Claude, Grok) переключаться к местной культурной перспективе. Мелкие модели до 8 миллиардов параметров этот контекст просто игнорируют и выдают ответ по умолчанию. Третий — и вот тут настоящий парадокс. Пошаговое рассуждение не нейтрализует уклон — оно его усиливает. Когда модель «рассуждает вслух», она сильнее притягивается к статистически доминирующей позиции в обучающих данных. Без явного «думай шаг за шагом» модель менее предсказуема — и на спорных темах парадоксально оказывается сбалансированнее.

Когда применять

Исследование культурно-чувствительных и исторически спорных тем → особенно когда нужно получить несколько реальных углов зрения, а не усреднённую позицию. Работа с международной аудиторией → задай один и тот же вопрос на разных языках и посмотри, где сместились акценты — это и есть языковой фильтр в действии. Проверка нейтральности AI на конкретный вопрос → сравни ответы с разными языками и прай мами, чтобы понять, куда тянет модель. Не подходит для: фактических вопросов с однозначным ответом («сколько планет в Солнечной системе» — одинаково на всех языках). Языковой сдвиг проявляется только на спорных, культурно нагруженных темах.

Мини-рецепт

1. Выбери тему: Культурно-чувствительная область — история, религия, политика, местные нормы. Фактические вопросы не подойдут.

2. Пиши запрос на языке нужной культуры: Не переводи через модель — пиши сразу на том языке, чью перспективу хочешь получить. Хинди, арабский, фарси — каждый даёт свой угол.

3. Добавь локационный прайм: Начни с «Я из [страна/регион].» — крупные модели это считывают и смещают акцент к местной норме. Мелкие модели скорее всего проигнорируют.

4. Повтори на английском без прайма: Задай тот же вопрос на английском. Сравни ответы — где сместились примеры, акценты, выводы. Расхождение и есть языковой фильтр.

5. Хочешь меньше уклона к мейнстриму — убери пошаговое рассуждение: На спорных темах «думай шаг за шагом» тянет к доминирующей позиции сильнее. Вместо этого проси описать логику каждой стороны без оценки.

Примеры

[ПЛОХО] : Чем отличаются сунниты и шииты?
[ХОРОШО] : Я пишу материал о различиях между суннитами и шиитами для иранской аудитории. Я из Тегерана. Объясни ключевые богословские расхождения так, как их понимают люди, выросшие в иранском культурном контексте. Не оценивай — только опиши логику каждой стороны и чем она отличается от позиции суннитского большинства. Затем задай тот же вопрос на английском без прайма — и сравни, где сдвинулись акценты, какие примеры выбрала модель и чья точка зрения оказалась в центре. Расхождение покажет, насколько сильно срабатывает языковой фильтр на этой теме.
Источник: SectEval: Evaluating the Latent Sectarian Preferences of Large Language Models
ArXiv ID: 2603.12768 | Сгенерировано: 2026-03-16 04:23

Проблемы LLM

ПроблемаСутьКак обойти
Язык запроса незаметно меняет ответ на спорные темыЗадаёшь один и тот же вопрос. На русском — одна позиция. На английском — другая. Пользователь не замечает разницы. Модель не «переводит» — она генерирует через разные статистические паттерны. Каждый язык в обучающих данных имеет свою «экосистему» мнений. На культурно чувствительных вопросах это превращается в незаметный фильтрИспользуй переключение языка как инструмент. Задай вопрос на двух языках и сравни ответы. Расхождение покажет где активен языковой фильтр. Для фактических вопросов («сколько планет?») этого эффекта нет
Пошаговое рассуждение усиливает уклон к типичному на спорных темахОжидаешь: «думает пошагово взвешеннее». Происходит обратное. Когда модель рассуждает вслух, она сильнее притягивается к статистически доминирующей позиции в обучающих данных. Без пошагового рассуждения — ответы вариативнее. Это не работает так для фактических вопросов — только для культурно и исторически спорныхУбери «думай пошагово» или когда нужен сбалансированный взгляд на спорный вопрос. Добавь в запрос: «покажи позицию каждой стороны без оценок»

Методы

МетодСуть
Локационный прайминг — сдвиг к культурной перспективеДобавь в запрос: Я из [страна/регион] или Я пишу для аудитории из [регион]. Крупные модели (Claude, GPT-4, Grok) переключают «режим аудитории» и смещают акценты к местной культурной норме. Почему работает: большие модели обучены учитывать пользовательский контекст. Мелкие модели (до 8B параметров) этот контекст часто игнорируют — сдвига не будет. Применяй: исследование разных точек зрения, проверка как тема воспринимается в конкретном культурном контексте. Не работает: мелкие модели, фактические вопросы без культурной составляющей
📖 Простыми словами

SectEval: Evaluating the Latent Sectarian Preferences ofLargeLanguageModels

arXiv: 2603.12768

Нейросети не имеют своего мнения, они просто зеркалят ту кучу текстов, на которой их тренировали. Исследование SectEval вскрыло забавный и одновременно пугающий баг: LLM — это флюгеры, которые меняют позицию в зависимости от языка вопроса. Если ты спрашиваешь GPT-4o или DeepSeek-V3 о тонкостях ислама на английском, они выдают тебе «шиитскую» версию реальности, но стоит переключиться на хинди — и те же модели внезапно становятся убежденными «суннитами». Это происходит потому, что в разных языковых сегментах интернета доминируют разные нарративы, и модель просто подстраивается под статистическое большинство конкретной культуры, даже не замечая подвоха.

Это как если бы ты пришел к адвокату, который в костюме-тройке говорит одно, а переодевшись в спортивку и перейдя на сленг, начинает доказывать прямо противоположное. Формально это один и тот же человек, но его «правда» зависит от того, какой образ он сейчас отыгрывает. Модель не анализирует факты, она просто мимикрирует под контекст, превращаясь в цифрового хамелеона, который говорит то, что «принято» говорить на этом языке.

В цифрах это выглядит еще интереснее: исследователи прогнали 15 моделей через 88 острых вопросов о религиозных различиях. Результат — полная каша. На английском доминирует один уклон, на арабском или хинди — другой. Ключевой метод здесь — анализ латентных предпочтений, который показывает, что «нейтральность» AI — это миф. Модель лажает не потому, что она глупая, а потому что её обучающая выборка предвзята по умолчанию. Если в англоязычных статьях чаще хвалят один подход, а в хинди-сегменте другой, AI просто выдаст тебе самый вероятный следующий токен для этой среды.

Этот принцип универсален и касается не только религии. Тестировали на суннитах и шиитах, но та же логика работает в политике, истории или оценке брендов. Если ты пишешь статью о спорном событии, помни: язык запроса определяет ответ. Твой AI-ассистент — это не объективный судья, а эхо-камера. Сегодня это помогает увидеть разные точки зрения, но завтра может превратиться в инструмент манипуляции, где правда зависит от раскладки клавиатуры.

Короче: забудь про «объективность» больших языковых моделей. Они всегда будут поддакивать культурному мейнстриму того языка, на котором ты с ними общаешься. 15 из 15 моделей провалили тест на консистентность, а значит, доверять их «экспертному мнению» в чувствительных вопросах — это лотерея. Если хочешь честный ответ, проверяй его минимум на трех языках, иначе рискуешь получить не факты, а лингвистическую галлюцинацию.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с