3,583 papers
arXiv:2510.05678 78 7 окт. 2025 г. FREE

CSICL (Code-Switching In-Context Learning): лингвистический мост для мультилингвальных задач

КЛЮЧЕВАЯ СУТЬ
Обнаружено: LLM неявно переводят любой запрос на английский внутри себя — если этот скрытый перевод проваливается, вся цепочка рассуждений идёт от неправильной точки. Особенно заметно на низкоресурсных языках (корейский, йоруба, тамильский), где модель теряет детали и термины. Метод CSICL позволяет работать с такими языками с точностью близкой к английскому. CSICL явно показывает модели процесс перевода через постепенное переключение кода в few-shot примерах: 100% корейский → 75%/25% → 50/50 → 25%/75% → 100% английский. Модель перестаёт полагаться на скрытый перевод и учится выравнивать представления между языками — +14.7% точности в low-resource языках.
Адаптировать под запрос

TL;DR

CSICL — техника промптинга, которая использует постепенное переключение кода (code-switching) от целевого языка к английскому в few-shot демонстрациях и инструкциях. Вместо того чтобы давать примеры только на английском или только на целевом языке, метод показывает модели плавный переход: начинаем на целевом языке (например, корейском) → постепенно вводим английские слова (25% → 50% → 75%) → заканчиваем полностью на английском.

LLM полагаются на английско-центричные внутренние представления — они как бы «думают на английском». Когда модель получает запрос на неанглийском языке, она неявно переводит его на английский внутри себя. Если этот внутренний перевод проваливается — производительность резко падает. Это называют translation barrier (барьер перевода). Особенно это заметно в low-resource языках: модель может решить сложную задачу на английском, но провалиться на том же примере на языке с меньшим объёмом данных, потому что на этапе внутреннего перевода потеряла важные детали.

CSICL явно показывает модели этот процесс перевода через code-switching в демонстрациях. Вместо одного резкого скачка «целевой язык → английский», метод создаёт лингвистический мост из 5 шагов, где каждый шаг добавляет больше английского. Модель видит постепенный переход и учится выравнивать представления между языками, не полагаясь только на скрытый перевод.


🔬

Схема метода

Генерация few-shot демонстраций (подготовка):

ШАГ 1: Берём 5 примеров с параллельными предложениями (целевой язык + английский)
ШАГ 2: Через LLM генерируем 5 версий каждого примера:
 - Версия 1: 100% целевой язык (например, корейский)
 - Версия 2: 75% целевой + 25% английский
 - Версия 3: 50/50
 - Версия 4: 25% целевой + 75% английский 
 - Версия 5: 100% английский

Применение в чате (один промпт):

ИНСТРУКЦИЯ: "Постепенно переведи запрос на английский через code-switching, подумай на английском, дай ответ"
+ FEW-SHOT: 5 демонстраций с градуальным переходом
+ ЗАПРОС: вопрос на целевом языке
→ ОТВЕТ: модель следует паттерну демонстраций

🚀

Пример применения

Задача: Ты работаешь с международной командой и получаешь технические вопросы на разных языках. Нужно, чтобы Claude точно понимал вопросы на корейском и давал качественные ответы.

Контекст: Коллега из Сеула спрашивает про API интеграцию: "이 API의 rate limit은 얼마나 되나요?" (What is the rate limit of this API?)

Промпт:

Инструкция: Постепенно переведи этот запрос на английский через code-switching, подумай на английском, ответь на вопрос.

[Демонстрация 1 - про авторизацию]
Вопрос: 토큰 만료 시간은 얼마나 되나요?
Шаг 1: 토큰 만료 시간은 얼마나 되나요?
Шаг 2: Token 만료 시간은 얼마나 되나요?
Шаг 3: Token expiration time은 얼마나 되나요?
Шаг 4: Token expiration time은 how long 되나요?
Шаг 5: How long is the token expiration time?
Рассуждение: Access tokens typically expire after 1 hour for security...
Ответ: 액세스 토큰은 보안을 위해 보통 1시간 후 만료됩니다.

[... ещё 4 аналогичных демонстрации про разные аспекты API ...]

Теперь твой запрос:
이 API의 rate limit은 얼마나 되나요?

Результат: Модель покажет постепенный перевод через 5 шагов (100% корейский → 75% корейский → 50/50 → 25% корейский → 100% английский), затем выдаст рассуждение на английском с пониманием технического контекста, и финальный ответ на корейском. Точность понимания технических терминов и деталей выше, чем при обычном few-shot на одном языке.


🧠

Почему это работает

Слабость LLM: Модели используют английско-центричные латентные представления — они «думают на английском». Когда приходит запрос на неанглийском языке, модель неявно переводит его на английский внутри себя. Если этот скрытый перевод провалился (потерялись детали, неправильно выровнялись сущности) — вся цепочка рассуждений идёт от неправильной точки. Особенно это заметно в low-resource языках или технических доменах, где точность терминов критична.

Сильная сторона LLM: Модели хорошо работают с паттернами и структурированными переходами. Они умеют следовать примерам из few-shot демонстраций и переносить логику на новые задачи. Если явно показать модели процесс перевода через примеры — она научится повторять этот процесс.

Как метод использует это: CSICL явно моделирует процесс внутреннего перевода через code-switching в демонстрациях. Вместо резкого «корейский → английский» в латентном пространстве, модель видит постепенный мост из 5 шагов. Каждый шаг добавляет больше английского, выравнивая кросс-лингвальные представления. Модель учится не просто переводить, а выравнивать смысл между языками, минуя барьер перевода.

Рычаги управления промптом:

  • Количество шагов (сейчас 5): можно уменьшить до 3 для простых задач → экономия токенов
  • Пропорции языков (25/50/75): можно сделать более плавный или резкий переход под свою задачу
  • Направление (целевой→английский vs английский→целевой): первое работает лучше, т.к. совпадает с латентным процессом LLM
  • Количество демонстраций (сейчас 5): можно взять 3 для экономии или 7-10 для сложных доменов
  • Уровень code-switching (inter-sentential, intra-sentential): исследование использует межфразовое, но можно экспериментировать с внутрифразовым

📋

Шаблон промпта

Инструкция: Постепенно переведи этот {целевой_язык} запрос на английский через code-switching, подумай на английском, дай ответ на {целевой_язык}.

[Демонстрация 1]
Вопрос на {целевой_язык}: {пример_1_целевой}
Шаг 1 (100% {целевой_язык}): {пример_1_шаг_1}
Шаг 2 (75% {целевой_язык}, 25% английский): {пример_1_шаг_2}
Шаг 3 (50/50): {пример_1_шаг_3}
Шаг 4 (25% {целевой_язык}, 75% английский): {пример_1_шаг_4}
Шаг 5 (100% английский): {пример_1_шаг_5}
Рассуждение на английском: {пример_1_reasoning}
Ответ на {целевой_язык}: {пример_1_ответ}

[Демонстрация 2]
...

[Демонстрация 3-5 аналогично]

Теперь твой запрос:
{твой_запрос_на_целевом_языке}

Как заполнять:

  • {целевой_язык} — язык запроса (корейский, французский, йоруба и т.д.)
  • {пример_N} — примеры из твоей задачи с параллельными переводами
  • {пример_N_шаг_X} — постепенное добавление английских слов (25%/50%/75%) в каждый пример
  • {пример_N_reasoning} — рассуждение на английском, показывающее процесс решения
  • {пример_N_ответ} — финальный ответ на целевом языке

🚀 Быстрый старт — вставь в чат:

Вот шаблон CSICL для мультилингвальных задач. Адаптируй под мою задачу: {твоя задача}. 
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит про целевой язык, примеры из твоего домена, и создаст 5 демонстраций с постепенным code-switching (0% → 25% → 50% → 75% → 100% английского). Она возьмёт паттерн и адаптирует под твою задачу.


⚠️

Ограничения

⚠️ Требуется подготовка демонстраций: Нужно создать 5 few-shot примеров с градуальным code-switching — это дополнительный шаг перед использованием. В исследовании использовали GPT-5 для генерации, но можно попросить любую LLM.

⚠️ Работает лучше для межфразового переключения: Исследование использует inter-sentential code-switching (переключение между предложениями). Другие уровни (внутри слова, внутри фразы) не тестировали.

⚠️ Эффект сильнее в low-resource языках: В высокоресурсных языках (французский, испанский) улучшение умеренное (+2-3%p), но в низкоресурсных (йоруба, тамильский) — драматическое (+14.7%p). Для английского почти нет разницы.

⚠️ Лучше для перевода и рассуждений, слабее для знаний: Наибольший эффект в задачах перевода (+6.8%p) и математических рассуждений (+5.4%p). Для культурных знаний и социальных предубеждений улучшение скромное (+1-2%p).


🔍

Как исследовали

Команда проверила CSICL на 4 LLM (Qwen3-32B, DeepSeek-v3.1, Grok-4, Gemini 2.5), 6 датасетах (Global MMLU, FLORES+, MedExpQA, PolyMath, BLEnD, MBBQ) и 10 языках разных ресурсных уровней — от высокоресурсных (французский, китайский, испанский) через средние (корейский, индонезийский, турецкий) до низкоресурсных (йоруба, суахили, телугу).

Дизайн эксперимента: Для каждого языка взяли 600 вопросов × 6 категорий = 36,000 примеров. Зафиксировали 3 целевых языка (французский, корейский, йоруба) и 6 «невиданных» языков, которые не появлялись в демонстрациях. Сравнили CSICL с 5 базовыми X-ICL подходами: монолингвальные демонстрации (только английский / только целевой язык), параллельные демонстрации (оба языка), и инструкции «переведи на английский».

Почему результаты такие: Самое интересное — асимметрия эффекта. Когда целевой язык → английский (как в CSICL), улучшение +6%p над монолингвальными демонстрациями. Когда наоборот (английский → целевой) — только +2%p. Это подтверждает гипотезу: LLM думают на английском, поэтому помогать им приходить К английскому (а не уходить ОТ него) — критично.

Удивительный инсайт: Монолингвальные демонстрации на целевом языке дают +2%p в этом языке, но вредят невиданным языкам (-2%p). Модель переобучается на демонстрируемый язык, вместо того чтобы выравнивать кросс-лингвальные представления. CSICL, наоборот, улучшает и целевой (+6%p), и невиданные языки (+1.9%p) — это признак настоящего кросс-лингвального выравнивания, а не просто подгонки под один язык.

Статистическая значимость: Использовали bootstrap resampling с 2,000 итераций и 95% доверительным интервалом. Звёздочка (*) означает, что CSICL значимо превосходит каждый базовый метод, не только лучший.


📄

Оригинал из исследования

Контекст: Исследователи использовали GPT-5 для генерации code-switching демонстраций. Сначала инструктировали модель создать code-switching версию параллельных предложений (50% английского, 50% целевого языка), следуя Matrix Language Frame модели. Затем просили создать градуальный переход от целевого языка к английскому через 5 шагов.

Пример промпта для генерации (английский → корейский code-switching):

You are a bilingual rewriting assistant.

[TASK]
- Input: an English sentence (E) and its Korean translation (K)
- Output: the code-switching version of the parallel sentences following Matrix Language Frame (MLF) model
- Replace about 50% percent of words/phrases in E with their Korean equivalents taken from K
- Keep the original English word order and follow English syntax (S-V-O)
- DO NOT add explanations, examples, tags, prefix or extra sentences
- If there is no suitable Korean equivalent, keep the English word

[EXAMPLE]
<English> I ate dinner quickly.
<Korean> 나는 저녁을 빨리 먹었다.
<Code-Switching> I ate 저녁 빨리.

<English> Dad was about to throw away my tooth.
<Korean> 아빠가 내 이빨을 빼려고 했어.
<Code-Switching> 아빠 was about to 뺄래 my 이빨.

<English> Tom thinks Bill likes himself.
<Korean> 톰은 빌이 자기 자신을 좋아한다고 생각한다.
<Code-Switching> Tom thinks that Bill이 자기를 좋아한다.

[BEGIN TASK]

Пример промпта для градуального перехода:

You are a bilingual rewriting assistant.
Your task is to generate five versions of a sentence that gradually transition from Korean to English.

[INPUT]
- One English sentence (E)
- Its Korean translation (K)
- A code-switching version of the sentence (C), where about 50% of Korean words are replaced by English equivalents

[OUTPUT]
Generate a sequence of five sentences showing a smooth progression from Korean to English:
1. Korean only (100% Korean, source syntax S-O-V)
2. 75% Korean + 25% English (matrix language: Korean, embedded language: English)
3. 50% Korean + 50% English (matrix language: Korean, embedded language: English)
4. 25% Korean + 75% English (matrix language: Korean, embedded language: English)
5. English only (100% English, target syntax S-V-O)

[RULES]
Following the Matrix Language Frame (MLF) model,
- Preserve Korean word order (S-O-V) and syntax until version 5 (full English).
- Use English equivalents from E when inserting English into Korean sentences.
- Keep the code-switching natural and consistent, not random.
- Do not add explanations, notes, or extra text — output only the five sentences in order.

[EXAMPLE]
Input:
<Korean> 미나야, 바구니에 장난감을 다 넣고 빨리 집에 가자.
<English> Meena, put all the toys in the basket quickly, and go home.
<Code-Switching> Meena, basket 안에다 all the toys를 빨리 put하고 집에 가자.

Output:
1. 미나야, 바구니에 장난감을 다 넣고 빨리 집에 가자.
2. Meena, 바구니에 장난감을 다 put하고 빨리 집에 가자.
3. Meena, basket 안에다 all the toys를 빨리 put하고 집에 가자.
4. Meena, put all the toys in the basket quickly, 집에 가자.
5. Meena, put all the toys in the basket quickly, and go home.

[BEGIN TASK]

💡

Адаптации и экстраполяции

💡 Адаптация для бизнес-коммуникации с клиентами: Если работаешь с международными клиентами и нужно точно понимать их запросы на разных языках (например, техподдержка, консультации), создай набор типовых вопросов с градуальным code-switching для твоего домена.

Пример для техподдержки SaaS:

[Демонстрация - вопрос про интеграцию]
Вопрос: Comment puis-je intégrer votre API avec Slack?
Шаг 1: Comment puis-je intégrer votre API avec Slack?
Шаг 2: Comment integrate your API avec Slack?
Шаг 3: How integrate your API avec Slack?
Шаг 4: How can I integrate your API with Slack?
Шаг 5: How can I integrate your API with Slack?
Рассуждение: To integrate our API with Slack, you need to create a webhook...
Ответ: Pour intégrer notre API avec Slack, vous devez créer un webhook...

[Теперь твой запрос клиента на французском]

🔧 Техника: Двунаправленный code-switching → более глубокое выравнивание

Вместо одностороннего перехода (целевой → английский), можно добавить обратный переход (английский → целевой) в тех же демонстрациях. Это усиливает выравнивание представлений.

[Демонстрация с двунаправленным переходом]
Прямой переход (корейский → английский):
Шаг 1: 이 API의 rate limit은 얼마나 되나요?
Шаг 2: 이 API의 rate limit은 how much 되나요?
...
Шаг 5: What is the rate limit of this API?

Обратный переход (английский → корейский):
Шаг 1: What is the rate limit of this API?
Шаг 2: What is the rate limit of 이 API?
...
Шаг 5: 이 API의 rate limit은 얼마나 되나요?

Рассуждение: API rate limits typically depend on the pricing tier...
Ответ: [на целевом языке]

💡 Комбинация с Chain-of-Thought для сложных рассуждений: CSICL особенно эффективен в задачах рассуждений (+5.4%p в математике). Можно усилить, добавив явный CoT в рассуждениях на английском между шагами code-switching.

[Демонстрация - математическая задача]
Вопрос на корейском: 사과가 5개 있고, 3개를 먹었다면 몇 개가 남았나요?
[Градуальный code-switching 5 шагов]
Рассуждение (пошаговое на английском):
Step 1: Identify initial quantity: 5 apples
Step 2: Identify consumed quantity: 3 apples 
Step 3: Calculate remaining: 5 - 3 = 2
Step 4: Verify the logic: We started with 5, removed 3, so 2 remain
Ответ на корейском: 2개의 사과가 남았습니다.

🔗

Ресурсы

Code-Switching In-Context Learning for Cross-Lingual Transfer of Large Language Models

Исследователи: Haneul Yoo, Jiho Jin (KAIST), Kyunghyun Cho (New York University, Genentech), Alice Oh (KAIST)

Связанные концепции из исследования:

  • Matrix Language Frame (MLF) model — синтаксическая модель code-switching (Myers-Scotton, 1997)
  • Translation barrier — барьер перевода в мультилингвальных LLM (Bafna et al., 2025)
  • Cross-lingual in-context learning (X-ICL) — кросс-лингвальное обучение в контексте

Код доступен: https://github.com/haneul-yoo/csicl


📋 Дайджест исследования

Ключевая суть

Обнаружено: LLM неявно переводят любой запрос на английский внутри себя — если этот скрытый перевод проваливается, вся цепочка рассуждений идёт от неправильной точки. Особенно заметно на низкоресурсных языках (корейский, йоруба, тамильский), где модель теряет детали и термины. Метод CSICL позволяет работать с такими языками с точностью близкой к английскому. CSICL явно показывает модели процесс перевода через постепенное переключение кода в few-shot примерах: 100% корейский → 75%/25% → 50/50 → 25%/75% → 100% английский. Модель перестаёт полагаться на скрытый перевод и учится выравнивать представления между языками — +14.7% точности в low-resource языках.

Принцип работы

Вместо резкого скачка «целевой язык → английский» в латентном пространстве, создай лингвистический мост из 5 шагов. Каждая few-shot демонстрация показывает постепенное добавление английских слов (25% → 50% → 75%). Модель видит паттерн плавного перехода и учится не просто переводить, а выравнивать смысл между языками. Это как показать маршрут на карте вместо того, чтобы телепортировать — модель понимает промежуточные точки.

Почему работает

LLM используют английско-центричные латентные представления — они как бы «думают на английском». Когда приходит запрос на корейском, модель неявно переводит его внутри себя. Если этот барьер перевода (translation barrier) провалился — потерялись детали, неправильно выровнялись термины, и вся цепочка рассуждений строится от кривой точки старта. CSICL обходит этот барьер, явно моделируя процесс перевода через code-switching в примерах. Модель перестаёт полагаться на скрытый угадывающий перевод и следует чёткому паттерну из демонстраций. Особенно драматичный эффект в задачах перевода (+6.8%p) и математических рассуждений (+5.4%p), где точность терминов критична.

Когда применять

Мультилингвальные задачи → конкретно для работы с низкоресурсными языками (корейский, йоруба, тамильский, суахили), особенно когда нужна точность в техническом контексте или математических рассуждениях. Примеры: техподдержка на разных языках, перевод документации с сохранением терминов, multilingual customer service. НЕ подходит для высокоресурсных языков (французский, испанский) — там улучшение скромное (+2-3%p) и не оправдывает затраты на подготовку демонстраций. Слабый эффект для задач про культурные знания (+1-2%p).

Мини-рецепт

1. Подготовь 5 few-shot примеров: Возьми типичные вопросы из твоего домена с параллельными переводами (целевой язык + английский). Например, для техподдержки — 5 вопросов про API, токены, лимиты
2. Создай градуальные версии: Для каждого примера сгенерируй 5 шагов переключения кода — 100% целевой → 75% целевой + 25% английский → 50/50 → 25% целевой + 75% английский → 100% английский. Попроси GPT-4 или Claude: Создай 5 версий этого корейского вопроса с постепенным добавлением английских слов (0%, 25%, 50%, 75%, 100%)
3. Собери промпт: Инструкция «Постепенно переведи запрос на английский через code-switching, подумай на английском, дай ответ» + 5 демонстраций с постепенным переходом + твой запрос на целевом языке
4. Настрой под задачу: Для простых задач — 3 шага вместо 5 (экономия токенов), для сложных технических доменов — 7-10 демонстраций вместо 5

Примеры

[ПЛОХО] : Ответь на корейский вопрос про API: 이 API의 rate limit은 얼마나 되나요?
[ХОРОШО] : Инструкция: Постепенно переведи запрос на английский через code-switching, подумай на английском, дай ответ на корейском. [Demo 1 - про токены] Вопрос: 토큰 만료 시간은 얼마나 되나요? Шаг 1: 토큰 만료 시간은 얼마나 되나요? Шаг 2: Token 만료 시간은 얼마나 되나요? Шаг 3: Token expiration time은 얼마나 되나요? Шаг 4: Token expiration time은 how long 되나요? Шаг 5: How long is the token expiration time? Reasoning: Access tokens typically expire after 1 hour for security... Ответ: 액세스 토큰은 보안을 위해 1시간 후 만료됩니다. [... ещё 4 аналогичных demo про авторизацию, лимиты, ошибки, документацию ...] Твой запрос: 이 API의 rate limit은 얼마나 되나요? Модель покажет постепенный переход через 5 шагов, выдаст рассуждение на английском с пониманием технического контекста, и финальный ответ на корейском с правильными терминами.
Источник: Code-Switching In-Context Learning for Cross-Lingual Transfer of Large Language Models
ArXiv ID: 2510.05678 | Сгенерировано: 2026-01-12 00:01

Концепты не выделены.

📖 Простыми словами

CSICL (Code-Switching In-Context Learning): лингвистический мост для мультилингвальных задач

arXiv: 2510.05678

LLM не просто знают много языков, они — заядлые англофилы, которые думают на английском. Когда ты закидываешь в модель сложный вопрос на корейском или суахили, она не понимает его напрямую, а пытается провернуть скрытый перевод в своих «мозгах». Если этот внутренний перевод лажает, вся логика летит к чертям, и на выходе ты получаешь уверенную, но абсолютно бесполезную чушь. Метод CSICL решает эту проблему, выстраивая мостик между тем, как говоришь ты, и тем, как удобно модели.

Это как пытаться объяснить иностранцу дорогу, когда он едва понимает твой язык. Если ты сразу вывалишь на него сложную инструкцию, он просто кивнет и пойдет не туда. Но если ты начнешь на его языке, постепенно вставляя знакомые ему английские слова, его мозг плавно переключится на нужную волну. Ты не бросаешь его в воду, а ведешь за руку от понятного к эффективному. Формально это всё тот же перевод, но без риска, что модель потеряет нить рассуждения на полпути.

Суть метода CSICL в постепенном подмешивании английского в примеры (few-shot). Ты не даешь примеры только на одном языке, а делаешь плавный переход: первый пример на 100% на целевом языке, во втором уже 25% английских слов, в третьем — 50%, и так до полной победы английского синтаксиса. Это заставляет модель выравнивать смыслы между языками в реальном времени. Она видит, как корейское понятие превращается в английский термин, и её внутренний «компилятор» перестает сбоить на сложных поворотах.

Тестировали это на корейском и других языках, но принцип универсален для любого случая, когда модель тупит на неанглийском контенте. Это работает для перевода, классификации или сложных технических задач в специфических доменах. Вместо того чтобы надеяться на авось, ты буквально прошиваешь логику модели через мультиязычные костыли. SEO для смыслов — вот что это такое: ты адаптируешь подачу так, чтобы внутренние механизмы LLM не спотыкались о лингвистические барьеры.

Короче: если модель лажает на твоем языке, не пытайся «кричать» громче или писать проще. Используй постепенное переключение кода, чтобы заставить её мозг плавно переехать в комфортную английскую среду. CSICL — это чит-код для мультиязычности, который превращает кривой внутренний перевод в четкую цепочку рассуждений. Кто научится так «кормить» промпты, получит адекватные ответы там, где остальные будут жаловаться на трудности перевода.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с