3,583 papers
arXiv:2603.17070 71 17 мар. 2026 г. FREE

Script Barrier: почему LLM теряет знания при смене алфавита — и как с этим работать

КЛЮЧЕВАЯ СУТЬ
Модель не знает языков — она знает буквы. Знания в LLM хранятся рядом с тем алфавитом, в котором они встречались в обучающих данных. Спрашиваешь латиницей о японском режиссёре — модель ищет по латинскому «адресу», а самые богатые знания лежат по иероглифному. Исследователи измерили: одно только несовпадение алфавитов снижает точность на ~13%, даже если вопрос одинаковый по сложности. Техника позволяет устранить это: добавь оригинальное написание сущности прямо в скобках — и модель получает прямой адрес к нужным знаниям, минуя ненадёжный мостик транслитерации. Одна вставка в скобках — «Хаяо Миядзаки (宮崎 駿)» — и модель идёт напрямую, а не вслепую. Разница ощутима прежде всего на нишевых темах: малоизвестные местные деятели, специфические места, культурные термины — именно там 13% превращаются в реальную разницу между полезным ответом и водой.
Адаптировать под запрос

TL;DR

LLM хранит знания рядом с оригинальным написанием слов. Когда вы спрашиваете на одном алфавите о вещи, которая «живёт» в другом — модель не находит нужные знания так же легко, как если бы вопрос совпадал с алфавитом источника. Это не проблема языка и не проблема сложности вопроса — это буквально проблема букв.

Исследователи обнаружили: само несовпадение алфавитов (Latin → 한글, кирилица → 漢字, Arabic → Devanagari) снижает вероятность правильного ответа на ~13%, при прочих равных. Причём языковое родство не играет роли — испанский к индонезийскому ближе по алфавиту, чем русский к арабскому. Вопрос только в том, совпадают ли буквы источника знания и вашего вопроса.

Причина конкретная: когда вы пишете «Miyazaki» латиницей, а все богатые знания о режиссёре лежат рядом с написанием 宮崎駿 — модели нужно выстроить мостик через транслитерацию. Иногда этот мостик строится плохо. Решение простое: дайте модели оригинальное написание сущности прямо в промпте — и она находит нужные знания значительно лучше.


📌

Схема техники

ОПРЕДЕЛИ: Ключевую сущность вопроса (персонаж, место, явление)
      ↓
НАЙДИ: Её написание в оригинальном алфавите (Google, Википедия)
      ↓
ДОБАВЬ: В промпт — "[тема] (в оригинале: [написание])"
      ↓
СПРОСИ: Свой вопрос как обычно

Всё делается в одном сообщении. Никаких отдельных шагов.


🚀

Пример применения

Задача: Хочешь разобраться в творчестве Хаяо Миядзаки для разговора с партнёрами из Японии — не поверхностно, а с пониманием контекста его эпохи, на что он реагировал, какие темы для него центральные.

Промпт:

Я готовлюсь к встрече с японскими партнёрами и хочу глубоко 
понять творчество Хаяо Миядзаки (宮崎 駿).

Объясни: из каких культурных и исторических слоёв выросло 
его мировоззрение? Какие темы для него центральные и почему 
именно они? Приведи примеры из конкретных фильмов.

Говори как человек, который вырос в японской культуре — 
не как западный критик.

Результат: Модель получит прямой «ключ» к знаниям через оригинальное написание — и сгенерирует текст с заметно большей глубиной, чем без него. Особенно это работает для малоизвестных фактов биографии и культурных отсылок, которые в латинской транслитерации модель могла бы «не найти» в своих знаниях.


🧠

Почему это работает

LLM не хранит знания отдельно от слов. Знания о Миядзаки в обучающих данных модели — это тексты на японском, написанные иероглифами. Знания о сербском монастыре — тексты на сербском, кириллицей. Когда вы спрашиваете латиницей об иероглифной сущности, модели нужно выстроить связь через транслитерацию (宮崎 → Miyazaki → знания). Эта связь нечёткая и работает хуже, чем прямое совпадение.

Что модель умеет хорошо — так это рассуждать от конкретного якоря. Когда в промпте есть оригинальное написание, оно работает как точный адрес в памяти: не «улица Мирная, где-то в центре», а GPS-координата. Модель «идёт» прямо к нужным знаниям, минуя ненадёжный мостик транслитерации.

Рычаги управления: - Один алфавит = нет проблемы → Если вы спрашиваете по-испански о мексиканской культуре — оба в латинице, добавлять оригинал не нужно - Чем более нишевая тема → тем сильнее помогает оригинальное написание. Миядзаки знают все. Малоизвестный японский художник 1950-х — тут разница будет ощутимее - Можно добавить не только имя, но и место → «монастырь Манасия (Манасија, Сербия)» — двойная точность


📋

Шаблон промпта

{Вопрос о теме или сущности} ({сущность} в оригинале: {написание_оригинальным_алфавитом})

{Основной вопрос}

Что подставлять: - {сущность} — имя, место, термин про который спрашиваешь - {написание_оригинальным_алфавитом} — ищи в Wikipedia: в любой статье вверху стоит оригинальное написание

Примеры конкретных вставок: | Тема | Что добавлять | |------|--------------| | Японский автор, место, компания | 漢字 из Wikipedia | | Корейский исполнитель, политик | 한글 из Wikipedia | | Арабский философ, город | العربية из Wikipedia | | Иврит, греческий, грузинский | аналогично | | Хинди, тайский, армянский | аналогично |

Когда точно работает: любой вопрос о культуре, истории, людях и местах из стран с не-латинской письменностью.


🚀 Быстрый старт — вставь в чат:

Помоги мне применить технику «добавь оригинальное написание» 
для моего вопроса. Адаптируй под мою задачу: [твой вопрос].
Задай уточняющие вопросы, если нужно найти правильное 
оригинальное написание.

Шаблон:
{Вопрос о теме} ({сущность} в оригинале: {написание_оригинальным_алфавитом})
{Основной вопрос}

LLM спросит про конкретную сущность и помогёт найти её оригинальное написание — потому что без этого не может точно заполнить шаблон. Она сделает поиск через свои знания и предложит корректный вариант.


⚠️

Ограничения

⚠️ Помогает, но не решает всё: Эффект реальный, но умеренный. Модель не знает того, чего не знает — оригинальное написание открывает доступ к знаниям, которые там есть, но не создаёт их из воздуха.

⚠️ Нишевые темы — самый сильный случай: Для общеизвестных вещей (Миядзаки, Токио, Конфуций) разница будет небольшой — модель и так хорошо знает транслитерацию. Настоящий выигрыш — малоизвестные местные деятели, места, термины.

⚠️ Нужно правильное написание: Если вы напишете неверные иероглифы — станет хуже, не лучше. Всегда проверяйте через Wikipedia (там оригинал в первом абзаце любой статьи).

⚠️ Кириллица к кириллице — не нужно: Русский пользователь, спрашивающий о сербской или болгарской теме — уже в одном алфавите. Техника для межалфавитных запросов.


💡

Адаптации и экстраполяции

Двойной якорь: имя + контекст на языке оригинала

Если тема совсем нишевая — дай не только написание, но и короткий контекст:

Расскажи о {тема}. 
Оригинальное написание: {сущность}
Контекст: {2-3 слова на языке оригинала, например из Wikipedia-лида}

Это особенно помогает для исторических фигур и мест, у которых мало упоминаний в латинской транслитерации.


🔧 Техника: «Якорь через скобки» — для любого нишевого материала

Принцип можно расширить: любое понятие, которое модель может знать под другим названием, стоит дублировать в альтернативном написании:

Объясни концепцию «{русское_название}» ({оригинальный_термин}) 
из области {область}. Как это работает и как я могу применить?

Например: «управление вниманием» (Attention Mechanism), «тонкая настройка» (fine-tuning), «обучение с подкреплением» (RL/RLHF). Там, где русский термин ещё не устоялся — оригинал даёт точность.


🔍

Как исследовали

Команда взяла пять больших reasoning-моделей (GPT, Qwen, GLM, Olmo) и два датасета с вопросами о локальных знаниях со всего мира — ECleKTic и MultiLoKo. Оба датасета специально сделаны так, чтобы знания о теме существовали преимущественно на одном языке (например, вопрос про сербский монастырь — знания есть в основном в сербских текстах).

Хитрость дизайна: чтобы отделить «плохо знает язык» от «плохо передаёт знания», исследователи использовали результаты модели на задаче чтения с пониманием как меру владения языком. Чтение с пониманием не требует внешних знаний — текст дан. Значит, если модель там справляется, но на вопросах о знаниях — нет, то проблема именно в передаче знаний, не в языке.

Регрессия показала неожиданное: ни принадлежность языков к одной семье, ни то, что вопрос задан на том же языке что и источник — статистически не значимы, когда в модель входит переменная совпадения алфавита. Только алфавит имеет значение: совпадает → +13% к точности. Это удивительно, потому что современные большие модели теоретически должны иметь «языконезависимые» представления знаний — но практика говорит иначе.

Второй эксперимент — «вставка в начало рассуждения»: моделям искусственно подставлялось начало их цепочки мыслей с оригинальным написанием ключевой сущности. Для кросс-алфавитных вопросов это дало +2.1 пункта точности, тогда как для вопросов в одном алфавите — почти ноль (+0.5). Это прямо показывает: именно маппинг сущностей между алфавитами — узкое место.


🔗

Ресурсы

Название: Large Reasoning Models Struggle to Transfer Parametric Knowledge Across Scripts

Авторы: Lucas Bandarkar (Google Research / UCLA), Alan Ansell (Google Research), Trevor Cohn (Google Research / University of Melbourne)

Датасеты: ECleKTic (Goldman et al., 2025), MultiLoKo (Hupkes & Bogoychev, 2025)


📋 Дайджест исследования

Ключевая суть

Модель не знает языков — она знает буквы. Знания в LLM хранятся рядом с тем алфавитом, в котором они встречались в обучающих данных. Спрашиваешь латиницей о японском режиссёре — модель ищет по латинскому «адресу», а самые богатые знания лежат по иероглифному. Исследователи измерили: одно только несовпадение алфавитов снижает точность на ~13%, даже если вопрос одинаковый по сложности. Техника позволяет устранить это: добавь оригинальное написание сущности прямо в скобках — и модель получает прямой адрес к нужным знаниям, минуя ненадёжный мостик транслитерации. Одна вставка в скобках — «Хаяо Миядзаки (宮崎 駿)» — и модель идёт напрямую, а не вслепую. Разница ощутима прежде всего на нишевых темах: малоизвестные местные деятели, специфические места, культурные термины — именно там 13% превращаются в реальную разницу между полезным ответом и водой.

Принцип работы

LLM не хранит знания отдельно от написания слов. «Miyazaki» и «宮崎» — это разные адреса в памяти модели. Разные настолько, что языковое родство не играет роли: испанский ближе к индонезийскому (оба латиница), чем к португальскому через арабский — потому что алфавит важнее грамматического сходства. Совпадает алфавит вопроса с алфавитом источника — модель находит быстро. Не совпадает — строит мостик через транслитерацию, который иногда ломается на полпути. Добавь оригинальное написание → дай модели точный адрес → она идёт прямо к знаниям.

Почему работает

Модель обучалась на текстах. Тексты о Миядзаки на японском написаны иероглифами — там биография, интервью, критика, культурный контекст. Тексты о нём на английском — латиницей, но их заметно меньше и они беднее деталями. Когда ты пишешь «Miyazaki» без подсказки, модель в основном работает с латинским пулом. Добавляешь «宮崎 駿» — открывается иероглифный пул, богаче в разы. Оригинальное написание работает как GPS-координата: не «улица Мирная, где-то в центре», а точный адрес — модель приходит именно туда, где знания плотнее всего. Особенно это важно для нишевых тем: Миядзаки ещё куда ни шло, но малоизвестный японский художник 1950-х или региональный политик Кореи — там разница между латиницей и иероглифами будет ощутима сразу.

Когда применять

Вопросы о персонах, местах, явлениях из стран с не-латинской письменностью — японская и китайская культура, корейская история, арабская философия, термины на хинди или грузинском. Особенно работает когда тема нишевая: не «кто такой Конфуций», а «малоизвестные работы конкретного художника эпохи Эдо» или «региональная политика конкретного японского города». НЕ нужно: когда вопрос и источник знания уже в одном алфавите — русский пользователь спрашивает о сербской теме (оба кириллица), или англоязычный о французской истории (оба латиница). Также слабо работает для общеизвестных сущностей — Токио, Конфуций, Миядзаки — модель и без подсказки хорошо знает их транслитерацию.

Мини-рецепт

1. Найди сущность: что именно в твоём вопросе — персона, место, термин — «живёт» в другом алфавите?
2. Открой Wikipedia: оригинальное написание стоит в первом абзаце любой статьи, прямо после названия — берёшь оттуда, не угадываешь
3. Вставь в скобках: «Хаяо Миядзаки (宮崎 駿)» или «монастырь Манасия (Манасија, Сербия)» — прямо в начале промпта
4. Задай вопрос как обычно: никакой дополнительной инструкции не нужно, модель сама подхватит якорь

Примеры

[ПЛОХО] : Расскажи о философии Ибн Хальдуна и его взгляде на цикличность истории
[ХОРОШО] : Расскажи о философии Ибн Хальдуна (ابن خلدون) и его взгляде на цикличность истории — не как западный историк, а с пониманием того, в какой интеллектуальной традиции он работал и на что реагировал Разница: во втором случае модель идёт прямо к арабскому пулу знаний, где тексты об Ибн Хальдуне на порядок богаче. Особенно заметно на деталях биографии и конкретных идеях, которые в латинской транслитерации проходят мимо.
Источник: Large Reasoning Models Struggle to Transfer Parametric Knowledge Across Scripts
ArXiv ID: 2603.17070 | Сгенерировано: 2026-03-19 04:23

Проблемы LLM

ПроблемаСутьКак обойти
Знания теряются при смене алфавитаСпрашиваешь латиницей о японском режиссёре. Знания о нём хранятся рядом с иероглифами. Модели нужно связать "Miyazaki" "宮崎". Это ненадёжный мост. Чем нишевее тема — тем хуже мост работает. Точность падает примерно на 13%. Причина не в языке. Причина в несовпадении алфавитовДобавь в запрос оригинальное написание: Миядзаки (宮崎 駿). Это прямой адрес к нужным знаниям. Оригинал ищи в первом абзаце Wikipedia

Методы

МетодСуть
Оригинальный алфавит в запросе — якорь к знаниямДобавь в запрос оригинальное написание сущности: [тема] ([сущность] в оригинале: [написание]). Одна вставка в одном месте. Оригинал искать в Wikipedia, первый абзац. Когда работает: вопрос о людях, местах или культуре стран с не-латинской письменностью. Когда не нужно: алфавиты совпадают — латиница к латинице, кириллица к кириллице. Осторожно: неверные иероглифы хуже чем ничего. Всегда проверяй написание
📖 Простыми словами

LargeReasoningModelsStruggle to Transfer Parametric Knowledge Across Scripts

arXiv: 2603.17070

Нейросети хранят знания не в виде абстрактных идей, а привязывают их к конкретному написанию слов. Это фундаментальный баг архитектуры: знания о японской культуре «приклеены» к иероглифам, а факты о русской истории — к кириллице. Когда ты спрашиваешь модель о чем-то специфическом, используя другой алфавит, она не просто переводит вопрос, она пытается нащупать связь в тумане. Если данные лежат в ячейке под кодом японских символов, а ты стучишься туда латиницей, модель часто выдает поверхностную чушь или галлюцинации, потому что физически не может «дотянуться» до нужного пласта информации.

Это как если бы ты пришел в огромную библиотеку, где все книги расставлены по цвету обложек, а не по смыслу. Ты ищешь рецепт пасты и логично идешь к полке с надписью «Италия», но там пусто, потому что библиотекарь поставил книгу на полку «Зеленые обложки». Ты знаешь, что информация где-то здесь, но из-за неправильной маркировки на входе получаешь лишь обрывки знаний. Модель оказывается в роли такого бестолкового библиотекаря: она помнит факты, но не может сопоставить их, если «этикетка» на твоем вопросе не совпадает с «этикеткой» в ее памяти.

В исследовании это четко видно на примере транслитерации. Когда ты пишешь имя Miyazaki латиницей, для модели это всего лишь набор звуков, который слабо связан с глубоким контекстом, хранящимся под иероглифами 宮崎. Чтобы выдать качественный ответ, нейронке нужно построить сложный мостик: перевести буквы в иероглифы, найти там знания и вернуть их обратно. На этом пути связь постоянно рвется. В итоге на родном для темы алфавите модель выдает экспертный анализ, а на чужом — уровень школьного реферата, хотя вычислительная мощность и объем данных одни и те же.

Этот принцип универсален и касается не только японского или сербского. Если ты пытаешься вытащить из модели нюансы французского права, спрашивая на английском, или анализируешь код, используя описательные метафоры вместо терминов из документации, ты получишь слабый результат. SEO для мозгов AI работает через прямое попадание в скрипт: хочешь глубоких инсайтов о локальном явлении — используй тот алфавит и те термины, на которых об этом явлении написаны первоисточники. Иначе ты просто скользишь по поверхности, не заходя вглубь.

Короче: буквы имеют значение больше, чем мы думали. Если модель тупит, это не значит, что она глупая — возможно, ты просто используешь не тот ключ к ее памяти. Для серьезных задач всегда делай запрос на языке оригинала или хотя бы используй оригинальное написание имен и терминов. Иначе ты рискуешь получить суррогат знаний вместо реальной экспертизы. 10 из 10 моделей лажают на переносе знаний между скриптами, так что не надейся на чудо и пиши так, как это заложено в базе.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с