TL;DR
LLM хранит знания рядом с оригинальным написанием слов. Когда вы спрашиваете на одном алфавите о вещи, которая «живёт» в другом — модель не находит нужные знания так же легко, как если бы вопрос совпадал с алфавитом источника. Это не проблема языка и не проблема сложности вопроса — это буквально проблема букв.
Исследователи обнаружили: само несовпадение алфавитов (Latin → 한글, кирилица → 漢字, Arabic → Devanagari) снижает вероятность правильного ответа на ~13%, при прочих равных. Причём языковое родство не играет роли — испанский к индонезийскому ближе по алфавиту, чем русский к арабскому. Вопрос только в том, совпадают ли буквы источника знания и вашего вопроса.
Причина конкретная: когда вы пишете «Miyazaki» латиницей, а все богатые знания о режиссёре лежат рядом с написанием 宮崎駿 — модели нужно выстроить мостик через транслитерацию. Иногда этот мостик строится плохо. Решение простое: дайте модели оригинальное написание сущности прямо в промпте — и она находит нужные знания значительно лучше.
Схема техники
ОПРЕДЕЛИ: Ключевую сущность вопроса (персонаж, место, явление)
↓
НАЙДИ: Её написание в оригинальном алфавите (Google, Википедия)
↓
ДОБАВЬ: В промпт — "[тема] (в оригинале: [написание])"
↓
СПРОСИ: Свой вопрос как обычно
Всё делается в одном сообщении. Никаких отдельных шагов.
Пример применения
Задача: Хочешь разобраться в творчестве Хаяо Миядзаки для разговора с партнёрами из Японии — не поверхностно, а с пониманием контекста его эпохи, на что он реагировал, какие темы для него центральные.
Промпт:
Я готовлюсь к встрече с японскими партнёрами и хочу глубоко
понять творчество Хаяо Миядзаки (宮崎 駿).
Объясни: из каких культурных и исторических слоёв выросло
его мировоззрение? Какие темы для него центральные и почему
именно они? Приведи примеры из конкретных фильмов.
Говори как человек, который вырос в японской культуре —
не как западный критик.
Результат: Модель получит прямой «ключ» к знаниям через оригинальное написание — и сгенерирует текст с заметно большей глубиной, чем без него. Особенно это работает для малоизвестных фактов биографии и культурных отсылок, которые в латинской транслитерации модель могла бы «не найти» в своих знаниях.
Почему это работает
LLM не хранит знания отдельно от слов. Знания о Миядзаки в обучающих данных модели — это тексты на японском, написанные иероглифами. Знания о сербском монастыре — тексты на сербском, кириллицей. Когда вы спрашиваете латиницей об иероглифной сущности, модели нужно выстроить связь через транслитерацию (宮崎 → Miyazaki → знания). Эта связь нечёткая и работает хуже, чем прямое совпадение.
Что модель умеет хорошо — так это рассуждать от конкретного якоря. Когда в промпте есть оригинальное написание, оно работает как точный адрес в памяти: не «улица Мирная, где-то в центре», а GPS-координата. Модель «идёт» прямо к нужным знаниям, минуя ненадёжный мостик транслитерации.
Рычаги управления: - Один алфавит = нет проблемы → Если вы спрашиваете по-испански о мексиканской культуре — оба в латинице, добавлять оригинал не нужно - Чем более нишевая тема → тем сильнее помогает оригинальное написание. Миядзаки знают все. Малоизвестный японский художник 1950-х — тут разница будет ощутимее - Можно добавить не только имя, но и место → «монастырь Манасия (Манасија, Сербия)» — двойная точность
Шаблон промпта
{Вопрос о теме или сущности} ({сущность} в оригинале: {написание_оригинальным_алфавитом})
{Основной вопрос}
Что подставлять:
- {сущность} — имя, место, термин про который спрашиваешь
- {написание_оригинальным_алфавитом} — ищи в Wikipedia: в любой статье вверху стоит оригинальное написание
Примеры конкретных вставок: | Тема | Что добавлять | |------|--------------| | Японский автор, место, компания | 漢字 из Wikipedia | | Корейский исполнитель, политик | 한글 из Wikipedia | | Арабский философ, город | العربية из Wikipedia | | Иврит, греческий, грузинский | аналогично | | Хинди, тайский, армянский | аналогично |
Когда точно работает: любой вопрос о культуре, истории, людях и местах из стран с не-латинской письменностью.
🚀 Быстрый старт — вставь в чат:
Помоги мне применить технику «добавь оригинальное написание»
для моего вопроса. Адаптируй под мою задачу: [твой вопрос].
Задай уточняющие вопросы, если нужно найти правильное
оригинальное написание.
Шаблон:
{Вопрос о теме} ({сущность} в оригинале: {написание_оригинальным_алфавитом})
{Основной вопрос}
LLM спросит про конкретную сущность и помогёт найти её оригинальное написание — потому что без этого не может точно заполнить шаблон. Она сделает поиск через свои знания и предложит корректный вариант.
Ограничения
⚠️ Помогает, но не решает всё: Эффект реальный, но умеренный. Модель не знает того, чего не знает — оригинальное написание открывает доступ к знаниям, которые там есть, но не создаёт их из воздуха.
⚠️ Нишевые темы — самый сильный случай: Для общеизвестных вещей (Миядзаки, Токио, Конфуций) разница будет небольшой — модель и так хорошо знает транслитерацию. Настоящий выигрыш — малоизвестные местные деятели, места, термины.
⚠️ Нужно правильное написание: Если вы напишете неверные иероглифы — станет хуже, не лучше. Всегда проверяйте через Wikipedia (там оригинал в первом абзаце любой статьи).
⚠️ Кириллица к кириллице — не нужно: Русский пользователь, спрашивающий о сербской или болгарской теме — уже в одном алфавите. Техника для межалфавитных запросов.
Адаптации и экстраполяции
Двойной якорь: имя + контекст на языке оригинала
Если тема совсем нишевая — дай не только написание, но и короткий контекст:
Расскажи о {тема}.
Оригинальное написание: {сущность}
Контекст: {2-3 слова на языке оригинала, например из Wikipedia-лида}
Это особенно помогает для исторических фигур и мест, у которых мало упоминаний в латинской транслитерации.
🔧 Техника: «Якорь через скобки» — для любого нишевого материала
Принцип можно расширить: любое понятие, которое модель может знать под другим названием, стоит дублировать в альтернативном написании:
Объясни концепцию «{русское_название}» ({оригинальный_термин})
из области {область}. Как это работает и как я могу применить?
Например: «управление вниманием» (Attention Mechanism), «тонкая настройка» (fine-tuning), «обучение с подкреплением» (RL/RLHF). Там, где русский термин ещё не устоялся — оригинал даёт точность.
Как исследовали
Команда взяла пять больших reasoning-моделей (GPT, Qwen, GLM, Olmo) и два датасета с вопросами о локальных знаниях со всего мира — ECleKTic и MultiLoKo. Оба датасета специально сделаны так, чтобы знания о теме существовали преимущественно на одном языке (например, вопрос про сербский монастырь — знания есть в основном в сербских текстах).
Хитрость дизайна: чтобы отделить «плохо знает язык» от «плохо передаёт знания», исследователи использовали результаты модели на задаче чтения с пониманием как меру владения языком. Чтение с пониманием не требует внешних знаний — текст дан. Значит, если модель там справляется, но на вопросах о знаниях — нет, то проблема именно в передаче знаний, не в языке.
Регрессия показала неожиданное: ни принадлежность языков к одной семье, ни то, что вопрос задан на том же языке что и источник — статистически не значимы, когда в модель входит переменная совпадения алфавита. Только алфавит имеет значение: совпадает → +13% к точности. Это удивительно, потому что современные большие модели теоретически должны иметь «языконезависимые» представления знаний — но практика говорит иначе.
Второй эксперимент — «вставка в начало рассуждения»: моделям искусственно подставлялось начало их цепочки мыслей с оригинальным написанием ключевой сущности. Для кросс-алфавитных вопросов это дало +2.1 пункта точности, тогда как для вопросов в одном алфавите — почти ноль (+0.5). Это прямо показывает: именно маппинг сущностей между алфавитами — узкое место.
Ресурсы
Название: Large Reasoning Models Struggle to Transfer Parametric Knowledge Across Scripts
Авторы: Lucas Bandarkar (Google Research / UCLA), Alan Ansell (Google Research), Trevor Cohn (Google Research / University of Melbourne)
Датасеты: ECleKTic (Goldman et al., 2025), MultiLoKo (Hupkes & Bogoychev, 2025)
