3,583 papers
arXiv:2511.09984 75 13 нояб. 2025 г. PRO

Language Drift в многоязычном RAG: почему модель соскальзывает на английский

КЛЮЧЕВАЯ СУТЬ
Парадокс: Пишешь запрос по-русски, явно требуешь русский ответ, даёшь примеры на русском — модель всё равно соскальзывает на английский к середине генерации. Особенно при Chain-of-Thought рассуждениях: начинает по-русски, но через 3-4 шага уже на английском. Language Drift позволяет понять почему LLM игнорирует языковые инструкции в многоязычных сценариях и как это митигировать. Фишка: это не проблема понимания задачи. Модель прекрасно понимает что от неё хотят — если дрейфнувший английский ответ перевести обратно на целевой язык, семантическая точность восстанавливается до 60-70%. Проблема на уровне декодера: во время генерации модель предпочитает высокочастотные английские токены. Английский работает как магнит — даже когда контекст на арабском или русском, дрейф чаще всего ведёт именно к английскому (97-98% случаев).
Адаптировать под запрос
📋 Дайджест исследования

Контент доступен только для PRO подписчиков

Чтобы получить доступ к дайджесту этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Контент доступен только для PRO подписчиков

Чтобы получить доступ к концептам этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO
📖 Простыми словами

Контент доступен только для PRO подписчиков

Чтобы получить доступ к упрощённому объяснению этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с