3,583 papers
arXiv:2512.21933 72 26 дек. 2025 г. PRO

Разбитые слова = сломанные ответы: как токенизация убивает точность LLM

КЛЮЧЕВАЯ СУТЬ
Phi-3.5 ошиблась на фразе 'Ostriches bury their heads' — потому что слово 'bury' разбилось на токены 'b' + 'ury'. Замена на синоним 'hide' (один токен) исправила ответ. Исследователи из Tata Consultancy Services проверили закономерность на 7 типах задач и 4 моделях — подтвердилось: разбиение обычного слова на несколько токенов статистически значимо повышает вероятность ошибки. Метод позволяет диагностировать ПОЧЕМУ модель даёт странный ответ и как исправить через переформулировку. Модель не видит слово 'unhappiness' как 'un-happy-ness' (приставка-корень-суффикс). Она видит бессмысленную последовательность 'unh' + 'app' + 'iness' — морфология потеряна, смысловая связь разрушена.
Адаптировать под запрос
📋 Дайджест исследования

Контент доступен только для PRO подписчиков

Чтобы получить доступ к дайджесту этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Контент доступен только для PRO подписчиков

Чтобы получить доступ к концептам этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO
📖 Простыми словами

Контент доступен только для PRO подписчиков

Чтобы получить доступ к упрощённому объяснению этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с