TL;DR
Латентное рассуждение — когда модель вычисляет правильный ответ внутри своих скрытых состояний до того, как полностью сгенерирует словесное объяснение (chain-of-thought). Исследователи проверили как это работает на 11 языках, обрезая рассуждения модели на разных этапах и прося дать ответ. Если модель отвечает правильно, увидев только 10-20% своих рассуждений — значит она "знала" ответ заранее, до генерации полного текста.
Главная находка: латентное рассуждение работает неравномерно. На высокоресурсных языках (английский, китайский, немецкий) модели часто дают правильный ответ уже на нулевом проценте рассуждений — точность около 20% без единого шага объяснений. На низкоресурсных (суахили, телугу) точность близка к нулю без полного рассуждения. На сложных задачах (олимпиадная математика AIME) латентное рассуждение почти исчезает для всех языков — модель действительно нуждается в пошаговом выводе.
Механика внутри модели одинакова для всех языков — траектории формирования ответа по слоям нейросети идентичны. Но скрытые состояния высокоресурсных языков ближе к английским представлениям, чем низкоресурсных. Это указывает на англоцентричный путь латентного рассуждения: модель обрабатывает другие языки через призму английского внутреннего пространства.
Схема исследования
МЕТОД: Truncation-based analysis (анализ через обрезку рассуждений)
ШАГ 1: Модель генерирует полное рассуждение для задачи
ШАГ 2: Обрезают рассуждение на разных этапах (0%, 10%, 20%...100%)
ШАГ 3: Модель даёт ответ на основе частичного рассуждения
ШАГ 4: Сравнивают точность на разных уровнях обрезки
МЕТРИКИ:
- AUTC (Area Under Truncation Curve) — как рано появляется точность
- LRS (Latent Reasoning Score) — точность минус случаи, где ответ уже написан в тексте
- Gold-in-trace rate — как часто правильный ответ уже артикулирован в видимой части
Ключевые находки
1. Латентное рассуждение существует, но неравномерно
На простых задачах (MGSM): - Английский: точность 20% на 0% рассуждений, 50% на 30% рассуждений - Китайский, французский, немецкий: похожие показатели - Суахили, телугу: точность близка к 0% без полного рассуждения
Метрика LRS (Latent Reasoning Score): - Высокоресурсные языки: 0.38-0.53 (модель 32B) - Низкоресурсные языки: 0.30 и ниже
Это значит: модель на английском часто вычисляет ответ до генерации объяснений. На суахили — почти никогда.
2. На сложных задачах латентное рассуждение исчезает
Олимпиадная математика (AIME): - LRS падает с 0.38 (MGSM, английский) до 0.03 (AIME) - Паттерн одинаков для всех языков - Модель действительно нуждается в полном пошаговом выводе
3. Внутренняя механика общая, но англоцентричная
Анализ слоёв модели (logit lens): - Траектории формирования ответа по слоям идентичны для всех языков - Высокоресурсные языки: косинусное сходство с английским 0.85-0.95 - Низкоресурсные языки: сходство 0.70-0.80
Модель обрабатывает рассуждения на других языках через английское внутреннее пространство представлений.
Почему это работает (и не работает)
Слабость: LLM обучены преимущественно на английском тексте. Для других языков меньше данных, слабее понимание, хуже качество рассуждений.
Сильная сторона: Внутренние представления модели универсальны — концепты математики, логики не зависят от языка на уровне скрытых состояний.
Механика латентного рассуждения:
Модель формирует ответ в скрытых состояниях параллельно с генерацией текста. На простых задачах ответ "созревает" быстро — уже на первых слоях нейросети правильный вариант получает высокий вес. Текстовое рассуждение служит "озвучиванием" уже вычисленного.
На сложных задачах модель не может вычислить ответ сразу — ей нужны промежуточные шаги. Латентное рассуждение не срабатывает, потому что каждый шаг текста добавляет новую информацию в скрытые состояния. Без полного вывода внутренние представления не содержат достаточно данных для правильного ответа.
Почему неравномерность по языкам:
Высокоресурсные языки (английский, китайский) имеют богатые представления в весах модели — она "видела" много примеров рассуждений на этих языках при обучении. Низкоресурсные (суахили, телугу) опираются на трансфер через английское пространство, но этот мост слабее — модель хуже "понимает" задачу на входе, медленнее формирует ответ внутри.
Практические инсайты для работы в чате
Инсайт 1: Короткие рассуждения на простых задачах
Что делать: На простых вопросах можно просить модель не расписывать длинные рассуждения.
Пример промпта:
Задача: [простая математическая задача]
Дай краткий ответ с минимальным объяснением.
Если ответ очевиден — просто напиши результат.
Когда работает: Задачи уровня школьной математики, базовая логика, факты. Не работает на сложных многошаговых задачах.
Инсайт 2: Переключение на английский для сложных задач
Что делать: Если задача сложная и нужно глубокое рассуждение — переключайся на английский, даже если работаешь в русскоязычном контексте.
Пример:
❌ Слабо:
Реши олимпиадную задачу по комбинаторике:
[условие на русском]
✅ Сильнее:
Solve this olympiad combinatorics problem:
[условие на английском]
Затем попроси перевести результат или работай с английским выводом напрямую.
Инсайт 3: Распознавание когда нужен полный CoT
Признаки что нужно полное рассуждение: - Задача многошаговая - Нужны промежуточные вычисления - Проблема сложная/нестандартная
Признаки что можно без рассуждения: - Задача типовая - Ответ формульный - Базовый уровень сложности
Практика: Начни с запроса без требования развёрнутых рассуждений. Если ответ неверный — попроси с полным CoT. Это экономит токены и время на простых задачах.
Пример применения
Задача: Ты готовишь питч для инвестора. Нужно быстро посчитать юнит-экономику: CAC (стоимость привлечения клиента) 5000 рублей, средний чек 2000 рублей, частота покупок 3 раза в год. За сколько месяцев окупится клиент?
Промпт (версия 1 — короткая):
CAC 5000₽, средний чек 2000₽, частота 3 покупки/год.
Окупаемость в месяцах?
Результат: Модель, скорее всего, даст правильный ответ (10 месяцев) почти мгновенно, без развёрнутых объяснений. Задача простая — латентное рассуждение сработает.
Если задача сложнее:
Задача: Та же юнит-экономика, но с churn rate 15% в год, реферальным коэффициентом 0.3, и переменными издержками 40% от выручки.
Промпт (версия 2 — с явным CoT):
CAC 5000₽, средний чек 2000₽, частота 3/год, churn 15%/год,
реферал 0.3, переменные издержки 40%.
Рассчитай Customer Lifetime Value пошагово:
1. Годовая выручка с клиента
2. Маржинальность
3. Учёт churn
4. Эффект рефералов
5. Итоговый LTV и окупаемость
Результат: Здесь латентное рассуждение не сработает (задача многошаговая) — нужен полный вывод. Модель пройдёт все шаги явно.
Ограничения находок
⚠️ Не универсальное правило: Латентное рассуждение — вероятностное явление. Модель может "знать" ответ внутри, но всё равно ошибиться при сокращении рассуждений. Не полагайся на короткие ответы в критичных ситуациях.
⚠️ Зависимость от сложности: На олимпиадной математике, сложном коде, нестандартных задачах — латентное рассуждение почти исчезает. Всегда нужен полный CoT.
⚠️ Чёрный ящик: Ты не видишь когда модель "знает" ответ внутри, а когда нет. Безопаснее запрашивать полные рассуждения, если цена ошибки высока.
⚠️ Языковая неравномерность: На русском латентное рассуждение слабее, чем на английском (русский — средне-высокоресурсный язык, но не топ). На сложных задачах переключение на английский даёт преимущество.
Как исследовали
Команда из Мюнхенского университета взяла три модели семейства DeepSeek-R1-Distill-Qwen (7B, 14B, 32B параметров) и два датасета: MGSM (простые школьные задачи по математике, 250 примеров на 11 языках) и Multilingual AIME (олимпиадная математика, сложные задачи).
Дизайн эксперимента: 1. Модель генерирует полное рассуждение для задачи 2. Рассуждение обрезают на разных уровнях: 0%, 10%, 20%...100% 3. На каждом уровне обрезки модель даёт финальный ответ 4. Считают точность и проверяют — есть ли правильный ответ уже в видимой части текста
Метрики: - AUTC (Area Under Truncation Curve) — интеграл точности по уровням обрезки. Высокий AUTC = модель точна даже с малой частью рассуждений. - LRS (Latent Reasoning Score) — точность, взвешенная с учётом того, написан ли ответ явно в тексте. Отсеивает случаи "копирования из рассуждения". - Gold-in-trace rate — как часто правильный ответ уже есть в видимой части.
Почему такие результаты:
На MGSM (простые задачи) модели достигают 20% точности на нулевом проценте рассуждений для английского. Это значит: задача настолько типовая, что правильный ответ "активируется" в скрытых состояниях сразу после прочтения условия. Модель уже "знает" ответ до первого слова объяснений.
На AIME (олимпиада) точность на 0% рассуждений близка к нулю для всех языков. LRS падает с 0.38 до 0.03. Задачи требуют реальных промежуточных вычислений — без них внутренние представления не содержат информации для ответа. Латентное рассуждение не заменяет явное на высокой сложности.
Анализ внутренних состояний (logit lens):
Исследователи проецировали скрытые состояния каждого слоя нейросети на выходной словарь и смотрели — на каком слое правильный ответ появляется в топе предсказаний. Траектории идентичны для всех языков — это показывает, что внутренняя механика латентного рассуждения универсальна.
Но косинусное сходство скрытых состояний с английским выше для высокоресурсных языков (0.85-0.95) и ниже для низкоресурсных (0.70-0.80). Это говорит: модель обрабатывает другие языки через английское представительное пространство. Высокоресурсные языки "ближе" к этому пространству, низкоресурсные — дальше.
Контроль мемorizации:
Проверили — может ли модель просто "помнить" ответы из обучающих данных. Сравнили латентное рассуждение на правильно и неправильно решённых примерах. Оказалось: для высокоресурсных языков латентное рассуждение работает даже на ошибках (хотя слабее). Это значит: явление не сводится к меморизации, это реальное внутреннее вычисление.
Ресурсы
Large Reasoning Models Are (Not Yet) Multilingual Latent Reasoners Код и данные исследования
Yihong Liu, Raoyuan Zhao, Hinrich Schütze, Michael A. Hedderich
Center for Information and Language Processing, LMU Munich
Munich Center for Machine Learning (MCML)
