TL;DR
Когда модель рассуждает не на английском, часть привычных техник перестаёт работать или даже вредит. Исследователи замерили 16 конкретных признаков рассуждений — и посчитали, какой из них повышает точность ответа, а какой снижает: отдельно для каждого из 10 языков. Получился измеримый портрет «хорошего рассуждения» для не-английских задач.
Главная находка: больше шагов ≠ лучше. Длина рассуждения почти не влияет на правильность ответа. Зато влияет характер шагов. Модель, которая явно выражает неуверенность, начинает переоценивать подход и «буксует» — точность падает. Особенно это выражено в не-английских языках: то, что в английском работает как полезная самопроверка, в русском или суахили превращается в потерю фокуса.
Второй инсайт: смешение языков внутри рассуждения — один из самых сильных предикторов ошибки. Модель, которая начала думать по-русски, а потом переключилась на английские вставки, теряет точность на ~36%. Решение: держать язык стабильным в запросе и явно просить рассуждать только на нём.
Схема метода
Это не одна техника, а набор принципов для улучшения рассуждений LLM в не-английских задачах. Применяется через структуру промпта:
ПРИНЦИП 1: Один язык — одно рассуждение
→ Запрос и рассуждение на одном языке, без переключений
ПРИНЦИП 2: Структурные шаги с нумерацией
→ "Во-первых... во-вторых... в-третьих..." → +31–38% к точности
ПРИНЦИП 3: Прямые вычислительные шаги
→ Просить двигаться от условия к ответу, а не «думать вслух» о неуверенности
ПРИНЦИП 4: Консолидация результата
→ Явно просить собрать промежуточные выводы перед итогом
ПРИНЦИП 5: Без избыточного «буксования»
→ Не просить «рассмотреть все варианты» и «перепроверить с нуля» — вредит в не-английских задачах
Все принципы применяются в одном промпте, в момент постановки задачи.
Пример применения
Задача: Владелец кофейни в Казани хочет проанализировать через ChatGPT, почему выручка упала в феврале по сравнению с январём. Данные: январь — 480 000 ₽, февраль — 340 000 ₽, средний чек вырос с 280 до 310 ₽, количество транзакций упало с 1714 до 1096.
Промпт:
Проведи анализ падения выручки. Рассуждай только на русском языке — без вставок на других языках.
Данные:
- Январь: выручка 480 000 ₽, средний чек 280 ₽, транзакции 1714
- Февраль: выручка 340 000 ₽, средний чек 310 ₽, транзакции 1096
Анализируй пошагово с нумерацией:
Во-первых, посчитай изменение каждого показателя в числах.
Во-вторых, определи главный драйвер падения — чек или трафик.
В-третьих, сформулируй 2–3 вероятные причины именно этого драйвера.
В-четвёртых, предложи одно конкретное действие для проверки каждой причины.
Каждый шаг — это прямой вывод, не перечисление возможностей. Не выражай неуверенность — делай расчёт и двигайся дальше.
Результат: Модель выдаст пронумерованный разбор: сначала арифметику (трафик упал на 36%, чек вырос на 11% — значит, проблема в потоке, не в ценовой политике), затем гипотезы по трафику (сезонность, конкурент рядом, маркетинг), затем конкретные действия. Рассуждение будет прямым и вычислительным — без петель «с одной стороны... с другой стороны».
Почему это работает
LLM теряет точность, когда рассуждение "петляет". Шаги, в которых модель выражает путаницу, переоценивает подход или предлагает альтернативные планы (исследователи называют это uncertainty management), системно связаны с неправильным финальным ответом. Особенно в не-английских языках — там этот эффект сильнее, чем в английском. Причина простая: генерация текста на неродном для обучения языке уже требует больше «усилий», и если добавить ещё петли сомнений — модель теряет нить.
Структурные маркеры помогают модели держать логику. Слова "во-первых", "во-вторых", "следовательно" — это не просто оформление. Они создают в тексте якоря, к которым модель привязывает следующий шаг. Исследование нашло, что разбивка рассуждения порядковыми наречиями и серия последовательных логических выводов — одни из самых сильных предикторов правильного ответа (+31% и +38%).
Смешение языков ломает внутреннюю связность. Когда модель начала на одном языке, а переключилась на другой посередине — снижается точность на ~36%. Это не орфографическая проблема: смена языка меняет паттерн генерации, и цепочка рассуждений «рвётся». Явная инструкция держать один язык — простой, но рабочий способ этого избежать.
Рычаги управления:
| Элемент промпта | Что меняет |
|---|---|
| "Рассуждай только на русском" | Убирает языковое смешение → меньше ошибок |
| "Во-первых / во-вторых / в-третьих" | Структурирует логические переходы → выше точность |
| "Не выражай неуверенность — двигайся дальше" | Убирает петли пересмотра → короче и точнее |
| "Собери промежуточные выводы перед итогом" | Активирует консолидацию результата → лучший финальный ответ |
Шаблон промпта
{Постановка задачи}
Рассуждай только на {язык} — без вставок и переключений на другие языки.
Анализируй пошагово:
Во-первых, {первый вычислительный шаг}.
Во-вторых, {второй шаг — вывод из первого}.
В-третьих, {третий шаг — конкретное заключение}.
В-четвёртых, {итог или рекомендация}.
Каждый шаг — прямой расчёт или вывод. Не останавливайся на неуверенности — делай следующий шаг.
Прежде чем дать финальный ответ, собери ключевые выводы из всех шагов в одном абзаце.
Плейсхолдеры:
- {язык} — русском, английском, французском и т.д.
- {первый/второй/третий шаг} — конкретные действия под твою задачу: посчитай, сравни, определи, сформулируй
- Количество шагов — от 3 до 5, больше не нужно
🚀 Быстрый старт — вставь в чат:
Вот шаблон структурированного рассуждения. Адаптируй под мою задачу: {опиши задачу}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит про тему задачи, входные данные и желаемый формат результата — потому что ей нужно знать, на какие конкретные шаги разбить рассуждение под твой контекст.
Ограничения
⚠️ Математические задачи: Всё исследование проводилось на математических бенчмарках. Насколько находки переносятся на тексты, аргументацию или творческие задачи — неизвестно.
⚠️ Языковая специфика: Часть эффектов (например, вред самопроверки) выражена в суахили и телугу, но не проверена отдельно для русского. Используй как ориентир, а не как закон.
⚠️ Модели малого размера: Исследование проводилось на моделях от 1.5B до 8B параметров. GPT-4 и Claude Sonnet могут вести себя иначе — они крупнее и больше обучены на не-английских данных.
⚠️ Лёгкие задачи: На простых вопросах структурные принципы почти не дают эффекта — модель справляется без них. Метод раскрывается на задачах с несколькими логическими шагами.
⚠️ Самопроверка в русском: Исследование показывает, что self-checking вредит в ряде языков. Но это не значит "никогда не проси перепроверить". Значит: не делай это основным режимом рассуждения.
Ресурсы
Работа: "What Makes Good Multilingual Reasoning? Disentangling Reasoning Traces with Measurable Features" Авторы: Dayeon Ki, Kevin Duh, Marine Carpuat Организации: University of Maryland, Johns Hopkins University Код и данные: https://github.com/dayeonki/multilingual_reasoning Статус: Препринт, на рецензии
