3,583 papers
arXiv:2604.04720 72 6 апр. 2026 г. FREE

Признаки качественного рассуждения LLM: что работает в русском и других языках — и что вредит

КЛЮЧЕВАЯ СУТЬ
Парадокс: просить LLM «подумать вслух о неуверенности и пересмотреть подход» в русскоязычных задачах — не самопроверка, а верный способ получить неправильный ответ. Исследователи замерили 16 признаков рассуждений на 10 языках и выяснили, какие из них предсказывают правильный финальный ответ, а какие его топят. Метод даёт конкретные принципы для промптов на русском — чтобы модель не петляла в сомнениях, а шла прямо к выводу. Фишка: нумерация шагов («во-первых... во-вторых...») и явная инструкция держать один язык дают +31–38% к точности — а смешение языков внутри рассуждения режет её на ~36%.
Адаптировать под запрос

TL;DR

Когда модель рассуждает не на английском, часть привычных техник перестаёт работать или даже вредит. Исследователи замерили 16 конкретных признаков рассуждений — и посчитали, какой из них повышает точность ответа, а какой снижает: отдельно для каждого из 10 языков. Получился измеримый портрет «хорошего рассуждения» для не-английских задач.

Главная находка: больше шагов ≠ лучше. Длина рассуждения почти не влияет на правильность ответа. Зато влияет характер шагов. Модель, которая явно выражает неуверенность, начинает переоценивать подход и «буксует» — точность падает. Особенно это выражено в не-английских языках: то, что в английском работает как полезная самопроверка, в русском или суахили превращается в потерю фокуса.

Второй инсайт: смешение языков внутри рассуждения — один из самых сильных предикторов ошибки. Модель, которая начала думать по-русски, а потом переключилась на английские вставки, теряет точность на ~36%. Решение: держать язык стабильным в запросе и явно просить рассуждать только на нём.


🔬

Схема метода

Это не одна техника, а набор принципов для улучшения рассуждений LLM в не-английских задачах. Применяется через структуру промпта:

ПРИНЦИП 1: Один язык — одно рассуждение
  → Запрос и рассуждение на одном языке, без переключений

ПРИНЦИП 2: Структурные шаги с нумерацией
  → "Во-первых... во-вторых... в-третьих..." → +31–38% к точности

ПРИНЦИП 3: Прямые вычислительные шаги
  → Просить двигаться от условия к ответу, а не «думать вслух» о неуверенности

ПРИНЦИП 4: Консолидация результата
  → Явно просить собрать промежуточные выводы перед итогом

ПРИНЦИП 5: Без избыточного «буксования»
  → Не просить «рассмотреть все варианты» и «перепроверить с нуля» — вредит в не-английских задачах

Все принципы применяются в одном промпте, в момент постановки задачи.


🚀

Пример применения

Задача: Владелец кофейни в Казани хочет проанализировать через ChatGPT, почему выручка упала в феврале по сравнению с январём. Данные: январь — 480 000 ₽, февраль — 340 000 ₽, средний чек вырос с 280 до 310 ₽, количество транзакций упало с 1714 до 1096.

Промпт:

Проведи анализ падения выручки. Рассуждай только на русском языке — без вставок на других языках.

Данные:
- Январь: выручка 480 000 ₽, средний чек 280 ₽, транзакции 1714
- Февраль: выручка 340 000 ₽, средний чек 310 ₽, транзакции 1096

Анализируй пошагово с нумерацией:
Во-первых, посчитай изменение каждого показателя в числах.
Во-вторых, определи главный драйвер падения — чек или трафик.
В-третьих, сформулируй 2–3 вероятные причины именно этого драйвера.
В-четвёртых, предложи одно конкретное действие для проверки каждой причины.

Каждый шаг — это прямой вывод, не перечисление возможностей. Не выражай неуверенность — делай расчёт и двигайся дальше.

Результат: Модель выдаст пронумерованный разбор: сначала арифметику (трафик упал на 36%, чек вырос на 11% — значит, проблема в потоке, не в ценовой политике), затем гипотезы по трафику (сезонность, конкурент рядом, маркетинг), затем конкретные действия. Рассуждение будет прямым и вычислительным — без петель «с одной стороны... с другой стороны».


🧠

Почему это работает

LLM теряет точность, когда рассуждение "петляет". Шаги, в которых модель выражает путаницу, переоценивает подход или предлагает альтернативные планы (исследователи называют это uncertainty management), системно связаны с неправильным финальным ответом. Особенно в не-английских языках — там этот эффект сильнее, чем в английском. Причина простая: генерация текста на неродном для обучения языке уже требует больше «усилий», и если добавить ещё петли сомнений — модель теряет нить.

Структурные маркеры помогают модели держать логику. Слова "во-первых", "во-вторых", "следовательно" — это не просто оформление. Они создают в тексте якоря, к которым модель привязывает следующий шаг. Исследование нашло, что разбивка рассуждения порядковыми наречиями и серия последовательных логических выводов — одни из самых сильных предикторов правильного ответа (+31% и +38%).

Смешение языков ломает внутреннюю связность. Когда модель начала на одном языке, а переключилась на другой посередине — снижается точность на ~36%. Это не орфографическая проблема: смена языка меняет паттерн генерации, и цепочка рассуждений «рвётся». Явная инструкция держать один язык — простой, но рабочий способ этого избежать.

Рычаги управления:

Элемент промпта Что меняет
"Рассуждай только на русском" Убирает языковое смешение → меньше ошибок
"Во-первых / во-вторых / в-третьих" Структурирует логические переходы → выше точность
"Не выражай неуверенность — двигайся дальше" Убирает петли пересмотра → короче и точнее
"Собери промежуточные выводы перед итогом" Активирует консолидацию результата → лучший финальный ответ

📋

Шаблон промпта

{Постановка задачи}

Рассуждай только на {язык} — без вставок и переключений на другие языки.

Анализируй пошагово:
Во-первых, {первый вычислительный шаг}.
Во-вторых, {второй шаг — вывод из первого}.
В-третьих, {третий шаг — конкретное заключение}.
В-четвёртых, {итог или рекомендация}.

Каждый шаг — прямой расчёт или вывод. Не останавливайся на неуверенности — делай следующий шаг.
Прежде чем дать финальный ответ, собери ключевые выводы из всех шагов в одном абзаце.

Плейсхолдеры: - {язык} — русском, английском, французском и т.д. - {первый/второй/третий шаг} — конкретные действия под твою задачу: посчитай, сравни, определи, сформулируй - Количество шагов — от 3 до 5, больше не нужно

🚀 Быстрый старт — вставь в чат:

Вот шаблон структурированного рассуждения. Адаптируй под мою задачу: {опиши задачу}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит про тему задачи, входные данные и желаемый формат результата — потому что ей нужно знать, на какие конкретные шаги разбить рассуждение под твой контекст.


⚠️

Ограничения

⚠️ Математические задачи: Всё исследование проводилось на математических бенчмарках. Насколько находки переносятся на тексты, аргументацию или творческие задачи — неизвестно.

⚠️ Языковая специфика: Часть эффектов (например, вред самопроверки) выражена в суахили и телугу, но не проверена отдельно для русского. Используй как ориентир, а не как закон.

⚠️ Модели малого размера: Исследование проводилось на моделях от 1.5B до 8B параметров. GPT-4 и Claude Sonnet могут вести себя иначе — они крупнее и больше обучены на не-английских данных.

⚠️ Лёгкие задачи: На простых вопросах структурные принципы почти не дают эффекта — модель справляется без них. Метод раскрывается на задачах с несколькими логическими шагами.

⚠️ Самопроверка в русском: Исследование показывает, что self-checking вредит в ряде языков. Но это не значит "никогда не проси перепроверить". Значит: не делай это основным режимом рассуждения.


🔗

Ресурсы

Работа: "What Makes Good Multilingual Reasoning? Disentangling Reasoning Traces with Measurable Features" Авторы: Dayeon Ki, Kevin Duh, Marine Carpuat Организации: University of Maryland, Johns Hopkins University Код и данные: https://github.com/dayeonki/multilingual_reasoning Статус: Препринт, на рецензии


📋 Дайджест исследования

Ключевая суть

Парадокс: просить LLM «подумать вслух о неуверенности и пересмотреть подход» в русскоязычных задачах — не самопроверка, а верный способ получить неправильный ответ. Исследователи замерили 16 признаков рассуждений на 10 языках и выяснили, какие из них предсказывают правильный финальный ответ, а какие его топят. Метод даёт конкретные принципы для промптов на русском — чтобы модель не петляла в сомнениях, а шла прямо к выводу. Фишка: нумерация шагов («во-первых... во-вторых...») и явная инструкция держать один язык дают +31–38% к точности — а смешение языков внутри рассуждения режет её на ~36%.

Принцип работы

Длинное рассуждение с петлями сомнений хуже короткого прямого. Это звучит очевидно, но модели ведут себя иначе: когда просишь «рассмотреть все варианты» или «перепроверить с нуля», модель буквально застревает — генерирует шаги типа «с одной стороны... с другой стороны... возможно, стоит пересмотреть...» — и уходит от правильного ответа. Ключевое разделение: «прямой шаг вперёд» предсказывает правильный ответ, «пересмотр подхода» предсказывает ошибку — и этот эффект сильнее в не-английских языках, потому что там модель и так тратит больше ресурса на саму генерацию. Структурные маркеры («во-первых», «следовательно») — не просто оформление: они создают якоря, к которым модель привязывает следующий вывод, вместо того чтобы начинать думать заново.

Почему работает

Генерация на языке, которого в обучающих данных меньше, требует от модели больше усилий — меньше ресурса остаётся на само рассуждение. Шаги с явной неуверенностью создают петли, из которых модель не выходит к правильному ответу: она продолжает перебирать варианты вместо того чтобы посчитать. Прикол: смешение языков — один из сильнейших предикторов ошибки среди всех 16 измеренных признаков. Модель начала думать по-русски, переключилась на английские вставки посередине — цепочка логики рвётся. Это не про орфографию: смена языка меняет паттерн генерации, и следующий шаг теряет связь с предыдущим. Всё это измерено через логистическую регрессию — у каждого из 16 признаков есть конкретный коэффициент влияния на правильность финального ответа.

Когда применять

Задачи с несколькими логическими шагами на русском или другом не-английском языке: анализ данных, финансовые расчёты, разбор ситуаций, вычислительные задачи — особенно когда нужен чёткий вывод, а не перебор вариантов. НЕ подходит для лёгких вопросов (структура там почти не даёт прироста — модель и без неё справляется) и творческих задач — исследование проводилось только на математических бенчмарках, перенос на аргументацию и тексты не проверен.

Мини-рецепт

1. Зафиксируй язык: Добавь в начало промпта — Рассуждай только на русском языке — без вставок и переключений на другие языки.
2. Пронумеруй шаги: Сформулируй задачу через «Во-первых... во-вторых... в-третьих...» — каждый шаг должен быть конкретным вычислительным действием, а не открытым вопросом.
3. Убери петли: Добавь в конец — Каждый шаг — прямой расчёт или вывод. Не останавливайся на перечислении вариантов — делай следующий шаг.
4. Попроси консолидацию: Прежде чем дать финальный ответ, собери ключевые выводы из всех шагов в одном абзаце.

Примеры

[ПЛОХО] : Проанализируй падение продаж — рассмотри все возможные причины, взвесь варианты и перепроверь выводы
[ХОРОШО] : Рассуждай только на русском — без вставок на других языках. Данные: январь — 480 000 ₽, 1714 транзакций; февраль — 340 000 ₽, 1096 транзакций, средний чек вырос с 280 до 310 ₽. Анализируй пошагово: Во-первых, посчитай изменение каждого показателя в числах. Во-вторых, определи главный драйвер падения — чек или трафик. В-третьих, назови 2–3 вероятные причины именно этого показателя. В-четвёртых, предложи одно конкретное действие для проверки каждой причины. Каждый шаг — прямой вывод, не перечисление возможностей. Прежде чем дать ответ, собери все выводы в одном абзаце.
Источник: What Makes Good Multilingual Reasoning? Disentangling Reasoning Traces with Measurable Features
ArXiv ID: 2604.04720 | Сгенерировано: 2026-04-07 05:30

Проблемы LLM

ПроблемаСутьКак обойти
Смешение языков рвёт цепочку рассужденийМодель начала думать на одном языке. Посередине переключилась на другой. Цепочка рассуждений обрывается — следующий шаг теряет связь с предыдущим. Точность падает примерно на треть. Проблема не в орфографии. Смена языка меняет паттерн генерации. Это происходит незаметно — без явного запрета модель переключается самаЯвно укажи в запросе: "Рассуждай только на русском — без вставок на других языках". Это простое условие убирает большую часть потерь
Просьба "думать вслух о неуверенности" вредитСказал модели "рассмотри все варианты" или "перепроверь с нуля". Она начинает выражать сомнения, предлагать альтернативные планы, петлять. Это не самопроверка — это потеря фокуса. На не-английских задачах эффект сильнее: генерация на неродном языке уже сложнее, добавь петли сомнений — модель теряет нитьЗамени "подумай над всеми вариантами" на прямые шаги: "посчитай сравни сформулируй вывод". Добавь явно: "Не останавливайся на неуверенности — делай следующий шаг"

Методы

МетодСуть
Нумерованные шаги для точного рассужденияСтруктурируй запрос порядковыми словами: "Во-первых... Во-вторых... В-третьих... В-четвёртых...". Каждый шаг — конкретное действие: посчитай, сравни, определи, сформулируй. В конце: "Прежде чем ответить, собери выводы из всех шагов в одном абзаце". Почему работает: слова "во-первых", "следовательно", "в итоге" — это якоря. Модель привязывает каждый следующий шаг к предыдущему. Без якорей шаги не связаны. Когда применять: задача требует нескольких логических шагов, есть данные для расчёта, нужен конкретный вывод. На простых вопросах эффект минимальный
📖 Простыми словами

What Makes Good Multilingual Reasoning? Disentangling Reasoning Traces with Measurable Features

arXiv: 2604.04720

Когда нейросеть рассуждает на русском или китайском, она чувствует себя как иностранец, пытающийся объяснить квантовую физику на ломаном местном диалекте. Фундаментальная проблема в том, что мультиязычное мышление в LLM работает не так, как английское: привычные нам «человеческие» приемы вроде сомнений или поиска альтернатив здесь только мешают. Исследователи замерили 16 конкретных признаков того, как модель строит цепочку мыслей, и выяснили, что лишние телодвижения в тексте рассуждения просто «выжигают» вычислительный ресурс, приводя к глупым ошибкам.

Это как пытаться пройти по тонкому канату, одновременно жонглируя и рассуждая о смысле жизни. На английском модель идет по широкому мосту и может позволить себе подумать вслух или пересмотреть план на ходу. Но на других языках любое управление неопределенностью — когда модель пишет «может быть», «давайте попробуем иначе» или «я не уверен» — превращается в гирю на ногах. Вместо того чтобы помочь, эти петли сомнений заставляют модель терять нить повествования, и в итоге она выдает полную ахинею в финальном ответе.

Что реально тащит результат вверх, так это структурная плотность и жесткая логика без лирики. Работают три вещи: использование математических символов вместо слов (они универсальны), четкое разделение шагов и, что самое важное, отсутствие «ментального мусора». Если модель начинает переоценивать свой подход или предлагать альтернативные варианты решения прямо в процессе — это верный признак провала. В не-английских задачах кратчайший путь к ответу оказывается самым верным, а любая попытка «поразмышлять подольше» только множит галлюцинации.

Тестировали это на 10 разных языках, но принцип универсален для любой сложной задачи, будь то расчет выручки кофейни в Казани или логистический план в Таиланде. Если ты просишь нейросеть решить задачу на русском, не заставляй её «быть креативной» или «рассматривать разные варианты» внутри одного ответа. Это правило GEO для логики: чем меньше в рассуждении лишних слов и сомнений, тем выше шанс, что цифры в конце сойдутся. Модель — это не философ, а калькулятор на стероидах, которому вредно рефлексировать на неродном языке.

Короче: если хочешь адекватный результат от ChatGPT или Gemini на русском, забивай в промпт требование писать максимально сухо и по шагам. Выкидывай из промптов призывы «тщательно обдумать» или «предложить альтернативы» — для не-английских языков это работает как яд. 16 измеримых признаков доказали: лучшая цепочка мыслей — это прямой вектор без петель и самокопания. Либо модель сразу знает, как решать, либо она начинает «петлять» и гарантированно лажает.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с