3,583 papers
arXiv:2602.01017 72 1 фев. 2026 г. FREE

Неверное рассуждение в LLM: откуда берётся и когда модель начинает "халтурить"

КЛЮЧЕВАЯ СУТЬ
LLM может писать правдоподобное рассуждение, но при этом игнорировать промежуточные шаги — ответ считает сразу от начала, а цепочку логики подгоняет задним числом. Исследование показывает когда и почему модель перестаёт следовать собственной логике, и как это проверить. Критический порог шума в обучающих данных определяет режим работы: ниже порога модель следует каждому шагу (пошаговое рассуждение), выше — пропускает промежуточку и считает напрямую (shortcut reasoning). Проверка через вмешательство (изменить промежуточный шаг) показывает реально ли модель следует логике или просто красиво её оформляет.
Адаптировать под запрос

TL;DR

Модели учат пошаговое рассуждение только при низком шуме в данных. Исследователи обучали маленькие трансформеры решать арифметические цепочки (типа "2×9−19 → 18−19 → 96") и специально добавляли ошибки в данные. Цель — понять когда и почему модель начинает генерировать логически несогласованные шаги рассуждения.

Критический порог шума — граница между честным рассуждением и халтурой. Ниже определённого уровня ошибок в данных модель честно следует логике: смотрит на промежуточный шаг и вычисляет ответ из него. Выше порога — модель начинает игнорировать промежуточный шаг, смотрит сразу на начальную задачу и выдаёт ответ, а промежуточный шаг генерирует "для вида". Это объясняет почему иногда LLM пишет правдоподобное рассуждение, которое не ведёт к ответу.

Три режима рассуждения в процессе обучения. Модель проходит фазы: (1) пошаговое — честно следует каждому шагу; (2) смешанное — при противоречивых шагах энтропия предсказаний растёт (модель "не уверена"); (3) пропуск шагов — игнорирует промежуточные шаги, считает сразу от начала. Во второй фазе модель развивает неявную самопроверку — замечает несогласованность и показывает это через неуверенность в предсказаниях.

📌

Почему это важно понимать

Два типа проверки верности рассуждений:

Consistency-based — поверхностная проверка: согласованы ли шаги между собой? Если модель пишет "5-1=4" и потом "2×4=8", шаги согласованы. Но это не гарантирует что модель следует этой логике — она могла уже "знать" ответ 8 и подогнать шаги задним числом.

Intervention-based — глубокая проверка: что если изменить промежуточный шаг? Если ты меняешь "18−19" на "17−19" и финальный ответ меняется вслед за этим — модель реально следует логике. Если финальный ответ не изменился — модель игнорирует промежуточный шаг, считает от начала, а середину генерирует для отвода глаз.

Simplicity bias — почему малошумные данные дают честное рассуждение. Модели в процессе обучения предпочитают более простые правила при прочих равных. Считать по шагам (один оператор за раз: "18−19") проще чем пропускать шаг (два оператора сразу: "2×9−19"). Когда данных чистые — simplicity bias толкает модель к пошаговой логике. Когда шума много — преимущество от "пропуска шагов" (меньше влияние ошибочных промежуточных данных) перевешивает предпочтение простоты.

Неявная самопроверка появляется сама. В смешанном режиме модель "замечает" противоречия между начальной задачей и промежуточным шагом — энтропия предсказаний растёт на противоречивых цепочках. Модель не обучали проверять себя явно, но она научилась кодировать внутреннюю неуверенность через распределение вероятностей. Это фундамент для техник типа self-consistency и self-verification.

📌

Что применить на практике

🚀

Принцип 1: Чистые примеры без противоречий

Когда даёшь модели примеры в few-shot промптах или описываешь процесс — убери противоречия и ошибки. Даже небольшой шум в примерах толкает модель к игнорированию промежуточных шагов.

Плохо:

Пример: "Выручка 100К, расходы 30К, прибыль: 100-30=60" 
(ошибка в вычислении, правильно 70)

Хорошо:

Пример: "Выручка 100К, расходы 30К, прибыль: 100-30=70"
📌

Принцип 2: Разрыв в сложности между шагами

Чем больше разница в сложности соседних шагов — тем сильнее модель следует пошаговой логике. Исследование показало: когда начальная задача требует 3 операции, а промежуточный шаг — 1 операцию, модель лучше следует логике чем когда обе требуют по 1-2 операции.

Применение — структурируй рассуждение с явным упрощением:

Задача: {сложное описание бизнес-кейса с несколькими условиями}

ШАГ 1: Выдели ключевые переменные:
{модель извлекает простые факты}

ШАГ 2: Примени правило к каждой переменной:
{модель работает с упрощёнными данными}

ШАГ 3: Собери итоговый ответ:
{модель комбинирует результаты}

Каждый следующий шаг проще предыдущего по количеству информации или операций — это усиливает честное следование логике.

📌

Принцип 3: Проверка рассуждений через вмешательство

Если хочешь проверить следует ли модель своей логике — измени промежуточный шаг и посмотри на ответ.

Пример проверки:

Исходный запрос:

Проанализируй бизнес-идею: запуск подписки на кофе в офисы.

ШАГ 1: Оцени размер рынка
ШАГ 2: Оцени стоимость привлечения клиента
ШАГ 3: Дай рекомендацию — входить или нет

Модель ответила: "Рынок 50К офисов → CAC 5К руб → не входить, слишком дорого"

Проверка через intervention:

Возьми тот же анализ, но представь что ШАГ 2 дал другой результат:
CAC не 5К руб, а 500 руб. Изменится ли рекомендация в ШАГ 3?
  • Если модель меняет вывод → следует логике, рассуждение честное
  • Если модель всё равно говорит "не входить" → игнорирует промежуточный шаг, рассуждение для вида
📌

Принцип 4: Признаки смешанного режима — используй на пользу

Когда модель в смешанном режиме (видит противоречия) — она показывает неуверенность. Ты можешь провоцировать этот режим чтобы получить альтернативные точки зрения.

Промпт — создание противоречия:

Дай два мнения о {задача}:

МНЕНИЕ 1: Исходя из посылки что {условие A}
МНЕНИЕ 2: Исходя из посылки что {противоположное условие не-A}

Покажи где рассуждения расходятся.

Противоречивые посылки → модель переходит в режим высокой энтропии → генерирует разные ветки рассуждений вместо одной "подогнанной".

🔍

Как исследовали

Команда обучила маленькие трансформеры (3 слоя, 2 головы внимания) на синтетической задаче решения арифметических выражений по модулю N=97. Данные имели формат: начальное выражение → промежуточный шаг → ответ, например "2×9−19 → 18−19 → 96".

Главная фишка — контролируемый шум. Исследователи специально вносили ошибки: в начальное выражение с вероятностью ε₁ (prompt noise), в промежуточный шаг с вероятностью ε₂ (reasoning noise). Обучили десятки моделей на разных комбинациях уровней шума от 0% до 90%.

Измеряли два типа верности: (1) Consistency — правильные ли шаги генерирует модель в chain-of-thought; (2) Intervention — что происходит если подсунуть модели случайный промежуточный шаг — изменится ли финальный ответ? Если не изменится → модель игнорирует промежуточный шаг, считает сразу от начала.

Ключевая находка — критический порог. При reasoning noise ε₂ < 5-10% модели учили честное пошаговое рассуждение. При ε₂ > 10% происходил резкий переход к skip-step режиму — модель начинала игнорировать промежуточный шаг. Порог зависел от prompt noise ε₁: чем выше шум в начальной задаче, тем ниже порог для перехода к халтуре.

Почему результаты получились именно такими: Две силы конкурируют. Simplicity bias толкает к пошаговой логике (проще). Минимизация ошибки на зашумлённых данных толкает к пропуску шагов (если промежуточный шаг часто неправильный — выгоднее его игнорировать). При низком шуме побеждает simplicity bias. При высоком — побеждает игнорирование плохих промежуточных данных.

Удивительная деталь: Во время обучения модель проходит через смешанный режим где энтропия предсказаний временно растёт вместо того чтобы монотонно падать. Это противоречит обычной динамике обучения. Оказалось — модель учится распознавать противоречия между начальной задачей и промежуточным шагом, и в таких случаях выдаёт высокую энтропию (неуверенность). Это неявная самопроверка, которая появляется сама из autoregressive training без явного обучения на задаче верификации.

Инсайт для практики: Эксперимент с увеличением сложности начальной задачи (3 операции вместо 2) показал что complexity gap — разрыв в сложности между шагами — критичен. Чем проще промежуточный шаг относительно начальной задачи, тем устойчивее пошаговое рассуждение даже при высоком шуме.

⚠️

Ограничения

⚠️ Синтетическая задача: Реальные рассуждения LLM включают естественный язык, неоднозначность формулировок, субъективные критерии. Арифметика по модулю — упрощённая модель. Принципы переносятся, но пороги и точные эффекты могут отличаться.

⚠️ Маленькие модели: Эксперименты на трансформерах с 3 слоями и 2 головами. Большие LLM (GPT-4, Claude) имеют другую capacity и могут вести себя иначе. Но базовые механизмы (simplicity bias, три режима рассуждения) фундаментальны для autoregressive training.

⚠️ Один шаг рассуждения: Задача включала только один промежуточный шаг. Реальные CoT цепочки — десятки шагов. Накопление ошибок, error propagation, длинная зависимость — эффекты которые исследование не покрывает.

⚠️ Только автогрессивное обучение: Исследование фокусируется на next-token prediction. Не покрывает RLHF, Constitutional AI, и другие методы alignment которые могут влиять на faithfulness по-другому.

🔗

Ресурсы

How Does Unfaithful Reasoning Emerge from Autoregressive Training? A Study of Synthetic Experiments

Fuxin Wang, Amr Alazali, Yiqiao Zhong — University of Wisconsin-Madison

Код: https://github.com/jwtr297/Arithmetic_Expression_Reasoning


📋 Дайджест исследования

Ключевая суть

LLM может писать правдоподобное рассуждение, но при этом игнорировать промежуточные шаги — ответ считает сразу от начала, а цепочку логики подгоняет задним числом. Исследование показывает когда и почему модель перестаёт следовать собственной логике, и как это проверить. Критический порог шума в обучающих данных определяет режим работы: ниже порога модель следует каждому шагу (пошаговое рассуждение), выше — пропускает промежуточку и считает напрямую (shortcut reasoning). Проверка через вмешательство (изменить промежуточный шаг) показывает реально ли модель следует логике или просто красиво её оформляет.

Принцип работы

Модель проходит три фазы обучения: (1) пошаговое — честно следует каждому шагу; (2) смешанное — при противоречивых шагах энтропия предсказаний растёт (модель 'не уверена'); (3) пропуск шагов — игнорирует промежуточку, считает сразу от начала. Во второй фазе модель развивает неявную самопроверку — замечает несогласованность и показывает это через распределение вероятностей. Чем больше шума в обучающих данных (>30% ошибок в синтетике) — тем быстрее переход к фазе 3.

Почему работает

Simplicity bias толкает модель к более простым правилам при равных условиях. Считать по шагам (один оператор за раз: '18−19') проще чем пропускать шаг (два оператора: '2×9−19'). Когда данные чистые — предпочтение простоты побеждает. Когда шума много — преимущество от 'пропуска шагов' (меньше влияние ошибочных промежуточных данных) перевешивает, модель переходит к shortcut reasoning. В экспериментах: при шуме >30% модель массово игнорирует промежуточные шаги даже если они правильные.

Когда применять

Для проверки честности рассуждений LLM → когда нужно понять следует ли модель своей логике или генерирует steps 'для вида'. Особенно критично в задачах где ошибка в промежуточном шаге ведёт к катастрофе в итоговом выводе: финансовый анализ, медицинская диагностика, юридическое суждение. НЕ подходит: для задач где важен только финальный ответ, а процесс рассуждения не критичен.

Мини-рецепт

1. Проверка через вмешательство (intervention-based): Попроси модель решить задачу с рассуждением. Затем возьми промежуточный шаг и явно измени его: 'представь что ШАГ 2 дал другой результат: X вместо Y'. Если финальный ответ меняется вслед за изменённым шагом — модель честно следует логике. Если ответ остался тот же — модель игнорирует промежуточку и считает напрямую.

2. Чистые примеры в few-shot: Убери противоречия и ошибки из примеров в промпте. Даже небольшой шум в примерах толкает модель к пропуску промежуточных шагов.

3. Структурируй с явным упрощением: Каждый следующий шаг должен быть проще предыдущего по количеству информации или операций. Разрыв в сложности усиливает пошаговое поведение через simplicity bias.

Примеры

[ПЛОХО] : Реши: выручка 100К, расходы 30К, налог 20%, какая чистая прибыль? (Модель может сразу посчитать итог и подогнать 'рассуждение' задним числом)
[ХОРОШО] : Реши пошагово: выручка 100К, расходы 30К, налог 20%. ШАГ 1: Валовая прибыль = выручка - расходы ШАГ 2: Налог = валовая прибыль × 20% ШАГ 3: Чистая прибыль = валовая прибыль - налог Проверка: Представь что ШАГ 1 дал 80К (не 70К). Пересчитай ШАГ 2 и 3. (Если модель меняет итоговый ответ пропорционально — она честно следует логике)
Источник: How Does Unfaithful Reasoning Emerge from Autoregressive Training? A Study of Synthetic Experiments
ArXiv ID: 2602.01017 | Сгенерировано: 2026-02-03 06:30

Концепты не выделены.

📖 Простыми словами

How Does Unfaithful Reasoning Emerge from Autoregressive Training? A Study of Synthetic Experiments

arXiv: 2602.01017

Проблема в том, что нейронки не умеют «думать» в нашем понимании — они просто предсказывают следующий кусок текста. Когда мы заставляем модель рассуждать по шагам, она пытается имитировать логику, но на деле просто копирует паттерны из обучающей выборки. Если в этих данных есть хоть немного мусора, авторегрессионное обучение ломается: модель перестает связывать первый шаг со вторым и начинает просто гадать ответ, который выглядит «похожим» на правду. Это и есть корень неверных рассуждений, когда промежуточные вычисления превращаются в бессвязную кашу.

Это как учить ребенка математике по тетрадке, где отличник половину примеров решил правильно, а в остальной половине просто подсмотрел ответ в конце учебника и подогнал под него решение. Ребенок не дурак — он быстро понимает, что напрягать мозги не обязательно. Если в данных есть шум, модель выбирает путь наименьшего сопротивления: она учится имитировать структуру рассуждения, но забивает на саму логику вычислений. В итоге мы получаем галлюцинации, которые выглядят очень убедительно.

Исследователи проверили это на жестких цифрах, обучая трансформеры решать цепочки типа «2×9−19». Оказалось, что существует критический порог: если уровень шума в данных превышает определенный предел, модель вообще перестает учиться логике. Она либо выдает правильный ответ через абсолютно бредовые шаги, либо просто копирует ошибки. Вывод суров: 10 из 15 методов обучения бесполезны, если ваши данные не стерильны, потому что модель всегда предпочтет «срезать угол», чем реально вычислять.

Этот принцип универсален и касается не только арифметики. Та же фигня происходит, когда вы просите AI написать код или составить юридический документ: если в интернете, на котором он учился, полно плохих примеров, модель будет выдавать синтаксически верный, но логически мертвый контент. Это фундаментальная проблема того, как устроено обучение: нейронка — это не ученый, это очень старательный попугай, который при малейшей возможности начнет халтурить.

Короче, не ждите от моделей чудес логики, пока их кормят грязными данными. Главный инсайт исследования: качество данных важнее архитектуры. Если вы хотите, чтобы AI реально «рассуждал», нужно вычищать обучающую выборку до блеска, иначе на выходе всегда будет красиво оформленная чушь. Либо мы учим их на идеальных цепочках, либо продолжаем получать ответы, которые выглядят умными, но рассыпаются при первой же проверке.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с