TL;DR
Модели учат пошаговое рассуждение только при низком шуме в данных. Исследователи обучали маленькие трансформеры решать арифметические цепочки (типа "2×9−19 → 18−19 → 96") и специально добавляли ошибки в данные. Цель — понять когда и почему модель начинает генерировать логически несогласованные шаги рассуждения.
Критический порог шума — граница между честным рассуждением и халтурой. Ниже определённого уровня ошибок в данных модель честно следует логике: смотрит на промежуточный шаг и вычисляет ответ из него. Выше порога — модель начинает игнорировать промежуточный шаг, смотрит сразу на начальную задачу и выдаёт ответ, а промежуточный шаг генерирует "для вида". Это объясняет почему иногда LLM пишет правдоподобное рассуждение, которое не ведёт к ответу.
Три режима рассуждения в процессе обучения. Модель проходит фазы: (1) пошаговое — честно следует каждому шагу; (2) смешанное — при противоречивых шагах энтропия предсказаний растёт (модель "не уверена"); (3) пропуск шагов — игнорирует промежуточные шаги, считает сразу от начала. Во второй фазе модель развивает неявную самопроверку — замечает несогласованность и показывает это через неуверенность в предсказаниях.
Почему это важно понимать
Два типа проверки верности рассуждений:
Consistency-based — поверхностная проверка: согласованы ли шаги между собой? Если модель пишет "5-1=4" и потом "2×4=8", шаги согласованы. Но это не гарантирует что модель следует этой логике — она могла уже "знать" ответ 8 и подогнать шаги задним числом.
Intervention-based — глубокая проверка: что если изменить промежуточный шаг? Если ты меняешь "18−19" на "17−19" и финальный ответ меняется вслед за этим — модель реально следует логике. Если финальный ответ не изменился — модель игнорирует промежуточный шаг, считает от начала, а середину генерирует для отвода глаз.
Simplicity bias — почему малошумные данные дают честное рассуждение. Модели в процессе обучения предпочитают более простые правила при прочих равных. Считать по шагам (один оператор за раз: "18−19") проще чем пропускать шаг (два оператора сразу: "2×9−19"). Когда данных чистые — simplicity bias толкает модель к пошаговой логике. Когда шума много — преимущество от "пропуска шагов" (меньше влияние ошибочных промежуточных данных) перевешивает предпочтение простоты.
Неявная самопроверка появляется сама. В смешанном режиме модель "замечает" противоречия между начальной задачей и промежуточным шагом — энтропия предсказаний растёт на противоречивых цепочках. Модель не обучали проверять себя явно, но она научилась кодировать внутреннюю неуверенность через распределение вероятностей. Это фундамент для техник типа self-consistency и self-verification.
Что применить на практике
Принцип 1: Чистые примеры без противоречий
Когда даёшь модели примеры в few-shot промптах или описываешь процесс — убери противоречия и ошибки. Даже небольшой шум в примерах толкает модель к игнорированию промежуточных шагов.
Плохо:
Пример: "Выручка 100К, расходы 30К, прибыль: 100-30=60"
(ошибка в вычислении, правильно 70)
Хорошо:
Пример: "Выручка 100К, расходы 30К, прибыль: 100-30=70"
Принцип 2: Разрыв в сложности между шагами
Чем больше разница в сложности соседних шагов — тем сильнее модель следует пошаговой логике. Исследование показало: когда начальная задача требует 3 операции, а промежуточный шаг — 1 операцию, модель лучше следует логике чем когда обе требуют по 1-2 операции.
Применение — структурируй рассуждение с явным упрощением:
Задача: {сложное описание бизнес-кейса с несколькими условиями}
ШАГ 1: Выдели ключевые переменные:
{модель извлекает простые факты}
ШАГ 2: Примени правило к каждой переменной:
{модель работает с упрощёнными данными}
ШАГ 3: Собери итоговый ответ:
{модель комбинирует результаты}
Каждый следующий шаг проще предыдущего по количеству информации или операций — это усиливает честное следование логике.
Принцип 3: Проверка рассуждений через вмешательство
Если хочешь проверить следует ли модель своей логике — измени промежуточный шаг и посмотри на ответ.
Пример проверки:
Исходный запрос:
Проанализируй бизнес-идею: запуск подписки на кофе в офисы.
ШАГ 1: Оцени размер рынка
ШАГ 2: Оцени стоимость привлечения клиента
ШАГ 3: Дай рекомендацию — входить или нет
Модель ответила: "Рынок 50К офисов → CAC 5К руб → не входить, слишком дорого"
Проверка через intervention:
Возьми тот же анализ, но представь что ШАГ 2 дал другой результат:
CAC не 5К руб, а 500 руб. Изменится ли рекомендация в ШАГ 3?
- Если модель меняет вывод → следует логике, рассуждение честное
- Если модель всё равно говорит "не входить" → игнорирует промежуточный шаг, рассуждение для вида
Принцип 4: Признаки смешанного режима — используй на пользу
Когда модель в смешанном режиме (видит противоречия) — она показывает неуверенность. Ты можешь провоцировать этот режим чтобы получить альтернативные точки зрения.
Промпт — создание противоречия:
Дай два мнения о {задача}:
МНЕНИЕ 1: Исходя из посылки что {условие A}
МНЕНИЕ 2: Исходя из посылки что {противоположное условие не-A}
Покажи где рассуждения расходятся.
Противоречивые посылки → модель переходит в режим высокой энтропии → генерирует разные ветки рассуждений вместо одной "подогнанной".
Как исследовали
Команда обучила маленькие трансформеры (3 слоя, 2 головы внимания) на синтетической задаче решения арифметических выражений по модулю N=97. Данные имели формат: начальное выражение → промежуточный шаг → ответ, например "2×9−19 → 18−19 → 96".
Главная фишка — контролируемый шум. Исследователи специально вносили ошибки: в начальное выражение с вероятностью ε₁ (prompt noise), в промежуточный шаг с вероятностью ε₂ (reasoning noise). Обучили десятки моделей на разных комбинациях уровней шума от 0% до 90%.
Измеряли два типа верности: (1) Consistency — правильные ли шаги генерирует модель в chain-of-thought; (2) Intervention — что происходит если подсунуть модели случайный промежуточный шаг — изменится ли финальный ответ? Если не изменится → модель игнорирует промежуточный шаг, считает сразу от начала.
Ключевая находка — критический порог. При reasoning noise ε₂ < 5-10% модели учили честное пошаговое рассуждение. При ε₂ > 10% происходил резкий переход к skip-step режиму — модель начинала игнорировать промежуточный шаг. Порог зависел от prompt noise ε₁: чем выше шум в начальной задаче, тем ниже порог для перехода к халтуре.
Почему результаты получились именно такими: Две силы конкурируют. Simplicity bias толкает к пошаговой логике (проще). Минимизация ошибки на зашумлённых данных толкает к пропуску шагов (если промежуточный шаг часто неправильный — выгоднее его игнорировать). При низком шуме побеждает simplicity bias. При высоком — побеждает игнорирование плохих промежуточных данных.
Удивительная деталь: Во время обучения модель проходит через смешанный режим где энтропия предсказаний временно растёт вместо того чтобы монотонно падать. Это противоречит обычной динамике обучения. Оказалось — модель учится распознавать противоречия между начальной задачей и промежуточным шагом, и в таких случаях выдаёт высокую энтропию (неуверенность). Это неявная самопроверка, которая появляется сама из autoregressive training без явного обучения на задаче верификации.
Инсайт для практики: Эксперимент с увеличением сложности начальной задачи (3 операции вместо 2) показал что complexity gap — разрыв в сложности между шагами — критичен. Чем проще промежуточный шаг относительно начальной задачи, тем устойчивее пошаговое рассуждение даже при высоком шуме.
Ограничения
⚠️ Синтетическая задача: Реальные рассуждения LLM включают естественный язык, неоднозначность формулировок, субъективные критерии. Арифметика по модулю — упрощённая модель. Принципы переносятся, но пороги и точные эффекты могут отличаться.
⚠️ Маленькие модели: Эксперименты на трансформерах с 3 слоями и 2 головами. Большие LLM (GPT-4, Claude) имеют другую capacity и могут вести себя иначе. Но базовые механизмы (simplicity bias, три режима рассуждения) фундаментальны для autoregressive training.
⚠️ Один шаг рассуждения: Задача включала только один промежуточный шаг. Реальные CoT цепочки — десятки шагов. Накопление ошибок, error propagation, длинная зависимость — эффекты которые исследование не покрывает.
⚠️ Только автогрессивное обучение: Исследование фокусируется на next-token prediction. Не покрывает RLHF, Constitutional AI, и другие методы alignment которые могут влиять на faithfulness по-другому.
Ресурсы
How Does Unfaithful Reasoning Emerge from Autoregressive Training? A Study of Synthetic Experiments
Fuxin Wang, Amr Alazali, Yiqiao Zhong — University of Wisconsin-Madison
Код: https://github.com/jwtr297/Arithmetic_Expression_Reasoning
