ThinkARM: анатомия рассуждений через 8 функциональных эпизодов
КЛЮЧЕВАЯ СУТЬ
Reasoning-модели отличаются от обычных не длиной ответа, а структурой мышления. Обычные модели тратят 60-65% токенов на прямое исполнение (Implement) и движутся только вперёд к ответу. Reasoning-модели распределяют усилия: 25-30% на анализ и исследование вариантов, 35-40% на исполнение, 10-15% на проверку. Главное различие — петли возврата: Explore→Monitor→Verify→Explore. Модель пробует путь, останавливается для оценки прогресса, находит слабое место, возвращается к поиску альтернатив. У обычных LLM такие петли отсутствуют — только движение вперёд до финального ответа.
ThinkARM разбивает рассуждения на 8 функциональных эпизодов (Read, Analyze, Plan, Explore, Implement, Verify, Monitor, Answer) и заставляет модель явно проходить каждую фазу. Когда вы пишете "сначала EXPLORE — исследуй 2-3 варианта, потом MONITOR — оцени какой сильнее", модель не может перейти к ответу, пока не выполнит все шаги. Результат: переход Explore→Monitor даёт коэффициент +0.41 к правильности решения, а прыжок Explore→Answer без проверки — коэффициент -0.41 (предсказатель ошибки).