3,583 papers
arXiv:2512.19995 74 22 дек. 2025 г. PRO

ThinkARM: анатомия рассуждений через 8 функциональных эпизодов

КЛЮЧЕВАЯ СУТЬ
Reasoning-модели отличаются от обычных не длиной ответа, а структурой мышления. Обычные модели тратят 60-65% токенов на прямое исполнение (Implement) и движутся только вперёд к ответу. Reasoning-модели распределяют усилия: 25-30% на анализ и исследование вариантов, 35-40% на исполнение, 10-15% на проверку. Главное различие — петли возврата: Explore→Monitor→Verify→Explore. Модель пробует путь, останавливается для оценки прогресса, находит слабое место, возвращается к поиску альтернатив. У обычных LLM такие петли отсутствуют — только движение вперёд до финального ответа. ThinkARM разбивает рассуждения на 8 функциональных эпизодов (Read, Analyze, Plan, Explore, Implement, Verify, Monitor, Answer) и заставляет модель явно проходить каждую фазу. Когда вы пишете "сначала EXPLORE — исследуй 2-3 варианта, потом MONITOR — оцени какой сильнее", модель не может перейти к ответу, пока не выполнит все шаги. Результат: переход Explore→Monitor даёт коэффициент +0.41 к правильности решения, а прыжок Explore→Answer без проверки — коэффициент -0.41 (предсказатель ошибки).
Адаптировать под запрос
📋 Дайджест исследования

Контент доступен только для PRO подписчиков

Чтобы получить доступ к дайджесту этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Контент доступен только для PRO подписчиков

Чтобы получить доступ к концептам этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO
📖 Простыми словами

Контент доступен только для PRO подписчиков

Чтобы получить доступ к упрощённому объяснению этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с