3,583 papers
arXiv:2601.05175 74 8 янв. 2026 г. PRO

VideoAuto-R1: адаптивное рассуждение через двойной ответ

КЛЮЧЕВАЯ СУТЬ
CoT для большинства видео-задач — это overthinking: модель тратит 386 токенов вместо 18, генерирует в 40 раз больше текста, а точность падает на −2.1%. VideoAuto-R1 позволяет модели самой решать, когда нужно рассуждение, а когда — прямой ответ, экономя токены без потери точности. Модель обучают давать два ответа: быстрый первый + проверенный второй после рассуждения. На инференсе модель выдаёт первый ответ, оценивает уверенность (среднюю вероятность токенов), и если уверенность высокая — останавливается. Если низкая — продолжает генерацию CoT. Активация CoT упала с ~85% до 25% на перцептивных задачах, средняя длина ответа — с 149 до 44 токенов.
Адаптировать под запрос
📋 Дайджест исследования

Контент доступен только для PRO подписчиков

Чтобы получить доступ к дайджесту этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Контент доступен только для PRO подписчиков

Чтобы получить доступ к концептам этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO
📖 Простыми словами

Контент доступен только для PRO подписчиков

Чтобы получить доступ к упрощённому объяснению этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с