3,583 papers
arXiv:2503.01422 65 1 мар. 2025 г. PRO

Эффективное выборочное тестирование времени масштабирования: самооценка наилучшего из N выборок при раннем декодировании.

КЛЮЧЕВАЯ СУТЬ
Этот подход сокращает использование памяти GPU более чем на 90% и время ответа на 50%, достигая при этом такого же или даже лучшего качества ответов по сравнению с полным перебором N вариантов.
Адаптировать под запрос

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с