3,583 papers
arXiv:2601.00942 70 2 янв. 2026 г. PRO

Temperature и надёжность: почему instruction-tuned модели стабильны при любой температуре

КЛЮЧЕВАЯ СУТЬ
Температуру боятся зря. Instruct-модели держат точность от T=0 до T=1.0 — и sparse, и dense одинаково стабильны. Исследование проверило как параметр temperature (случайность генерации) влияет на точность: sparse MoE-модели с условной маршрутизацией против dense-моделей. Гипотеза рухнула. Разница не в архитектуре (sparse vs dense), а в наличии instruction tuning. Instruct-модели концентрируют вероятность на правильном формате — даже при высокой температуре правильный вариант имеет перевес в распределении. Mixtral-8x7B-Instruct и Qwen2.5-3B-Instruct держат точность при любой температуре. Падает только base-модель OLMoE без tuning: с 5.8% до 3.8%.
Адаптировать под запрос
📋 Дайджест исследования

Контент доступен только для PRO подписчиков

Чтобы получить доступ к дайджесту этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Контент доступен только для PRO подписчиков

Чтобы получить доступ к концептам этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO
📖 Простыми словами

Контент доступен только для PRO подписчиков

Чтобы получить доступ к упрощённому объяснению этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с