3,583 papers
arXiv:2509.09864 65 11 сент. 2025 г. PRO

Вычисления во время тестирования с учетом задержки и токенов

КЛЮЧЕВАЯ СУТЬ
Обнаружено: LLM тратит одинаковое количество «умственных усилий» на ответ «2+2=?» и на разработку трёхмесячной маркетинговой стратегии — отсюда либо переплата за простое, либо низкое качество на сложном. Исследование показывает, как автоматический выбор режима генерации (быстрый greedy / глубокий beam search / мозговой штурм best-of-N) в зависимости от сложности запроса даёт до 40% экономии вычислений при сохранении точности. Хотя пользователь не управляет этими параметрами напрямую, он может симулировать продвинутые стратегии вручную через структуру промптов.
Адаптировать под запрос

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с