3,583 papers
arXiv:2511.10201 58 13 нояб. 2025 г. PRO

EffiReason-Bench: унифицированный бенчмарк для оценки и развития эффективного рассуждения в больших языковых моделях

КЛЮЧЕВАЯ СУТЬ
LLM генерирует избыточно длинные рассуждения в 40-60% случаев, потому что стандартный Chain-of-Thought не различает сложность задачи — модель «думает» одинаково глубоко и для простого списка идей, и для сложного математического доказательства. Исследование EffiReason-Bench позволяет настраивать «глубину рассуждений» LLM под тип задачи — агрессивно сжимать ответы для креативных задач и сохранять подробность для логики. Ключевая находка: для задач на здравый смысл сжатие рассуждений в 3-5 раз почти не снижает точность, а для математики такое же сжатие проваливает 70% ответов. Это работает через два промпт-паттерна: Skeleton-of-Thought (сначала план, потом детали) для структурирования сложного и Chain-of-Draft (только тезисы-черновики) для экономии до 80% токенов на простых задачах.
Адаптировать под запрос

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с