arXiv:2511.10201 58 13 нояб. 2025 г. PRO

EffiReason-Bench: унифицированный бенчмарк для оценки и развития эффективного рассуждения в больших языковых моделях

КЛЮЧЕВАЯ СУТЬ

LLM генерирует избыточно длинные рассуждения в 40-60% случаев, потому что стандартный Chain-of-Thought не различает сложность задачи — модель «думает» одинаково глубоко и для простого списка идей, и для сложного математического доказательства. Исследование EffiReason-Bench позволяет настраивать «глубину рассуждений» LLM под тип задачи — агрессивно сжимать ответы для креативных задач и сохранять подробность для логики. Ключевая находка: для задач на здравый смысл сжатие рассуждений в 3-5 раз почти не снижает точность, а для математики такое же сжатие проваливает 70% ответов. Это работает через два промпт-паттерна: Skeleton-of-Thought (сначала план, потом детали) для структурирования сложного и Chain-of-Draft (только тезисы-черновики) для экономии до 80% токенов на простых задачах.

Адаптировать под запрос

Контент доступен только для PRO подписчиков

Чтобы получить доступ к полному содержанию этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс

YandexPay • SberPay • СБП • Карты РФ

⚡ Оплатить через Tribute

Telegram Stars • Моментальный доступ

Узнать о PRO

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

Выберите модель ИИ:

Ваш запрос:

0 / 2000

~0.5-2 N-токенов ~10-30с

~0.3-1 N-токенов ~5-15с

Меню

EffiReason-Bench: унифицированный бенчмарк для оценки и развития эффективного рассуждения в больших языковых моделях

Контент доступен только для PRO подписчиков

Работа с исследованием

Результат адаптации