TL;DR
LEASH — техника для сокращения длины CoT-рассуждений (Chain-of-Thought). Модель мониторит внутренние сигналы на каждом шаге генерации: энтропию токенов (насколько модель неуверена в выборе) и маржу топ-выбора (насколько первый вариант лучше второго). Когда оба сигнала стабилизируются в скользящем окне — это означает что рассуждение завершено, можно останавливаться.
CoT генерирует рассуждения фиксированной длины для всех задач. Простая задача "5 + 3 = ?" получает столько же токенов рассуждений (256-512), сколько сложная задача про проценты от долей. Это расточительно — модель уже нашла ответ на 50-м токене, но продолжает генерировать текст до лимита. Внутренние сигналы показывают: энтропия перестала падать (модель уверена), маржа перестала расти (все следующие токены предсказуемы) — но генерация продолжается.
LEASH следит за этими показателями: вычисляет наклон энтропии и прирост маржи в окне последних 8 токенов. Если в 5 из 8 шагов оба показателя стабильны (энтропия почти не меняется, маржа не растёт) — генерация останавливается. Модель переходит ко второму этапу: короткий финальный ответ без рассуждений. Экономия 30-35% токенов и 27% времени, падение точности ~10 процентных пунктов.
Схема метода
ЭТАП 1: Генерация CoT-рассуждения с мониторингом
На каждом токене t (начиная с 8-го):
├─ Вычисли энтропию Ht = -Σ p(v) log p(v)
├─ Вычисли маржу Mt = log p_top1 - log p_top2
├─ Вычисли наклон энтропии за окно: sH = (Ht - Ht-8) / 8
├─ Вычисли прирост маржи за окно: ΔM = Mt - Mt-8
│
└─ Проверка стабильности (для последних 5 токенов):
• Наклон энтропии ≥ -0.005 (почти не падает)
• Прирост маржи ≤ 0.05 (почти не растёт)
→ Если 3+ из 5 шагов стабильны → СТОП
ЭТАП 2: Короткий финальный ответ
Новый запрос: "Based on the reasoning above, provide only the final numeric answer."
⚠️ Требует доступа к логитам модели — вероятностям всех токенов на каждом шаге. Недоступно в обычном чате, нужен API с logprobs=True.
Пример применения
Задача: Оценить две бизнес-идеи разной сложности и не тратить время на избыточный анализ простой идеи
Промпт:
Оцени сложность каждой идеи (простая/средняя/сложная) и адаптируй длину анализа:
- Простая: 2-3 ключевых фактора, 3-5 предложений
- Средняя: пошаговый разбор, 1 абзац
- Сложная: детальный анализ со всеми рисками, 2-3 абзаца
Идея 1: Открыть шаурмичную у станции метро Киевская в Москве
Идея 2: Запустить российский маркетплейс подписок на софт (аналог Paddle для B2B)
Для каждой идеи:
1. Оцени сложность (1-3)
2. Дай анализ соответствующей глубины
3. Финальная рекомендация — одно предложение
Начни с оценки сложности, затем анализ.
Результат:
Модель определит первую идею как простую (1) и выдаст краткий анализ: высокая конкуренция у метро, зависимость от трафика, стартовые вложения 800К-1.5М рублей. Вторую идею оценит как сложную (3) и развернёт детальный разбор: интеграция с российскими платёжными системами (ЮKassa, CloudPayments), юридические риски работы с подписками, привлечение вендоров, конкуренция с зарубежными сервисами через VPN, сложность удержания клиентов. Финал — рекомендация какая идея подходит под ваши ресурсы и риск-профиль.
Почему это работает
CoT-рассуждения имеют фиксированный лимит длины (обычно 256-512 токенов). Модель генерирует текст до упора, даже если ответ найден на 50-м токене. После нахождения решения модель продолжает "болтать" — переформулирует выводы, добавляет очевидные шаги, повторяет уже сказанное. Это видно по стабилизации внутренних сигналов: энтропия перестаёт падать (модель уверена в выборе каждого следующего токена), маржа между топ-вариантами перестаёт расти (все токены предсказуемы). Но генерация идёт дальше — до лимита.
LEASH отслеживает эти сигналы в скользящем окне из 8 шагов: если наклон энтропии близок к нулю (не падает) и прирост маржи тоже нулевой (не растёт) — значит модель достигла стабильного состояния. Если это повторяется в 5 из 8 последних шагов — рассуждение завершено, можно останавливаться. Модель переходит ко второму запросу: короткий финальный ответ без лишних слов. Это экономит токены на "пустой" генерации после того как решение уже найдено.
В обычном чате нет доступа к логитам — техника требует API. Но принцип адаптивности можно реализовать через метапромпт: попросить модель самой оценить сложность задачи и выбрать длину анализа. Модели хорошо калиброваны на оценку сложности — они "чувствуют" простые вопросы (факты, прямые расчёты) и сложные (многофакторный анализ, риски). Явная инструкция "для простых — коротко, для сложных — подробно" включает этот механизм через промпт, без доступа к внутренним вероятностям.
Шаблон промпта
Для работы в обычном чате (принцип адаптивной длины):
Оцени сложность задачи по шкале 1-3:
1 = Простая (факт, прямой расчёт, одношаговое решение)
2 = Средняя (несколько связанных шагов)
3 = Сложная (множество факторов, риски, неопределённость)
Задача: {твоя_задача}
Адаптируй длину анализа под сложность:
- Уровень 1 (простая): 2-3 ключевых момента, 3-5 предложений
- Уровень 2 (средняя): пошаговый разбор, 1 абзац
- Уровень 3 (сложная): детальный анализ со всеми факторами, 2-3 абзаца
Начни с оценки сложности, затем анализ соответствующей глубины.
Финальный вывод — одно предложение.
Подставь:
- {твоя_задача} — вопрос, проблема, идея для анализа
Примеры задач: - Простая: "Сколько будет 15% от 20 000 рублей?" - Средняя: "Выгодно ли брать ипотеку под 18% или копить 3 года?" - Сложная: "Оцени риски запуска онлайн-школы по data science в России в 2025"
Ограничения
⚠️ Требует API с логитами: LEASH мониторит вероятности токенов (
logprobs), которые недоступны в обычном чате ChatGPT/Claude. Нужен доступ через API с параметромlogprobs=Trueили работа через код (Python + transformers). Принцип адаптивной длины можно симулировать через промпт, но точный метод — только через API.
⚠️ Падение точности на ~10 п.п.: Ранняя остановка снижает точность относительно полного CoT. Для критичных задач (финансовые расчёты, медицинские рекомендации, юридические выводы) потеря 10% точности неприемлема — лучше платить за полное рассуждение.
⚠️ Только для задач с коротким ответом: Протестировано на математических задачах с числовым финальным ответом. Для длинных текстов (написание статьи, код на 100+ строк), многошаговых творческих задач (сценарий, дизайн) или открытых вопросов (философия, этика) эффективность неизвестна.
Как исследовали
Исследователи взяли четыре инструкционные модели размера 7-8B параметров (Llama-3.1-8B, Mistral-7B, Phi-3-Mini, Qwen2.5-7B) и протестировали на математических задачах из GSM8K (300 случайных примеров) и AQuA-RAT (полный тестовый сплит). Сравнивали три подхода: Vanilla-CoT (baseline — полное рассуждение до лимита), LEASH (адаптивная остановка), и No-CoT (прямой ответ без рассуждений).
LEASH использовал фиксированные гиперпараметры для всех моделей: окно мониторинга 8 токенов, проверка консенсуса по последним 5 шагам, минимальная длина рассуждения 64 токена, максимальная 320. Пороги стабильности: наклон энтропии ≥ -0.005 (почти не падает), прирост маржи ≤ 0.05 (почти не растёт). Измеряли точность (exact match числового ответа), количество токенов (рассуждение + ответ) и задержку end-to-end (время на полный пример).
Результат: LEASH сократил токены на 30-35% и задержку на ~27% в среднем по всем моделям, при этом точность упала на ~10 процентных пунктов относительно CoT, но осталась в 4-6 раз выше чем No-CoT. Это показывает что метод сохраняет структуру CoT (модель рассуждает пошагово), но останавливается раньше — как только сигналы говорят "достаточно".
Почему так получилось? Простые задачи типа "У Маши 120 рублей, она купила 3 пирожка по 25 рублей, сколько осталось?" решаются за 2-3 шага: вычислить стоимость (3×25=75), вычесть из исходной суммы (120-75=45). Но Vanilla-CoT генерирует полные 256-320 токенов — модель переформулирует задачу, перепроверяет вычисления, добавляет слова-связки. LEASH детектит стабилизацию на 80-100 токене (энтропия не падает, маржа не растёт — модель "знает" каждый следующий токен) и останавливается. Сложные задачи (многошаговые проценты, пропорции, текстовые условия с подвохом) требуют больше шагов — LEASH работает дольше, ближе к лимиту. Адаптивность под сложность даёт экономию без катастрофической потери качества — ~10 п.п. это приемлемая цена за 30% токенов для тех кто платит за API.
Ресурсы
Logit-Entropy Adaptive Stopping Heuristic for Efficient Chain-of-Thought Reasoning
Mohammad Atif Quamar (Independent Researcher), Mohammad Areeb (Purdue University)
NeurIPS 2025 Workshop: Efficient Reasoning
Отсылки: Wei et al. (Chain-of-Thought Prompting), Wang et al. (Self-Consistency), Kojima et al. (Zero-Shot CoT)
