arXiv:2511.04654 70 6 нояб. 2025 г. FREE

LEASH: адаптивная остановка CoT через мониторинг уверенности модели

КЛЮЧЕВАЯ СУТЬ

CoT генерирует рассуждения фиксированной длины для всех задач — простая задача «5 + 3» получает 256 токенов, хотя ответ найден на 50-м шаге. Модель продолжает болтать, переформулируя выводы, хотя внутренние сигналы показывают: решение готово. Метод LEASH позволяет экономить 30% токенов и 27% времени на CoT-рассуждениях, останавливая генерацию когда модель перестаёт думать. Фишка: мониторинг энтропии (уверенность в выборе токена) и маржи (насколько первый вариант лучше второго) — когда оба показателя стабилизируются в окне последних 8 шагов, рассуждение завершено. Экономия 30-35% токенов, падение точности около 10 процентных пунктов.

Адаптировать под запрос

⚡

TL;DR

LEASH — техника для сокращения длины CoT-рассуждений (Chain-of-Thought). Модель мониторит внутренние сигналы на каждом шаге генерации: энтропию токенов (насколько модель неуверена в выборе) и маржу топ-выбора (насколько первый вариант лучше второго). Когда оба сигнала стабилизируются в скользящем окне — это означает что рассуждение завершено, можно останавливаться.

CoT генерирует рассуждения фиксированной длины для всех задач. Простая задача "5 + 3 = ?" получает столько же токенов рассуждений (256-512), сколько сложная задача про проценты от долей. Это расточительно — модель уже нашла ответ на 50-м токене, но продолжает генерировать текст до лимита. Внутренние сигналы показывают: энтропия перестала падать (модель уверена), маржа перестала расти (все следующие токены предсказуемы) — но генерация продолжается.

LEASH следит за этими показателями: вычисляет наклон энтропии и прирост маржи в окне последних 8 токенов. Если в 5 из 8 шагов оба показателя стабильны (энтропия почти не меняется, маржа не растёт) — генерация останавливается. Модель переходит ко второму этапу: короткий финальный ответ без рассуждений. Экономия 30-35% токенов и 27% времени, падение точности ~10 процентных пунктов.

🔬

Схема метода

ЭТАП 1: Генерация CoT-рассуждения с мониторингом

На каждом токене t (начиная с 8-го):
  ├─ Вычисли энтропию Ht = -Σ p(v) log p(v)
  ├─ Вычисли маржу Mt = log p_top1 - log p_top2  
  ├─ Вычисли наклон энтропии за окно: sH = (Ht - Ht-8) / 8
  ├─ Вычисли прирост маржи за окно: ΔM = Mt - Mt-8
  │
  └─ Проверка стабильности (для последних 5 токенов):
     • Наклон энтропии ≥ -0.005 (почти не падает)
     • Прирост маржи ≤ 0.05 (почти не растёт)
     → Если 3+ из 5 шагов стабильны → СТОП

ЭТАП 2: Короткий финальный ответ
Новый запрос: "Based on the reasoning above, provide only the final numeric answer."

⚠️ Требует доступа к логитам модели — вероятностям всех токенов на каждом шаге. Недоступно в обычном чате, нужен API с logprobs=True.

🚀

Пример применения

Задача: Оценить две бизнес-идеи разной сложности и не тратить время на избыточный анализ простой идеи

Промпт:

Оцени сложность каждой идеи (простая/средняя/сложная) и адаптируй длину анализа:
- Простая: 2-3 ключевых фактора, 3-5 предложений
- Средняя: пошаговый разбор, 1 абзац  
- Сложная: детальный анализ со всеми рисками, 2-3 абзаца

Идея 1: Открыть шаурмичную у станции метро Киевская в Москве
Идея 2: Запустить российский маркетплейс подписок на софт (аналог Paddle для B2B)

Для каждой идеи:
1. Оцени сложность (1-3)
2. Дай анализ соответствующей глубины  
3. Финальная рекомендация — одно предложение

Начни с оценки сложности, затем анализ.

Результат:

Модель определит первую идею как простую (1) и выдаст краткий анализ: высокая конкуренция у метро, зависимость от трафика, стартовые вложения 800К-1.5М рублей. Вторую идею оценит как сложную (3) и развернёт детальный разбор: интеграция с российскими платёжными системами (ЮKassa, CloudPayments), юридические риски работы с подписками, привлечение вендоров, конкуренция с зарубежными сервисами через VPN, сложность удержания клиентов. Финал — рекомендация какая идея подходит под ваши ресурсы и риск-профиль.

🧠

Почему это работает

CoT-рассуждения имеют фиксированный лимит длины (обычно 256-512 токенов). Модель генерирует текст до упора, даже если ответ найден на 50-м токене. После нахождения решения модель продолжает "болтать" — переформулирует выводы, добавляет очевидные шаги, повторяет уже сказанное. Это видно по стабилизации внутренних сигналов: энтропия перестаёт падать (модель уверена в выборе каждого следующего токена), маржа между топ-вариантами перестаёт расти (все токены предсказуемы). Но генерация идёт дальше — до лимита.

LEASH отслеживает эти сигналы в скользящем окне из 8 шагов: если наклон энтропии близок к нулю (не падает) и прирост маржи тоже нулевой (не растёт) — значит модель достигла стабильного состояния. Если это повторяется в 5 из 8 последних шагов — рассуждение завершено, можно останавливаться. Модель переходит ко второму запросу: короткий финальный ответ без лишних слов. Это экономит токены на "пустой" генерации после того как решение уже найдено.

В обычном чате нет доступа к логитам — техника требует API. Но принцип адаптивности можно реализовать через метапромпт: попросить модель самой оценить сложность задачи и выбрать длину анализа. Модели хорошо калиброваны на оценку сложности — они "чувствуют" простые вопросы (факты, прямые расчёты) и сложные (многофакторный анализ, риски). Явная инструкция "для простых — коротко, для сложных — подробно" включает этот механизм через промпт, без доступа к внутренним вероятностям.

📋

Шаблон промпта

Для работы в обычном чате (принцип адаптивной длины):

Оцени сложность задачи по шкале 1-3:
1 = Простая (факт, прямой расчёт, одношаговое решение)
2 = Средняя (несколько связанных шагов)
3 = Сложная (множество факторов, риски, неопределённость)

Задача: {твоя_задача}

Адаптируй длину анализа под сложность:
- Уровень 1 (простая): 2-3 ключевых момента, 3-5 предложений
- Уровень 2 (средняя): пошаговый разбор, 1 абзац
- Уровень 3 (сложная): детальный анализ со всеми факторами, 2-3 абзаца

Начни с оценки сложности, затем анализ соответствующей глубины.
Финальный вывод — одно предложение.

Подставь: - {твоя_задача} — вопрос, проблема, идея для анализа

Примеры задач: - Простая: "Сколько будет 15% от 20 000 рублей?" - Средняя: "Выгодно ли брать ипотеку под 18% или копить 3 года?" - Сложная: "Оцени риски запуска онлайн-школы по data science в России в 2025"

⚠️

Ограничения

⚠️ Требует API с логитами: LEASH мониторит вероятности токенов (logprobs), которые недоступны в обычном чате ChatGPT/Claude. Нужен доступ через API с параметром logprobs=True или работа через код (Python + transformers). Принцип адаптивной длины можно симулировать через промпт, но точный метод — только через API.

⚠️ Падение точности на ~10 п.п.: Ранняя остановка снижает точность относительно полного CoT. Для критичных задач (финансовые расчёты, медицинские рекомендации, юридические выводы) потеря 10% точности неприемлема — лучше платить за полное рассуждение.

⚠️ Только для задач с коротким ответом: Протестировано на математических задачах с числовым финальным ответом. Для длинных текстов (написание статьи, код на 100+ строк), многошаговых творческих задач (сценарий, дизайн) или открытых вопросов (философия, этика) эффективность неизвестна.

🔍

Как исследовали

Исследователи взяли четыре инструкционные модели размера 7-8B параметров (Llama-3.1-8B, Mistral-7B, Phi-3-Mini, Qwen2.5-7B) и протестировали на математических задачах из GSM8K (300 случайных примеров) и AQuA-RAT (полный тестовый сплит). Сравнивали три подхода: Vanilla-CoT (baseline — полное рассуждение до лимита), LEASH (адаптивная остановка), и No-CoT (прямой ответ без рассуждений).

LEASH использовал фиксированные гиперпараметры для всех моделей: окно мониторинга 8 токенов, проверка консенсуса по последним 5 шагам, минимальная длина рассуждения 64 токена, максимальная 320. Пороги стабильности: наклон энтропии ≥ -0.005 (почти не падает), прирост маржи ≤ 0.05 (почти не растёт). Измеряли точность (exact match числового ответа), количество токенов (рассуждение + ответ) и задержку end-to-end (время на полный пример).

Результат: LEASH сократил токены на 30-35% и задержку на ~27% в среднем по всем моделям, при этом точность упала на ~10 процентных пунктов относительно CoT, но осталась в 4-6 раз выше чем No-CoT. Это показывает что метод сохраняет структуру CoT (модель рассуждает пошагово), но останавливается раньше — как только сигналы говорят "достаточно".

Почему так получилось? Простые задачи типа "У Маши 120 рублей, она купила 3 пирожка по 25 рублей, сколько осталось?" решаются за 2-3 шага: вычислить стоимость (3×25=75), вычесть из исходной суммы (120-75=45). Но Vanilla-CoT генерирует полные 256-320 токенов — модель переформулирует задачу, перепроверяет вычисления, добавляет слова-связки. LEASH детектит стабилизацию на 80-100 токене (энтропия не падает, маржа не растёт — модель "знает" каждый следующий токен) и останавливается. Сложные задачи (многошаговые проценты, пропорции, текстовые условия с подвохом) требуют больше шагов — LEASH работает дольше, ближе к лимиту. Адаптивность под сложность даёт экономию без катастрофической потери качества — ~10 п.п. это приемлемая цена за 30% токенов для тех кто платит за API.

🔗

Ресурсы

Logit-Entropy Adaptive Stopping Heuristic for Efficient Chain-of-Thought Reasoning

Mohammad Atif Quamar (Independent Researcher), Mohammad Areeb (Purdue University)

NeurIPS 2025 Workshop: Efficient Reasoning

Отсылки: Wei et al. (Chain-of-Thought Prompting), Wang et al. (Self-Consistency), Kojima et al. (Zero-Shot CoT)

📋 Дайджест исследования

Ключевая суть

Принцип работы

Модель генерирует CoT пошагово. На каждом токене (начиная с 8-го) вычисляет энтропию — меру неуверенности в выборе следующего слова, и маржу — насколько вероятность первого варианта превосходит второй. LEASH следит за динамикой: вычисляет наклон энтропии (падает ли она) и прирост маржи (растёт ли разрыв между вариантами) в скользящем окне из 8 токенов. Если в 5 из 8 последних шагов наклон энтропии близок к нулю (≥ -0.005) и прирост маржи минимален (≤ 0.05) — значит модель достигла стабильного состояния, можно останавливаться. Генерация прерывается, модель переходит ко второму этапу: короткий финальный ответ без избыточных рассуждений.

Почему работает

После нахождения решения модель продолжает генерировать до лимита (256-512 токенов) — переформулирует выводы, повторяет очевидные шаги, добавляет «воду». Это видно по внутренним сигналам: энтропия перестаёт падать (модель уверена в каждом следующем токене), маржа перестаёт расти (все варианты предсказуемы). Но генерация идёт дальше — до конца отведённого лимита. LEASH отлавливает момент стабилизации: когда наклон энтропии держится у нуля в течение 5 из 8 шагов — рассуждение завершено, дальше только повторы. Экономия 30-35% токенов на пустой болтовне после того как решение уже найдено. В обычном чате нет доступа к логитам, но принцип адаптивности можно симулировать через промпт: попросить модель саму оценить сложность задачи (1-3) и выбрать длину анализа — модели хорошо калиброваны на оценку «это простой факт» vs «это многофакторный анализ».

Когда применять

Для задач с коротким числовым ответом (математические расчёты, оценка метрик, финансовые прикидки) → конкретно когда стоимость токенов критична и можно пожертвовать 10 процентными пунктами точности ради экономии 30% на генерации. Особенно для массовых запросов через API (обработка сотен задач в час). НЕ подходит для критичных задач где падение точности на 10% неприемлемо (финансовые выводы, медицинские рекомендации, юридические расчёты); для длинных текстов (статьи, код 100+ строк); для открытых вопросов без короткого ответа (философия, творчество, дизайн).

Мини-рецепт

Для обычного чата (симуляция адаптивности без API):

1. Задай оценку сложности:

Оцени сложность задачи по шкале 1-3: 1 = простая (факт, прямой расчёт, одношаговое решение), 2 = средняя (несколько связанных шагов), 3 = сложная (множество факторов, риски, неопределённость)

2. Адаптируй длину под уровень:

Для уровня 1: 2-3 ключевых момента, 3-5 предложений. Для уровня 2: пошаговый разбор, 1 абзац. Для уровня 3: детальный анализ со всеми факторами, 2-3 абзаца

3. Добавь финальный вывод:

Начни с оценки сложности, затем анализ соответствующей глубины. Финальный вывод — одно предложение

Для API (полная версия LEASH с логитами):

1. Включи логиты: Параметр logprobs=True при вызове OpenAI API или работа через transformers с доступом к вероятностям
2. Настрой мониторинг: На каждом токене (начиная с 8-го) вычисляй энтропию распределения вероятностей и маржу между топ-1 и топ-2 вариантами
3. Задай пороги стабильности: Наклон энтропии ≥ -0.005, прирост маржи ≤ 0.05, проверка выполняется по 5 из 8 последних шагов
4. Остановка и финал: При достижении порогов прерви генерацию, запусти второй запрос: Based on the reasoning above, provide only the final numeric answer

Примеры

[ПЛОХО] :

Оцени две бизнес-идеи: открыть шаурмичную у метро Киевская vs запустить маркетплейс подписок на софт

(Нет указания на адаптивность длины — модель выдаст одинаковый объём анализа для простой и сложной идеи, потратит токены впустую на избыточный разбор шаурмичной)

[ХОРОШО] :

Оцени сложность каждой идеи (1-3) и адаптируй длину анализа. Простая (1): 2-3 ключевых фактора, 3-5 предложений. Сложная (3): детальный анализ со всеми рисками, 2-3 абзаца. Идея 1: Открыть шаурмичную у станции Киевская. Идея 2: Запустить маркетплейс подписок на софт (аналог Paddle для B2B в России). Начни с оценки сложности, затем анализ. Финал — одно предложение с рекомендацией

(Модель определит первую как простую (1) — высокая конкуренция у метро, зависимость от трафика, стартовые вложения 800К-1.5М, короткий разбор. Вторую оценит как сложную (3) — интеграция с российскими платёжными системами, юридические риски подписок, привлечение вендоров, конкуренция через VPN, развёрнутый анализ. Экономия токенов на первой идее, детализация на второй)

Источник: Logit-Entropy Adaptive Stopping Heuristic for Efficient Chain-of-Thought Reasoning

ArXiv ID: 2511.04654 | Сгенерировано: 2026-01-12 18:27

Проблемы LLM

Проблема	Суть	Как обойти
CoT не останавливается когда ответ найден	Просишь цепочку рассуждений. Модель находит ответ на шаге 50 из 256. Но продолжает генерировать до лимита — переформулирует выводы, повторяет сказанное, добавляет очевидные шаги. Ты платишь за 206 лишних токенов. Это особенно расточительно для простых задач ("5+3=?") которые получают столько же рассуждений сколько сложные ("проценты от долей")	Способ 1 (для API): Отслеживай внутренние показатели модели — энтропию токенов и разрыв между топ-вариантами. Когда оба стабилизируются в окне из 8 шагов — останавливай генерацию. Способ 2 (для обычного чата): Перед рассуждением попроси модель оценить сложность задачи (1-3). Дай инструкцию адаптировать длину: простая = 3-5 предложений, средняя = 1 абзац, сложная = 2-3 абзаца. Модель хорошо различает простые и сложные задачи

📖 Простыми словами

Суть в том, что современные нейронки часто страдают «словесным поносом». Когда ты просишь их подумать шаг за шагом, они начинают генерировать огромные простыни рассуждений. Исследователи копнули внутрь LLM и выяснили: в какой-то момент модель уже нашла правильный ответ, но продолжает строчить текст по инерции. Метод LEASH — это программный «стоп-кран», который ловит момент, когда уверенность модели перестала расти, и принудительно обрывает её болтовню, отправляя сразу к финалу.

Это как если бы ты спросил дорогу у прохожего, он за две секунды понял, куда тебе надо, но вместо того чтобы просто ткнуть пальцем, начал бы пять минут пересказывать историю градостроительства этого района. Формально он помогает, но по факту — просто тратит твоё время. LEASH затыкает такого «советчика» ровно в ту секунду, когда маршрут в его голове уже построился, экономя 30% времени и ресурсов.

Технически это работает через мониторинг двух показателей: энтропия (насколько модель сомневается) и уверенность (насколько один вариант ответа доминирует над остальными). Как только эти графики выходят на плато, алгоритм понимает: всё, полезного выхлопа больше не будет, дальше пойдёт белый шум. Да, точность при этом падает на 10 из 100, но для большинства задач это копеечная цена за скорость и экономию токенов.

Хотя LEASH — это серверная фишка и ты не можешь подкрутить её в настройках ChatGPT, принцип универсален. Его можно и нужно внедрять в свои промпты через двухфазную структуру. Вместо того чтобы давать модели волю, ты сам ставишь ей рамки: «проанализируй тезисно и, как только поймёшь суть, сразу выдавай результат». Это работает и для маркетинговых стратегий, и для HR-задач — везде, где тебе нужен результат, а не процесс самолюбования нейронки.

Короче: длинный ответ не равно качественный ответ, и теперь это доказано цифрами. SEO умирает, GEO рождается, а эпоха бесконечных рассуждений сменяется эрой эффективности. Хватит просить модель «расписать подробно» — учись ставить ей жесткие триггеры остановки, иначе будешь платить временем и деньгами за литературные упражнения алгоритма, которые никому не нужны.

Сгенерировано: 21.12.2025 17:01 | ArXiv Data Collector

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

Выберите модель ИИ:

Ваш запрос:

0 / 2000

~0.5-2 N-токенов ~10-30с

~0.3-1 N-токенов ~5-15с

Меню