3,583 papers
arXiv:2508.03346 68 5 авг. 2025 г. FREE

Сжатие цепочки рассуждений в LLM через энтропию шагов

КЛЮЧЕВАЯ СУТЬ
Обнаружено: LLM генерируют до 80% избыточных, предсказуемых шагов в Chain-of-Thought рассуждениях — модель «думает вслух», но большая часть этих мыслей не несет информационной ценности. Step Entropy позволяет отличать настоящее мышление от ритуальных фраз-связок, что меняет представление о том, как оценивать качество ответов. Метод вводит метрику энтропии для каждого шага: низкая энтропия = очевидный шаг («Теперь сложим числа»), высокая энтропия = поворотный момент («Вместо прямого решения заметим арифметическую прогрессию»). Эксперименты показали: удаление 80% низкоэнтропийных шагов не снижает точность — доказательство их бесполезности.
Адаптировать под запрос
📌

Ключевые аспекты исследования:

Исследование показывает, что популярная техника Chain-of-Thought (CoT), когда модель проговаривает шаги решения, генерирует огромное количество избыточных, "очевидных" шагов. Авторы ввели метрику "энтропия шага", чтобы измерить информационную ценность каждого шага, и обнаружили, что шаги с низкой энтропией (предсказуемые) можно смело удалять.

Ключевой результат: до 80% "очевидных" шагов в рассуждениях LLM можно удалить без потери точности, что доказывает их избыточность.


🔬

Объяснение всей сути метода:

Представьте, что вы просите LLM решить задачу, и она начинает думать вслух. Ее рассуждения можно разделить на два типа шагов:

  1. Шаги с низкой энтропией (низкая информационная ценность): Это очевидные, предсказуемые действия. Например: "Шаг 1: Прочитать условие задачи", "Теперь я сложу эти два числа", "Хорошо, перейдем к следующему пункту". Модель генерирует эти фразы с очень высокой уверенностью, они не несут новой информации и служат просто "связками" в рассуждении.

  2. Шаги с высокой энтропией (высокая информационная ценность): Это поворотные моменты в рассуждении, где модель делает нетривиальный вывод, находит неочевидную связь или выбирает одну из нескольких стратегий. Например: "Вместо того чтобы решать в лоб, я могу заметить, что это арифметическая прогрессия", "Это условие похоже на ловушку, давайте проверим его с другой стороны". Генерация таких шагов менее предсказуема и именно в них заключается суть "мышления".

Исследование доказывает, что можно безболезненно "вырезать" до 80% шагов первого типа (с низкой энтропией), и итоговый ответ не пострадает. Это говорит о том, что LLM склонны к "словоблудию" в своих рассуждениях, и длинная цепочка мыслей не всегда означает глубокий анализ.

Для обычного пользователя это означает, что нужно учиться просить модель быть лаконичной в своих рассуждениях и фокусироваться на ключевых, неочевидных выводах, а не на перечислении всех рутинных действий.


📌

Анализ практической применимости:

  • Прямая применимость: Низкая. Пользователь не может напрямую использовать метод вычисления энтропии и удаления шагов. Это технический прием для разработчиков, которые дообучают модели.

  • Концептуальная ценность: Очень высокая. Это исследование дает пользователю "рентгеновское зрение" для оценки ответов LLM. Теперь, видя длинный ответ в стиле CoT, пользователь понимает, что большая его часть — это "вода", и учится искать в нем те самые "высокоэнтропийные" жемчужины — ключевые решения и выводы. Это помогает не поддаваться иллюзии сложности, создаваемой многословностью модели.

  • Потенциал для адаптации: Высокий. Хотя сам метод применить нельзя, его концепцию можно адаптировать для промптинга. Пользователь может напрямую в промпте попросить модель избегать очевидных шагов и концентрироваться на сути. Можно научить модель генерировать "сжатые" рассуждения, отфильтровывая "низкоэнтропийный" мусор.


🚀

Практически пример применения:

Ты — опытный маркетолог-стратег, который ценит время и ненавидит бюрократию и очевидные шаги. Твоя сила — в поиске неочевидных, прорывных идей.

**Задача:** Разработай маркетинговую стратегию для запуска нового мобильного приложения — планировщика задач с элементами геймификации.

**Инструкции по формату ответа:**
Мне НЕ НУЖНА стандартная цепочка рассуждений в стиле "Шаг 1: Определим ЦА", "Шаг 2: Проанализируем конкурентов". Это "низкоэнтропийные" шаги, которые я и так знаю.

Вместо этого, покажи мне свои **"высокоэнтропийные" мысли** — ключевые стратегические решения и развилки, на которых ты делаешь выбор.

Структурируй свой ответ так:
1.  **Ключевое решение №1 (Выбор ниши):** Опиши 2-3 неочевидных сегмента аудитории, кроме "занятых профессионалов", и обоснуй, почему один из них самый перспективный.
2.  **Ключевое решение №2 (Отстройка от конкурентов):** Вместо перечисления фич Todoist и TickTick, сформулируй одну прорывную идею, которая сделает наше приложение уникальным. Объясни логику выбора.
3.  **Ключевое решение №3 (Канал продвижения):** Предложи один неожиданный канал для привлечения первых 10 000 пользователей, избегая банальных "контекстная реклама" и "SMM". Обоснуй, почему он сработает.

Думай как стратег, а не как стажер, заполняющий шаблон. Мне нужны твои поворотные моменты в рассуждениях.
🧠

Почему это работает:

Этот промпт напрямую использует концепцию из исследования, не прибегая к техническим инструментам.

  • Явное указание на "энтропию": Используя термины "низкоэнтропийные" и "высокоэнтропийные" мысли, мы даем модели четкий сигнал о том, какой стиль рассуждений от нее ожидается.
  • Запрет на "мусорные" шаги: Промпт прямо запрещает модели генерировать очевидные, шаблонные шаги ("Шаг 1: Определим ЦА..."), которые являются аналогами низкоэнтропийных шагов из статьи.
  • Фокус на "поворотных моментах": Запрос "ключевые стратегические решения и развилки" заставляет модель концентрироваться на моментах выбора и нетривиальных выводах — тех самых шагах с высокой энтропией, которые несут реальную ценность.
  • Роль и контекст: Персонаж "стратега, который ненавидит бюрократию" дополнительно подкрепляет требование к сжатому и содержательному ответу.

📌

Другой пример практического применения

Ты — опытный сценарист и редактор, который помогает авторам улучшать сюжеты. Твоя задача — анализировать синопсис и находить слабые места.

**Синопсис:** "Молодой программист из маленького города создает революционный ИИ. За его технологией начинают охоту злая мегакорпорация и правительственные агенты. Он вынужден бежать, скрываться и в итоге решает уничтожить свое творение, чтобы оно не попало в плохие руки".

**Твоя задача:**
Проанализируй этот синопсис.

**Важное требование к формату:**
Не давай мне общих советов вроде "нужно лучше проработать мотивацию героя" или "добавить больше деталей". Это "низкоэнтропийные" замечания.

Вместо этого, сгенерируй **3 "высокоэнтропийных" вопроса к сюжету**. Это должны быть вопросы, которые вскрывают фундаментальные проблемы или открывают новые, неожиданные направления для развития истории. Каждый вопрос должен заставить автора задуматься о ключевых поворотных точках сюжета.

**Пример формата:**
*   **Вопрос-развилка №1:** [Твой вопрос]
*   **Вопрос-развилка №2:** [Твой вопрос]
*   **Вопрос-развилка №3:** [Твой вопрос]

Сосредоточься на том, что ломает шаблон и делает историю из банальной — оригинальной.
🧠

Объяснение механизма почему этот пример работает.

Этот промпт эффективно адаптирует выводы исследования для творческой задачи, заставляя модель работать в режиме поиска неочевидных решений.

  • Адаптация терминологии: Понятия "низкоэнтропийные" и "высокоэнтропийные" переведены на язык сценарного мастерства как "общие советы" и "вопросы-развилки", что понятно модели в данном контексте.
  • Смещение фокуса с описания на анализ: Промпт запрещает модели пересказывать сюжет или давать поверхностную критику (низкоэнтропийная работа). Вместо этого он требует сгенерировать вопросы, которые являются точками бифуркации сюжета — то есть, шагами с максимальной неопределенностью и информационной ценностью (высокая энтропия).
  • Стимуляция креативности: Требование "ломать шаблон" и делать историю "оригинальной" напрямую подталкивает модель к генерации менее вероятных, а значит, более "высокоэнтропийных" идей, вместо того чтобы следовать заезженным сюжетным тропам.
  • Конкретная структура вывода: Запрос на "3 вопроса-развилки" заставляет модель выдать сжатый, концентрированный результат, отсекая всю лишнюю "воду" и подготовительные рассуждения.
📌

Оценка полезности: 68

📌

Основные критерии оценки

  • A. Релевантность техникам промтинга: Низкая. Исследование не предлагает конкретных фраз или структур для немедленного использования. Оно описывает метод, требующий дообучения модели.
  • B. Улучшение качества диалоговых ответов: Средняя. Основная цель — не улучшить точность, а повысить эффективность (сократить длину рассуждений), сохраняя точность. Для пользователя это косвенная польза.
  • C. Прямая практическая применимость: Очень низкая. Пользователь не может вычислить энтропию шагов или заставить модель использовать токен [SKIP] без доступа к API и дообучения модели.
  • D. Концептуальная ценность: Очень высокая. Исследование дает мощную ментальную модель для понимания процесса "мышления" LLM, объясняя, что большая часть рассуждений Chain-of-Thought (CoT) — это избыточный "шум", а не критически важные шаги.
  • E. Новая полезная практика (кластер): Работа попадает в кластеры №1 (Техники формулирования промптов), так как анализирует CoT, и №2 (Поведенческие закономерности LLM), так как выявляет фундаментальную особенность — наличие избыточных, предсказуемых шагов в рассуждениях.
  • Чек-лист практичности (+15 баллов): Да, исследование раскрывает неочевидные особенности поведения LLM, а именно, что длинная цепочка рассуждений не всегда означает качественное мышление, и большая ее часть может быть предсказуемой и избыточной.
📌

Цифровая оценка полезности

Аргументы за оценку 68: Оценка отражает баланс между огромной концептуальной ценностью и почти нулевой прямой применимостью. Исследование не дает готовых инструментов, но вооружает пользователя глубоким пониманием того, как LLM "думает". Оно учит не доверять слепо длине рассуждений как показателю качества и помогает интуитивно отличать "настоящее" мышление от "ритуальных" шагов. Это знание позволяет формулировать более сжатые и эффективные промпты, требуя от модели сути, а не формальностей.

Контраргументы (почему оценка могла быть выше): Можно было бы поставить 75-80 баллов, так как концептуальное понимание, которое дает эта работа, — одно из самых важных для продвинутого пользователя. Оно позволяет перейти от простого написания промптов к "дирижированию" мыслительным процессом модели, что в конечном счете приводит к лучшим результатам, даже если сам метод энтропии недоступен.

Контраргументы (почему оценка могла быть ниже): Можно было бы поставить 30-40 баллов, если оценивать исключительно с позиции "что я могу скопировать и вставить в чат прямо сейчас?". С этой точки зрения, работа бесполезна, так как ее основной метод требует дообучения модели и недоступен в публичных чат-ботах.


Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с