3,583 papers
arXiv:2509.20868 87 25 сент. 2025 г. FREE

StyleBench: карта эффективности стилей промптинга по задачам и моделям

КЛЮЧЕВАЯ СУТЬ
Используешь Chain-of-Thought (пошаговые рассуждения) для всего подряд — теряешь точность. Каждый стиль промптинга эффективен только для своего типа задач. StyleBench протестировал 5 стилей на 5 типах задач и 15 моделях (от малых до гигантов 70B+), чтобы дать практическую карту: где какой стиль работает лучше. Оказалось: простой CoT выигрывает на математике, Sketch-of-Thought (рассуждения с примерами) рвёт на логике, а поисковые методы Tree-of-Thought и Algorithm-of-Thought работают только на больших моделях — маленькие просто угадывают вместо системного поиска.
Адаптировать под запрос

TL;DR

Нет универсального стиля промптинга — каждый эффективен для своего типа задач. Исследование StyleBench проверило 5 стилей (Chain-of-Thought, Tree-of-Thought, Algorithm-of-Thought, Sketch-of-Thought, Chain-of-Draft) на 5 типах задач и 15 моделях от крошечных до гигантских, чтобы понять где какой стиль работает лучше.

CoT неожиданно показал лучший результат на математике GSM8K. SoT безоговорочно выиграл на логических задачах LogiQA благодаря компактным символьным рассуждениям с примерами. Поисковые методы ToT и AoT эффективны только на больших моделях (70B+) — маленькие просто угадывают ответы, не следуя сложным инструкциям. CoD оказался самым стабильным стилем на всех размерах моделей.

Исследование даёт практическую карту: для структурированных задач (математика, логика) используй простые стили CoT и SoT, для открытых головоломок — поисковые AoT и ToT (если модель большая), для скорости и экономии токенов — CoD.


📌

Схема выбора стиля

ВЫБОР СТИЛЯ ПОД ЗАДАЧУ:

1. Математические расчёты, чёткие шаги → CoT
2. Логика, анализ с примерами → SoT 
3. Поиск комбинаций + большая модель (70B+) → AoT/ToT
4. Нужна скорость и экономия токенов → CoD
5. Нужна надёжность на любой модели → CoD

Каждый стиль — это просто способ сформулировать промпт. Никакого кода не нужно.


🚀

Пример применения

Задача: Ты запускаешь онлайн-школу по SMM. Нужно посчитать, сколько учеников привлечь в первый месяц, чтобы выйти на 300 тысяч рублей чистой прибыли. Стоимость курса — 15 000₽, конверсия из заявки в покупку — 20%, стоимость привлечения одной заявки — 2 000₽.

Какой стиль использовать: Исследование показало, что для математических расчётов с чёткими шагами лучше всего работает обычный Chain-of-Thought (CoT), несмотря на его простоту.

Промпт с CoT:

Посчитай пошагово, сколько учеников нужно привлечь для выхода 
на 300 000₽ чистой прибыли:

- Стоимость курса: 15 000₽
- Конверсия из заявки в покупку: 20%
- Стоимость привлечения одной заявки: 2 000₽

Показывай каждый шаг расчёта.

Результат: Модель покажет пошаговое решение: сначала вычислит сколько учеников нужно для 300 000₽ выручки, затем учтёт конверсию 20% чтобы понять сколько заявок собрать, потом посчитает затраты на рекламу, вычтет их из выручки и проверит выходит ли на нужную чистую прибыль. Если нет — скорректирует расчёт.


🧠

Почему это работает

Слабость LLM: Модель плохо держит в голове несколько промежуточных значений одновременно. Когда задача требует нескольких математических операций подряд, модель может пропустить шаг или перепутать, что к чему относится. Это как считать сложный пример в уме — легко сбиться.

Сильная сторона LLM: Модель отлично генерирует текст по шагам — это её базовая способность. Когда каждый шаг явно записан, модель видит все промежуточные результаты и может использовать их для следующего действия. Она не держит всё в памяти, а читает то, что сама написала на предыдущем шаге.

Как CoT использует сильную сторону: Метод заставляет модель выписывать каждый шаг явно: "Шаг 1: выручка = ученики × цена", "Шаг 2: затраты = заявки × стоимость заявки". Модель строит цепочку рассуждений, где каждый следующий шаг опирается на записанный предыдущий. Это убирает нагрузку с "памяти" и переводит задачу в последовательную генерацию текста.

Рычаги управления:

  • Детализация — попроси "кратко" или "очень подробно с объяснением каждого шага"
  • Проверка — добавь "проверь расчёт, подставив результат обратно" для сложных задач
  • Скорость — для простых задач: "только ключевые шаги без промежуточных пояснений"

📋

Шаблоны промптов

📌

Для математики и расчётов (CoT)

{задача}

Реши пошагово.
📌

Для быстрого результата (CoD)

{задача}

Думай пошагово, но держи каждый шаг сжатым — максимум 5 слов. 
В конце дай ответ после разделителя ####.
📌

Для поиска комбинаций (AoT)

{задача}

Исследуй несколько подходов. Если текущий путь неправильный — 
вернись к предыдущему и попробуй другой.
📌

Для логики с примерами (SoT)

Это задача на {тип рассуждения}. 
Вот примеры решения таких задач:

{пример 1}
{пример 2}

Теперь реши:
{задача}

Что подставлять:

  • {задача} — твоя конкретная задача
  • {тип рассуждения} — для SoT: "логический вывод", "сравнение", "анализ условий"
  • {пример 1}, {пример 2} — для SoT: 1-2 похожие задачи с короткими решениями

⚠️

Ограничения

⚠️ Размер модели критичен: Поисковые методы ToT и AoT работают только на больших моделях (70B+). На маленьких моделях они не дают преимущества — модель просто угадывает вместо системного поиска.

⚠️ Форматирование ненадёжно на малых моделях: Модели до 7B часто игнорируют инструкции вроде "ответь в формате ####ответ", добавляют лишние символы или не завершают задачу. Это осложняет автоматическую обработку результатов.

⚠️ Выбор стиля требует экспертизы: Исследователи попытались обучить модель Qwen-7B автоматически выбирать стиль, но она просто запомнила паттерны обучающей выборки и стала всегда выбирать CoD. Мета-рассуждение о выборе стиля пока недоступно через обычный fine-tuning.


🔍

Как исследовали

Команда взяла 15 моделей разного размера (от крошечной Gemma 270M до гигантской GPT-OSS 120B) и прогнала каждую через 5 типов задач, используя все 5 стилей промптинга. По 500 вопросов на каждую комбинацию. Температуру поставили 0 для детерминированных результатов.

Самое интересное обнаружилось в поведении моделей разного размера. Маленькие модели (меньше 5B) практически провалились на всех стилях, кроме простейших задач. Причём дело не в том, что они исчерпывали лимит токенов — они завершали генерацию сами, просто выдавая неправильные ответы. При детальном анализе выяснилось: маленькие модели делают вид, что рассуждают (пишут "Шаг 1, Шаг 2"), но шаги не связаны логически, и модель просто угадывает ответ в конце.

Большие модели (70B+) показали качественный скачок — они действительно следовали инструкциям стилей и генерировали осмысленные рассуждения. CoT неожиданно оказался лучшим для GSM8K на всех размерах моделей, что противоречит интуиции о превосходстве сложных методов. SoT стабильно доминировал на LogiQA благодаря компактным few-shot примерам, которые эффективно использовали контекстное окно.

Попытка научить модель автоматически выбирать стиль через fine-tuning провалилась — Qwen-7B просто запомнила, что в обучающих данных часто был CoD, и начала выбирать его для любой задачи. Это показывает: для мета-рассуждения нужны более продвинутые подходы.


📄

Оригинал из исследования

Промпты из Table 1 (на английском):

CoT:

Solve the equation: 3x + 7 = 22

Let me solve this step by step...

CoD:

Solve the equation: 3x + 7 = 22

Think step by step, but only keep a minimum draft for each 
thinking step, with 5 words at most. Return the answer at 
the end of the response after a separator ####.

AoT:

Solve the equation: 3x + 7 = 22

Let me explore multiple approaches, and backtrack to the 
previous one when the current path is incorrect.

SoT:

Solve the equation: 3x + 7 = 22

This is a symbolic reasoning question. I will feed you 
with some examples to solve this type of question...

ToT:

Solve the equation: 3x + 7 = 22

I'll construct a solution tree: Root: 3x + 7 = 22. 
Branch through different solution paths and select 
the optimal approach.

Контекст: Исследователи тестировали каждый стиль на одинаковых математических задачах, чтобы понять какой даёт лучший результат.


💡

Адаптации и экстраполяции

💡 Адаптация для сложных решений: Если задача требует глубокого анализа (например, выбор между двумя стратегиями развития бизнеса), комбинируй стили:

{задача}

Шаг 1 (AoT): Исследуй разные подходы к решению. 
Для каждого подхода — плюсы и минусы.

Шаг 2 (CoT): Выбери лучший подход и распиши его пошагово.

Шаг 3: Проверь решение — что может пойти не так?

💡 Адаптация для скорости: CoD можно сделать ещё компактнее для очень простых задач:

{задача}

Ответ одним предложением. Никаких пояснений.

🔧 Техника: детализация vs скорость

  • Добавь "очень подробно" к CoT → увидишь все промежуточные шаги
  • Убери "step by step" из CoD → получишь мгновенный ответ без рассуждений

🔗

Ресурсы

StyleBench: Evaluating Thinking Styles in Large Language Models

GitHub: https://github.com/JamesJunyuGuo/Style_Bench

Авторы: Junyu Guo, Shangding Gu, Ming Jin (Virginia Tech), Costas Spanos, Javad Lavaei (University of California, Berkeley)


📋 Дайджест исследования

Ключевая суть

Используешь Chain-of-Thought (пошаговые рассуждения) для всего подряд — теряешь точность. Каждый стиль промптинга эффективен только для своего типа задач. StyleBench протестировал 5 стилей на 5 типах задач и 15 моделях (от малых до гигантов 70B+), чтобы дать практическую карту: где какой стиль работает лучше. Оказалось: простой CoT выигрывает на математике, Sketch-of-Thought (рассуждения с примерами) рвёт на логике, а поисковые методы Tree-of-Thought и Algorithm-of-Thought работают только на больших моделях — маленькие просто угадывают вместо системного поиска.

Принцип работы

Выбирай стиль как инструмент под задачу, а не используй один для всего. Математика с чёткими шагами → Chain-of-Thought (пошаговые рассуждения). Логика с анализом условий → Sketch-of-Thought (компактное представление с примерами). Поиск комбинаций на большой модели (70B+) → Tree-of-Thought или Algorithm-of-Thought. Нужна скорость и экономия токенов → Chain-of-Draft (сжатые шаги + финальный ответ). Карта показывает: CoT неожиданно лучший на математике GSM8K, SoT безоговорочно выиграл на логике LogiQA, поисковые ToT/AoT эффективны только на моделях 70B+ (маленькие не следуют сложным инструкциям), CoD самый стабильный на всех размерах.

Почему работает

Разные стили используют разные сильные стороны LLM. CoT опирается на базовую способность модели генерировать текст по шагам — модель не держит всё в голове, а читает то что сама написала на предыдущем шаге. SoT использует способность находить паттерны через примеры — модель видит 1-2 похожие задачи и копирует структуру решения. ToT/AoT требуют способности отслеживать несколько веток рассуждений одновременно — это доступно только большим моделям с развитым контекстным окном. Поэтому на маленьких моделях поисковые методы проваливаются — модель просто угадывает вместо системного перебора вариантов. CoD побеждает в стабильности потому что не требует сложного контроля — модель пишет короткие шаги (максимум 5 слов каждый) и выдаёт финальный ответ после разделителя.

Когда применять

Для задач где нужно выбрать стиль промптинга под конкретный тип работы. Математические расчёты с чёткими шагами (выручка, затраты, окупаемость) → CoT. Логические задачи с анализом условий (сравнение вариантов, вывод из посылок) → SoT с 1-2 примерами. Комбинаторные головоломки где нужен перебор (расстановка, маршруты, оптимизация) → AoT или ToT, но только если модель 70B+. Когда важна скорость и экономия токенов → CoD. НЕ подходит: автоматический выбор стиля через fine-tuning модели — исследование показало что модель просто запоминает паттерны обучающей выборки вместо реального мета-рассуждения.

Мини-рецепт

1. Определи тип задачи: математика (расчёты по формулам), логика (анализ условий, вывод), комбинаторика (перебор вариантов), или открытый вопрос.
2. Проверь размер модели: если меньше 70B параметров — используй только CoT, SoT или CoD. Поисковые методы ToT и AoT на маленьких моделях не работают.
3. Выбери стиль: для математики — Реши пошагово (CoT), для логики — добавь 1-2 примера похожих задач (SoT), для комбинаторики на большой модели — Исследуй несколько подходов. Если путь неправильный — вернись и попробуй другой (AoT).
4. Для скорости: используй CoD с инструкцией Думай пошагово, но держи каждый шаг сжатым — максимум 5 слов. В конце дай ответ после ####.
5. Тестируй: если результат плывёт — попробуй более простой стиль. Сложный стиль на маленькой модели часто хуже простого CoT.

Примеры

[ПЛОХО] : Посчитай сколько учеников привлечь для 300 тысяч прибыли. Курс 15 000₽, конверсия 20%, заявка 2 000₽ — модель может пропустить шаг или перепутать что к чему относится, держа всё в голове.
[ХОРОШО] : Посчитай пошагово, сколько учеников привлечь для 300 000₽ чистой прибыли: - Стоимость курса: 15 000₽ - Конверсия из заявки в покупку: 20% - Стоимость привлечения заявки: 2 000₽ Показывай каждый шаг расчёта (CoT) — модель выпишет Шаг 1: выручка, Шаг 2: затраты, Шаг 3: чистая прибыль, проверит результат. [ХОРОШО для логики]: Это задача на логический вывод. Вот пример: Если все A — это B, и все B — это C, то все A — это C. Теперь реши: Все маркетологи любят аналитику. Все кто любит аналитику хорош в A/B тестах. Вывод? (SoT) — модель скопирует структуру примера.
Источник: StyleBench: Evaluating thinking styles in Large Language Models
ArXiv ID: 2509.20868 | Сгенерировано: 2026-01-12 01:06

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с