TL;DR
Нет универсального стиля промптинга — каждый эффективен для своего типа задач. Исследование StyleBench проверило 5 стилей (Chain-of-Thought, Tree-of-Thought, Algorithm-of-Thought, Sketch-of-Thought, Chain-of-Draft) на 5 типах задач и 15 моделях от крошечных до гигантских, чтобы понять где какой стиль работает лучше.
CoT неожиданно показал лучший результат на математике GSM8K. SoT безоговорочно выиграл на логических задачах LogiQA благодаря компактным символьным рассуждениям с примерами. Поисковые методы ToT и AoT эффективны только на больших моделях (70B+) — маленькие просто угадывают ответы, не следуя сложным инструкциям. CoD оказался самым стабильным стилем на всех размерах моделей.
Исследование даёт практическую карту: для структурированных задач (математика, логика) используй простые стили CoT и SoT, для открытых головоломок — поисковые AoT и ToT (если модель большая), для скорости и экономии токенов — CoD.
Схема выбора стиля
ВЫБОР СТИЛЯ ПОД ЗАДАЧУ:
1. Математические расчёты, чёткие шаги → CoT
2. Логика, анализ с примерами → SoT
3. Поиск комбинаций + большая модель (70B+) → AoT/ToT
4. Нужна скорость и экономия токенов → CoD
5. Нужна надёжность на любой модели → CoD
Каждый стиль — это просто способ сформулировать промпт. Никакого кода не нужно.
Пример применения
Задача: Ты запускаешь онлайн-школу по SMM. Нужно посчитать, сколько учеников привлечь в первый месяц, чтобы выйти на 300 тысяч рублей чистой прибыли. Стоимость курса — 15 000₽, конверсия из заявки в покупку — 20%, стоимость привлечения одной заявки — 2 000₽.
Какой стиль использовать: Исследование показало, что для математических расчётов с чёткими шагами лучше всего работает обычный Chain-of-Thought (CoT), несмотря на его простоту.
Промпт с CoT:
Посчитай пошагово, сколько учеников нужно привлечь для выхода
на 300 000₽ чистой прибыли:
- Стоимость курса: 15 000₽
- Конверсия из заявки в покупку: 20%
- Стоимость привлечения одной заявки: 2 000₽
Показывай каждый шаг расчёта.
Результат: Модель покажет пошаговое решение: сначала вычислит сколько учеников нужно для 300 000₽ выручки, затем учтёт конверсию 20% чтобы понять сколько заявок собрать, потом посчитает затраты на рекламу, вычтет их из выручки и проверит выходит ли на нужную чистую прибыль. Если нет — скорректирует расчёт.
Почему это работает
Слабость LLM: Модель плохо держит в голове несколько промежуточных значений одновременно. Когда задача требует нескольких математических операций подряд, модель может пропустить шаг или перепутать, что к чему относится. Это как считать сложный пример в уме — легко сбиться.
Сильная сторона LLM: Модель отлично генерирует текст по шагам — это её базовая способность. Когда каждый шаг явно записан, модель видит все промежуточные результаты и может использовать их для следующего действия. Она не держит всё в памяти, а читает то, что сама написала на предыдущем шаге.
Как CoT использует сильную сторону: Метод заставляет модель выписывать каждый шаг явно: "Шаг 1: выручка = ученики × цена", "Шаг 2: затраты = заявки × стоимость заявки". Модель строит цепочку рассуждений, где каждый следующий шаг опирается на записанный предыдущий. Это убирает нагрузку с "памяти" и переводит задачу в последовательную генерацию текста.
Рычаги управления:
- Детализация — попроси "кратко" или "очень подробно с объяснением каждого шага"
- Проверка — добавь "проверь расчёт, подставив результат обратно" для сложных задач
- Скорость — для простых задач: "только ключевые шаги без промежуточных пояснений"
Шаблоны промптов
Для математики и расчётов (CoT)
{задача}
Реши пошагово.
Для быстрого результата (CoD)
{задача}
Думай пошагово, но держи каждый шаг сжатым — максимум 5 слов.
В конце дай ответ после разделителя ####.
Для поиска комбинаций (AoT)
{задача}
Исследуй несколько подходов. Если текущий путь неправильный —
вернись к предыдущему и попробуй другой.
Для логики с примерами (SoT)
Это задача на {тип рассуждения}.
Вот примеры решения таких задач:
{пример 1}
{пример 2}
Теперь реши:
{задача}
Что подставлять:
{задача}— твоя конкретная задача{тип рассуждения}— для SoT: "логический вывод", "сравнение", "анализ условий"{пример 1}, {пример 2}— для SoT: 1-2 похожие задачи с короткими решениями
Ограничения
⚠️ Размер модели критичен: Поисковые методы ToT и AoT работают только на больших моделях (70B+). На маленьких моделях они не дают преимущества — модель просто угадывает вместо системного поиска.
⚠️ Форматирование ненадёжно на малых моделях: Модели до 7B часто игнорируют инструкции вроде "ответь в формате ####ответ", добавляют лишние символы или не завершают задачу. Это осложняет автоматическую обработку результатов.
⚠️ Выбор стиля требует экспертизы: Исследователи попытались обучить модель Qwen-7B автоматически выбирать стиль, но она просто запомнила паттерны обучающей выборки и стала всегда выбирать CoD. Мета-рассуждение о выборе стиля пока недоступно через обычный fine-tuning.
Как исследовали
Команда взяла 15 моделей разного размера (от крошечной Gemma 270M до гигантской GPT-OSS 120B) и прогнала каждую через 5 типов задач, используя все 5 стилей промптинга. По 500 вопросов на каждую комбинацию. Температуру поставили 0 для детерминированных результатов.
Самое интересное обнаружилось в поведении моделей разного размера. Маленькие модели (меньше 5B) практически провалились на всех стилях, кроме простейших задач. Причём дело не в том, что они исчерпывали лимит токенов — они завершали генерацию сами, просто выдавая неправильные ответы. При детальном анализе выяснилось: маленькие модели делают вид, что рассуждают (пишут "Шаг 1, Шаг 2"), но шаги не связаны логически, и модель просто угадывает ответ в конце.
Большие модели (70B+) показали качественный скачок — они действительно следовали инструкциям стилей и генерировали осмысленные рассуждения. CoT неожиданно оказался лучшим для GSM8K на всех размерах моделей, что противоречит интуиции о превосходстве сложных методов. SoT стабильно доминировал на LogiQA благодаря компактным few-shot примерам, которые эффективно использовали контекстное окно.
Попытка научить модель автоматически выбирать стиль через fine-tuning провалилась — Qwen-7B просто запомнила, что в обучающих данных часто был CoD, и начала выбирать его для любой задачи. Это показывает: для мета-рассуждения нужны более продвинутые подходы.
Оригинал из исследования
Промпты из Table 1 (на английском):
CoT:
Solve the equation: 3x + 7 = 22
Let me solve this step by step...
CoD:
Solve the equation: 3x + 7 = 22
Think step by step, but only keep a minimum draft for each
thinking step, with 5 words at most. Return the answer at
the end of the response after a separator ####.
AoT:
Solve the equation: 3x + 7 = 22
Let me explore multiple approaches, and backtrack to the
previous one when the current path is incorrect.
SoT:
Solve the equation: 3x + 7 = 22
This is a symbolic reasoning question. I will feed you
with some examples to solve this type of question...
ToT:
Solve the equation: 3x + 7 = 22
I'll construct a solution tree: Root: 3x + 7 = 22.
Branch through different solution paths and select
the optimal approach.
Контекст: Исследователи тестировали каждый стиль на одинаковых математических задачах, чтобы понять какой даёт лучший результат.
Адаптации и экстраполяции
💡 Адаптация для сложных решений: Если задача требует глубокого анализа (например, выбор между двумя стратегиями развития бизнеса), комбинируй стили:
{задача}
Шаг 1 (AoT): Исследуй разные подходы к решению.
Для каждого подхода — плюсы и минусы.
Шаг 2 (CoT): Выбери лучший подход и распиши его пошагово.
Шаг 3: Проверь решение — что может пойти не так?
💡 Адаптация для скорости: CoD можно сделать ещё компактнее для очень простых задач:
{задача}
Ответ одним предложением. Никаких пояснений.
🔧 Техника: детализация vs скорость
- Добавь "очень подробно" к CoT → увидишь все промежуточные шаги
- Убери "step by step" из CoD → получишь мгновенный ответ без рассуждений
Ресурсы
StyleBench: Evaluating Thinking Styles in Large Language Models
GitHub: https://github.com/JamesJunyuGuo/Style_Bench
Авторы: Junyu Guo, Shangding Gu, Ming Jin (Virginia Tech), Costas Spanos, Javad Lavaei (University of California, Berkeley)
