TL;DR
Когда вы добавляете в промпт инструкцию «соизмеряй глубину рассуждений со сложностью задачи», модель одновременно даёт более точные ответы и тратит меньше токенов на рассуждения. Это звучит парадоксально, но именно так работает стратегия Prompt-Tuning (PT) — модель сама решает, на сколько «включать голову», вместо того чтобы думать на полную по любому поводу.
Главная находка: модели с режимами «думать / не думать» (Claude с extended thinking, ChatGPT o1/o3 vs 4o, Qwen3.5) по умолчанию либо думают всегда на полную, либо не думают вообще. Оба варианта неоптимальны: постоянное глубокое мышление тратит ресурсы и иногда «перемудряет» простые вопросы, а отключённое — роняет качество на сложных. Проблема в том, что модель сама не калибрует усилие — если её не попросить.
Решение элегантно: одна инструкция в промпте — «соизмеряй глубину размышлений со сложностью запроса» — запускает внутреннюю оценку трудности и автоматическое распределение усилий. Для кода отдельная находка: там лучше работает паттерн «попробуй быстро → если неуверен, думай глубже» (стратегия Speculative).
Схема метода
В ОДНОМ ПРОМПТЕ:
ШАГ 1: Оцени сложность задачи
→ простая / средняя / сложная
ШАГ 2: Выбери глубину рассуждений
→ пропорционально оценке из шага 1
→ простое: straight-to-the-point
→ сложное: развёрнутый анализ по шагам
ШАГ 3: Сгенерируй ответ
→ без лишних рассуждений там, где они не нужны
Для кода — отдельная схема (Speculative, два запроса):
ЗАПРОС 1: быстрый черновик решения
ЗАПРОС 2: "найди слабые места и исправь, если нужно"
→ только если в первом ответе есть сомнение
Пример применения
Задача: Паша Тарасов ведёт Телеграм-канал про инвестиции. Каждый день он задаёт Claude десятки вопросов: «когда заседание ЦБ?», «объясни разницу между офертой и погашением», «придумай структуру лонгрида про дивидендных аристократов России». Без калибровки — на каждый вопрос расходуется одинаковое время и токены. С PT — модель решает сама, когда надо думать.
Промпт:
Перед каждым ответом внутренне оцени сложность моего вопроса:
— Простой (факт, определение, короткий список): отвечай прямо,
без вводных рассуждений.
— Средний (нужен контекст или сравнение): дай структурированный
ответ с кратким обоснованием.
— Сложный (стратегия, анализ, нестандартная ситуация): думай
развёрнуто, показывай шаги рассуждения.
Не трать усилия на очевидные вопросы. Не срезай углы на сложных.
Мой вопрос: [вопрос]
Результат: На «когда заседание ЦБ?» модель выдаст короткий ответ без лишних слов. На «объясни разницу между офертой и погашением» — структурированный абзац с примером. На «придумай структуру лонгрида» — развёрнутый план с обоснованием логики. Каждый ответ будет соответствовать размеру задачи, а не единому шаблону «думать всегда на полную».
Почему это работает
Слабость LLM: у моделей нет встроенного «счётчика необходимых усилий». Без явной инструкции они либо генерируют пространный Chain-of-Thought (расширенные рассуждения) на любой вопрос, либо отвечают прямо без анализа — в зависимости от настроек. Оба режима по умолчанию тупые: один тратит ресурсы на простые вопросы, второй ошибается на сложных.
Сильная сторона LLM: модели хорошо оценивают сложность текста, если их попросить. Это оценочное суждение — то, что они делают хорошо. Добавив инструкцию «оцени сложность и выбери глубину», вы задействуете эту способность до генерации ответа.
Механика: инструкция по калибровке создаёт промежуточный шаг — оценку трудности — перед основным ответом. Модель следует этому паттерну и распределяет «рассуждения» пропорционально. Исследование показало, что это единственная стратегия, дающая одновременно прирост точности и сокращение токенов — остальные улучшают одно за счёт другого.
Рычаги управления:
| Что менять | Эффект |
|---|---|
| Добавить конкретные критерии «сложного» вопроса | Модель точнее калибрует для вашей области |
| Убрать градацию, оставить бинарное «коротко / развёрнуто» | Проще, работает для большинства задач |
| Для кода: добавить второй запрос «найди слабые места» | Активирует Speculative-паттерн — лучше для кода |
| Указать домен явно («я спрашиваю про инвестиции») | Ещё точнее оценка сложности вопроса |
Шаблон промпта
Оценивай сложность каждого моего запроса по шкале:
Простой — факт, определение, очевидный ответ:
→ отвечай коротко и прямо, без вводных рассуждений
Средний — нужен контекст, сравнение или пояснение:
→ дай структурированный ответ с кратким обоснованием
Сложный — стратегия, анализ, противоречивые факторы:
→ показывай шаги рассуждения, не пропускай важные детали
Правило: не перемудряй простое, не упрощай сложное.
{задача}
Плейсхолдеры:
- {задача} — ваш вопрос или задание
🚀 Быстрый старт — вставь в чат:
Вот шаблон PT-стратегии для калибровки глубины рассуждений.
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит про вашу область и типичные запросы — потому что критерии «сложного» вопроса отличаются в юриспруденции и маркетинге. Она возьмёт паттерн из шаблона и добавит конкретные примеры для вашего контекста.
Ограничения
⚠️ Маленькие модели: на моделях класса 2B PT не работает — все три стратегии показывают одинаковый результат. Эффект заметен от ~9B параметров.
⚠️ Код — особый случай: для написания и отладки кода стратегия Speculative («попробуй → проверь → углубись») даёт лучшую точность, чем PT. Используйте двухшаговый подход: сначала черновик, потом явный запрос на поиск слабых мест.
⚠️ Очень большие модели: на моделях класса 671B (DeepSeek-V3.1) Speculative обгоняет PT по точности. Если используете мощную модель для сложных задач — PT может быть не оптимальным выбором.
⚠️ Без явного переключателя: исследование работало с моделями, имеющими встроенный
think/no_thinkрежим. Для моделей без явного переключателя эффект будет меньше — инструкция всё равно помогает, но не так радикально.
⚠️ Эффективность зависит от обучения: самый мощный вариант PT требует дообучения (GRPO/SFT). В чате без дообучения получаете «Training-Free» версию — она тоже работает, но скромнее.
Ресурсы
HRBench: Benchmarking and Understanding Thinking-Mode Switch Strategies in Hybrid-Reasoning LLMs GitHub: https://github.com/usail-hkust/HRBench
Авторы: Yansong Ning, Mianpeng Liu, Jingwen Ye, Weidong Zhang, Hao Liu Организации: The Hong Kong University of Science and Technology (Guangzhou), Tencent
Связанные методы из исследования: S1, TALE, AdaptThink, MixReasoning, Chain-of-Draft (CoD), Sketch-of-Thought (SoT)
