3,583 papers
arXiv:2605.28398 76 27 мая 2026 г. FREE

HRBench: как сказать модели «не думай слишком много» — и она ответит точнее

КЛЮЧЕВАЯ СУТЬ
Парадокс: одна инструкция делает ответы точнее и дешевле одновременно. Обычно между этим приходится выбирать — больше точности стоит токенов, экономия токенов роняет качество. PT-стратегия позволяет моделям с режимом глубокого анализа (Claude extended thinking, ChatGPT o1/o3, Qwen3) автоматически выбирать нужную глубину под каждый конкретный вопрос. Фишка: добавляешь в промпт строчку «соизмеряй глубину размышлений со сложностью запроса» — и модель сама решает, когда думать развёрнуто, а когда отвечать прямо. Единственная из четырёх изученных стратегий, которая улучшает сразу два показателя.
Адаптировать под запрос

TL;DR

Когда вы добавляете в промпт инструкцию «соизмеряй глубину рассуждений со сложностью задачи», модель одновременно даёт более точные ответы и тратит меньше токенов на рассуждения. Это звучит парадоксально, но именно так работает стратегия Prompt-Tuning (PT) — модель сама решает, на сколько «включать голову», вместо того чтобы думать на полную по любому поводу.

Главная находка: модели с режимами «думать / не думать» (Claude с extended thinking, ChatGPT o1/o3 vs 4o, Qwen3.5) по умолчанию либо думают всегда на полную, либо не думают вообще. Оба варианта неоптимальны: постоянное глубокое мышление тратит ресурсы и иногда «перемудряет» простые вопросы, а отключённое — роняет качество на сложных. Проблема в том, что модель сама не калибрует усилие — если её не попросить.

Решение элегантно: одна инструкция в промпте — «соизмеряй глубину размышлений со сложностью запроса» — запускает внутреннюю оценку трудности и автоматическое распределение усилий. Для кода отдельная находка: там лучше работает паттерн «попробуй быстро → если неуверен, думай глубже» (стратегия Speculative).


🔬

Схема метода

В ОДНОМ ПРОМПТЕ:

ШАГ 1: Оцени сложность задачи
        → простая / средняя / сложная

ШАГ 2: Выбери глубину рассуждений
        → пропорционально оценке из шага 1
        → простое: straight-to-the-point
        → сложное: развёрнутый анализ по шагам

ШАГ 3: Сгенерируй ответ
        → без лишних рассуждений там, где они не нужны

Для кода — отдельная схема (Speculative, два запроса):
ЗАПРОС 1: быстрый черновик решения
ЗАПРОС 2: "найди слабые места и исправь, если нужно"
          → только если в первом ответе есть сомнение

🚀

Пример применения

Задача: Паша Тарасов ведёт Телеграм-канал про инвестиции. Каждый день он задаёт Claude десятки вопросов: «когда заседание ЦБ?», «объясни разницу между офертой и погашением», «придумай структуру лонгрида про дивидендных аристократов России». Без калибровки — на каждый вопрос расходуется одинаковое время и токены. С PT — модель решает сама, когда надо думать.

Промпт:

Перед каждым ответом внутренне оцени сложность моего вопроса:

— Простой (факт, определение, короткий список): отвечай прямо, 
  без вводных рассуждений.

— Средний (нужен контекст или сравнение): дай структурированный 
  ответ с кратким обоснованием.

— Сложный (стратегия, анализ, нестандартная ситуация): думай 
  развёрнуто, показывай шаги рассуждения.

Не трать усилия на очевидные вопросы. Не срезай углы на сложных.

Мой вопрос: [вопрос]

Результат: На «когда заседание ЦБ?» модель выдаст короткий ответ без лишних слов. На «объясни разницу между офертой и погашением» — структурированный абзац с примером. На «придумай структуру лонгрида» — развёрнутый план с обоснованием логики. Каждый ответ будет соответствовать размеру задачи, а не единому шаблону «думать всегда на полную».


🧠

Почему это работает

Слабость LLM: у моделей нет встроенного «счётчика необходимых усилий». Без явной инструкции они либо генерируют пространный Chain-of-Thought (расширенные рассуждения) на любой вопрос, либо отвечают прямо без анализа — в зависимости от настроек. Оба режима по умолчанию тупые: один тратит ресурсы на простые вопросы, второй ошибается на сложных.

Сильная сторона LLM: модели хорошо оценивают сложность текста, если их попросить. Это оценочное суждение — то, что они делают хорошо. Добавив инструкцию «оцени сложность и выбери глубину», вы задействуете эту способность до генерации ответа.

Механика: инструкция по калибровке создаёт промежуточный шаг — оценку трудности — перед основным ответом. Модель следует этому паттерну и распределяет «рассуждения» пропорционально. Исследование показало, что это единственная стратегия, дающая одновременно прирост точности и сокращение токенов — остальные улучшают одно за счёт другого.

Рычаги управления:

Что менять Эффект
Добавить конкретные критерии «сложного» вопроса Модель точнее калибрует для вашей области
Убрать градацию, оставить бинарное «коротко / развёрнуто» Проще, работает для большинства задач
Для кода: добавить второй запрос «найди слабые места» Активирует Speculative-паттерн — лучше для кода
Указать домен явно («я спрашиваю про инвестиции») Ещё точнее оценка сложности вопроса

📋

Шаблон промпта

Оценивай сложность каждого моего запроса по шкале:

Простой — факт, определение, очевидный ответ:
→ отвечай коротко и прямо, без вводных рассуждений

Средний — нужен контекст, сравнение или пояснение:
→ дай структурированный ответ с кратким обоснованием

Сложный — стратегия, анализ, противоречивые факторы:
→ показывай шаги рассуждения, не пропускай важные детали

Правило: не перемудряй простое, не упрощай сложное.

{задача}

Плейсхолдеры: - {задача} — ваш вопрос или задание


🚀 Быстрый старт — вставь в чат:

Вот шаблон PT-стратегии для калибровки глубины рассуждений. 
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит про вашу область и типичные запросы — потому что критерии «сложного» вопроса отличаются в юриспруденции и маркетинге. Она возьмёт паттерн из шаблона и добавит конкретные примеры для вашего контекста.


⚠️

Ограничения

⚠️ Маленькие модели: на моделях класса 2B PT не работает — все три стратегии показывают одинаковый результат. Эффект заметен от ~9B параметров.

⚠️ Код — особый случай: для написания и отладки кода стратегия Speculative («попробуй → проверь → углубись») даёт лучшую точность, чем PT. Используйте двухшаговый подход: сначала черновик, потом явный запрос на поиск слабых мест.

⚠️ Очень большие модели: на моделях класса 671B (DeepSeek-V3.1) Speculative обгоняет PT по точности. Если используете мощную модель для сложных задач — PT может быть не оптимальным выбором.

⚠️ Без явного переключателя: исследование работало с моделями, имеющими встроенный think/no_think режим. Для моделей без явного переключателя эффект будет меньше — инструкция всё равно помогает, но не так радикально.

⚠️ Эффективность зависит от обучения: самый мощный вариант PT требует дообучения (GRPO/SFT). В чате без дообучения получаете «Training-Free» версию — она тоже работает, но скромнее.


🔗

Ресурсы

HRBench: Benchmarking and Understanding Thinking-Mode Switch Strategies in Hybrid-Reasoning LLMs GitHub: https://github.com/usail-hkust/HRBench

Авторы: Yansong Ning, Mianpeng Liu, Jingwen Ye, Weidong Zhang, Hao Liu Организации: The Hong Kong University of Science and Technology (Guangzhou), Tencent

Связанные методы из исследования: S1, TALE, AdaptThink, MixReasoning, Chain-of-Draft (CoD), Sketch-of-Thought (SoT)


📋 Дайджест исследования

Ключевая суть

Парадокс: одна инструкция делает ответы точнее и дешевле одновременно. Обычно между этим приходится выбирать — больше точности стоит токенов, экономия токенов роняет качество. PT-стратегия позволяет моделям с режимом глубокого анализа (Claude extended thinking, ChatGPT o1/o3, Qwen3) автоматически выбирать нужную глубину под каждый конкретный вопрос. Фишка: добавляешь в промпт строчку «соизмеряй глубину размышлений со сложностью запроса» — и модель сама решает, когда думать развёрнуто, а когда отвечать прямо. Единственная из четырёх изученных стратегий, которая улучшает сразу два показателя.

Принцип работы

По умолчанию модели не умеют дозировать усилия. Без инструкции работает один из двух режимов: думать на полную по любому поводу — или отвечать сразу без анализа. Оба тупят: первый палит токены на «когда заседание ЦБ?», второй режет углы на сложном стратегическом вопросе. Инструкция калибровки вставляет промежуточный шаг: сначала оцени сложность, потом отвечай. Модели хорошо оценивают сложность текста — если их об этом попросить. Это их сильная сторона. Добавив один шаг «оцени трудность» до генерации ответа, запускаешь эту способность как фильтр перед основным ответом.

Почему работает

У LLM нет встроенного счётчика необходимых усилий. Это не баг — это просто то, что не было заложено. Без явной инструкции модель не знает: этот вопрос требует двух предложений или двух страниц рассуждений? Оценка сложности — как раз то, что модели делают уверенно. Инструкция просто ставит эту оценку перед ответом, а не после. Исследование проверило четыре стратегии управления режимами мышления на пяти датасетах. PT — единственная, которая одновременно повышает точность и сокращает токены на рассуждения. Остальные три тянут вверх по одному показателю за счёт другого.

Когда применять

Смешанный поток задач: когда в течение дня приходят и простые вопросы (факты, определения, короткие справки), и сложные (анализ, стратегия, противоречивые факторы) — особенно когда они идут вперемешку и нет желания переключать режим вручную. Лучше всего работает с моделями с явным переключателем режимов: Claude (extended thinking), ChatGPT o1/o3 против 4o, Qwen3. На моделях без такого переключателя эффект есть, но скромнее. Для кода — другой паттерн: «попробуй быстро → если неуверен, углубись». Двухшаговый подход (черновик, затем отдельный запрос на поиск слабых мест) эффективнее PT на задачах программирования. НЕ подходит для: маленьких моделей (до ~9B параметров — эффект нулевой, все стратегии дают одинаковый результат); очень мощных моделей (671B+ класса DeepSeek-V3.1) на сложных задачах — там двухшаговый Speculative-паттерн выигрывает.

Мини-рецепт

1. Добавь три уровня в начало промпта: простой (факт, определение, очевидный ответ) — коротко и прямо; средний (нужен контекст или сравнение) — структурированный ответ с кратким обоснованием; сложный (стратегия, анализ, противоречивые факторы) — шаги рассуждения, без пропусков.

2. Уточни критерии под свою область: «сложный» вопрос в юриспруденции и маркетинге — разные вещи. Добавь одно-два конкретных примера что считать простым и что сложным в твоём контексте.

3. Для кода — отдельный шаблон: сначала быстрый черновик решения, потом отдельный запрос «найди слабые места и исправь, если нужно». Не объединяй в один промпт — двухшаговый подход работает лучше.

Примеры

[ПЛОХО] : Помоги мне разобраться с контент-планом для канала про инвестиции
[ХОРОШО] : Оценивай сложность каждого моего вопроса перед ответом: — Простой (факт, дата, определение): отвечай коротко, без вводных рассуждений — Средний (нужен контекст или сравнение): структурированный ответ с кратким пояснением — Сложный (стратегия, анализ, противоречивые факторы): показывай шаги рассуждения, не срезай углы Правило: не перемудряй простое, не упрощай сложное. Я веду канал про инвестиции — вопросы будут от «когда заседание ЦБ?» до «как выстроить контент-стратегию на квартал». Первый вопрос: помоги мне разобраться с контент-планом для канала
Источник: HRBench: Benchmarking and Understanding Thinking-Mode Switch Strategies in Hybrid-Reasoning LLMs
ArXiv ID: 2605.28398 | Сгенерировано: 2026-05-28 07:28

Проблемы LLM

ПроблемаСутьКак обойти
Модель не регулирует усилие сама — тратит одинаково на всёБез явной инструкции модель выбирает один режим и держится его. Либо разворачивает цепочку рассуждений на каждый вопрос — включая очевидные. Либо отвечает сразу везде — включая сложные. Переключения по смыслу задачи не происходит. Ресурсы тратятся нерационально, качество на сложных задачах падаетДобавь в промпт явную инструкцию: "оцени сложность, выбери глубину рассуждений соразмерно". Это включает промежуточный шаг оценки перед ответом

Методы

МетодСуть
Калибровка глубины рассуждений — точнее и короче одновременноДобавь в системный промпт шкалу сложности с правилами. Три уровня: простой (факт, определение) отвечай прямо без вводных рассуждений; средний (нужен контекст) структурированный ответ с кратким обоснованием; сложный (стратегия, анализ) показывай шаги, не пропускай детали. Правило: не перемудряй простое, не упрощай сложное. Почему работает: инструкция создаёт шаг оценки до генерации. Модель хорошо оценивает сложность текста — но только если попросить. Без инструкции этого шага нет. Когда применять: смешанный поток задач разной сложности. Работает от ~9B параметров. Когда не работает: маленькие модели (2B), задачи по написанию кода — там лучше другой подход
Два шага для кода — черновик, потом критикаШаг 1: попроси быстрое решение. Шаг 2: отдельным запросом — найди слабые места и исправь, если нужно. Второй шаг включает глубокое обдумывание только там, где первый ответ неуверен. Почему работает: модель не тратит усилия на заведомо правильное решение. Но не срезает углы там, где нужна проверка. Когда применять: написание и отладка кода. Также полезно на мощных моделях (от ~671B параметров) для сложных задач — там этот подход точнее одношагового
📖 Простыми словами

HRBench: Benchmarking and Understanding Thinking-Mode Switch Strategies in Hybrid-ReasoningLLMs

arXiv: 2605.28398

Современные LLM страдают от отсутствия «внутреннего тормоза»: они либо палят из пушки по воробьям, расписывая целые простыни рассуждений на вопрос «сколько будет дважды два», либо пытаются решить квантовую физику с наскока, выдавая быстрый, но неверный ответ. Фундаментальная проблема в том, что у моделей нет встроенного чувства сложности. Исследование HRBench доказывает, что гибридное мышление — это не про мощность процессора, а про умение вовремя переключать передачи. Если не заставить модель калибровать усилия, она будет либо транжирить токены впустую, либо лажать там, где нужно было просто чуть дольше подумать.

Это как если бы ты нанял профессора математики помогать сыну с домашкой, а тот начал бы выводить теоремы из области высшей топологии, чтобы объяснить, почему в задаче получилось три яблока. Вроде и умный мужик, но КПД нулевой. Или наоборот: опытный хирург пытается провести операцию на сердце, руководствуясь только интуицией, потому что ему лень сверяться с приборами. В обоих случаях результат — полный провал, либо по деньгам, либо по качеству.

Решение оказалось до смешного простым — метод Prompt-Tuning (PT). Вместо того чтобы жестко прописывать «думай всегда» или «отвечай сразу», модели дают инструкцию: «соизмеряй глубину рассуждений со сложностью задачи». Это работает как тумблер, который модель крутит сама. В итоге на простых вопросах она экономит кучу ресурсов, а на сложных — включает режим Chain-of-Thought на полную катушку. Цифры подтверждают: точность растет, а средний расход токенов падает, потому что модель перестает жевать сопли там, где ответ очевиден.

Хотя тестировали это на HR-задачах и логических тестах, принцип универсален. Это касается любого использования AI в работе: от написания кода до анализа рынка. Если ты просишь Claude или GPT составить план статьи, ей не нужно тратить пять минут на «размышления» о структуре, но если ты просишь найти баг в сложной архитектуре — без глубокого анализа она выдаст галлюцинацию. Стратегия адаптивного переключения превращает нейронку из дорогой игрушки в эффективный инструмент, который знает цену своим «мыслям».

Короче, эпоха бездумного промптинга заканчивается. Главный вывод: хватит надеяться, что модель сама поймет, когда ей нужно напрячься. Нужно явно внедрять стратегии переключения режимов, чтобы не платить за лишние рассуждения и не получать мусор на выходе. Либо ты учишь модель экономить свои деньги и время, либо она продолжает имитировать бурную деятельность там, где это нафиг не нужно. Кто первым внедрит такую калибровку в свои пайплайны, тот получит самый быстрый и дешевый AI на рынке.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с