3,583 papers
arXiv:2605.13414 74 13 мая 2026 г. FREE

Принцип явного бюджетирования задач: перехват управления ресурсами у LLM

КЛЮЧЕВАЯ СУТЬ
У LLM нет счётчика усилий. Она не знает, сколько уже потратила — берётся за всё и увлекается первым попавшимся. К последней задаче не остаётся ни места, ни внимания. Принцип явного бюджетирования позволяет самому назначать порядок задач и лимиты — вместо того чтобы надеяться, что модель распределит усилия сама. Фишка: модель отлично держит жёсткие рамки — она просто не умеет решать, где их ставить. Ты решаешь это за неё — и важное гарантированно получает максимум внимания, а не то что попалось первым.
Адаптировать под запрос

TL;DR

Когда у LLM несколько задач и ограниченный ресурс — она не умеет решать, на что потратить усилия. Исследование TRIAGE проверило: может ли модель заранее — до старта работы — выбрать задачи по силам, поставить их в правильный порядок и честно распределить «бюджет» между ними? Ответ: нет, и разрыв между тем, что модели делают, и тем, что было бы оптимально, — огромный.

Главная находка: LLM систематически переоценивает свои возможности. Модель берётся за задачи, которые не решит, тратит на них ресурс — и не успевает сделать то, что было в её силах. Включение режима «думать» (reasoning mode, extended thinking) улучшает точность на отдельных задачах — но не улучшает способность модели понимать, что ей по силам. Хуже того: модели с reasoning-тренировкой ещё хуже распознают нерешаемые для них задачи.

Практический вывод: LLM не должен быть планировщиком своих собственных ресурсов — этим должен быть ты. Когда ты явно назначаешь порядок задач, лимиты на каждую и говоришь модели «это важно, это нет» — ты компенсируешь слепое пятно, которое есть у всех текущих моделей. Это не просто «лучше» — это принципиально другой класс результата.


🔬

Схема метода

Метод — не алгоритм, а принцип работы, встроенный в один промпт:

ВХОД: список из нескольких задач

ШАГ 1: Ты назначаешь порядок (важное — первым)
        → Модель выполняет в этом порядке

ШАГ 2: Ты задаёшь явный лимит на каждую задачу
        → Модель не «растекается» на лёгкое в ущерб сложному

ШАГ 3 (опционально): Просишь модель оценить реалистичность
        → Получаешь сигнал о рисках до старта, не после

Всё выполняется в рамках одного промпта.

🚀

Пример применения

Задача: Ты готовишь питч для инвестора — нужно одновременно описать продукт, сделать анализ конкурентов и прописать финансовую модель. Даёшь это ChatGPT одним запросом без структуры.

Что происходит без принципа: Модель напишет длинный красивый раздел про продукт, потом скомкает конкурентов, а на финмодель останется три строчки — или наоборот. Ты не контролируешь распределение усилий, модель тоже.

Промпт с явным бюджетированием:

Подготовь три раздела для инвестиционного питча на 500 000 ₽ раунд.

Порядок и лимиты строгие — не меняй их:

**РАЗДЕЛ 1 — Финансовая модель** [приоритет: высокий]
Объём: ровно 200 слов.
Задача: юнит-экономика, выручка через 12 месяцев, ключевые допущения.

**РАЗДЕЛ 2 — Анализ конкурентов** [приоритет: средний]
Объём: ровно 150 слов.
Задача: 3 прямых конкурента, в чём мы лучше, в чём хуже — честно.

**РАЗДЕЛ 3 — Описание продукта** [приоритет: базовый]
Объём: ровно 100 слов.
Задача: что делаем, для кого, одна ключевая боль клиента.

Перед началом: скажи в одном предложении, есть ли что-то, где тебе не хватает данных для качественного результата.
Потом сразу пиши разделы в указанном порядке.

Результат: Модель сначала даст короткую честную оценку — где информации не хватает. Потом напишет три раздела строго в твоём порядке и в пределах лимитов. Финмодель получит максимум внимания — не потому что модель сама решила это, а потому что ты поставил её первой с наибольшим лимитом. Время и «мощность» модели распределятся туда, куда нужно тебе.


🧠

Почему это работает

Слабость LLM. У модели нет «счётчика усилий» в голове. Она не знает, сколько уже потратила и сколько осталось. Когда ты просишь «сделай всё», она начинает с первого пункта, уходит вглубь — и к последнему либо торопится, либо теряет контекст. Исследование показало: модели не умеют предсказывать даже то, сколько токенов потратят на задачу — и это не улучшается с умом модели.

Сильная сторона LLM. Модель отлично следует явным структурным инструкциям. Если ты дал лимит — она его держит. Если дал порядок — она его соблюдает. Ей не нужно самой оценивать приоритеты — ей нужно их получить от тебя.

Как метод использует это. Ты берёшь на себя работу, которую модель делает плохо: решаешь, что важно, что нет, сколько места дать каждой части. Модель делает то, что умеет хорошо: генерирует качественный текст в жёстких рамках. Сочетание — точное попадание в сильную зону и обход слабой.

Рычаги управления: - Порядок задач → самое важное первым: если модель «закончит бюджет» раньше, упадёт наименее важное - Лимит словами/абзацами → чем жёстче лимит, тем плотнее и конкретнее текст - «Оцени реалистичность перед началом» → убираешь, если хочешь просто результат; добавляешь, когда задачи сложные и нужен контроль - Явные теги приоритета [приоритет: высокий] → усиливают сигнал для модели, что это важно


📋

Шаблон промпта

Выполни {число} задач. Порядок и лимиты фиксированы — не меняй их.

**ЗАДАЧА 1 — {название_1}** [приоритет: высокий]
Объём: {лимит_1}.
Суть: {что нужно сделать}.

**ЗАДАЧА 2 — {название_2}** [приоритет: средний]
Объём: {лимит_2}.
Суть: {что нужно сделать}.

**ЗАДАЧА 3 — {название_3}** [приоритет: базовый]
Объём: {лимит_3}.
Суть: {что нужно сделать}.

Перед началом: одним предложением — где тебе не хватает данных для полного ответа?
Затем сразу выполняй задачи в указанном порядке.

Что подставлять: - {число} — сколько задач (3–5 оптимально) - {название} — короткий заголовок задачи - {лимит} — «ровно 150 слов», «3 абзаца», «5 пунктов» — любой конкретный формат - {что нужно сделать} — одно предложение с конкретным результатом


🚀 Быстрый старт — вставь в чат:

Вот шаблон для работы с несколькими задачами за раз. 
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит про количество задач, их порядок важности и желаемый объём каждой — потому что именно эти параметры управляют тем, как будет распределено внимание модели.


⚠️

Ограничения

⚠️ Не для одиночных задач: Метод про управление несколькими задачами одновременно. Если задача одна — просто ставь лимит напрямую, без всей структуры.

⚠️ «Оценка реалистичности» — слабый сигнал: Модель честно скажет о нехватке данных, но не о своей неспособности решить задачу. Исследование показало: LLM систематически переоценивает себя. Воспринимай оценку как частичную подсказку, не как гарантию.

⚠️ Reasoning-режим не помогает с самооценкой: Включение «расширенного думания» (o1, Claude extended thinking) улучшает ответы на отдельные задачи — но не делает модель точнее в понимании своих ограничений. Не жди, что «более умная» модель лучше скажет тебе, что ей не по силам.

⚠️ Навыки самооценки не переносятся между областями: Модель может неплохо оценивать свои возможности в коде — и совсем плохо в аналитических текстах. Принцип явного распределения работает в любой области одинаково.


🔍

Как исследовали

Исследователи поставили перед 20 моделями — от GPT-5 до открытых Qwen и DeepSeek — задачу, которую никто раньше не измерял: дали каждой пул из 30 задач и бюджет токенов, меньший чем нужно для всех подряд. Модель должна была заранее — до того как начала решать — составить план: какие задачи брать, в каком порядке, сколько токенов выделить на каждую.

Потом план запускали в двух режимах. В первом — лимиты были «рекомендательными», модель могла превысить. Во втором — жёсткие: превысил лимит → задача не засчитана. Сравнивали результат с «оракулом» — идеальным планом, построенным с полным знанием того, что модель решит, а что нет.

Результат оказался хуже, чем предполагали. Средний показатель эффективности был близок к случайному выбору — модели почти не используют самооценку при планировании. Неожиданно: у моделей с reasoning-тренировкой (которые «думают» перед ответом) показатели по самооценке оказались хуже, а не лучше — они реже распознавали задачи, которые не смогут решить. Хорошая новость: принцип явного внешнего управления (ты задаёшь порядок и лимиты) — именно то, что компенсирует этот провал.


💡

Адаптации и экстраполяции

🔧 Техника: «Жёсткий стоп» вместо мягкого лимита

Замени «Объём: 150 слов» на «Ровно 150 слов. После 150-го слова — точка, даже если не закончил мысль». Это симулирует тот самый «жёсткий режим» из исследования — и заставляет модель быть плотнее с самого начала, а не растекаться с надеждой «может, не заметят».

🔧 Техника: Обратный порядок как стресс-тест

Если хочешь проверить, насколько важен порядок для твоей задачи — поставь самую сложную задачу последней, а лёгкую первой. Сравни с «важное первым». Разница в качестве финальных разделов покажет, насколько чувствителен твой конкретный запрос к распределению ресурсов.

🔧 Комбо с Chain-of-Thought на сложных задачах

Для задачи с высоким приоритетом добавь: [приоритет: высокий, покажи рассуждение]. Для остальных: [только результат]. Так ты явно разрешаешь модели «думать» только там, где это окупается — не тратишь контекст на объяснения к простым задачам.


🔗

Ресурсы

TRIAGE: Evaluating Prospective Metacognitive Control in LLMs under Resource Constraints

Zabir Al Nazi, Shubhashis Roy Dipta

Связанные работы из статьи: - AbstentionBench (Kirichenko et al., 2025) — как reasoning-модели хуже уходят от нерешаемых задач - SelfBudgeter (Li et al., 2025) — тренировка модели ставить себе бюджет заранее - Barkan et al. (2025) — систематическая самоуверенность frontier-моделей


📋 Дайджест исследования

Ключевая суть

У LLM нет счётчика усилий. Она не знает, сколько уже потратила — берётся за всё и увлекается первым попавшимся. К последней задаче не остаётся ни места, ни внимания. Принцип явного бюджетирования позволяет самому назначать порядок задач и лимиты — вместо того чтобы надеяться, что модель распределит усилия сама. Фишка: модель отлично держит жёсткие рамки — она просто не умеет решать, где их ставить. Ты решаешь это за неё — и важное гарантированно получает максимум внимания, а не то что попалось первым.

Принцип работы

Не пиши «сделай всё» — пиши «сначала это, потом то, вот лимиты». Модель и планировщик ресурсов — разные роли. Ты планируешь, она исполняет. Процесс простой: назначаешь порядок от важного к менее важному → ставишь лимит словами или пунктами на каждую задачу → добавляешь метку типа [приоритет: высокий] → опционально просишь сначала сказать, где не хватает данных. Всё это — в одном промпте.

Почему работает

Исследование TRIAGE проверило несколько моделей на задачах с ограниченными ресурсами и нашло системную дыру: модели не умеют предсказывать даже сколько токенов потратят на задачу. Ошибка не случайная — она систематическая. Прикол: режим глубоких рассуждений (o1, extended thinking) улучшает качество ответов — но делает модели ЕЩЁ хуже в распознавании задач, которые им не по зубам. Умнее — не значит скромнее. Зато жёсткие структурные инструкции модели выполняют точно. Значит, надо убрать у неё выбор — и оставить только исполнение.

Когда применять

Работает для любых задач, где нужно несколько результатов за один запрос — особенно когда они разного приоритета. Написать три раздела статьи с разным весом, подготовить блоки для презентации, проанализировать несколько сценариев — везде, где важное должно получить место точно, а остальное — по остатку. НЕ подходит для одиночной задачи — там просто ставь лимит напрямую, без всей конструкции.

Мини-рецепт

1. Реши порядок: самое важное — первым. Если внимание модели закончится раньше срока — упадёт последнее, не первое.
2. Назначь лимит каждой задаче: «ровно 150 слов», «5 пунктов», «2 абзаца» — любой конкретный формат. Чем жёстче — тем плотнее и конкретнее текст.
3. Добавь метки приоритета: пиши [приоритет: высокий] рядом с задачей — усиливает сигнал для модели, что это важно.
4. Опционально — попроси предварительную оценку: добавь строчку «Перед началом — одним предложением, где тебе не хватает данных?» Убирай, если нужен просто результат. Добавляй, когда задачи сложные и нужен контроль на входе.

Примеры

[ПЛОХО] : Напиши описание продукта, анализ конкурентов и финансовую модель для питча
[ХОРОШО] : Выполни три раздела для питча. Порядок и лимиты фиксированы — не меняй их. РАЗДЕЛ 1 — Финансовая модель [приоритет: высокий] Объём: ровно 200 слов. Юнит-экономика, выручка за 12 месяцев, ключевые допущения. РАЗДЕЛ 2 — Анализ конкурентов [приоритет: средний] Объём: ровно 150 слов. Три прямых конкурента, честно: где лучше, где хуже. РАЗДЕЛ 3 — Описание продукта [приоритет: базовый] Объём: ровно 100 слов. Что делаем, для кого, одна ключевая боль клиента. Перед началом — одним предложением: где тебе не хватает данных для полного ответа? Потом сразу пиши разделы в указанном порядке.
Источник: TRIAGE: Evaluating Prospective Metacognitive Control in LLMs under Resource Constraints
ArXiv ID: 2605.13414 | Сгенерировано: 2026-05-14 05:33

Проблемы LLM

ПроблемаСутьКак обойти
Модель не умеет распределять усилия между задачамиДаёшь несколько задач одним запросом. Модель уходит в первую задачу глубоко. На остальные остаётся меньше места — скомкает или потеряет контекст. Нет внутреннего «счётчика усилий». Не знает сколько уже потратила. Не знает сколько осталось. Работает для любого запроса с 3+ задачамиНазначай порядок и лимиты явно в промпте. Важное — первым. Лимит каждой задачи — словами или абзацами. Так ты берёшь управление на себя. Модель следует структуре — это она умеет хорошо
Модель берётся за задачи не по силамПросишь оценить что сделает — говорит «справлюсь». Берётся, тратит ресурс, не справляется. То, что было реально сделать — не успевает. Это систематическая переоценка, не случайная ошибка. Проявляется в любой областиВоспринимай самооценку модели как частичный сигнал. Перестраховывайся сам: ставь важные задачи первыми — если «бюджет» кончится, упадёт менее важное

Методы

МетодСуть
Явное бюджетирование задач в запросеКогда задач несколько — задай три параметра прямо в промпте: порядок (важное первым), лимит (слова, абзацы, пункты), метку приоритета ([приоритет: высокий]). Опционально: добавь в начале «скажи одним предложением — где тебе не хватает данных». Это даёт сигнал до старта. Почему работает: Модель хорошо следует явным структурным инструкциям. Плохо — сама решает, что важно. Ты делаешь то, что она не умеет. Она делает то, что умеет. Когда применять: 3+ задач в одном запросе, задачи разного веса. Не применяй: для одной задачи — там достаточно просто лимита
📖 Простыми словами

TRIAGE: Evaluating Prospective Metacognitive Control inLLMsunder Resource Constraints

arXiv: 2605.13414

Суть проблемы в том, что у нейросетей напрочь отсутствует метакогнитивный контроль. Если ты даешь модели пачку задач и ограничиваешь ресурсы, она ведет себя как исполнитель без тормозов: хватает первое попавшееся дело и вваливает в него все силы, пока не «сдохнет» или не упрется в лимит. Модели не умеют оценивать сложность работы до ее начала. Они не понимают, на что стоит тратить время, а что лучше отложить или сделать на коленке, чтобы сэкономить силы для главного. В итоге планирование ресурсов у LLM находится на уровне плинтуса.

Это как если бы ты отправил студента в магазин со списком продуктов и ровно одной тысячей рублей в кармане. Вместо того чтобы прикинуть цены и купить самое важное, он покупает килограмм элитного хамона на все деньги, а потом стоит перед полкой с хлебом и молоком с пустым кошельком. Формально он молодец, купил деликатес, но по факту — задача провалена, потому что семья осталась голодной. Модели тратят бюджет токенов на ерунду, просто потому что не умеют смотреть на шаг вперед.

Исследователи проверили это через метод TRIAGE, заставив модели выбирать задачи, расставлять приоритеты и распределять бюджет. Результаты — полный обвал. Выяснилось, что даже самые мощные модели не могут предсказать, сколько усилий потребует конкретный вопрос. Они не видят разницы между «напиши код для ракеты» и «скажи, как дела», выделяя на них ресурсы наугад. Разрыв между реальностью и планом огромен: модели не понимают своих лимитов и не умеют вовремя остановиться.

Этот принцип универсален для любой работы с AI, будь то генерация контента, программирование или сложная аналитика. Если ты закидываешь в ChatGPT огромный проект одним куском, она обязательно лажанет на финише. Она выложится на вступлении, а на выводах и проверке фактов у нее просто «закончится бензин» в контекстном окне или внимании. Тестировали это на жестких лимитах, но в жизни это проявляется как потеря нити разговора и галлюцинации в конце длинных ответов.

Короче: не надейся, что нейросеть сама поймет, где нужно поднажать, а где сэкономить. LLM не умеет в тайм-менеджмент и приоритизацию. Если хочешь адекватный результат при ограниченных ресурсах, ты сам должен быть тем менеджером, который режет задачи на куски и выдает бюджет под каждую. Пока ты не начнешь жестко контролировать «расход топлива», модель будет кормить тебя дорогим хамоном вместо полноценного обеда.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с