TL;DR
Когда у LLM несколько задач и ограниченный ресурс — она не умеет решать, на что потратить усилия. Исследование TRIAGE проверило: может ли модель заранее — до старта работы — выбрать задачи по силам, поставить их в правильный порядок и честно распределить «бюджет» между ними? Ответ: нет, и разрыв между тем, что модели делают, и тем, что было бы оптимально, — огромный.
Главная находка: LLM систематически переоценивает свои возможности. Модель берётся за задачи, которые не решит, тратит на них ресурс — и не успевает сделать то, что было в её силах. Включение режима «думать» (reasoning mode, extended thinking) улучшает точность на отдельных задачах — но не улучшает способность модели понимать, что ей по силам. Хуже того: модели с reasoning-тренировкой ещё хуже распознают нерешаемые для них задачи.
Практический вывод: LLM не должен быть планировщиком своих собственных ресурсов — этим должен быть ты. Когда ты явно назначаешь порядок задач, лимиты на каждую и говоришь модели «это важно, это нет» — ты компенсируешь слепое пятно, которое есть у всех текущих моделей. Это не просто «лучше» — это принципиально другой класс результата.
Схема метода
Метод — не алгоритм, а принцип работы, встроенный в один промпт:
ВХОД: список из нескольких задач
ШАГ 1: Ты назначаешь порядок (важное — первым)
→ Модель выполняет в этом порядке
ШАГ 2: Ты задаёшь явный лимит на каждую задачу
→ Модель не «растекается» на лёгкое в ущерб сложному
ШАГ 3 (опционально): Просишь модель оценить реалистичность
→ Получаешь сигнал о рисках до старта, не после
Всё выполняется в рамках одного промпта.
Пример применения
Задача: Ты готовишь питч для инвестора — нужно одновременно описать продукт, сделать анализ конкурентов и прописать финансовую модель. Даёшь это ChatGPT одним запросом без структуры.
Что происходит без принципа: Модель напишет длинный красивый раздел про продукт, потом скомкает конкурентов, а на финмодель останется три строчки — или наоборот. Ты не контролируешь распределение усилий, модель тоже.
Промпт с явным бюджетированием:
Подготовь три раздела для инвестиционного питча на 500 000 ₽ раунд.
Порядок и лимиты строгие — не меняй их:
**РАЗДЕЛ 1 — Финансовая модель** [приоритет: высокий]
Объём: ровно 200 слов.
Задача: юнит-экономика, выручка через 12 месяцев, ключевые допущения.
**РАЗДЕЛ 2 — Анализ конкурентов** [приоритет: средний]
Объём: ровно 150 слов.
Задача: 3 прямых конкурента, в чём мы лучше, в чём хуже — честно.
**РАЗДЕЛ 3 — Описание продукта** [приоритет: базовый]
Объём: ровно 100 слов.
Задача: что делаем, для кого, одна ключевая боль клиента.
Перед началом: скажи в одном предложении, есть ли что-то, где тебе не хватает данных для качественного результата.
Потом сразу пиши разделы в указанном порядке.
Результат: Модель сначала даст короткую честную оценку — где информации не хватает. Потом напишет три раздела строго в твоём порядке и в пределах лимитов. Финмодель получит максимум внимания — не потому что модель сама решила это, а потому что ты поставил её первой с наибольшим лимитом. Время и «мощность» модели распределятся туда, куда нужно тебе.
Почему это работает
Слабость LLM. У модели нет «счётчика усилий» в голове. Она не знает, сколько уже потратила и сколько осталось. Когда ты просишь «сделай всё», она начинает с первого пункта, уходит вглубь — и к последнему либо торопится, либо теряет контекст. Исследование показало: модели не умеют предсказывать даже то, сколько токенов потратят на задачу — и это не улучшается с умом модели.
Сильная сторона LLM. Модель отлично следует явным структурным инструкциям. Если ты дал лимит — она его держит. Если дал порядок — она его соблюдает. Ей не нужно самой оценивать приоритеты — ей нужно их получить от тебя.
Как метод использует это. Ты берёшь на себя работу, которую модель делает плохо: решаешь, что важно, что нет, сколько места дать каждой части. Модель делает то, что умеет хорошо: генерирует качественный текст в жёстких рамках. Сочетание — точное попадание в сильную зону и обход слабой.
Рычаги управления:
- Порядок задач → самое важное первым: если модель «закончит бюджет» раньше, упадёт наименее важное
- Лимит словами/абзацами → чем жёстче лимит, тем плотнее и конкретнее текст
- «Оцени реалистичность перед началом» → убираешь, если хочешь просто результат; добавляешь, когда задачи сложные и нужен контроль
- Явные теги приоритета [приоритет: высокий] → усиливают сигнал для модели, что это важно
Шаблон промпта
Выполни {число} задач. Порядок и лимиты фиксированы — не меняй их.
**ЗАДАЧА 1 — {название_1}** [приоритет: высокий]
Объём: {лимит_1}.
Суть: {что нужно сделать}.
**ЗАДАЧА 2 — {название_2}** [приоритет: средний]
Объём: {лимит_2}.
Суть: {что нужно сделать}.
**ЗАДАЧА 3 — {название_3}** [приоритет: базовый]
Объём: {лимит_3}.
Суть: {что нужно сделать}.
Перед началом: одним предложением — где тебе не хватает данных для полного ответа?
Затем сразу выполняй задачи в указанном порядке.
Что подставлять:
- {число} — сколько задач (3–5 оптимально)
- {название} — короткий заголовок задачи
- {лимит} — «ровно 150 слов», «3 абзаца», «5 пунктов» — любой конкретный формат
- {что нужно сделать} — одно предложение с конкретным результатом
🚀 Быстрый старт — вставь в чат:
Вот шаблон для работы с несколькими задачами за раз.
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит про количество задач, их порядок важности и желаемый объём каждой — потому что именно эти параметры управляют тем, как будет распределено внимание модели.
Ограничения
⚠️ Не для одиночных задач: Метод про управление несколькими задачами одновременно. Если задача одна — просто ставь лимит напрямую, без всей структуры.
⚠️ «Оценка реалистичности» — слабый сигнал: Модель честно скажет о нехватке данных, но не о своей неспособности решить задачу. Исследование показало: LLM систематически переоценивает себя. Воспринимай оценку как частичную подсказку, не как гарантию.
⚠️ Reasoning-режим не помогает с самооценкой: Включение «расширенного думания» (o1, Claude extended thinking) улучшает ответы на отдельные задачи — но не делает модель точнее в понимании своих ограничений. Не жди, что «более умная» модель лучше скажет тебе, что ей не по силам.
⚠️ Навыки самооценки не переносятся между областями: Модель может неплохо оценивать свои возможности в коде — и совсем плохо в аналитических текстах. Принцип явного распределения работает в любой области одинаково.
Как исследовали
Исследователи поставили перед 20 моделями — от GPT-5 до открытых Qwen и DeepSeek — задачу, которую никто раньше не измерял: дали каждой пул из 30 задач и бюджет токенов, меньший чем нужно для всех подряд. Модель должна была заранее — до того как начала решать — составить план: какие задачи брать, в каком порядке, сколько токенов выделить на каждую.
Потом план запускали в двух режимах. В первом — лимиты были «рекомендательными», модель могла превысить. Во втором — жёсткие: превысил лимит → задача не засчитана. Сравнивали результат с «оракулом» — идеальным планом, построенным с полным знанием того, что модель решит, а что нет.
Результат оказался хуже, чем предполагали. Средний показатель эффективности был близок к случайному выбору — модели почти не используют самооценку при планировании. Неожиданно: у моделей с reasoning-тренировкой (которые «думают» перед ответом) показатели по самооценке оказались хуже, а не лучше — они реже распознавали задачи, которые не смогут решить. Хорошая новость: принцип явного внешнего управления (ты задаёшь порядок и лимиты) — именно то, что компенсирует этот провал.
Адаптации и экстраполяции
🔧 Техника: «Жёсткий стоп» вместо мягкого лимита
Замени «Объём: 150 слов» на «Ровно 150 слов. После 150-го слова — точка, даже если не закончил мысль». Это симулирует тот самый «жёсткий режим» из исследования — и заставляет модель быть плотнее с самого начала, а не растекаться с надеждой «может, не заметят».
🔧 Техника: Обратный порядок как стресс-тест
Если хочешь проверить, насколько важен порядок для твоей задачи — поставь самую сложную задачу последней, а лёгкую первой. Сравни с «важное первым». Разница в качестве финальных разделов покажет, насколько чувствителен твой конкретный запрос к распределению ресурсов.
🔧 Комбо с Chain-of-Thought на сложных задачах
Для задачи с высоким приоритетом добавь:
[приоритет: высокий, покажи рассуждение]. Для остальных:[только результат]. Так ты явно разрешаешь модели «думать» только там, где это окупается — не тратишь контекст на объяснения к простым задачам.
Ресурсы
TRIAGE: Evaluating Prospective Metacognitive Control in LLMs under Resource Constraints
Zabir Al Nazi, Shubhashis Roy Dipta
Связанные работы из статьи: - AbstentionBench (Kirichenko et al., 2025) — как reasoning-модели хуже уходят от нерешаемых задач - SelfBudgeter (Li et al., 2025) — тренировка модели ставить себе бюджет заранее - Barkan et al. (2025) — систематическая самоуверенность frontier-моделей
