arXiv:2603.26329 71 27 мар. 2026 г. FREE

Stage-Aware Scaffold: почему LLM не справляется со сложными задачами — и как это исправить структурой

КЛЮЧЕВАЯ СУТЬ

Парадокс: чем сложнее задача — тем меньше люди итерируют. Ждут готового ответа с первого промпта. Когда он не работает — бросают или переформулируют хаотично. Scaffold (структурная рамка) позволяет получить конкретный результат на сложных задачах — стратегиях, планах, техзаданиях — не через правки после, а через подготовку до. Фишка: заполняя 4 слоя структуры (контекст, ограничения, логика, критерии), ты сам проясняешь задачу — и только потом делегируешь генерацию. Модель перестаёт угадывать «среднее по больнице» — результат под твою ситуацию, а не для абстрактного усреднённого человека.

Адаптировать под запрос

⚡

TL;DR

Когда просишь LLM написать что-то сложное и получаешь мусор — причина не в модели. Исследователи систематически разобрали, какими шестью способами люди ломают свои промпты. Главная находка: большинство пользователей относятся к LLM как к кнопке "сгенерируй готовое решение" — особенно на сложных задачах. Именно это и убивает результат.

Для простых текстовых задач люди хотя бы иногда уточняют и итерируют. Но как только задача становится сложнее — структурный документ, техническое задание, детальный план — люди парадоксально итерируют меньше, не больше. Ждут готового ответа с первого промпта. И когда он не работает — бросают или переформулируют хаотично, не понимая что именно не так.

Решение — заставить себя заполнить 4 слоя контекста до того как начать генерацию: ситуация и среда → ограничения и требования → логика выполнения → критерии успеха. Это называют "stage-aware scaffold" — пошаговая рамка, которая переводит размытый запрос в структурированное техзадание для модели.

🔬

Схема метода

Один промпт, 4 обязательных блока (заполняешь последовательно перед финальным запросом):

СЛОЙ 1: Контекст и среда → кто, что, в каких условиях
СЛОЙ 2: Ограничения и требования → что нельзя, что обязательно, рамки
СЛОЙ 3: Логика и шаги → что должно происходить по порядку
СЛОЙ 4: Критерии успеха → как выглядит хороший результат
         ↓
ФИНАЛЬНЫЙ ЗАПРОС: Сгенерируй {сложный артефакт}

Все четыре слоя — в одном промпте. Итерация идёт внутри заполнения слоёв, не после.

🚀

Пример применения

Задача: Ты владелец небольшого бренда одежды и хочешь попросить Claude написать стратегию выхода на Wildberries. Раньше ты писал: "Напиши стратегию продвижения одежды на Wildberries" — и получал общую воду на 5 абзацев.

Промпт:

Мне нужна стратегия выхода на Wildberries для бренда женской одежды.

**Контекст и среда:**
- Бренд: базовая одежда оверсайз, ЦА — женщины 25–35 лет
- Уже есть Instagram с 8 000 подписчиков, своя небольшая база клиентов
- Бюджет на старт: 150 000 рублей
- Производство в России, отшив занимает 3 недели

**Ограничения и требования:**
- Нет возможности хранить товар на складе WB больше 2 месяцев
- Нельзя продавать ниже 2 500 рублей за единицу (себестоимость + маржа)
- Стараемся избегать агрессивных скидок — не хотим обесценивать бренд

**Логика и шаги:**
- Сначала нужно понять: с чего начинать технически (регистрация, документы)
- Потом: как отбирать первые SKU для теста
- Потом: как настроить карточки и SEO на WB
- Потом: что делать в первые 30 дней для набора рейтинга

**Критерии успеха:**
- Стратегия рабочая, если через 3 месяца выходим в плюс от продаж
- Хороший результат — 50+ заказов в месяц без полного слива бюджета на рекламу

Напиши пошаговую стратегию выхода, учитывая все эти параметры.

Результат: Модель выдаст конкретный план с реальными шагами, а не абстрактные советы. Ты увидишь: приоритизацию SKU по логике (а не "начните с популярных товаров"), конкретные действия под твой бюджет, рекомендации по карточкам с учётом ценового сегмента. Главное — советы не будут противоречить твоим ограничениям, которые ты обозначил.

🧠

Почему это работает

LLM не знает что для тебя важно, пока ты не скажешь. Когда пишешь короткий запрос — модель заполняет пробелы сама, выбирая самые "среднепотолочные" допущения. Результат подходит для гипотетического среднего человека, но не для твоей конкретной ситуации.

При этом LLM хорошо умеет следовать явным структурам. Если ты задал рамку — контекст, ограничения, логику, критерии — модель работает внутри этой рамки. Исчезают "универсальные советы", появляются специфичные решения.

Ключевой рычаг — заполнение слоёв до генерации, а не правки после. Большинство людей делают наоборот: пишут короткий промпт → получают общий ответ → начинают уточнять хаотично. Scaffold переворачивает порядок: сначала думаешь сам, потом просишь модель. Это и есть причина, почему метод работает — ты сам проясняешь задачу через заполнение слоёв, прежде чем делегировать генерацию.

Рычаги управления: - Слой 4 (критерии успеха) — самый недооценённый. Чем конкретнее формулируешь "хороший результат", тем точнее модель старается попасть в него. Добавь количественные метрики если есть. - Слой 2 (ограничения) — перечисляй явно что нельзя, не только что нужно. "Не использовать X" работает лучше чем подразумевать это. - Если задача итерационная — сначала заполни слои, потом попроси модель уточнить их перед генерацией.

📋

Шаблон промпта

Мне нужно: {что сделать — конкретный артефакт}

**Контекст и среда:**
- {кто ты / что за проект / кто аудитория}
- {ресурсы и возможности}
- {технические или организационные условия}

**Ограничения и требования:**
- {что нельзя делать}
- {что обязательно должно быть}
- {рамки по бюджету, времени, формату}

**Логика и последовательность:**
- {шаг 1 — что нужно разобрать сначала}
- {шаг 2 — что следует за ним}
- {шаг 3 — финальный этап}

**Критерии успеха:**
- {как выглядит хороший результат — конкретно}
- {что значит "не то" — чего хочешь избежать}

{Финальный запрос}: сгенерируй {артефакт}, учитывая всё выше.

Что подставлять: - {что сделать} — конкретно: "стратегию", "скрипт для звонка", "структуру курса", "план запуска" - Слои заполняй своими словами, не бойся писать много — это и есть суть метода - {критерии успеха} — лучше с числами или конкретными примерами

🚀 Быстрый старт — вставь в чат:

Помоги мне заполнить stage-aware scaffold для моей задачи: {твоя задача}.
Задавай вопросы по каждому слою (контекст, ограничения, логика, критерии),
чтобы мы вместе заполнили шаблон перед генерацией.

[вставить шаблон выше]

LLM будет задавать вопросы по каждому слою — потому что без ответов на них она не сможет заполнить рамку правильно. Это не лишний шаг, это и есть механика метода: ты думаешь о задаче глубже, прежде чем делегировать генерацию.

⚠️

Ограничения

⚠️ Простые задачи: Для коротких, однозначных запросов ("переведи этот текст", "объясни термин") scaffold избыточен. Метод для сложных многоступенчатых задач с неочевидными ограничениями.

⚠️ Требует честности с собой: Scaffold работает, если ты действительно знаешь свои ограничения и критерии. Если сам не понимаешь что нужно — заполнение слоёв покажет это, и это полезно, но нужно быть готов сначала разобраться в задаче.

⚠️ Не замена итерации: Scaffold снижает число итераций, но не устраняет их. Первый результат всё равно может потребовать 1–2 правки — просто они будут осмысленными, а не хаотичными.

🔍

Как исследовали

Команда из Нанкинского университета работала в двух фазах. Сначала — 15 студентов курса по тестированию ПО, которым дали полную свободу использовать LLM без каких-либо инструкций по промптингу. Исследователи собирали все промпты, итерации, ошибки и артефакты. Параллельно — опрос 337 студентов из нескольких университетов, участников национального соревнования по тестированию. Это дало картину и "в глубину" (что именно происходит в каждом взаимодействии), и "в ширину" (насколько паттерны универсальны).

Интересная деталь дизайна: студентов специально не учили промптингу перед наблюдением. Цель — увидеть естественное поведение, а не обученное. Это важно: выводы отражают то, как люди используют LLM "по умолчанию", без подготовки.

Самый контринтуитивный результат: на сложных задачах (генерация скриптов/кода) студенты итерировали меньше, чем на простых текстовых задачах. Казалось бы, должно быть наоборот — сложнее значит больше правок. Но нет: сложность задачи порождала пассивность. Студенты либо ожидали идеального результата с первого раза, либо сдавались. На это парадоксальное поведение и был направлен scaffold во второй фазе.

Вторая фаза — практическое занятие с шаблоном. Исследователи не мерили "правильность кода" до/после, а сравнивали типы ошибок: какие исчезли, какие остались. После введения scaffold пропали целые классы проблем, связанные с отсутствием контекста среды — студенты стали явно прописывать то, что раньше подразумевали молча.

💡

Адаптации и экстраполяции

1. Scaffold как диагностика перед итерацией

Если получил плохой ответ от LLM — не переформулируй наугад. Пройди по четырём слоям и найди что пропустил:

🔧 Техника: аудит промпта через слои → точечное уточнение

"Посмотри на мой предыдущий промпт и скажи: какой из четырёх слоёв (контекст, ограничения, логика, критерии успеха) был заполнен хуже всего? Что мне нужно добавить?"

Модель укажет на слабое место — и следующая итерация будет целевой, а не случайной.

2. Scaffold для нетехнических задач

Принцип экстраполируется на любой сложный документ. Питч для инвестора, программа тренинга, сценарий вебинара — везде работают те же четыре слоя. Разница только в том, что "критерии успеха" меняются: для питча это "инвестор задаёт вопросы", для тренинга это "участник уходит с готовым инструментом".

🔗

Ресурсы

Название работы: Large Language Models for Software Testing Education: an Experience Report

Конференция: FSE SEET '26 (Foundations of Software Engineering, Software Engineering Education Track), Montreal, 2026

Авторы: Peng Yang (South China Normal University, Guangzhou Polytechnic University), Yunfeng Zhu, Shengcheng Yu, Zhenyu Chen (Nanjing University / Mooctest Inc.), Chao Chang, Yong Tang (South China Normal University)

Дополнительные материалы: https://anonymous.4open.science/r/B79E/README.md — протоколы, примеры промптов, приложение

📋 Дайджест исследования

Ключевая суть

Принцип работы

Не пиши короткий запрос и не жди готового. Сначала принудительно заполни рамку из четырёх слоёв: контекст и среда → ограничения (что нельзя, не только что нужно) → логика и шаги → критерии успеха. Потом — финальный запрос одной строкой. Это переворачивает стандартный порядок: обычно думает модель, теперь — сначала думаешь ты. Итерация идёт не после провальной генерации, а внутри заполнения слоёв.

Почему работает

LLM не знает что для тебя важно, пока ты не скажешь. Короткий запрос — модель заполняет пробелы сама, выбирает самые «среднепотолочные» допущения. Советы получаются универсальные, но не твои. Scaffold убирает пробелы до генерации — модель работает внутри явной рамки, а не строит её сама. Самый недооценённый слой — критерии успеха: чем конкретнее формулируешь «хороший результат», тем точнее модель в него попадает. Слой с ограничениями тоже бьёт сильнее чем кажется — явное «нельзя X» работает лучше, чем подразумевать это молча.

Когда применять

Сложные многошаговые задачи → стратегия, план запуска, структура курса, техзадание, скрипт переговоров — особенно когда есть реальные ограничения по бюджету, срокам или формату. НЕ подходит для простых однозначных запросов («переведи текст», «объясни термин») — там структурная рамка избыточна и только замедляет.

Мини-рецепт

1. Назови артефакт: Скажи точно что хочешь — «стратегию», «скрипт для звонка», «план на 30 дней». Не «помоги с задачей».
2. Заполни контекст: Кто ты, что за проект, кто аудитория, какие ресурсы. Чем конкретнее — тем лучше.
3. Перечисли ограничения: Явно напиши что нельзя, не только что нужно. «Не использовать X» работает точнее, чем подразумевать.
4. Пропиши логику: Что должно идти сначала, что потом. Дай модели порядок — не заставляй её угадывать структуру.
5. Дай критерии успеха: Как выглядит хороший результат — конкретно, лучше с числами. Что значит «не то» — тоже напиши.
6. Финальный запрос: Только после слоёв, одной строкой — «сгенерируй план с учётом всего выше».

Примеры

[ПЛОХО] : Напиши стратегию продвижения для интернет-магазина одежды

[ХОРОШО] :

Мне нужна стратегия выхода на Wildberries.

Контекст: бренд базовой одежды оверсайз, аудитория — женщины 25–35 лет, бюджет на старт 150 тысяч рублей, отшив занимает 3 недели.

Ограничения: нельзя хранить товар на складе дольше 2 месяцев, минимальная цена 2500 рублей (ниже убыток), без агрессивных скидок — не хотим обесценивать бренд.

Логика: сначала регистрация и документы → отбор первых позиций для теста → карточки и поисковое продвижение на площадке → первые 30 дней для набора рейтинга.

Критерии успеха: через 3 месяца выходим в плюс, 50+ заказов в месяц без полного слива бюджета на рекламу.

Напиши пошаговый план с учётом всех параметров.

Разница: во втором случае модель не придумывает твои ограничения сама. Она знает что нельзя, в каком порядке думать и что считается победой — и работает внутри этого.

Источник: Large Language Models for Software Testing Education: an Experience Report

ArXiv ID: 2603.26329 | Сгенерировано: 2026-03-30 13:43

Методы

Метод	Суть
4 обязательных слоя перед генерацией	Заполни все четыре блока в одном запросе, прежде чем просить создать итоговый результат. Слой 1: кто ты, что за задача, для кого. Слой 2: что нельзя, что обязательно, рамки. Слой 3: что должно идти по порядку. Слой 4: как выглядит хороший результат — конкретно, лучше с числами. Потом — финальный запрос. Почему работает: Заполнение слоёв заставляет тебя самого разобраться в задаче до генерации. Модель перестаёт угадывать "среднее по больнице" и работает внутри твоей рамки. Слой 4 самый недооценённый: чем точнее критерий успеха, тем точнее результат. Когда применять: сложный результат с неочевидными ограничениями — стратегия, план, документ. Когда избыточно: короткий однозначный запрос — перевод, объяснение термина.

Метод

Суть

4 обязательных слоя перед генерацией

Заполни все четыре блока в одном запросе, прежде чем просить создать итоговый результат. Слой 1: кто ты, что за задача, для кого. Слой 2: что нельзя, что обязательно, рамки. Слой 3: что должно идти по порядку. Слой 4: как выглядит хороший результат — конкретно, лучше с числами. Потом — финальный запрос. Почему работает: Заполнение слоёв заставляет тебя самого разобраться в задаче до генерации. Модель перестаёт угадывать "среднее по больнице" и работает внутри твоей рамки. Слой 4 самый недооценённый: чем точнее критерий успеха, тем точнее результат. Когда применять: сложный результат с неочевидными ограничениями — стратегия, план, документ. Когда избыточно: короткий однозначный запрос — перевод, объяснение термина.

📖 Простыми словами

LargeLanguageModelsfor Software Testing Education: an Experience Report

arXiv: 2603.26329

Суть проблемы в том, что большинство людей используют нейронки как магическую кнопку «сделай зашибись», а потом удивляются, почему на выходе получается унылая копипаста. Исследователи доказали: LLM не умеют читать мысли, они работают на статистических вероятностях. Когда ты даешь короткий и размытый запрос, модель просто выбирает самый усредненный и безопасный вариант из своей базы. В итоге ты получаешь не решение своей задачи, а среднюю температуру по больнице, которая в реальной жизни бесполезна.

Это как прийти к опытному юристу и сказать: «Слушай, напиши мне какой-нибудь договор». Он, конечно, что-то набросает, но этот документ рассыплется в первом же суде, потому что юрист не знал ни твоих целей, ни рисков, ни специфики сделки. Ты ждешь от него экспертности, но сам ведешь себя как случайный прохожий, который заглянул спросить дорогу. Чтобы получить профит, нужно перестать играть в угадайку и начать выдавать четкое ТЗ.

Чтобы магия сработала, нужно внедрить в промпт четыре обязательных блока, которые убирают неопределенность. Сначала задаешь роль и контекст (кто ты и в какой ситуации находишься), затем описываешь конкретную задачу, добавляешь ограничения (что точно нельзя делать) и, самое важное, задаешь формат вывода. Если ты просишь стратегию для маркетплейса, не пиши «напиши план». Пиши: «Ты — топ-менеджер с опытом в ритейле 10 лет, составь таблицу с этапами, бюджетом и рисками для бренда одежды с оборотом 1 млн рублей». Разница в результате будет колоссальной.

Этот принцип универсален для любой сферы, будь то обучение программированию, написание кода или маркетинг. Исследование проводили на задачах по тестированию софта, но механика везде одна: чем меньше ты оставляешь модели пространства для фантазий, тем меньше она галлюцинирует и лажает. Это переход от примитивного SEO-подхода с ключевыми словами к полноценному инженерному проектированию диалога, где ты буквально строишь рельсы, по которым должен ехать ответ нейронки.

Короче: если результат от ChatGPT кажется тебе херней, скорее всего, твой промпт — пустая пустышка. Хватит ждать, что нейронка сама догадается о твоих бизнес-процессах или стиле письма. Используй структурный подход из 4 блоков, прописывай контекст и не давай модели «заполнять пробелы» на свое усмотрение. Либо ты тратишь две минуты на нормальный запрос, либо тратишь часы на переделывание бесполезного мусора, который она тебе выдаст.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

Выберите модель ИИ:

Ваш запрос:

0 / 2000

~0.5-2 N-токенов ~10-30с

~0.3-1 N-токенов ~5-15с

Меню