arXiv:2603.23482 80 24 мар. 2026 г. FREE

PEGS-промптинг: как разбить задачу извлечения на 4 категории и получить полный результат вместо половины

КЛЮЧЕВАЯ СУТЬ

При общем запросе 'извлеки все требования' модель захватывает около 60% от того что есть — остальное тонет. Она ищет 'похожее на требование' и цепляется за явные технические спецификации. PEGS-промптинг позволяет разобрать любой объёмный документ без пропусков: вместо одного размытого запроса — четыре жёстких угла с чёткими границами. Прицел сужается — модель проходит каждое измерение отдельно вместо того чтобы угадывать что вообще искать. Охват с 61% до 92% — без дообучения, одним промптом.

Адаптировать под запрос

⚡

TL;DR

Когда просишь модель "извлеки все требования из документа" — она зависает на очевидном и пропускает скрытое. PEGS-промптинг решает это структурно: вместо одного общего запроса ты задаёшь четыре конкретных угла разбора — Проект, Среда, Цели, Система. Модель не гадает что искать, а идёт по заданным категориям последовательно.

Главная находка: модели склонны "западать" на очевидные требования и концентрироваться в одной зоне. При общем запросе "извлеки требования" — ~60% категорий в документе остаются неохваченными. Модель фокусируется на явных технических спецификациях и игнорирует контекст (кто заказчик, какие внешние ограничения, какие цели стоят за задачей).

PEGS-промптинг переключает модель из режима "ищи то, что похоже на требование" в режим "пройди по четырём чётким измерениям". Каждое измерение — отдельный узконаправленный запрос с чёткой семантической границей. Охват категорий вырастает с 61% до 92% — то есть практически нет пропущенных зон.

🔬

Схема метода

Работает в одном промпте с четырьмя секциями-линзами:

ЛИНЗА 1: Проект (P) → стейкхолдеры, бюджет, сроки, организационный контекст
ЛИНЗА 2: Среда (E) → внешние системы, регуляторные требования, операционные условия
ЛИНЗА 3: Цели (G) → бизнес-цели, критерии успеха, ожидания пользователей
ЛИНЗА 4: Система (S) → функциональные требования, нефункциональные (скорость, безопасность, надёжность)

Каждая линза даёт модели конкретный поисковый прицел. Не "найди всё", а "найди вот это конкретное".

🚀

Пример применения

Задача: Фрилансер получил бриф от клиента — стартап хочет запустить сервис для управления командировками сотрудников. Документ на 4 страницы, написан хаотично. Нужно понять что вообще строить.

Промпт:

Вот бриф клиента. Проанализируй его по четырём категориям — пройди каждую отдельно 
и не переходи к следующей, пока не закончил текущую.

КАТЕГОРИЯ P — ПРОЕКТ:
Кто заказчик и что за компания? Кто пользователи? Какие ограничения: бюджет, сроки, 
команда? Что организационно важно учесть?

КАТЕГОРИЯ E — СРЕДА:
С какими внешними системами нужно интегрироваться (бухгалтерия, авиабилеты, банки)? 
Какие регуляторные или юридические требования упомянуты? Какие операционные условия 
(мобильные устройства, офлайн-режим)?

КАТЕГОРИЯ G — ЦЕЛИ:
Какие бизнес-цели стоят за продуктом? Что считается успехом? Что хочет получить 
пользователь в итоге? Какие боли решаем?

КАТЕГОРИЯ S — СИСТЕМА:
Что именно должна делать система (функции)? Какие нефункциональные требования 
(скорость, безопасность, масштаб, надёжность)?

В каждой категории: оформи находки списком. После всех четырёх — укажи, какие 
требования пересекаются или противоречат друг другу.

БРИФ:
[вставь текст брифа]

Результат: Модель пройдёт все четыре секции последовательно. В каждой — структурированный список. В секции G появятся вещи, которых нет в явном виде в брифе — модель выведет их из контекста. В секции E — интеграции и ограничения, которые клиент не назвал прямо. В финале — список противоречий, которые нужно уточнить на созвоне. Из одного хаотичного документа выходит четырёхблочная структура готовая к оценке.

🧠

Почему это работает

Слабость модели: LLM генерирует текст по наиболее вероятному паттерну. При запросе "найди требования" — она генерирует то, что выглядит как типичные требования: явные технические спецификации. Имплицитные ограничения, бизнес-контекст, внешние зависимости — они выглядят иначе и модель их "не видит" как требования.

Сила модели: зато она хорошо работает с чётко ограниченным поисковым пространством. Когда написано "смотри только на регуляторные и операционные ограничения" — модель буквально сужает область поиска и находит то, что при широком запросе тонуло.

Как метод использует это: PEGS превращает один сложный размытый запрос в четыре узких прицельных. Каждая категория — отдельный контекст с ясными примерами того, что туда попадает. Модель не гадает, а следует маршруту.

Рычаги управления: - Добавь примеры внутрь категории — напиши после названия категории "например: требование к времени ответа, требование к нагрузке". Даёт модели образец, от которого она плясует - Добавь категорию "Риски" — четыре категории PEGS можно расширить пятой под свою задачу - Измени формат вывода — вместо списка попроси таблицу с колонками "Требование / Приоритет / Источник в документе" - Добавь запрос на конфликты — "после всех категорий укажи противоречия" — это встроенная верификация

📋

Шаблон промпта

Проанализируй {документ/текст/бриф} по четырём категориям. 
Проходи каждую категорию отдельно и полностью, прежде чем переходить к следующей.

КАТЕГОРИЯ P — ПРОЕКТ:
Кто участвует? Какие организационные ограничения (сроки, бюджет, команда)? 
Какой контекст важен для понимания задачи?

КАТЕГОРИЯ E — СРЕДА:
Какие внешние системы, сервисы, инструменты задействованы или упомянуты?
Какие регуляторные, юридические или операционные ограничения есть?

КАТЕГОРИЯ G — ЦЕЛИ:
Какие бизнес-цели стоят за задачей? Что считается успехом?
Что в итоге должен получить пользователь или заказчик?

КАТЕГОРИЯ S — СИСТЕМА:
Что конкретно должно делать (функции)?
Какие нефункциональные требования: скорость, безопасность, надёжность, масштаб?

По каждой категории: {формат — список / таблица / абзацы}.
В конце: укажи пересечения и противоречия между категориями.

{документ/текст}

Плейсхолдеры: - {документ/текст/бриф} → что анализируем: ТЗ, договор, описание проекта, письмо клиента - {формат} → как оформить результат: список, таблица, нумерация

🚀 Быстрый старт — вставь в чат:

Вот шаблон PEGS-промптинга. Адаптируй под мою задачу: [твоя задача].
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM уточнит что анализировать и в каком формате нужен результат — потому что метод адаптируется под любой тип документа и под любой желаемый формат вывода. Она возьмёт четырёхкатегорийную структуру и настроит под твою задачу.

⚠️

Ограничения

⚠️ Короткие и простые тексты: Для письма на абзац или простого запроса PEGS избыточен — часть категорий окажется пустой. Метод раскрывается на объёмных, многосоставных документах.

⚠️ Категория "Среда" — самая сложная: Внешние ограничения и регуляторный контекст часто написаны как фоновый текст, а не как явные требования. Модель пропускает их чаще, чем другие категории — даже с PEGS. Стоит пройти эту секцию отдельным уточняющим запросом.

⚠️ Имплицитные требования через ссылки: Если документ ссылается на другой стандарт или документ ("должно соответствовать ГОСТ Р 57235") — модель не знает содержания этого документа и не вытащит скрытые там требования.

⚠️ Метод заточен под документы: Хорошо работает для анализа текстов. Для творческих, субъективных или открытых задач структура четырёх категорий не подходит.

🔗

Ресурсы

Статья: ReqFusion: A Multi-Provider Framework for Automated PEGS Analysis Across Software Domains

PEGS-методология: Bertrand Meyer, оригинальный фреймворк Project-Environment-Goals-System

Авторы: Muhammad Khalid, Manuel Oriol, Yilmaz Uygun — Constructor University Bremen, Germany

Демо системы: https://re-engineer-app-khalid.replit.app

📋 Дайджест исследования

Ключевая суть

Принцип работы

Один широкий запрос — модель ищет наиболее вероятные 'требования' — упускает контекст, ограничения, цели. Четыре узких запроса — модель последовательно обходит каждое измерение — ничего не тонет. Категории работают как маршрут: Проект (кто заказчик, сроки, команда), Среда (внешние системы, регуляторные ограничения), Цели (бизнес-задачи, критерии успеха), Система (функции, скорость, безопасность). Каждая категория — отдельный контекст с ясными примерами того, что туда попадает. Модель знает куда смотреть — и идёт туда.

Почему работает

Модель генерирует по наиболее вероятному паттерну. Попросил 'найди требования' — она выдаёт то, что внешне выглядит как типичные требования. Имплицитные ограничения, бизнес-контекст, внешние зависимости — они выглядят иначе. Модель их не распознаёт как требования и проходит мимо. Зато при узком прицеле ('найди только регуляторные и операционные ограничения') модель буквально сужает зону поиска и достаёт то, что тонуло при широком запросе. F1 вырос с 0.71 до 0.88 — просто за счёт структуры промпта. Не больше данных, не дообучение. Только другие границы запроса.

Когда применять

Анализ документов → любой объёмный текст с неявными требованиями: брифы клиентов, технические задания, договоры, описания проектов — особенно когда заказчик пишет хаотично и вперемешку. Особенно полезно когда нужно понять 'что вообще строить' из сырого, плохо структурированного входящего документа. НЕ подходит для: коротких текстов на абзац — часть категорий окажется пустой; творческих или открытых задач без фиксированной структуры.

Мини-рецепт

1. Возьми документ для разбора: ТЗ, бриф, договор, письмо клиента — главное чтобы там было что искать. Метод раскрывается на объёмных, многосоставных текстах.

2. Добавь четыре категории с расшифровкой: для каждой напиши 2-3 вопроса-подсказки — что именно туда попадает. Не просто 'КАТЕГОРИЯ E', а 'КАТЕГОРИЯ E — Среда: внешние системы, регуляторные требования, операционные условия'.

3. Скажи идти по порядку: добавь 'не переходи к следующей категории, пока не закончил текущую'. Без этого модель перемешает секции.

4. Добавь запрос на конфликты в конце: 'укажи противоречия и пересечения между категориями' — это бесплатная верификация. Там всплывает то, что нужно уточнять у клиента на созвоне.

Примеры

[ПЛОХО] : Извлеки все требования из этого технического задания

[ХОРОШО] :

Разбери это ТЗ по четырём категориям — проходи каждую полностью, не переходи к следующей пока не закончил.

КАТЕГОРИЯ P — ПРОЕКТ: кто заказчик и что за компания, кто пользователи, сроки, бюджет, состав команды.

КАТЕГОРИЯ E — СРЕДА: внешние системы и интеграции, регуляторные и юридические ограничения, операционные условия (мобильные устройства, офлайн-режим).

КАТЕГОРИЯ G — ЦЕЛИ: бизнес-задачи за продуктом, критерии успеха, что хочет получить пользователь, какие боли решаем.

КАТЕГОРИЯ S — СИСТЕМА: что конкретно должна делать система, нефункциональные требования — скорость, безопасность, надёжность, масштаб.

По каждой категории — список. В конце — противоречия между категориями.

ТЗ: [текст]

Источник: ReqFusion: A Multi-Provider Framework for Automated PEGS Analysis Across Software Domains

ArXiv ID: 2603.23482 | Сгенерировано: 2026-03-25 05:25

Проблемы LLM

Проблема	Суть	Как обойти
Широкий запрос на извлечение даёт неполный результат	Просишь "найди все требования" или "извлеки главное". Модель генерирует по самому вероятному паттерну. Выдаёт то, что явно выглядит как требование: технические спецификации, функции. Всё остальное тонет: бизнес-цели, внешние зависимости, ограничения, контекст заказчика. Не потому что ты не попросил — ты попросил. Просто модель не знает куда смотреть и смотрит туда, где привычнее	Раздели один широкий запрос на несколько узких. Каждый — с чёткой областью поиска. Укажи явно: "смотри только на X". Модель меняет угол обзора и находит то, что при широком запросе игнорировала

Методы

Метод Суть

Категорийное извлечение — полный обход документа по углам Вместо одного запроса "найди всё" — несколько запросов с чёткими семантическими границами. Каждый запрос покрывает свою зону: контекст и участники / внешние зависимости / цели и критерии успеха / конкретные функции и ограничения. Синтаксис: КАТЕГОРИЯ 1 — [название]: [что искать + примеры]. КАТЕГОРИЯ 2 — [название]: [что искать + примеры]... В конце добавь: Укажи противоречия между категориями. Почему работает: Модель генерирует в рамках заданного пространства. Широкий запрос = большое размытое пространство = тяготение к типичному. Узкий запрос с примерами = маленькое чёткое пространство = находит именно там. Когда применять: объёмные документы, брифы, договоры, ТЗ — там где нужен полный охват. Когда не работает: текст на абзац, творческие задачи без критериев полноты

Метод	Суть
Категорийное извлечение — полный обход документа по углам	Вместо одного запроса "найди всё" — несколько запросов с чёткими семантическими границами. Каждый запрос покрывает свою зону: контекст и участники / внешние зависимости / цели и критерии успеха / конкретные функции и ограничения. Синтаксис: `КАТЕГОРИЯ 1 — [название]: [что искать + примеры]. КАТЕГОРИЯ 2 — [название]: [что искать + примеры]...` В конце добавь: `Укажи противоречия между категориями`. Почему работает: Модель генерирует в рамках заданного пространства. Широкий запрос = большое размытое пространство = тяготение к типичному. Узкий запрос с примерами = маленькое чёткое пространство = находит именно там. Когда применять: объёмные документы, брифы, договоры, ТЗ — там где нужен полный охват. Когда не работает: текст на абзац, творческие задачи без критериев полноты

📖 Простыми словами

ReqFusion: A Multi-Provider Framework for Automated PEGS Analysis Across Software Domains

arXiv: 2603.23482

Суть в том, что когда ты просишь нейронку «вытащи требования из этого текста», она ведет себя как ленивый стажер: хватает то, что лежит на поверхности, и напрочь игнорирует контекст. Модели обучались на типичных списках задач, поэтому они ищут явные формулировки вроде «система должна...». Но реальные требования часто зарыты в описании бизнес-процессов или ограничений железа. Метод PEGS-промптинга заставляет LLM сменить тактику: вместо того чтобы смотреть на текст целиком, она надевает четыре разные линзы — Project, Environment, Goals, System — и сканирует документ по слоям.

Это как если бы ты пришел покупать квартиру. Обычный поиск — это просто проверить, есть ли там стены и крыша. А PEGS — это когда ты берешь с собой юриста, сантехника, дизайнера и эксперта по району. Каждый из них ищет свои косяки: один смотрит на трубы, другой на документы, третий на вид из окна. В итоге вместо банального «квартира норм» ты получаешь полный расклад по рискам, о которых сам бы даже не догадался спросить.

Вся магия упакована в один промпт, разделенный на секции. Сначала модель выцепляет Project (кто и зачем это затеял), затем Environment (в каком окружении это будет работать), следом Goals (какой профит мы ждем) и только в конце — System (техническое мясо). Такой подход убивает главную проблему нейронок — их тягу к «наиболее вероятному ответу». Когда ты задаешь жесткие рамки категорий, модель перестает галлюцинировать общими фразами и начинает замечать неявные зависимости, которые раньше считала просто «фоновым шумом».

Тестировали это на софте, но принцип универсален. Эту схему можно натянуть на любой сложный разбор: от анализа юридических договоров до деконструкции бизнес-брифов на маркетинг. Если в тексте есть скрытые смыслы и куча условий, структурный разбор по четырем осям вытащит их на свет. Это превращает LLM из простого суммаризатора в аналитический комбайн, который не просто пересказывает, а реально понимает структуру задачи.

Короче: хватит кормить нейронку сырыми кусками текста и ждать чуда. Используй PEGS-фреймворк, чтобы заставить модель копать вглубь, а не вширь. Без четкой структуры ты получишь список очевидных вещей, которые и так знал, а с ней — полную карту требований, включая те, что клиент забыл озвучить вслух. Кто не структурирует промпты, тот получает мусор на выходе и тратит время на переделки.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

Выберите модель ИИ:

Ваш запрос:

0 / 2000

~0.5-2 N-токенов ~10-30с

~0.3-1 N-токенов ~5-15с

Меню