3,583 papers
arXiv:2603.23482 80 24 мар. 2026 г. FREE

PEGS-промптинг: как разбить задачу извлечения на 4 категории и получить полный результат вместо половины

КЛЮЧЕВАЯ СУТЬ
При общем запросе 'извлеки все требования' модель захватывает около 60% от того что есть — остальное тонет. Она ищет 'похожее на требование' и цепляется за явные технические спецификации. PEGS-промптинг позволяет разобрать любой объёмный документ без пропусков: вместо одного размытого запроса — четыре жёстких угла с чёткими границами. Прицел сужается — модель проходит каждое измерение отдельно вместо того чтобы угадывать что вообще искать. Охват с 61% до 92% — без дообучения, одним промптом.
Адаптировать под запрос

TL;DR

Когда просишь модель "извлеки все требования из документа" — она зависает на очевидном и пропускает скрытое. PEGS-промптинг решает это структурно: вместо одного общего запроса ты задаёшь четыре конкретных угла разбора — Проект, Среда, Цели, Система. Модель не гадает что искать, а идёт по заданным категориям последовательно.

Главная находка: модели склонны "западать" на очевидные требования и концентрироваться в одной зоне. При общем запросе "извлеки требования" — ~60% категорий в документе остаются неохваченными. Модель фокусируется на явных технических спецификациях и игнорирует контекст (кто заказчик, какие внешние ограничения, какие цели стоят за задачей).

PEGS-промптинг переключает модель из режима "ищи то, что похоже на требование" в режим "пройди по четырём чётким измерениям". Каждое измерение — отдельный узконаправленный запрос с чёткой семантической границей. Охват категорий вырастает с 61% до 92% — то есть практически нет пропущенных зон.


🔬

Схема метода

Работает в одном промпте с четырьмя секциями-линзами:

ЛИНЗА 1: Проект (P) → стейкхолдеры, бюджет, сроки, организационный контекст
ЛИНЗА 2: Среда (E) → внешние системы, регуляторные требования, операционные условия
ЛИНЗА 3: Цели (G) → бизнес-цели, критерии успеха, ожидания пользователей
ЛИНЗА 4: Система (S) → функциональные требования, нефункциональные (скорость, безопасность, надёжность)

Каждая линза даёт модели конкретный поисковый прицел. Не "найди всё", а "найди вот это конкретное".


🚀

Пример применения

Задача: Фрилансер получил бриф от клиента — стартап хочет запустить сервис для управления командировками сотрудников. Документ на 4 страницы, написан хаотично. Нужно понять что вообще строить.

Промпт:

Вот бриф клиента. Проанализируй его по четырём категориям — пройди каждую отдельно 
и не переходи к следующей, пока не закончил текущую.

КАТЕГОРИЯ P — ПРОЕКТ:
Кто заказчик и что за компания? Кто пользователи? Какие ограничения: бюджет, сроки, 
команда? Что организационно важно учесть?

КАТЕГОРИЯ E — СРЕДА:
С какими внешними системами нужно интегрироваться (бухгалтерия, авиабилеты, банки)? 
Какие регуляторные или юридические требования упомянуты? Какие операционные условия 
(мобильные устройства, офлайн-режим)?

КАТЕГОРИЯ G — ЦЕЛИ:
Какие бизнес-цели стоят за продуктом? Что считается успехом? Что хочет получить 
пользователь в итоге? Какие боли решаем?

КАТЕГОРИЯ S — СИСТЕМА:
Что именно должна делать система (функции)? Какие нефункциональные требования 
(скорость, безопасность, масштаб, надёжность)?

В каждой категории: оформи находки списком. После всех четырёх — укажи, какие 
требования пересекаются или противоречат друг другу.

БРИФ:
[вставь текст брифа]

Результат: Модель пройдёт все четыре секции последовательно. В каждой — структурированный список. В секции G появятся вещи, которых нет в явном виде в брифе — модель выведет их из контекста. В секции E — интеграции и ограничения, которые клиент не назвал прямо. В финале — список противоречий, которые нужно уточнить на созвоне. Из одного хаотичного документа выходит четырёхблочная структура готовая к оценке.


🧠

Почему это работает

Слабость модели: LLM генерирует текст по наиболее вероятному паттерну. При запросе "найди требования" — она генерирует то, что выглядит как типичные требования: явные технические спецификации. Имплицитные ограничения, бизнес-контекст, внешние зависимости — они выглядят иначе и модель их "не видит" как требования.

Сила модели: зато она хорошо работает с чётко ограниченным поисковым пространством. Когда написано "смотри только на регуляторные и операционные ограничения" — модель буквально сужает область поиска и находит то, что при широком запросе тонуло.

Как метод использует это: PEGS превращает один сложный размытый запрос в четыре узких прицельных. Каждая категория — отдельный контекст с ясными примерами того, что туда попадает. Модель не гадает, а следует маршруту.

Рычаги управления: - Добавь примеры внутрь категории — напиши после названия категории "например: требование к времени ответа, требование к нагрузке". Даёт модели образец, от которого она плясует - Добавь категорию "Риски" — четыре категории PEGS можно расширить пятой под свою задачу - Измени формат вывода — вместо списка попроси таблицу с колонками "Требование / Приоритет / Источник в документе" - Добавь запрос на конфликты — "после всех категорий укажи противоречия" — это встроенная верификация


📋

Шаблон промпта

Проанализируй {документ/текст/бриф} по четырём категориям. 
Проходи каждую категорию отдельно и полностью, прежде чем переходить к следующей.

КАТЕГОРИЯ P — ПРОЕКТ:
Кто участвует? Какие организационные ограничения (сроки, бюджет, команда)? 
Какой контекст важен для понимания задачи?

КАТЕГОРИЯ E — СРЕДА:
Какие внешние системы, сервисы, инструменты задействованы или упомянуты?
Какие регуляторные, юридические или операционные ограничения есть?

КАТЕГОРИЯ G — ЦЕЛИ:
Какие бизнес-цели стоят за задачей? Что считается успехом?
Что в итоге должен получить пользователь или заказчик?

КАТЕГОРИЯ S — СИСТЕМА:
Что конкретно должно делать (функции)?
Какие нефункциональные требования: скорость, безопасность, надёжность, масштаб?

По каждой категории: {формат — список / таблица / абзацы}.
В конце: укажи пересечения и противоречия между категориями.

{документ/текст}

Плейсхолдеры: - {документ/текст/бриф} → что анализируем: ТЗ, договор, описание проекта, письмо клиента - {формат} → как оформить результат: список, таблица, нумерация


🚀 Быстрый старт — вставь в чат:

Вот шаблон PEGS-промптинга. Адаптируй под мою задачу: [твоя задача].
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM уточнит что анализировать и в каком формате нужен результат — потому что метод адаптируется под любой тип документа и под любой желаемый формат вывода. Она возьмёт четырёхкатегорийную структуру и настроит под твою задачу.


⚠️

Ограничения

⚠️ Короткие и простые тексты: Для письма на абзац или простого запроса PEGS избыточен — часть категорий окажется пустой. Метод раскрывается на объёмных, многосоставных документах.

⚠️ Категория "Среда" — самая сложная: Внешние ограничения и регуляторный контекст часто написаны как фоновый текст, а не как явные требования. Модель пропускает их чаще, чем другие категории — даже с PEGS. Стоит пройти эту секцию отдельным уточняющим запросом.

⚠️ Имплицитные требования через ссылки: Если документ ссылается на другой стандарт или документ ("должно соответствовать ГОСТ Р 57235") — модель не знает содержания этого документа и не вытащит скрытые там требования.

⚠️ Метод заточен под документы: Хорошо работает для анализа текстов. Для творческих, субъективных или открытых задач структура четырёх категорий не подходит.


🔗

Ресурсы

Статья: ReqFusion: A Multi-Provider Framework for Automated PEGS Analysis Across Software Domains

PEGS-методология: Bertrand Meyer, оригинальный фреймворк Project-Environment-Goals-System

Авторы: Muhammad Khalid, Manuel Oriol, Yilmaz Uygun — Constructor University Bremen, Germany

Демо системы: https://re-engineer-app-khalid.replit.app


📋 Дайджест исследования

Ключевая суть

При общем запросе 'извлеки все требования' модель захватывает около 60% от того что есть — остальное тонет. Она ищет 'похожее на требование' и цепляется за явные технические спецификации. PEGS-промптинг позволяет разобрать любой объёмный документ без пропусков: вместо одного размытого запроса — четыре жёстких угла с чёткими границами. Прицел сужается — модель проходит каждое измерение отдельно вместо того чтобы угадывать что вообще искать. Охват с 61% до 92% — без дообучения, одним промптом.

Принцип работы

Один широкий запрос — модель ищет наиболее вероятные 'требования' — упускает контекст, ограничения, цели. Четыре узких запроса — модель последовательно обходит каждое измерение — ничего не тонет. Категории работают как маршрут: Проект (кто заказчик, сроки, команда), Среда (внешние системы, регуляторные ограничения), Цели (бизнес-задачи, критерии успеха), Система (функции, скорость, безопасность). Каждая категория — отдельный контекст с ясными примерами того, что туда попадает. Модель знает куда смотреть — и идёт туда.

Почему работает

Модель генерирует по наиболее вероятному паттерну. Попросил 'найди требования' — она выдаёт то, что внешне выглядит как типичные требования. Имплицитные ограничения, бизнес-контекст, внешние зависимости — они выглядят иначе. Модель их не распознаёт как требования и проходит мимо. Зато при узком прицеле ('найди только регуляторные и операционные ограничения') модель буквально сужает зону поиска и достаёт то, что тонуло при широком запросе. F1 вырос с 0.71 до 0.88 — просто за счёт структуры промпта. Не больше данных, не дообучение. Только другие границы запроса.

Когда применять

Анализ документов → любой объёмный текст с неявными требованиями: брифы клиентов, технические задания, договоры, описания проектов — особенно когда заказчик пишет хаотично и вперемешку. Особенно полезно когда нужно понять 'что вообще строить' из сырого, плохо структурированного входящего документа. НЕ подходит для: коротких текстов на абзац — часть категорий окажется пустой; творческих или открытых задач без фиксированной структуры.

Мини-рецепт

1. Возьми документ для разбора: ТЗ, бриф, договор, письмо клиента — главное чтобы там было что искать. Метод раскрывается на объёмных, многосоставных текстах.

2. Добавь четыре категории с расшифровкой: для каждой напиши 2-3 вопроса-подсказки — что именно туда попадает. Не просто 'КАТЕГОРИЯ E', а 'КАТЕГОРИЯ E — Среда: внешние системы, регуляторные требования, операционные условия'.

3. Скажи идти по порядку: добавь 'не переходи к следующей категории, пока не закончил текущую'. Без этого модель перемешает секции.

4. Добавь запрос на конфликты в конце: 'укажи противоречия и пересечения между категориями' — это бесплатная верификация. Там всплывает то, что нужно уточнять у клиента на созвоне.

Примеры

[ПЛОХО] : Извлеки все требования из этого технического задания
[ХОРОШО] : Разбери это ТЗ по четырём категориям — проходи каждую полностью, не переходи к следующей пока не закончил. КАТЕГОРИЯ P — ПРОЕКТ: кто заказчик и что за компания, кто пользователи, сроки, бюджет, состав команды. КАТЕГОРИЯ E — СРЕДА: внешние системы и интеграции, регуляторные и юридические ограничения, операционные условия (мобильные устройства, офлайн-режим). КАТЕГОРИЯ G — ЦЕЛИ: бизнес-задачи за продуктом, критерии успеха, что хочет получить пользователь, какие боли решаем. КАТЕГОРИЯ S — СИСТЕМА: что конкретно должна делать система, нефункциональные требования — скорость, безопасность, надёжность, масштаб. По каждой категории — список. В конце — противоречия между категориями. ТЗ: [текст]
Источник: ReqFusion: A Multi-Provider Framework for Automated PEGS Analysis Across Software Domains
ArXiv ID: 2603.23482 | Сгенерировано: 2026-03-25 05:25

Проблемы LLM

ПроблемаСутьКак обойти
Широкий запрос на извлечение даёт неполный результатПросишь "найди все требования" или "извлеки главное". Модель генерирует по самому вероятному паттерну. Выдаёт то, что явно выглядит как требование: технические спецификации, функции. Всё остальное тонет: бизнес-цели, внешние зависимости, ограничения, контекст заказчика. Не потому что ты не попросил — ты попросил. Просто модель не знает куда смотреть и смотрит туда, где привычнееРаздели один широкий запрос на несколько узких. Каждый — с чёткой областью поиска. Укажи явно: "смотри только на X". Модель меняет угол обзора и находит то, что при широком запросе игнорировала

Методы

МетодСуть
Категорийное извлечение — полный обход документа по угламВместо одного запроса "найди всё" — несколько запросов с чёткими семантическими границами. Каждый запрос покрывает свою зону: контекст и участники / внешние зависимости / цели и критерии успеха / конкретные функции и ограничения. Синтаксис: КАТЕГОРИЯ 1 — [название]: [что искать + примеры]. КАТЕГОРИЯ 2 — [название]: [что искать + примеры]... В конце добавь: Укажи противоречия между категориями. Почему работает: Модель генерирует в рамках заданного пространства. Широкий запрос = большое размытое пространство = тяготение к типичному. Узкий запрос с примерами = маленькое чёткое пространство = находит именно там. Когда применять: объёмные документы, брифы, договоры, ТЗ — там где нужен полный охват. Когда не работает: текст на абзац, творческие задачи без критериев полноты
📖 Простыми словами

ReqFusion: A Multi-Provider Framework for Automated PEGS Analysis Across Software Domains

arXiv: 2603.23482

Суть в том, что когда ты просишь нейронку «вытащи требования из этого текста», она ведет себя как ленивый стажер: хватает то, что лежит на поверхности, и напрочь игнорирует контекст. Модели обучались на типичных списках задач, поэтому они ищут явные формулировки вроде «система должна...». Но реальные требования часто зарыты в описании бизнес-процессов или ограничений железа. Метод PEGS-промптинга заставляет LLM сменить тактику: вместо того чтобы смотреть на текст целиком, она надевает четыре разные линзы — Project, Environment, Goals, System — и сканирует документ по слоям.

Это как если бы ты пришел покупать квартиру. Обычный поиск — это просто проверить, есть ли там стены и крыша. А PEGS — это когда ты берешь с собой юриста, сантехника, дизайнера и эксперта по району. Каждый из них ищет свои косяки: один смотрит на трубы, другой на документы, третий на вид из окна. В итоге вместо банального «квартира норм» ты получаешь полный расклад по рискам, о которых сам бы даже не догадался спросить.

Вся магия упакована в один промпт, разделенный на секции. Сначала модель выцепляет Project (кто и зачем это затеял), затем Environment (в каком окружении это будет работать), следом Goals (какой профит мы ждем) и только в конце — System (техническое мясо). Такой подход убивает главную проблему нейронок — их тягу к «наиболее вероятному ответу». Когда ты задаешь жесткие рамки категорий, модель перестает галлюцинировать общими фразами и начинает замечать неявные зависимости, которые раньше считала просто «фоновым шумом».

Тестировали это на софте, но принцип универсален. Эту схему можно натянуть на любой сложный разбор: от анализа юридических договоров до деконструкции бизнес-брифов на маркетинг. Если в тексте есть скрытые смыслы и куча условий, структурный разбор по четырем осям вытащит их на свет. Это превращает LLM из простого суммаризатора в аналитический комбайн, который не просто пересказывает, а реально понимает структуру задачи.

Короче: хватит кормить нейронку сырыми кусками текста и ждать чуда. Используй PEGS-фреймворк, чтобы заставить модель копать вглубь, а не вширь. Без четкой структуры ты получишь список очевидных вещей, которые и так знал, а с ней — полную карту требований, включая те, что клиент забыл озвучить вслух. Кто не структурирует промпты, тот получает мусор на выходе и тратит время на переделки.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с