arXiv:2603.09335 74 10 мар. 2026 г. FREE

Синтетическая генерация профдокументов: как создать ТЗ, бриф или спецификацию, которые сойдут за реальные

КЛЮЧЕВАЯ СУТЬ

GPT-4o ставит своим же документам 0.90 из 1. Claude оценивает те же документы на 0.64. Та же модель при десяти оценках одного документа гуляет от 0.48 до 0.73. Метод позволяет генерировать реалистичные профессиональные документы — ТЗ, брифы, спецификации — без реальных образцов и без слепого доверия к самооценке модели. Фишка: документ генерирует одна модель, оценивает — другая, с явным рубриком где за каждое нарушение снимаются конкретные баллы — честный результат вместо самолести.

Адаптировать под запрос

⚡

TL;DR

Исследователи из RWTH Aachen разработали систематический подход к генерации профессиональных документов через ChatGPT — без доступа к реальным образцам. В его основе: комбинация роли эксперта, жёсткого шаблона структуры и цепочки рассуждений (Chain-of-Thought). Плюс итеративная оценка качества через явный рубрик со снятием баллов за нарушения.

Главная находка, которая меняет как работать с LLM: не доверяй модели оценивать собственный вывод. Когда GPT-4o оценивал свои же документы, он давал в среднем 0.90 из 1. Когда те же документы оценивал Claude Sonnet — в среднем 0.64. Тот же Claude выдавал разброс 0.48–0.73 при десяти оценках одного и того же документа. Это не баг конкретной модели — это системное свойство LLM: модель льстит себе и нестабильна как судья.

Чтобы обойти это, авторы использовали кросс-модельную проверку: документ генерировала одна модель, оценивала — другая, более критичная. Плюс явный рубрик: инструкция снимать конкретное количество баллов за каждое нарушение с объяснением причины. Это даёт стабильнее и честнее результат, чем просто "оцени от 1 до 10".

🔬

Схема метода

ШАГ 1 (ГЕНЕРАЦИЯ): Один промпт с тремя слоями
  → Роль эксперта + жёсткий шаблон структуры + Chain-of-Thought
  → Инструкция использовать нейтральный термин ("сценарий", а не "ТЗ")
  → Инструкция отличаться от предыдущих версий
  → Выход: готовый документ по шаблону

ШАГ 2 (ОЦЕНКА ПОЛНОТЫ): Отдельный промпт той же или другой модели
  → Проверить наличие каждого раздела из шаблона
  → Выход: да/нет по каждому пункту

ШАГ 3 (ОЦЕНКА РЕАЛИСТИЧНОСТИ): Отдельный промпт с рубриком
  → Роль эксперта + инструкция снимать баллы по шкале тяжести
  → Объяснение каждого нарушения
  → Выход: числовая оценка [0–1] + комментарии

ШАГ 4 (КРОСС-ПРОВЕРКА): Ту же оценку — другой моделью
  → Сравниваешь два вывода
  → Расхождение > 0.2 = сигнал, что документ требует правки

⚠️ Все шаги — отдельные запросы в чате.

🚀

Пример применения

Задача: Фаундер хочет подготовить ТЗ для разработчика мобильного приложения для записи к барберу. Нет готовых образцов, нет опыта в написании ТЗ — нужен документ, который примет любой нормальный разработчик.

Промпт (ШАГ 1 — Генерация):

Ты — опытный системный аналитик и менеджер продукта с 10-летним 
опытом написания технических заданий для мобильных приложений.

Создай сценарий: техническое задание для мобильного приложения в сфере 
[барберские услуги]. Следуй точно этой структуре:

1. ОБЗОР ПРОДУКТА
   1.1 Назначение и цели
   1.2 Целевая аудитория
   1.3 Ключевые ограничения

2. ФУНКЦИОНАЛЬНЫЕ ТРЕБОВАНИЯ
   2.1 Основные функции (список с описанием каждой)
   2.2 Пользовательские роли и права доступа
   2.3 Интеграции с внешними сервисами

3. НЕФУНКЦИОНАЛЬНЫЕ ТРЕБОВАНИЯ
   3.1 Производительность
   3.2 Безопасность
   3.3 Масштабируемость

4. ОГРАНИЧЕНИЯ И ДОПУЩЕНИЯ
   4.1 Технологический стек
   4.2 Временны́е ограничения
   4.3 Бюджетные рамки

Рассуждай пошагово: сначала определи пользовательский сценарий, 
потом выпиши требования по каждому разделу. Делай требования 
конкретными, измеримыми, без общих фраз. Объём — 600–800 слов.

Промпт (ШАГ 3 — Оценка реалистичности):

Ты — опытный технический директор и системный аналитик. Тебе нужно 
оценить реалистичность технического задания.

Начни с оценки 1.0. Затем найди все нереалистичные элементы документа:

КРИТИЧЕСКИЕ нарушения (снять -0.2 за каждое):
- Внутренние противоречия между разделами
- Технически невозможные требования

СЕРЬЁЗНЫЕ нарушения (снять -0.1 за каждое):
- Расплывчатые требования без метрик
- Отсутствие требований, обязательных для этого типа приложений

НЕЗНАЧИТЕЛЬНЫЕ нарушения (снять -0.05 за каждое):
- Нетипичная формулировка для данной отрасли
- Пропуск второстепенных деталей

Итоговая оценка = 1.0 минус сумма снятых баллов.

Для каждого нарушения укажи: цитату из документа → почему нереалистично 
→ уровень серьёзности → сколько баллов снято.

[Вставить сгенерированный документ]

Результат: В ШАГ 1 модель выдаст структурированное ТЗ на 600–800 слов с конкретными требованиями по каждому разделу. В ШАГ 3 — список конкретных проблем с объяснениями и финальную оценку. Если она выше 0.8 — документ готов к передаче разработчику. Если ниже — правишь по списку нарушений и просишь перегенерировать слабые разделы.

🧠

Почему это работает

Слабость LLM: попроси написать профессиональный документ "просто так" — получишь либо шаблонную воду, либо документ с внутренними противоречиями, которые не видны на первый взгляд. Модель не "знает" как должна выглядеть хорошая спецификация — она генерирует по паттернам из обучающих данных, где профессиональных ТЗ значительно меньше, чем общего текста.

Сильная сторона LLM: модель отлично заполняет явные структуры. Когда ты даёшь жёсткий шаблон — она не изобретает форму, а концентрируется на содержании. Persona "опытный аналитик" сдвигает распределение токенов в сторону профессионального регистра. Chain-of-Thought разбивает одну сложную задачу на несколько простых — по разделу за раз.

Почему нейтральный термин снижает галлюцинации: если использовать точный термин ("SRS по ISO 29148"), модель может генерировать по смутным паттернам из интернета, где этот термин встречается неточно. Нейтральный термин + явная структура = она следует твоему шаблону, а не своим предположениям о формате.

Рычаги управления: - Строгость рубрика — увеличь штрафы за критические нарушения, если нужна высокая точность - Объём — укажи диапазон слов явно; без него модель выдаёт непредсказуемый объём - Степень детализации структуры — чем детальнее шаблон (до под-подпунктов), тем предсказуемее вывод - Критичность оценщика — Claude более строг как судья, GPT-4o — мягче; выбирай под задачу

📋

Шаблон промпта

📌

Генерация документа

Ты — опытный {роль_эксперта} с {N} летним опытом создания 
{тип_документа} в сфере {отрасль}.

Создай сценарий: {тип_документа} для {описание_продукта_или_услуги}. 
Следуй точно этой структуре:

{РАЗДЕЛ_1}
  {подраздел_1.1}
  {подраздел_1.2}

{РАЗДЕЛ_2}
  {подраздел_2.1}
  {подраздел_2.2}

{РАЗДЕЛ_3}
  {подраздел_3.1}
  {подраздел_3.2}

Рассуждай пошагово: сначала определи ключевой контекст, затем 
заполни каждый раздел конкретными, измеримыми данными. 
Объём — {мин_слов}–{макс_слов} слов.

📌

Оценка через рубрик

Ты — опытный {роль_эксперта}. Оцени реалистичность документа 
для использования в {цель_использования}.

Начни с оценки 1.0. Найди нарушения:

КРИТИЧЕСКИЕ (−{штраф_1} за каждое): {описание_критических}
СЕРЬЁЗНЫЕ (−{штраф_2} за каждое): {описание_серьёзных}
НЕЗНАЧИТЕЛЬНЫЕ (−{штраф_3} за каждое): {описание_незначительных}

Для каждого нарушения: цитата → почему проблема → уровень → балл.
Итоговая оценка = 1.0 − сумма штрафов.

Документ:
{вставить_документ}

Что подставлять: - {роль_эксперта} → "системный аналитик", "копирайтер", "бизнес-аналитик", "маркетолог" - {тип_документа} → "техническое задание", "бриф для агентства", "контент-план", "описание вакансии" - {штраф_1/2/3} → попробуй 0.2 / 0.1 / 0.05 как базу

🚀 Быстрый старт — вставь в чат:

Вот шаблоны для генерации документа и его оценки. 
Адаптируй под мою задачу: [твоя задача]. 
Задавай уточняющие вопросы, чтобы заполнить все поля.

[вставить шаблон выше]

LLM спросит про тип документа, отрасль и структуру разделов — потому что без этого шаблон не заполнить. Она возьмёт паттерн и адаптирует под твою задачу.

📄

Оригинал из исследования

Авторы использовали точно такую комбинацию для генерации ТЗ: - Persona pattern: "experienced requirements engineer and business analyst" - Template pattern: разделы по ISO/IEC/IEEE 29148 (цели, ограничения, функциональные и нефункциональные требования) - Chain-of-Thought: сложные инструкции разбиты на последовательные подзадачи - Нейтральный термин: использовали "scenario" вместо "SyRS" — чтобы снизить риск галлюцинаций из-за неточных паттернов в обучающих данных

Для оценки качества — два отдельных промпта: PComp (полнота по шаблону, boolean) и PDoR (реалистичность, рубрик с баллами и качественными объяснениями, та же роль эксперта, CoT).

⚠️

Ограничения

⚠️ LLM-оценщик ненадёжен: Одна и та же модель оценивает один документ с разбросом до 25% от шкалы при повторных запросах. Не используй числовую оценку LLM как финальный вердикт — только как один из сигналов.

⚠️ Модель хвалит себя: Когда генерирующая и оценивающая модель — одна и та же, оценки завышены. Для честной проверки — оценивай другой моделью (GPT → Claude или наоборот).

⚠️ Соответствие ≠ качество: 62% экспертов согласились, что документ выглядит "как настоящий". Но углублённый анализ выявил внутренние противоречия и пропуски. Документ может выглядеть профессионально и при этом содержать ошибки, незаметные при беглом чтении.

⚠️ Метод для структурированных документов: Работает для чётко структурированных профессиональных текстов (ТЗ, брифы, спецификации). Для свободного творческого текста или субъективных оценок — менее применимо.

🔗

Ресурсы

Работа: "Can ChatGPT Generate Realistic Synthetic System Requirement Specifications? Results of a Case Study" — принята в ENASE 2026

Датасет: 300 синтетических ТЗ опубликован на GitLab RWTH Aachen

Авторы: Alex R. Mattukat, Florian M. Braun, Horst Lichter — Research Group Software Construction, RWTH Aachen University, Германия

Техники промптинга из: Schulhoff et al., White et al. (классификаторы паттернов промптинга)

📋 Дайджест исследования

Ключевая суть

Принцип работы

Один промпт генерации содержит три слоя: роль эксперта + жёсткий шаблон структуры до под-подпунктов + инструкция рассуждать пошагово. Оценка — отдельный промпт с рубриком. Модель не изобретает форму — она заполняет твою структуру содержанием. Оценщик начинает с 1.0 и снимает баллы: не «оцени в целом», а «найди нарушение, назови цену». Расхождение между двумя оценщиками больше 0.2 — сигнал что документ надо переделывать.

Почему работает

Попроси написать ТЗ «просто так» — получишь шаблонную воду. Модели мало видели настоящих профдокументов при обучении, поэтому без чёткой структуры она заполняет форму общими фразами. Жёсткий шаблон снимает эту проблему: модель не думает о форме, она заполняет ячейки. Нейтральный термин («сценарий» вместо «SRS по ISO 29148») снижает галлюцинации — модель не лезет в смутные паттерны про конкретный стандарт, а следует твоей структуре. Кросс-модельная проверка работает потому что у разных моделей разные слепые пятна: GPT льстит себе, Claude строже — и это расхождение вытаскивает реальные проблемы на поверхность.

Когда применять

Создание профессиональных документов без доступа к реальным образцам: ТЗ для разработчика, бриф для агентства, контент-план, описание вакансии, бизнес-требования к продукту. Особенно полезно когда нужно создать много однотипных документов с предсказуемым качеством. НЕ подходит для юридических документов, требующих точного соответствия нормативной базе — там кросс-модельная проверка не заменит живого эксперта.

Мини-рецепт

1. Собери промпт генерации: добавь роль эксперта с опытом ('системный аналитик с 10-летним опытом'), жёсткий шаблон структуры до под-подпунктов, инструкцию рассуждать пошагово и диапазон слов (например, 600–800).
2. Используй нейтральный термин: вместо точного названия стандарта пиши «сценарий: техническое задание для...» — модель следует твоей структуре, а не чужим паттернам.
3. Запусти отдельный промпт оценки с рубриком: старт 1.0, потом снять −0.2 за критические нарушения (противоречия, невозможные требования), −0.1 за серьёзные (расплывчатость без измеримых данных), −0.05 за незначительные. По каждому: цитата → почему проблема → балл.
4. Проверь в другой модели: отдай тот же документ и тот же рубрик второй модели. Расхождение больше 0.2 — правь по списку нарушений и перегенерируй слабые разделы.

Примеры

[ПЛОХО] :

Напиши техническое задание для мобильного приложения записи к барберу

[ХОРОШО] :

Ты — опытный системный аналитик с 10-летним опытом написания ТЗ для мобильных приложений. Создай сценарий: техническое задание для приложения в сфере барберских услуг. Следуй точно этой структуре: 1. Обзор продукта (1.1 назначение и цели, 1.2 целевая аудитория, 1.3 ключевые ограничения), 2. Функциональные требования (2.1 основные функции с описанием каждой, 2.2 роли и права доступа, 2.3 интеграции), 3. Нефункциональные требования (3.1 производительность, 3.2 безопасность), 4. Ограничения и допущения (4.1 технологический стек, 4.2 сроки, 4.3 бюджет). Рассуждай пошагово: сначала опиши пользовательский сценарий, потом заполни каждый раздел конкретными измеримыми данными без общих фраз. Объём — 600–800 слов.

Источник: Can ChatGPT Generate Realistic Synthetic System Requirement Specifications? Results of a Case Study

ArXiv ID: 2603.09335 | Сгенерировано: 2026-03-11 04:27

Проблемы LLM

Проблема	Суть	Как обойти
Модель завышает оценки своей же работы	Просишь модель оценить то, что она сама написала. Получаешь завышенный балл — почти всегда близко к максимуму. Погрешность не случайная: модель систематически лояльна к своему выводу. Проблема для любой задачи где нужна честная проверка: текст, код, анализ	Оценку поручай другой модели. Та, что писала — не судит. Та, что судит — не писала
Оценки одного документа скачут от запроса к запросу	Просишь модель оценить один и тот же текст несколько раз. Получаешь разные числа при каждом запуске. Разброс большой — до 0.25 из 1.0. Непонятно какому числу верить. Это делает оценку ненадёжной	Используй рубрик со списком конкретных нарушений и фиксированными штрафами. Модель меньше угадывает — больше проверяет по списку

Методы

Метод	Суть
Кросс-модельная проверка качества	Генерируешь одной моделью — проверяешь другой. GPT-4o пишет документ, Claude его оценивает (или наоборот). Почему работает: модель без "истории создания" этого текста строже. Нет привязанности к собственному выводу. Сигнал тревоги: расхождение оценок двух моделей больше 0.2 = документ требует правки. Когда применять: любая задача где нужна честная оценка. Код, текст, структура, логика
Рубрик со штрафами вместо открытой оценки	Вместо "оцени от 1 до 10" — дай список нарушений с фиксированными штрафами. Структура: старт с 1.0, потом вычитания. Критическое нарушение: −0.2. Серьёзное: −0.1. Незначительное: −0.05. Для каждого штрафа требуй: цитата из текста → почему проблема → сколько снято. Почему работает: модель не угадывает "общее впечатление" — проходит по чеклисту. Результат стабильнее и есть конкретный список что починить. Применяй: оценка любых профдокументов, проверка кода, анализ структуры

Метод

Суть

Кросс-модельная проверка качества

Генерируешь одной моделью — проверяешь другой. GPT-4o пишет документ, Claude его оценивает (или наоборот). Почему работает: модель без "истории создания" этого текста строже. Нет привязанности к собственному выводу. Сигнал тревоги: расхождение оценок двух моделей больше 0.2 = документ требует правки. Когда применять: любая задача где нужна честная оценка. Код, текст, структура, логика

Рубрик со штрафами вместо открытой оценки

Вместо "оцени от 1 до 10" — дай список нарушений с фиксированными штрафами. Структура: старт с 1.0, потом вычитания. Критическое нарушение: −0.2. Серьёзное: −0.1. Незначительное: −0.05. Для каждого штрафа требуй: цитата из текста → почему проблема → сколько снято. Почему работает: модель не угадывает "общее впечатление" — проходит по чеклисту. Результат стабильнее и есть конкретный список что починить. Применяй: оценка любых профдокументов, проверка кода, анализ структуры

Тезисы

Тезис	Комментарий
Модель-автор и модель-судья — разные роли. Совмещать нельзя	Когда одна модель пишет и сама же оценивает — оценка нечестная. Модель обучена быть полезной. Это смещает оценку вверх. Другая модель — нейтральный судья: у неё нет "истории" этого текста. Применяй: разделяй роли явно. "Напиши текст" — один запрос. "Оцени этот текст" с рубриком — второй запрос, лучше другой модели

Тезис

Комментарий

Модель-автор и модель-судья — разные роли. Совмещать нельзя

Когда одна модель пишет и сама же оценивает — оценка нечестная. Модель обучена быть полезной. Это смещает оценку вверх. Другая модель — нейтральный судья: у неё нет "истории" этого текста. Применяй: разделяй роли явно. "Напиши текст" — один запрос. "Оцени этот текст" с рубриком — второй запрос, лучше другой модели

📖 Простыми словами

CanChatGPTGenerate Realistic Synthetic System Requirement Specifications? Results of a Case Study

arXiv: 2603.09335

ChatGPT не умеет писать профессиональные документы «из коробки», потому что в его базе знаний на одно реальное ТЗ приходится миллион постов из соцсетей. Когда ты просишь его составить спецификацию, он выдает галлюцинаторную кашу: текст выглядит солидно, но внутри — логические дыры и вода. Фундаментальная проблема в том, что модель не понимает контекст задачи так, как его понимает инженер. Она просто подбирает слова, которые кажутся правильными, но без жесткого каркаса и пошаговой логики этот процесс превращается в генерацию белого шума.

Это как попросить случайного прохожего спроектировать самолет, просто потому что он видел их в небе. Он нарисует крылья и хвост, но забудет про заклепки и расчет нагрузок. Чтобы получить чертеж, а не детский рисунок, тебе нужно превратить этого прохожего в педантичного робота-контролера, который не имеет права сделать шаг в сторону без сверки с инструкцией. Исследователи из Ахена поняли: ChatGPT не нужно «вдохновение», ему нужен конвой из промптов, который не даст ему свернуть в сторону графомании.

Чтобы это взлетело, авторы внедрили три конкретных рычага. Первый — ролевое моделирование: ты не просто «пиши ТЗ», а «ты — ведущий системный инженер с 20-летним стажем». Второй — Chain-of-Thought (цепочка рассуждений): модель заставляют сначала проговорить логику каждого раздела, а только потом писать текст. И финальный аккорд — итеративная порка: ChatGPT прогоняют через жесткий чек-лист (рубрикатор), где за каждую неточность или нарушение структуры «снимают баллы». В итоге модель сама себя правит, пока документ не станет похож на работу профи.

Хотя метод тестировали на сухих системных спецификациях, принцип универсален. Эту схему можно натянуть на создание юридических договоров, медицинских протоколов или сложных маркетинговых стратегий. Везде, где цена ошибки высока, а «творчество» нейросети только мешает, работает связка «Роль + Шаблон + Самопроверка». Это превращает ChatGPT из болтливого ассистента в промышленный инструмент, который выдает предсказуемый результат даже без доступа к твоим секретным архивам.

Короче: хватит ждать от нейросети магии, начни строить для неё рельсы из промптов. Если просто нажать кнопку «сделай красиво», на выходе будет полная фигня, которую стыдно показать разработчикам. Используй жесткую структуру и заставляй модель проверять саму себя по пунктам — только так можно получить документ, который не придется переделывать руками. Системный подход бьет креативность, когда речь идет о серьезных задачах.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

Выберите модель ИИ:

Ваш запрос:

0 / 2000

~0.5-2 N-токенов ~10-30с

~0.3-1 N-токенов ~5-15с

Меню