3,583 papers
arXiv:2509.20149 95 24 сент. 2025 г. FREE

Повышение прослеживаемости требований посредством аугментации данных с использованием больших языковых моделей

КЛЮЧЕВАЯ СУТЬ
Обнаружено: LLM катастрофически теряет точность, когда получает размытую задачу без явной структуры — отсюда вечная проблема с «водой», уходом от темы и непредсказуемыми ответами. Метод Zero-Shot Structured Prompting позволяет получать предсказуемые, точные и готовые к использованию ответы без примеров и дообучения. Вместо одного запроса вы даёте модели «техническое задание» из 6 обязательных секций: CONTEXT (ситуация), OBJECTIVE (что получить), STYLE (чей стиль копировать), TONE (эмоциональная окраска), AUDIENCE (для кого текст), RESPONSE (строгий формат вывода). Модель перестаёт «додумывать» за вас и начинает работать в чётких рамках — качество генерации вырастает настолько, что синтетические данные успешно используются для обучения других моделей.
Адаптировать под запрос

Исследователи решали проблему нехватки данных для обучения моделей, которые связывают программные требования с кодом. Для этого они использовали LLM для генерации синтетических данных (код из требований и наоборот), применяя два типа промптов: zero-shot (без примеров) и few-shot (с примерами). Они обнаружили, что очень подробный, структурированный zero-shot промпт, разделенный на секции (контекст, цель, стиль, тон, аудитория, формат ответа), чрезвычайно эффективен для получения качественных результатов.

Ключевой результат: Четкое структурирование промпта с явным указанием контекста, цели, стиля, тона, аудитории и желаемого формата ответа значительно повышает качество и релевантность генерации LLM.

Суть метода заключается в переходе от простого запроса к созданию полноценного "технического задания" для LLM внутри одного промпта. Вместо того чтобы писать "Напиши код для X", вы предоставляете модели исчерпывающую информацию, как если бы ставили задачу младшему разработчику.

Методика, основанная на zero-shot шаблоне из исследования, выглядит так:

  1. Контекст (# CONTEXT #): Сначала вы сообщаете модели общую ситуацию. "Я готовлю пост для соцсетей", "Я анализирую отзывы клиентов". Это помогает LLM "настроиться" на нужную область знаний.

  2. Цель (# OBJECTIVE #): Четко и прямо сформулируйте, что вы хотите получить в итоге. "Сгенерируй три варианта рекламного слогана", "Суммаризируй ключевые проблемы из текста ниже".

  3. Стиль (# STYLE #): Укажите, на чей стиль должен быть похож ответ. "Пиши в стиле опытного маркетолога", "Используй стиль изложения, как в журнале The Economist". Это задает лексику и структуру предложений.

  4. Тон (# TONE #): Определите эмоциональную окраску текста. "Тон должен быть воодушевляющим и позитивным", "Сохраняй формальный и нейтральный тон".

  5. Аудитория (# AUDIENCE #): Опишите, для кого предназначен текст. "Целевая аудитория — молодые мамы 25-35 лет", "Текст для топ-менеджеров, у которых мало времени". Это один из самых важных пунктов, влияющий на сложность и акценты.

  6. Формат ответа (# RESPONSE #): Дайте строгие инструкции по форматированию. "Ответ дай только в виде нумерованного списка", "Никаких вступлений и заключений, только сам текст". Это избавляет от "воды" и лишних фраз.

Этот подход заставляет LLM рассматривать задачу не как единое целое, а как набор взаимосвязанных ограничений, что ведет к более точному и предсказуемому результату.

  • Прямая применимость: Максимальная. Пользователь может создать свой шаблон на основе этой структуры и использовать его для любых задач: написания писем, создания контента, анализа текстов, генерации идей. Достаточно скопировать структуру и заполнить ее под свою задачу. Например, можно создать шаблон "Идеальное деловое письмо" и просто менять в нем цель и аудиторию.

  • Концептуальная ценность: Огромная. Метод учит пользователя думать о промпте как о "конфигурационном файле" для LLM. Он наглядно демонстрирует, что модель — это не "черный ящик", а инструмент, которым можно и нужно управлять через явные и структурированные инструкции. Это помогает понять, почему LLM иногда "фантазирует" или отвечает не по делу — ему просто не хватило четких рамок.

  • Потенциал для адаптации: Очень высокий. Механизм адаптации прост: нужно взять предложенные шесть разделов (CONTEXT, OBJECTIVE и т.д.) и использовать их как чек-лист при составлении любого сложного промпта. Даже если не использовать формальные заголовки, сама привычка мысленно отвечать на эти шесть вопросов перед отправкой запроса кардинально улучшит его качество.

# CONTEXT #
Я владелец небольшой кофейни "Зерно & Пена". Мы запускаем новую акцию на следующей неделе и мне нужен текст для поста в наши социальные сети (Instagram, VK).

# OBJECTIVE #
Сгенерируй вовлекающий рекламный текст для поста, который анонсирует нашу новую акцию: "При покупке любого кофе объемом 0.4л — круассан в подарок". Цель — мотивировать подписчиков прийти к нам и воспользоваться акцией.

# STYLE #
Следуй стилю дружелюбного и увлеченного своим делом бариста, который общается с гостями на "ты", но уважительно. Избегай сухого корпоративного языка.

# TONE #
Восторженный, теплый, уютный и немного игривый. Текст должен вызывать желание зайти на чашку кофе.

# AUDIENCE #
Наши подписчики — в основном студенты и офисные работники из ближайших зданий (20-40 лет), которые ценят хороший кофе и уютную атмосферу.

# RESPONSE #
Предоставь только текст для поста. Он должен быть не длиннее 3-4 абзацев. Включи в текст 3-4 релевантных эмодзи. В конце добавь призыв к действию и наш адрес. Никаких дополнительных комментариев или вступлений от тебя не нужно.

Этот промпт эффективен, потому что он не оставляет LLM пространства для неверных интерпретаций. Каждая секция выполняет свою функцию: * # CONTEXT # и # AUDIENCE # сообщают модели, для кого и от чьего имени мы пишем, что сразу задает правильный фрейм (малый бизнес, а не крупная сеть). * # OBJECTIVE # четко ставит коммерческую цель — не просто рассказать, а мотивировать к действию. * # STYLE # и # TONE # управляют "голосом" бренда, делая текст живым и неформальным, а не роботизированным. * # RESPONSE # является критически важной инструкцией, которая отсекает весь "мусор" (вроде "Конечно, вот текст для вашего поста:...") и заставляет модель выдать готовый к публикации продукт нужной длины и формата.

# CONTEXT #
Я готовлю презентацию для отдела продаж по итогам квартала. Мне нужно проанализировать большой массив отзывов клиентов (текст я предоставлю ниже) и выделить основные моменты.

# OBJECTIVE #
Проанализируй текст с отзывами клиентов и извлеки из него 3 главных преимущества нашего продукта и 3 основные жалобы/проблемы, с которыми сталкиваются пользователи.

# STYLE #
Следуй стилю аналитического отчета. Формулировки должны быть четкими, деловыми и основанными на данных из текста.

# TONE #
Нейтральный, объективный, беспристрастный.

# AUDIENCE #
Менеджеры по продажам и руководитель отдела. Им нужна конкретика без "воды", чтобы понять сильные и слабые стороны продукта.

# RESPONSE #
Ответ представь в виде двух нумерованных списков под заголовками "Ключевые преимущества:" и "Основные проблемы:". Никаких вступлений и выводов.

<ТЕКСТ С ОТЗЫВАМИ>
[Сюда вставляется длинный текст с отзывами клиентов]

Этот пример демонстрирует эффективность метода для задач анализа и структурирования информации: * # CONTEXT # и # AUDIENCE # настраивают модель на бизнес-задачу. Она понимает, что результат будет использоваться для принятия решений, а не для развлечения. * # OBJECTIVE # декомпозирует сложную задачу ("проанализируй всё") на две конкретные подзадачи ("найди 3 плюса и 3 минуса"), что значительно повышает точность. * # STYLE # и # TONE # заставляют модель избегать оценочных суждений и эмоциональных эпитетов, фокусируясь на фактах из предоставленного текста. * # RESPONSE # диктует строгий формат вывода. Это превращает бесформенный ответ LLM в готовый слайд для презентации, экономя пользователю время на редактирование и форматирование. Использование тегов <ТЕКСТ С ОТЗЫВАМИ> также помогает модели четко отделить инструкции от данных для анализа.

📌

Основные критерии оценки

  • A. Релевантность техникам промтинга: Да, исследование предоставляет два конкретных, хорошо структурированных шаблона промптов (zero-shot и few-shot), которые можно немедленно использовать. Особенно ценен zero-shot шаблон с разделами CONTEXT, OBJECTIVE, STYLE, TONE, AUDIENCE, RESPONSE.
  • B. Улучшение качества диалоговых ответов: Да, хотя исследование измеряет улучшение для downstream-задачи, предложенные шаблоны напрямую нацелены на повышение качества, полноты и точности генерируемого текста, что полностью применимо к чат-сценариям.
  • C. Прямая практическая применимость: Абсолютно. Пользователь может скопировать структуру шаблона из Таблицы 1, адаптировать под свою задачу и использовать в любом чат-боте без какого-либо кода или специальных инструментов.
  • D. Концептуальная ценность: Очень высокая. Исследование дает пользователю мощную "ментальную модель" для общения с LLM: вместо простого вопроса нужно предоставить полный "брифинг" по задаче, разделив его на логические блоки. Оно также раскрывает неочевидную закономерность, что увеличение длины контекста не всегда улучшает результат.
  • E. Новая полезная практика: Работа попадает сразу в несколько кластеров:
    • 1. Техники формулирования промптов: Представлен детализированный шаблон структурирования инструкций (zero-shot).
    • 2. Поведенческие закономерности LLM: Раскрыт важный нюанс о том, что увеличение длины контекста (sequence length) не всегда полезно и зависит от задачи.
    • 3. Оптимизация структуры промптов: Демонстрируется использование маркеров (# ЗАГОЛОВОК #, ###) для разделения частей промпта.
  • Чек-лист практичности (+15 баллов): Да, исследование дает готовые конструкции, показывает, как структурировать запросы и раскрывает неочевидные особенности поведения LLM.
📌

Цифровая оценка полезности

Аргументы за высокую оценку (95): Исследование предлагает чрезвычайно практичный и универсальный шаблон промпта (zero-shot), который можно адаптировать для любой задачи, от написания кода до создания маркетинговых текстов. Этот шаблон — готовый инструмент, который немедленно улучшит качество и управляемость ответов LLM для любого пользователя. Он превращает "искусство" написания промптов в "инженерию", предоставляя четкую структуру. Вывод о том, что более длинный контекст не всегда лучше, является ценным концептуальным знанием, которое убережет пользователей от распространенных ошибок.

Контраргументы (почему не 100): * Узкая область применения в исследовании: Основной фокус статьи — очень специфическая задача в инженерии ПО (трассировка требований). Неопытный пользователь может проигнорировать исследование, посчитав его нерелевантным для своих бытовых или бизнес-задач, хотя предложенный метод универсален. * Косвенное измерение пользы: Улучшение качества (рост F1-score) измеряется для обучения другой модели, а не напрямую для ответа в чате. Пользователю нужно сделать мысленный перенос и понять, что качественные данные для обучения = качественный ответ в чате при том же промпте.


Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с