3,583 papers
arXiv:2507.07689 82 10 июля 2025 г. FREE

Проблема большинства промптов не в том, как сформулирован вопрос — а в том, что модели не дают ничего, с чем работать: она угадывает там, где должна опираться на данные.

КЛЮЧЕВАЯ СУТЬ
Проблема большинства промптов не в том, как сформулирован вопрос — а в том, что модели не дают ничего, с чем работать: она угадывает там, где должна опираться на данные. Метод RAG (поиск с дополнением контекста) позволяет превратить любой набор документов — описание проекта, протокол встречи, техническое задание — в готовые структурированные требования или спецификации. Вы вкладываете в промпт всё необходимое через четыре блока: роль → задача → исходные данные → правила. Модель перестаёт угадывать и начинает работать как аналитик: извлекает, сопоставляет, форматирует строго по предоставленному. В космической отрасли — где цена ошибки запредельна — подход превратил горы разрозненной документации в готовые спецификации без ручного труда.
Адаптировать под запрос

Исследование предлагает систему на основе LLM для автоматизации создания технических требований в космической отрасли. Система анализирует большие и сложные документы (например, описание миссии), находит в них релевантную информацию, сопоставляет ее с отраслевыми стандартами, а затем генерирует четкие и структурированные требования для инженеров. Это значительно сокращает ручной труд и снижает риск ошибок.

Ключевой результат: Доказана практическая возможность использования подхода RAG (Retrieval-Augmented Generation) для превращения разрозненной документации в готовые к работе технические спецификации.

Суть метода, который может применить обычный пользователь, заключается в сознательном управлении контекстом, который вы предоставляете языковой модели. Вместо того чтобы полагаться на общие знания LLM, вы создаете для нее "мини-базу знаний" прямо внутри своего промпта.

Этот подход, известный как Retrieval-Augmented Generation (RAG), можно упростить до трех шагов:

  1. Собрать (Retrieve): Прежде чем писать промпт, вы сами находите и собираете всю необходимую информацию. Это могут быть фрагменты текста из документа, ключевые тезисы из статьи, данные из отчета, список правил или требований.
  2. Дополнить (Augment): Вы не просто задаете вопрос, а "дополняете" его собранным контекстом. Вы структурируете всю эту информацию внутри одного промпта, используя четкие разделители и заголовки. Вы как бы говорите модели: "Вот вся информация, которая тебе нужна. Не выдумывай, работай только с ней".
  3. Сгенерировать (Generate): В конце промпта вы даете четкую инструкцию, что именно нужно сделать с предоставленной информацией: проанализировать, сравнить, обобщить, извлечь данные или написать текст в определенном формате.

Методика, описанная в исследовании, формализует этот процесс. Она предлагает использовать специальный шаблон, где вы четко разделяете роль, задачу, исходные данные (например, описание продукта) и правила/стандарты (например, корпоративный стиль). Это превращает LLM из "всезнайки" в сфокусированного ассистента, работающего строго по вашему техническому заданию.

  • Прямая применимость: Пользователь может немедленно скопировать структуру промпта из исследования (Listing 1) и адаптировать ее для своих задач. Вместо , и можно подставить свои блоки информации: <Цель текста>, <Исходные данные> и <Требования к формату>. Это напрямую улучшает качество генерации для любых задач, требующих синтеза информации.

  • Концептуальная ценность: Исследование учит фундаментальному принципу: качество ответа LLM прямо пропорционально качеству и релевантности предоставленного контекста. Пользователь начинает понимать, что его главная задача — не просто сформулировать вопрос, а выступить в роли "архитектора контекста". Это меняет подход к взаимодействию с LLM с простого чата на целенаправленное управление генерацией.

  • Потенциал для адаптации: Механизм адаптации очень прост. Нужно мысленно заменить сущности из исследования на свои:

    • Mission DocumentТекст моей статьи, Описание моего проекта, Протокол встречи.
    • Domain StandardsГайдлайны по стилю, Юридические ограничения, Критерии оценки.
    • Requirements AnalystМаркетолог, Копирайтер, Студент. Этот шаблон универсален для любой задачи, где нужно на основе одного или нескольких источников создать новый структурированный документ.
Ты — опытный маркетолог-копирайтер. Твоя задача — написать три коротких рекламных поста для социальных сетей (каждый 50-70 слов) для продвижения нового продукта.

Работай строго на основе предоставленной ниже информации.

<Описание продукта>:
Название: "Умный блокнот 'Momentum'".
Особенности:
- Обложка из переработанного кофе.
- Страницы из каменной бумаги (водонепроницаемые, пишут любой ручкой).
- Встроенная система планирования "Циклы Продуктивности": разделы для целей на квартал, месяц, неделю и день.
- QR-код на каждой странице для быстрой оцифровки заметок в наше приложение.
Целевая аудитория: Студенты, фрилансеры, менеджеры проектов, все, кто ценит продуктивность и экологичность.

<Требования к стилю и формату>:
- Тон: Вдохновляющий, энергичный, но не агрессивный.
- Обязательно использовать 2-3 эмодзи в каждом посте.
- В каждом посте должен быть призыв к действию (CTA): "Узнай больше по ссылке в профиле!"
- Избегать сложных технических терминов. Фокус на пользе для пользователя.

<Инструкции к выполнению>:
1. Внимательно изучи описание продукта и требования к стилю.
2. Создай три уникальных поста, каждый из которых фокусируется на разных преимуществах: 1) Экологичность и дизайн, 2) Продуктивность и планирование, 3) Технологичность и долговечность.
3. Представь результат в виде трех отдельных абзацев.

Этот промпт эффективен, потому что он в точности следует методологии из исследования, адаптированной для повседневной задачи:

  • Четкая роль: Ты — опытный маркетолог-копирайтер. Это настраивает модель на генерацию текста в определенном профессиональном стиле.
  • Структурированный контекст (RAG): Вместо того чтобы просить "напиши пост про блокнот", мы предоставляем всю необходимую информацию в четко разделенных блоках:
    • <Описание продукта> — это аналог Requirements из статьи. Модель получает все факты и не будет их выдумывать (галлюцинировать).
    • <Требования к стилю и формату> — это аналог Domain Standards. Модель понимает "правила игры": какой тон использовать, какие есть ограничения.
  • Декомпозиция задачи: Инструкции в конце (<Инструкции к выполнению>) разбивают большую задачу ("напиши посты") на маленькие, понятные шаги, что гарантирует более релевантный и структурированный результат.
Ты — ассистент руководителя. Тебе нужно подготовить краткую сводку (summary) по итогам онлайн-встречи для рассылки участникам, которые не смогли присутствовать.

Твоя задача — извлечь ключевую информацию из предоставленной стенограммы и оформить ее в виде структурированного письма.

<Стенограмма встречи>:
"Мария: ...итак, коллеги, по проекту 'Зефир' у нас проблема с поставщиком 'Омега', они срывают сроки на две недели. Это критично.
Иван: Предлагаю найти альтернативу. Я слышал про компанию 'Гамма', они могут быстрее.
Петр: Я свяжусь с 'Гаммой' до конца завтрашнего дня и узнаю их условия. Мария, нужно подготовить официальное уведомление для 'Омеги'.
Мария: Хорошо, Петр, жду от тебя информацию. Иван, пожалуйста, проанализируй риски срыва сроков для клиентского релиза. Отчет от тебя нужен к среде.
Иван: Принято.
Мария: Отлично. По бюджету — мы выходим за рамки на 15%. Нужно найти, где сократить расходы. Все, спасибо."

<Требования к формату письма>:
- Стиль: Официально-деловой, краткий, по существу.
- Структура:
  1. Заголовок: "Ключевые решения по проекту 'Зефир' (дата встречи)".
  2. Основные проблемы (списком).
  3. Принятые решения (списком).
  4. Поставленные задачи (в формате: "Задача — Ответственный — Срок").

<Инструкции к выполнению>:
1. Внимательно прочитай стенограмму.
2. Идентифицируй проблемы, решения и назначенные задачи с ответственными и сроками.
3. Сформируй письмо строго по указанной в требованиях структуре.

Этот пример работает благодаря тем же самым принципам, что и в исследовании, но в контексте извлечения и структурирования информации:

  • Роль и цель: Ты — ассистент руководителя, подготовить краткую сводку. Это задает контекст и конечную цель.
  • Изолированный источник данных (RAG): Промпт предоставляет точный и единственный источник правды — <Стенограмма встречи>. Это заставляет LLM работать как парсер и суммаризатор, а не как творческий писатель, что исключает додумывание фактов.
  • Жесткий шаблон вывода: Блок <Требования к формату письма> действует как Domain Standards из статьи. Он не оставляет модели пространства для "творчества" в оформлении. LLM вынуждена отформатировать извлеченную информацию в строго заданную структуру (проблемы, решения, задачи), что делает результат сразу готовым к использованию.
  • Фокус на действии: Промпт не просит "объяснить", а дает команду "извлечь" и "оформить". Это переводит LLM в режим выполнения конкретной операции над данными, что повышает точность и релевантностью вывода.
📌

Основные критерии оценки

  • A. Релевантность техникам промтинга: Да, исследование предоставляет конкретный и хорошо структурированный шаблон промпта (Listing 1), который можно адаптировать.
  • B. Улучшение качества диалоговых ответов: Да, цель подхода — генерация высокоточных, структурированных и релевантных технических требований, что является прямой задачей на улучшение качества.
  • C. Прямая практическая применимость: Частично. Полная система (с препроцессингом, классификацией и эмбеддингами) требует технических навыков и кода. Однако ключевой принцип и шаблон промпта абсолютно применимы для любого пользователя без каких-либо инструментов.
  • D. Концептуальная ценность: Очень высокая. Исследование наглядно демонстрирует мощь подхода RAG (Retrieval-Augmented Generation) и учит пользователя мыслить не как "спрашивающий", а как "архитектор задачи", который сначала собирает и структурирует контекст, а затем передает его LLM для генерации.
  • E. Новая полезная практика (кластеры): Работа попадает сразу в несколько ключевых кластеров:
    • Кластер 1 (Техники формулирования): Представлен шаблон промпта с ролевой моделью и четкими инструкциями.
    • Кластер 3 (Оптимизация структуры): Используются XML-подобные теги () для разделения контекста.
    • Кластер 5 (Извлечение и структурирование): Вся суть работы — извлечь информацию и сгенерировать структурированный ответ.
    • Кластер 6 (Контекст и память): Это классический пример практического применения RAG для работы с большим объемом информации.
  • Чек-лист практичности (+15 баллов): Да, исследование дает готовые конструкции, показывает, как структурировать запрос, и раскрывает мощный концепт RAG.
📌

Цифровая оценка полезности

Оценка 82 балла обусловлена тем, что исследование предлагает чрезвычайно мощный и универсальный ментальный фреймворк (RAG) и конкретный, легко адаптируемый шаблон промпта для решения сложных задач, требующих анализа информации из нескольких источников. Это не просто "фишка", а фундаментальный подход к работе с LLM.

Аргументы за оценку: * Практический шаблон: Предложенный в работе шаблон промпта с четким разделением ролей, сценария и источников данных — это готовый инструмент, который можно скопировать и использовать, заменив контент. * Концептуальная ясность: Исследование идеально иллюстрирует принцип RAG (Поиск-Дополнение-Генерация) на реальном примере. Для пользователя это мощный инсайт: чтобы получить качественный ответ на сложный вопрос, нужно сначала "скормить" модели релевантную информацию. * Универсальность подхода: Хотя пример взят из узкоспециализированной космической отрасли, сам метод (предоставление исходных данных, правил и целей в одном промпте) универсален и применим для анализа отчетов, написания статей на основе источников, создания маркетинговых планов и т.д.

Контраргументы (почему оценка не 90+): * Высокий порог входа для полной репликации: Полная система, описанная в статье (автоматическая классификация, эмбеддинги, фильтрация документов), недоступна обычному пользователю без навыков программирования. Ценность извлекается из адаптации принципов, а не из прямого копирования всего процесса. * Узкоспециализированный домен: Пример из космической инженерии может отпугнуть некоторых пользователей и потребовать от них умственных усилий для переноса концепции на свои повседневные задачи (например, "что такое ECSS-стандарты в моем случае?").


📋 Дайджест исследования

Ключевая суть

Проблема большинства промптов не в том, как сформулирован вопрос — а в том, что модели не дают ничего, с чем работать: она угадывает там, где должна опираться на данные. Метод RAG (поиск с дополнением контекста) позволяет превратить любой набор документов — описание проекта, протокол встречи, техническое задание — в готовые структурированные требования или спецификации. Вы вкладываете в промпт всё необходимое через четыре блока: роль → задача → исходные данные → правила. Модель перестаёт угадывать и начинает работать как аналитик: извлекает, сопоставляет, форматирует строго по предоставленному. В космической отрасли — где цена ошибки запредельна — подход превратил горы разрозненной документации в готовые спецификации без ручного труда.

Принцип работы

Обычный запрос: Напиши требования для навигационной системы. Модель лезет в общие знания — выдаёт шаблонную воду или уверенно врёт детали, которых не знает. RAG-подход переворачивает логику: сначала вы сами собираете все нужные фрагменты из документов, потом вкладываете их в промпт четырьмя блоками. Роль задаёт стиль, задача — цель, исходные данные — единственный источник правды, правила — ограничения на вывод. Модель превращается из всезнайки в переводчика: берёт ваши данные и переупаковывает в нужный формат.

Почему работает

LLM плывёт без ограничений. Нет контекста — модель заполняет пустоты из обучения. Иногда угадывает верно, чаще — красиво врёт. Четыре блока создают жёсткие рамки: модель физически не может выйти за пределы предоставленных данных, потому что инструкция прямо запрещает додумывать. Качество ответа становится прямой функцией качества контекста — и это переключает ваше мышление с «как спросить» на «что дать». Именно поэтому метод прошёл проверку там, где галлюцинации буквально недопустимы.

Когда применять

Любая задача синтеза информации → когда нужно на основе одного или нескольких источников создать структурированный документ. Особенно хорошо работает там, где есть фиксированные правила: корпоративный стиль, юридические ограничения, форматы отчётности, технические стандарты. НЕ подходит для открытых творческих задач без ограничений — там жёсткие рамки только душат результат.

Мини-рецепт

1. Сначала соберите, потом пишите: найдите и скопируйте все нужные фрагменты из документов, статей, стенограмм. Промпт начинается только после того, как материал собран.
2. Задайте роль: <роль>Ты — системный аналитик с опытом в аэрокосмической отрасли — роль задаёт стиль и уровень детализации.
3. Разделите контекст на блоки: <задача>что именно сделать, <исходные данные>ваши документы целиком или фрагментами, <правила>стандарты, ограничения, формат вывода. Разделители помогают модели не смешивать источник с инструкцией.
4. Закройте инструкцией на вывод: формат, количество пунктов, что включать, что исключать — и явный запрет добавлять информацию, которой нет в исходных данных.

Примеры

[ПЛОХО] : Напиши требования для бортовой системы навигации спутника
[ХОРОШО] : Ты — инженер по системным требованиям. Твоя задача — на основе предоставленных документов сформулировать технические требования в формате «Система должна...». <Описание миссии>: [вставить реальный текст описания] <Применимые стандарты>: [вставить нужные ограничения, нормы или корпоративные правила] <Инструкция>: Сформулируй 5-10 требований. Работай строго с предоставленными данными — ничего не добавляй от себя. Если информации недостаточно — укажи, каких данных не хватает.
Источник: From Domain Documents to Requirements: Retrieval-Augmented Generation in the Space Industry
ArXiv ID: 2507.07689 | Сгенерировано: 2026-03-02 17:07

Методы

МетодСуть
Два разных блока контекста — данные и правилаДели контекст на два блока. Первый — что обрабатываем (<Источник данных>). Второй — как обрабатываем (<Правила и ограничения>). Не смешивай их в один блок. Почему работает: Модель перестаёт путать факты с инструкциями. Знает: вот материал для работы, вот рамки. Не додумывает ни то ни другое. Когда применять: Любая задача — синтез, извлечение, переформат — где есть исходные данные и требования к результату. Чем больше объём и того и другого — тем важнее разделение. Когда не нужно: Короткий запрос без внешних данных. Там разделять нечего
📖 Простыми словами

От доменных документов к требованиям: генерация с дополненным поиском в аэрокосмической отрасли

arXiv: 2507.07689

Инженеры в космической отрасли работают с документами, которые больше похожи на кирпичи: тысячи страниц гостов, стандартов и спецификаций. Когда нужно вытащить из этого массива конкретные требования к новой железке, обычный поиск пасует, а стандартные AI-модели начинают нести ахинею. Суть метода RAG (Retrieval-Augmented Generation) здесь в том, чтобы превратить нейронку из сказочника в строгого архивариуса. Система не гадает ответ, а сначала находит нужный кусок текста в базе, кладет его перед собой и только потом формулирует требование. Это фундаментальный сдвиг от генерации из головы к работе с фактами.

Это как если бы ты сдавал сложнейший экзамен по ракетостроению. Обычная нейронка — это студент, который что-то слышал на лекциях и пытается выехать на общих фразах, надеясь, что препод не заметит лажи. А RAG-система — это тот же студент, но с разрешением пользоваться всей библиотекой прямо во время ответа. Он не вспоминает, он цитирует. Если в учебнике написано, что болт должен выдерживать нагрузку в 10 тонн, он не скажет «ну, он должен быть крепким», он выдаст конкретную цифру и ссылку на параграф.

В исследовании обкатали связку из семантического поиска и контекстной фильтрации. Сначала алгоритм ищет похожие по смыслу куски документации, а затем промпт заставляет модель работать в режиме «бритвы Оккама»: отсекать лишнюю воду и превращать рыхлый текст в жесткие инженерные требования. Главная фишка — верификация источника. Модель обязана обосновать каждое слово ссылкой на исходник, иначе это считается браком. В космосе цена ошибки — пара миллиардов долларов, поэтому галлюцинации здесь недопустимы.

Хотя тестировали всё это на спутниках и ракетах, принцип извлечения требований универсален для любого сложного бизнеса. Это идеально ложится на юриспруденцию, медицину или финтех — везде, где есть тонны скучных правил и высокая цена косяка. Вместо того чтобы заставлять человека неделю вычитывать регламенты, можно натравить на них AI. SEO для документов больше не нужно, теперь важно, насколько четко структурированы твои данные для «умного» поиска.

Короче, эпоха, когда мы просили нейронку «просто написать текст», прошла. Теперь мы строим системы, которые сначала думают над базой знаний, а потом выдают результат. Если твоя работа связана с обработкой сложных инструкций, забудь про ручной труд — автоматизация извлечения знаний через RAG экономит месяцы жизни. Либо ты учишься скармливать свои документы модели правильно, либо тонешь в бюрократическом болоте, пока конкуренты штампуют решения в десять раз быстрее.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с