Компиляция промптов, а не их создание: воспроизводимый рабочий процесс для синтеза доказательств с помощью ИИ

Исследование показывает, что качество ответов LLM сильно зависит от малейших изменений в промпте ("хрупкость промптов"), что делает ручной подбор запросов похожим на "алхимию". Вместо этого авторы предлагают инженерный подход: не "сочинять" промпты вручную, а "компилировать" их автоматически, используя специальный фреймворк. Этот фреймворк сам подбирает наилучшую формулировку промпта и примеры для него на основе заранее определенных критериев качества и тестовых данных.

Ключевой результат: Переход от интуитивного подбора промптов к систематическому, автоматизированному процессу их создания, что обеспечивает высокую точность и воспроизводимость результатов.

Суть метода — в смене парадигмы. Вместо того чтобы быть "поэтом", который пытается найти идеальные слова для промпта, пользователь должен стать "инженером", который строит систему для поиска этого промпта.

Авторы называют ручной подбор промптов "промпт-алхимией": вы меняете слова, переставляете предложения, и результат непредсказуемо меняется. Это ненадежно.

Они предлагают "компиляцию промптов" — структурированный процесс, который можно адаптировать для ручного использования:

Определить Цель (Declarative Goal): Четко сформулировать, что вы хотите получить на выходе. Не "проанализируй текст", а "извлеки из текста Имя, Фамилию и Должность в формате JSON". Вы описываете что, а не как.
Создать Эталон (Codify the Standard): Подготовить несколько "идеальных" примеров. Для задачи извлечения это будут пары "входной текст → правильный JSON". Это ваш "золотой стандарт", по которому будет оцениваться качество работы LLM.
Скомпилировать Промпт (Compile the Program): В исследовании это делает программа — она перебирает разные формулировки инструкций и комбинации ваших эталонных примеров, чтобы найти ту, которая дает наилучший результат на вашем "золотом стандарте".
- Для обычного пользователя это означает ручной перебор: вы пробуете 2-3 варианта промпта (разные инструкции + ваши примеры) и смотрите, какой из них лучше всего справляется с вашей задачей.
Зафиксировать Результат (Package the Artefact): Сохранить самый удачный вариант промпта для дальнейшего использования.

Таким образом, вы не гадаете, а систематически тестируете гипотезы о том, какой промпт работает лучше, опираясь на созданный вами же эталон качества.

Прямая применимость: Низкая. Пользователь не может запустить Python-скрипт с библиотекой DSPy в обычном чате. Метод, как он описан, предназначен для разработчиков.
Концептуальная ценность: Очень высокая. Исследование дает пользователю бесценную ментальную модель:
1. "Хрупкость промптов" — это реальная, измеримая проблема, а не ваша личная неудача. Это знание снимает фрустрацию.
2. Ценность примеров (few-shot): Промпт — это не только инструкция, но и мини-набор данных для обучения "на лету". Качество этих примеров напрямую влияет на результат.
3. Тест-ориентированный подход: Прежде чем писать сложный промпт, подумайте: "А как я пойму, что он работает хорошо?". Создайте для себя 2-3 тестовых примера, чтобы объективно оценивать разные версии промпта.
Потенциал для адаптации: Высокий. Пользователь может симулировать "компиляцию" вручную.
- Механизм адаптации:
  1. Определите сложную, повторяющуюся задачу (например, сортировка отзывов).
  2. Создайте "золотой стандарт": 5-7 примеров входных данных и желаемых результатов.
  3. Напишите 2-3 варианта промпта с разными инструкциями, но с одними и теми же примерами из вашего стандарта.
  4. "Прогоните" каждый вариант промпта через ваши тестовые примеры и посмотрите, какой из них дает самый точный и стабильный результат.
  5. Используйте победивший промпт в дальнейшей работе.

Ты — опытный SMM-менеджер, твоя задача — классифицировать комментарии пользователей под рекламным постом о новом фитнес-приложении.

**# 1. Цель (Задача)**
Проанализируй комментарий пользователя и присвой ему одну из четырех категорий. Ответ должен быть строго в формате:
- **Категория:** [название категории]
- **Обоснование:** [короткое объяснение, почему выбрана эта категория]

**# 2. Контекст (Критерии классификации)**
- **Позитив:** Прямая похвала, выражение радости, интерес к покупке.
- **Негатив:** Критика функционала, жалобы на ошибки, недовольство ценой.
- **Вопрос:** Запрос дополнительной информации о функциях, цене, совместимости.
- **Оффтоп:** Комментарий не по теме поста, спам, реклама.

**# 3. Эталон (Примеры правильной классификации)**

**Пример 1:**
*Комментарий:* "Вау, наконец-то нормальное приложение без подписок! Уже скачал, все работает супер!"
*Результат:*
- **Категория:** Позитив
- **Обоснование:** Пользователь выражает восторг и положительный опыт использования.

**Пример 2:**
*Комментарий:* "А с Apple Watch синхронизация есть?"
*Результат:*
- **Категория:** Вопрос
- **Обоснование:** Пользователь запрашивает информацию о технической совместимости.

**Пример 3:**
*Комментарий:* "После обновления все тренировки слетели. Ужас."
*Результат:*
- **Категория:** Негатив
- **Обоснование:** Пользователь жалуется на критическую ошибку после обновления.

**# 4. Задание на выполнение**
Теперь классифицируй следующий комментарий, строго следуя формату и примерам:

**"Дороговато для такого набора функций. У конкурентов и то больше."**

Этот промпт работает, потому что он вручную реализует принципы "компиляции промптов":

Четкая цель и структура (Goal): Разделы Цель и Контекст однозначно определяют задачу и формат вывода. Это устраняет двусмысленность.
Эталон качества (Standard): Раздел Эталон с тремя примерами — это ваш "золотой стандарт". Модель не просто читает инструкцию, она видит конкретные примеры ее применения. Это значительно снижает "хрупкость" промпта, так как LLM получает четкий паттерн для подражания.
Принуждение к логике: Примеры заставляют модель следовать определенной логике ("если есть жалоба на ошибку -> это Негатив"), а не просто генерировать текст на основе общих знаний. Вы, по сути, "скомпилировали" инструкцию и данные в один эффективный запрос.

Ты — мой личный ассистент. Твоя задача — проанализировать текст моего письма и извлечь из него ключевую информацию для постановки задачи в таск-менеджер.

**# 1. Цель (Задача)**
Извлеки из текста письма суть задачи, дедлайн и контакты. Ответ дай строго в виде JSON-объекта со следующими ключами: `task_summary`, `deadline`, `contact_person`, `priority`.

**# 2. Контекст (Критерии извлечения)**
- `task_summary`: Краткая суть задачи (что нужно сделать).
- `deadline`: Крайний срок. Если не указан, ставь "Не указан".
- `contact_person`: Имя человека, с которым нужно связаться. Если не указан, ставь "Не указан".
- `priority`: Определи приоритет как "Высокий", если в тексте есть слова "срочно", "важно", "горящий". В остальных случаях — "Средний".

**# 3. Эталон (Примеры правильного извлечения)**

**Пример 1:**
*Письмо:* "Привет! Нужно подготовить отчет по продажам за Q3. Пожалуйста, сделай это до пятницы. Если что, пиши Ивану Петрову."
*Результат:*

json

{ "tasksummary": "Подготовить отчет по продажам за Q3", "deadline": "до пятницы", "contactperson": "Иван Петров", "priority": "Средний" }


**Пример 2:**
*Письмо:* "КОЛЛЕГИ, СРОЧНО! Упал сервер, нужно поднять бэкап. Это самый важный приоритет на сегодня!"
*Результат:*
```json
{
  "task_summary": "Поднять бэкап упавшего сервера",
  "deadline": "сегодня",
  "contact_person": "Не указан",
  "priority": "Высокий"
}

# 4. Задание на выполнение Теперь обработай следующее письмо, строго следуя формату и примерам:

"Добрый день. Прошу вас связаться с Марией из отдела маркетинга и уточнить у нее смету по новому проекту. Было бы здорово получить цифры к среде." ```

Этот промпт эффективен, так как он превращает расплывчатую задачу "прочитай письмо" в инженерную задачу извлечения данных, используя методологию из исследования:

Декларативность: Промпт четко декларирует что нужно получить (JSON с конкретными полями), а не инструктирует как это делать шаг за шагом.
Кодификация стандарта: Примеры не просто показывают формат, но и обучают модели нюансам: как определять приоритет по ключевым словам ("срочно" -> "Высокий"), как обрабатывать отсутствующие данные ("Не указан"). Это и есть "кодификация стандарта" в действии.
Снижение "хрупкости": Без примеров модель могла бы "галлюцинировать" дедлайн или неверно определить приоритет. Примеры создают жесткие рамки, внутри которых модель работает гораздо более предсказуемо и надежно, имитируя результат работы "скомпилированного" промпта.

📌

Основные критерии оценки

A. Релевантность техникам промтинга: Высокая. Исследование предлагает не конкретные фразы, а целую методологию (фреймворк) для создания оптимальных промптов, что является мета-техникой промпт-инжиниринга.
B. Улучшение качества диалоговых ответов: Высокая. Основная цель фреймворка — повышение точности и надежности ответов LLM, что напрямую влияет на их качество.
C. Прямая практическая применимость: Низкая. Метод в его "чистом" виде требует программирования, использования Python-библиотек (DSPy) и автоматизированных тестов. Обычный пользователь не может применить это напрямую в веб-интерфейсе чат-бота.
D. Концептуальная ценность: Очень высокая. Работа вводит и объясняет критически важные концепции: "хрупкость промптов" (prompt fragility), "промпт-алхимия" (ручной подбор) и противопоставляет им инженерный подход "компиляции промптов". Это фундаментально меняет взгляд на процесс создания запросов.
E. Новая полезная практика (кластеризация): Работа попадает сразу в несколько кластеров:
- Кластер 1 (Техники формулирования): Предлагает системный подход к созданию few-shot промптов.
- Кластер 2 (Поведенческие закономерности): Вся работа построена вокруг проблемы "хрупкости промптов" — их чувствительности к малейшим изменениям.
- Кластер 7 (Надежность и стабильность): Основная цель исследования — борьба с недетерминированностью и повышение воспроизводимости результатов.
Чек-лист практичности (+15 баллов): Да, работа концептуально показывает, как структурировать сложные запросы, раскрывает неочевидные особенности поведения LLM (хрупкость) и предлагает способ повысить точность.

📌

Цифровая оценка полезности

Аргументы за оценку 68: Оценка отражает огромную концептуальную ценность исследования, которая может кардинально улучшить подход пользователя к созданию промптов, но при этом учитывает почти нулевую прямую применимость предложенного инструментария (кода) для нетехнической аудитории. Пользователь не может "скомпилировать" промпт в ChatGPT, но он может начать думать как компилятор: определять цель, готовить эталонные примеры и тестировать варианты. Это требует адаптации, поэтому оценка не в высшей лиге (90+), но и не в средней (30-64), так как дает мощную ментальную модель.

Контраргументы: * Почему оценка могла быть выше (>75): Потому что концепция "определи цель → создай эталонные примеры → проверь" — это универсальный алгоритм, который можно применять и вручную. Если пользователь усвоит этот принцип, его промпты станут на порядок лучше. Это можно считать "четким выводом, который можно сразу учесть при построении промпта", что заслуживает более высокой оценки. * Почему оценка могла быть ниже (<50): Потому что исследование целиком и полностью сфокусировано на программной автоматизации для узкой научной задачи (систематический обзор литературы). Пользователь, прочитав про DSPy, Python и API, может решить, что это совершенно не для него, и не сможет извлечь концептуальную пользу из-за высокого технического порога входа.

Меню

Компиляция промптов, а не их создание: воспроизводимый рабочий процесс для синтеза доказательств с помощью ИИ

Основные критерии оценки

Цифровая оценка полезности

Работа с исследованием

Результат адаптации