arXiv:2507.08335 98 11 июля 2025 г. FREE

Победу в конкурсе по генерации бизнес-идей принёс не дообученный GPT и не сложный многошаговый пайплайн.

КЛЮЧЕВАЯ СУТЬ

Победу в конкурсе по генерации бизнес-идей принёс не дообученный GPT и не сложный многошаговый пайплайн. Победил структурированный текстовый запрос из шести элементов. Метод MK2 позволяет проектировать весь процесс «мышления» модели — не просто задавать вопрос, а прокладывать путь к ответу нужного уровня. Фишка: скажи модели заранее, по каким критериям будешь оценивать её ответ — она начинает оптимизировать именно под них. Добавь в конце вопрос-самопроверку — получишь встроенный аудит качества без лишних запросов.

Адаптировать под запрос

Исследование представляет метод MK2 — систему, где одна LLM (Gemini) итеративно создает и улучшает промпт для другой LLM (GPT-4.1). Этот оптимизированный промпт используется для генерации коммерческих идей на основе сложных технических документов (патентов). Весь процесс построен исключительно на промпт-инжиниринге, без дообучения моделей.

Ключевой результат: Подход, основанный на создании сложного, структурированного промпта, позволил генерировать идеи настолько высокого качества, что система заняла первое место в соревновании, обойдя другие решения.

Суть метода заключается в отказе от простых промптов в пользу создания комплексного технического задания (ТЗ) для LLM. Вместо того чтобы просто спросить "Придумай идею на основе этого патента", авторы создали многокомпонентный промпт, который управляет всем процессом мышления модели.

Методика включает в себя несколько ключевых элементов, которые можно применять для любых сложных задач:

Ролевая модель (Role-Play): Промпт начинается с назначения LLM конкретной роли эксперта: "You are an expert business strategist and product-innovation analyst...". Это настраивает модель на нужный контекст, стиль и уровень экспертизы.
Четкая миссия (Mission): Сразу за ролью следует ясная и сфокусированная задача: "Your mission is to... craft exactly ONE outstanding product idea...".
Критерии успеха (Evaluation targets): Промпт заранее сообщает модели, по каким шести критериям будет оцениваться ее ответ (техническая валидность, инновационность, конкретика и т.д.). Это заставляет LLM оптимизировать ответ под эти требования.
Пошаговый процесс (Ideation Process): Модели дается четкий алгоритм действий: 1. Проанализируй патент. 2. Найди рыночную потребность. 3. Сформулируй концепцию. 4. Сформулируй питч. Это аналог техники Chain-of-Thought, который направляет "мыслительный" процесс LLM.
Строгий формат вывода (Output Format): Запрос требует ответ в виде JSON-объекта с конкретными полями и жесткими ограничениями по количеству символов для каждого. В описании каждого поля даются подробные инструкции, что именно там должно быть.
Механизм самопроверки (Self-Correction): В конце промпта есть "Тест на незаменимость патента": "Could this product’s core value... be achieved... without this specific patent’s core mechanism?". Это заставляет модель перепроверить свой ответ и повысить его качество и релевантность.

7. Позиционирование инструкций: Авторы обнаружили, что явное повторение требования об ограничении длины в самом конце промпта (ближе к моменту генерации) работает эффективнее, чем если бы оно было только в начале.

Прямая применимость: Пользователь может скопировать структуру промпта из исследования (Роль -> Миссия -> Критерии -> Процесс -> Формат -> Самопроверка) и адаптировать ее для любой сложной задачи: от написания бизнес-плана до создания контент-стратегии или планирования путешествия. Технику повторения критически важной инструкции (например, о стиле или формате) в конце промпта можно использовать повсеместно.
Концептуальная ценность: Исследование наглядно доказывает, что LLM — это не "черный ящик", а управляемая система. Оно учит пользователя думать как "архитектор запроса", который не просто задает вопрос, а проектирует весь процесс генерации ответа. Ключевая концепция: качество промпта прямо пропорционально его детализации и структурированности.

* Потенциал для адаптации: Метод легко адаптируется. Нужно лишь заменить предметную область ("патенты в NLP") на свою ("обзоры ресторанов", "новости фондового рынка", "медицинские статьи") и скорректировать роль, критерии и поля вывода. Например, для создания контент-плана ролью будет "SEO-стратег", критериями — "вовлеченность, SEO-потенциал, оригинальность", а полями вывода — "Тема поста", "Ключевые слова", "Целевая аудитория", "Призыв к действию".

# КОНТЕКСТ
Я веду блог о здоровом образе жизни для занятых профессионалов (25-40 лет). Моя цель - предоставлять практичные, научно обоснованные советы, которые легко внедрить в напряженный график.

# ЗАПРОС

Ты — опытный диетолог и эксперт по контенту, специализирующийся на создании увлекательных и научно-популярных материалов о здоровом образе жизни для аудитории с высокой занятостью.

Твоя миссия — разработать подробный контент-план на одну неделю (5 постов) для моего блога. План должен быть сфокусирован на теме "Энергия и продуктивность через питание".

### Твой план должен быть превосходным по следующим критериям:
1.  **Практичность:** Советы должны быть легко применимы для человека, работающего 8-10 часов в день.
2.  **Научная обоснованность:** Каждый тезис должен опираться на общепринятые научные данные (без псевдонауки).
3.  **Вовлеченность:** Темы и заголовки должны быть цепляющими и вызывать интерес.
4.  **Структурная четкость:** План должен быть логичным и последовательным.

### Процесс создания плана:
1.  **Анализ боли аудитории:** Подумай о ключевых проблемах занятых людей (усталость, нехватка времени на готовку, спад энергии после обеда).
2.  **Генерация идей:** Придумай 5 тем постов, каждая из которых решает одну из этих проблем.
3.  **Структурирование:** Для каждой темы предложи заголовок, 3-4 ключевых тезиса и идею для практического задания или "быстрого рецепта".
4.  **Формулировка:** Собери все в единый, легко читаемый формат.

### Формат вывода:
Предоставь ответ в виде списка, где каждый элемент — это один день. Используй следующую структуру для каждого дня:

*   **День [Номер]: [Цепляющий заголовок поста]**
    *   **Ключевые тезисы:** (список из 3-4 пунктов)
    *   **Практическое задание/Рецепт:** (конкретное, простое действие)

### Финальная проверка (Самокоррекция):
Прежде чем выдать ответ, критически оцени: действительно ли предложенные советы можно выполнить, имея всего 15-20 минут свободного времени утром или вечером? Если нет, упрости их.

Этот промпт эффективен, потому что он в точности следует методологии из исследования, перенося ее из области патентов в область контент-маркетинга:

Роль и Миссия: Промпт задает модели роль "диетолога и эксперта по контенту", что сразу настраивает ее на нужный стиль и уровень знаний.
Критерии успеха: Указание на "Практичность" и "Научную обоснованность" заставляет модель отфильтровывать общие или нереалистичные советы.
Пошаговый процесс: Инструкции по анализу болей аудитории и генерации идей направляют "мышление" LLM, приводя к более релевантному результату, чем просто "придумай 5 тем".
Строгий формат: Требование к структуре ("День: Заголовок, Тезисы, Задание") гарантирует, что ответ будет хорошо организованным, полным и удобным для использования.
Самокоррекция: Финальный вопрос-проверка заставляет модель еще раз пересмотреть свои предложения с точки зрения главного ограничения (нехватка времени у аудитории), что значительно повышает практическую ценность ответа.

# КОНТЕКСТ
Мы — семья из двух взрослых и двух детей (7 и 12 лет). Мы хотим спланировать летний отпуск на 10 дней в Италии. Наш бюджет — 4000 евро (без учета перелета). Мы любим историю, вкусную еду, но не хотим проводить все время в музеях. Дети активные.

# ЗАПРОС

Ты — первоклассный тревел-агент, специализирующийся на семейных путешествиях по Италии с учетом бюджета.

Твоя миссия — составить детализированный, сбалансированный и логичный маршрут на 10 дней по Италии для нашей семьи.

### Твой маршрут должен быть превосходным по следующим критериям:
1.  **Интересы семьи:** Маршрут должен сочетать исторические достопримечательности для взрослых и развлечения для детей (7 и 12 лет).
2.  **Бюджет:** Общая стоимость проживания, питания и развлечений не должна превышать 4000 евро.
3.  **Темп:** План не должен быть перегруженным. Должно быть время на отдых и спонтанные прогулки.
4.  **Логистика:** Переезды между городами должны быть минимизированы и логичны.

### Процесс создания маршрута:
1.  **Выбор регионов:** Определи 2-3 региона/города, которые оптимально сочетают наши интересы и логистику (например, Рим + Тоскана).
2.  **Распределение дней:** Распредели 10 дней между выбранными локациями.
3.  **Детализация по дням:** Для каждого дня предложи 1-2 основных активности (одна "взрослая", одна "детская" или общая) и варианты обеда/ужина.
4.  **Оценка бюджета:** Приблизительно оцени стоимость каждого дня.

### Формат вывода:
Предоставь маршрут в виде плана по дням. Для каждого дня укажи:

*   **День [Номер]: [Город/Регион]**
    *   **Утро:** (Активность, например, "Посещение Колизея по заранее купленным билетам")
    *   **День:** (Активность, например, "Мастер-класс по приготовлению пиццы для всей семьи")
    *   **Вечер:** (Активность, например, "Прогулка и ужин в районе Трастевере")
    *   **Примерный бюджет на день:** (€)

### Финальная проверка (Самокоррекция):
Прежде чем выдать ответ, задай себе вопрос: "Будет ли этот день интересен и не слишком утомителен для 7-летнего ребенка? Реалистично ли уложиться в предложенный бюджет с учетом цен в этом регионе?" Если ответ "нет", скорректируй план.

Этот промпт работает, потому что он превращает LLM из простого генератора идей в ответственного планировщика, который обязан учитывать множество ограничений.

Роль и контекст: Роль "тревел-агента для семей" и подробный контекст (возраст детей, бюджет) задают очень узкие рамки, отсекая стандартные туристические маршруты.
Критерии успеха: Требования к "Балансу", "Бюджету" и "Темпу" являются прямыми командами для модели. Она не просто ищет "что посмотреть в Италии", а оптимизирует результат под эти критерии.
Пошаговый процесс: Инструкция "сначала выбери регионы, потом распредели дни" заставляет модель мыслить логично, как это делал бы реальный планировщик, что предотвращает создание нелогичных маршрутов с большими переездами.
Строгий формат с бюджетом: Требование указывать бюджет на день заставляет модель не просто предлагать активности, а соотносить их со стоимостью, делая план гораздо более практичным.
Самокоррекция: Финальная проверка с фокусом на 7-летнего ребенка — это самый мощный элемент. Он заставляет модель пересмотреть свой "идеальный" план с точки зрения самого требовательного члена группы, что гарантирует его реалистичность и применимость на практике.

📌

Основные критерии оценки

A. Релевантность техникам промтинга: Да, исследование полностью посвящено созданию и оптимизации промпта. В приложении приводится полный двухстраничный текст промпта-победителя.
B. Улучшение качества ответов: Да, предложенный подход позволил занять первое место в соревновании по генерации идей, что доказывает высокое качество ответов.
C. Прямая практическая применимость: Да, пользователь может взять структуру и ключевые фразы из промпта в приложении и адаптировать их для своих задач без какого-либо кода или специальных инструментов.
D. Концептуальная ценность: Очень высокая. Исследование демонстрирует, как превратить промпт из простого вопроса в подробное техническое задание для LLM, включая ролевую модель, критерии оценки, пошаговый процесс и механизм самопроверки. Также содержит ценное наблюдение о влиянии позиции инструкции на ее выполнение (длина вывода).
E. Новая полезная практика (кластеризация): Работа попадает сразу в несколько ключевых кластеров:
- 1. Техники формулирования: Использование ролевой модели, структурированных инструкций, декомпозиции задачи.
- 2. Поведенческие закономерности: Выявлен эффект позиции инструкции (размещение требования о длине в конце промпта).
- 3. Оптимизация структуры: Весь промпт является примером сложной и эффективной структуры.
- 5. Извлечение и структурирование: Требование вывода в формате JSON с четко определенными полями.
- 7. Надежность и стабильность: Внедрение механизма самопроверки ("Patent Indispensability Test") для повышения релевантности и снижения поверхностных ответов.
Чек-лист практичности (+15 баллов): Да, все пункты выполнены. Исследование дает готовые конструкции, объясняет, как структурировать запросы и раскрывает неочевидные особенности поведения LLM.

📌

Цифровая оценка полезности

Оценка 98 из 100 обусловлена исключительной практической ценностью исследования для любого пользователя, стремящегося повысить качество ответов LLM на сложные запросы. Работа предоставляет не просто теорию, а готовый, протестированный в "боевых" условиях и чрезвычайно подробный шаблон промпта.

Аргументы за оценку: * Готовый шаблон: Приложение к статье содержит полный текст промпта, который можно использовать как основу для любых сложных задач, просто заменив предметную область. * Концептуальный сдвиг: Исследование учит пользователя переходить от простых вопросов к созданию "промптов-инструкций" или "промптов-ТЗ", что кардинально меняет качество взаимодействия с LLM. * Конкретные приемы: Включает в себя ролевую игру, пошаговый план, критерии успеха, требования к формату и, что особенно ценно, механизм самокоррекции. * Поведенческий инсайт: Практический совет о том, что ограничение по длине лучше работает в конце промпта, — это чистый промпт-инжиниринг, который можно применять немедленно.

Контраргументы (почему не 100): * Специфичность задачи: Изначальная задача (генерация идей из патентов) довольно узкоспециализированная. Пользователю потребуется приложить некоторые умственные усилия, чтобы адаптировать шаблон под свои повседневные нужды (например, написание поста для блога или составление маркетингового плана). * Сложность метода: Процесс создания самого промпта (итеративная доработка с помощью другой LLM) сложен для обычного пользователя. Однако конечный результат (текст промпта) полностью доступен и понятен.

📋

Несмотря на эти незначительные контраргументы, польза от изучения и применения итогового промпта настолько велика, что оправдывает почти максимальный балл.

📋 Дайджест исследования

Ключевая суть

Принцип работы

Обычный запрос — это выстрел вслепую. Просишь «придумай идею» и надеешься что выйдет что-то стоящее. Структурированный промпт — это навигатор с маршрутом и точкой назначения. Ты говоришь модели: вот твоя роль эксперта, вот ровно одна задача, вот шесть критериев которым должен соответствовать ответ, вот порядок шагов, вот строгий формат вывода — а в конце: перепроверь себя по главному ограничению. Модель не блуждает. Она идёт по маршруту который ты проложил. Разница в результате — как между «расскажи про Италию» и детальным брифом для тревел-агента.

Почему работает

Модель генерирует текст опираясь на то, что есть в контексте. Критерии оценки прямо внутри запроса — это постоянный ориентир во время генерации. Модель их видит и старается им соответствовать. Самопроверка в конце запускает второй проход. Модель смотрит на свой ответ через призму конкретного ограничения. Это убирает половину банальных ошибок ещё до того, как ответ дошёл до тебя. Позиция инструкций важна: критическое требование лучше повторить в самом конце промпта — ближе к моменту генерации, ближе к тому на что модель обращает внимание в последнюю очередь. Это не интуитивно, но авторы проверили — работает лучше чем только в начале.

Когда применять

Любая задача с несколькими критериями качества → бизнес-анализ, создание контента, планирование, исследовательские запросы, оценка идей. Особенно полезно когда нужен конкретный формат вывода или когда стандартный запрос даёт слишком размытый ответ. НЕ подходит: для простых задач вроде «переведи текст» или «найди опечатки» — там структура из шести элементов только мешает.

Мини-рецепт

1. Назначь роль: одна строка, конкретная. Не «ты эксперт», а

Ты — опытный бизнес-стратег, специализирующийся на монетизации технологий

.

2. Одна миссия: ровно одна задача. Твоя миссия — разработать ОДНУ выдающуюся идею продукта. Не две, не список — одну.

3. Критерии успеха (3–6 штук): перечисли по каким пунктам будешь оценивать ответ. Это и есть главный трюк — модель начнёт оптимизировать под них.

4. Пошаговый процесс: дай алгоритм действий. Шаг 1: проанализируй источник. Шаг 2: найди потребность. Шаг 3: сформулируй концепцию. Это аналог пошаговых рассуждений (Chain-of-Thought) — направляет ход мысли модели.

5. Строгий формат вывода: укажи поля, структуру, ограничения по длине для каждого поля. JSON, маркированный список, таблица — неважно, главное чтобы модель знала заранее как именно выглядит готовый ответ.

6. Вопрос-самопроверка: добавь в конце проверочный вопрос.

Прежде чем ответить: мог бы этот продукт существовать без ключевой механики из нашего патента?

Модель перепроверит сама себя.

7. Повтори самое важное требование в конце: если есть критичное ограничение (длина, тон, конкретное условие) — продубли его последней строкой промпта. Работает лучше чем только в начале.

Примеры

[ПЛОХО] : Прочитай этот патент и придумай, как его можно монетизировать

[ХОРОШО] :

Ты — эксперт по коммерциализации технологий.

Твоя миссия — разработать ОДНУ конкретную идею продукта на основе прилагаемого патента.

Твой ответ будет оцениваться по трём критериям:
1. Техническая связь с патентом (идея невозможна без него)
2. Реальная рыночная потребность (не теоретическая)
3. Конкретность (есть целевой клиент и сценарий использования)

Процесс:
1. Найди ключевую механику патента (одно предложение)
2. Определи кому это болезненно нужно прямо сейчас
3. Опиши продукт: что делает, для кого, почему именно эта механика незаменима

Формат: три поля — «Механика патента», «Целевой клиент», «Описание продукта» (до 100 слов).

Перед ответом: смог бы этот продукт работать без конкретной механики из патента? Если да — переделай.

Помни: ОДНА идея, не список.

Источник: MK2 at PBIG Competition: A Prompt Generation Solution

ArXiv ID: 2507.08335 | Сгенерировано: 2026-03-02 18:14

Методы

Метод	Суть
Конкретный вопрос-проверка в конце запроса	Вместо "проверь себя" добавляй в конец запроса конкретный вопрос с единственно верным ответом. Пример: "Можно ли решить эту задачу без этого конкретного ограничения? Если да — переделай". Модель вынуждена сверить результат с главным требованием. Почему работает: абстрактная самопроверка ("убедись что ответ хороший") не создаёт реального фильтра. Конкретный вопрос создаёт чёткий критерий "да/нет" и заставляет пересмотреть ответ. Когда применять: задачи с одним ключевым ограничением (бюджет, целевая аудитория, обязательное условие). Когда не работает: несколько равнозначных критериев — один вопрос не охватит всё.
Критерии оценки до генерации	Пропиши критерии оценки ответа ДО того, как модель начнёт генерировать. Пример: "Ответ будет хорошим если: 1) практично, 2) без воды, 3) до 200 слов". Почему работает: критерии до генерации — это цель для оптимизации. Критерии после — это ретроспективная оценка. Модель оптимизирует то, что видит до начала работы. Когда применять: любая задача где есть несколько измеримых требований к качеству.

Метод

Суть

Конкретный вопрос-проверка в конце запроса

Вместо "проверь себя" добавляй в конец запроса конкретный вопрос с единственно верным ответом. Пример: "Можно ли решить эту задачу без этого конкретного ограничения? Если да — переделай". Модель вынуждена сверить результат с главным требованием. Почему работает: абстрактная самопроверка ("убедись что ответ хороший") не создаёт реального фильтра. Конкретный вопрос создаёт чёткий критерий "да/нет" и заставляет пересмотреть ответ. Когда применять: задачи с одним ключевым ограничением (бюджет, целевая аудитория, обязательное условие). Когда не работает: несколько равнозначных критериев — один вопрос не охватит всё.

Критерии оценки до генерации

Пропиши критерии оценки ответа ДО того, как модель начнёт генерировать. Пример: "Ответ будет хорошим если: 1) практично, 2) без воды, 3) до 200 слов". Почему работает: критерии до генерации — это цель для оптимизации. Критерии после — это ретроспективная оценка. Модель оптимизирует то, что видит до начала работы. Когда применять: любая задача где есть несколько измеримых требований к качеству.

Тезисы

Тезис	Комментарий
Важные ограничения лучше повторить в конце запроса	LLM хуже следует требованиям из начала длинного запроса — они "тонут" в контексте. Если требование критично (лимит длины, обязательный формат, ключевое условие) — повтори его последним абзацем, прямо перед точкой генерации. Применяй: добавляй в конец запроса одну строку с самым важным: "Напоминание: ответ строго до 3 предложений" или "Обязательно: только факты, без советов".

Тезис

Комментарий

Важные ограничения лучше повторить в конце запроса

LLM хуже следует требованиям из начала длинного запроса — они "тонут" в контексте. Если требование критично (лимит длины, обязательный формат, ключевое условие) — повтори его последним абзацем, прямо перед точкой генерации. Применяй: добавляй в конец запроса одну строку с самым важным: "Напоминание: ответ строго до 3 предложений" или "Обязательно: только факты, без советов".

📖 Простыми словами

MK2 на соревновании PBIG: решение для генерации промптов

arXiv: 2507.08335

Суть тут в том, что нейронки, как и люди, тупеют от неопределенности. Исследование MK2 at PBIG доказывает: чтобы выжать из модели адекватный результат, нельзя просто кинуть в нее задачу. Нужно построить структурный каркас, который буквально заставляет AI имитировать экспертное мышление. Это не магия, а жесткая архитектура промпта, где каждый блок данных работает как рельсы для поезда — сойти с них и начать нести ахинею у модели просто не получится.

Это как если бы ты нанял нового сотрудника и вместо задачи "сделай отчет" выдал ему папку с должностной инструкцией, примерами лучших работ и списком запрещенных слов. Формально работа одна и та же, но в первом случае ты получишь невнятную отсебятину, а во втором — профессиональный продукт. Без четкого контекста нейронка просто гадает, что у тебя в голове, и в 9 из 10 случаев промахивается мимо цели.

Главный рабочий инструмент здесь — блочная структура. Сначала ты задаешь контекст (кто ты и для кого это), затем вводишь ограничения (что нельзя делать) и только потом даешь сам запрос. Исследователи из MK2 выяснили, что разделение «личности» автора и «сути» задачи повышает качество ответа в разы. Это работает потому, что модель перестает смешивать цель с фоновым шумом и фокусируется на целевых метриках, которые ты сам же и прописал.

Хотя метод обкатывали на сложных патентных задачах, принцип универсален. Он одинаково круто работает и для генерации кода, и для написания постов в блог про ЗОЖ, и для анализа бизнес-стратегий. Если ты четко прописал, что твоя аудитория — занятые профи 25-40 лет, AI не будет советовать им варить костный бульон по пять часов, а выдаст практичные и быстрые решения. Это переход от «тыканья палкой» к промпт-инжинирингу на стероидах.

Короче: завязывай общаться с нейронкой как с джинном из лампы, надейся не на чудо, а на структуру. Если в твоем промпте нет четкого разделения на контекст и задачу, ты просто тратишь токены впустую. Используй методологию MK2, сегментируй вводные данные, и тогда AI превратится из забавного чат-бота в реально эффективный инструмент, который понимает тебя с первого раза. Кто не освоит структурный подход, так и будет жаловаться, что нейросети выдают банальщину.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

Выберите модель ИИ:

Ваш запрос:

0 / 2000

~0.5-2 N-токенов ~10-30с

~0.3-1 N-токенов ~5-15с

Меню