3,583 papers
arXiv:2511.09969 54 13 нояб. 2025 г. FREE

Owlgorithm: поддержка саморегулируемого обучения в соревновательном программировании посредством рефлексии, управляемой LLM

КЛЮЧЕВАЯ СУТЬ
Один промпт для сложной задачи даёт усреднённый результат, потому что LLM пытается одновременно генерировать идеи и критиковать их — это перегружает модель. Метод Owlgorithm позволяет получать качественные, релевантные ответы на сложные запросы через разделение задачи на роли. Первый промпт запускает «Генератора» (креативная роль без ограничений), второй — «Рецензента» (критик, который фильтрует и улучшает). Вместо одного слабого ответа вы получаете широкий охват идей + их профессиональную проработку.
Адаптировать под запрос
📌

Ключевые аспекты исследования:

Исследование представляет платформу Owlgorithm, которая помогает студентам-программистам анализировать свои решения с помощью вопросов, сгенерированных LLM (GPT-4o). Вместо одного большого промпта, система использует цепочку из нескольких промптов, где разные экземпляры LLM играют роли "Генератора" идей и "Рецензента", который эти идеи отбирает и улучшает. Это позволяет создавать более точные и педагогически ценные вопросы, адаптированные к тому, решил студент задачу или нет.

Ключевой результат: Разделение сложной задачи на последовательность более простых шагов (генерация, критика, форматирование), выполняемых разными "ролями" LLM, значительно повышает качество, надежность и управляемость конечного результата по сравнению с одним монолитным промптом.


🔬

Объяснение всей сути метода:

Основная идея метода — "Разделяй и властвуй". Вместо того чтобы просить LLM в одном запросе сделать что-то сложное (например, "проанализируй мой текст и дай качественную обратную связь"), задача разбивается на несколько последовательных шагов, имитирующих работу команды специалистов.

  1. Роль "Генератора": На первом этапе вы даете LLM роль креативного, но некритичного специалиста. Его задача — набросать как можно больше идей, вариантов, вопросов или черновиков. На этом шаге важна широта охвата, а не качество.
  2. Роль "Рецензента" (или "Критика", "Редактора"): На втором этапе вы запускаете новый диалог (или продолжаете текущий, четко сменив роль) и даете LLM новую роль — прагматичного, скептического эксперта. Вы "скармливаете" ему результаты работы "Генератора" и просите их оценить, отфильтровать, выбрать лучшее, найти слабые места и улучшить.

Этот двухэтапный процесс заставляет LLM сначала сфокусироваться на генерации (творчестве), а затем — на анализе и критике. Это предотвращает получение "усредненных", слишком общих или нерелевантных ответов, которые часто возникают, когда модель пытается одновременно быть и творцом, и критиком.

Дополнительно, для надежности используются: * Четкие роли: "Ты — профессор...", "Ты — опытный маркетолог...". * Структурные разделители: Использование тегов, как в HTML/XML (например, <ТЕКСТ>, <ЗАДАЧА>), чтобы модель точно понимала, где какая часть информации находится. * Низкая "температура" (Temperature): Установка этого параметра на низкое значение делает ответы модели более предсказуемыми и стабильными, что особенно важно для "Рецензента".


📌

Анализ практической применимости:

  • Прямая применимость: Пользователь может напрямую имитировать этот подход в любом чат-боте. Сначала он пишет промпт для "Генератора", получает ответ, а затем в следующем сообщении пишет промпт для "Рецензента", вставляя в него предыдущий ответ LLM. Использование ролей и тегов-разделителей (<контекст>...</контекст>) также применяется немедленно.

  • Концептуальная ценность: Главный инсайт — не доверять LLM выполнение сложных, многоаспектных задач в один шаг. Модель лучше справляется с серией коротких, сфокусированных инструкций. Это формирует у пользователя "ментальную модель" LLM как набора специализированных инструментов, а не одного всемогущего оракула. Понимание этого помогает избегать фрустрации от некачественных ответов на сложные запросы.

  • Потенциал для адаптации: Метод универсален. Вместо "Генератор кода" и "Рецензент кода" можно использовать пары: "Креативный копирайтер" и "Строгий редактор", "Брейнштормер идей" и "Прагматичный бизнес-аналитик", "Мечтательный планировщик отпуска" и "Скрупулезный турагент". Механизм адаптации прост: определить две противоположные, но взаимодополняющие роли, релевантные для вашей задачи, и последовательно применить их.


🚀

Практически пример применения:

### **Задача: Разработать идеи для рекламной кампании нового веганского кафе "Зеленый Лис"**

---
#### **ШАГ 1: РОЛЬ ГЕНЕРАТОРА**
---

Ты — **креативный маркетолог-визионер**, который не боится смелых и даже немного сумасшедших идей. Твоя задача — генерировать как можно больше разнообразных концепций, не думая об ограничениях бюджета или реализации.

**Контекст:**
<контекст>
Название кафе: "Зеленый Лис"
Целевая аудитория: молодые люди 20-35 лет, интересующиеся здоровым образом жизни, экологией, но не обязательно строгие веганы.
Фишка: необычные авторские блюда, уютный "лесной" интерьер.


**Задание:**
На основе предоставленного контекста, сгенерируй **10 ярких и запоминающихся идей** для SMM-кампании по продвижению кафе. Думай нестандартно.

---
*(...ожидаем ответ от LLM с 10 идеями...)*
---

#### **ШАГ 2: РОЛЬ РЕЦЕНЗЕНТА**
---

Теперь ты — **прагматичный SMM-стратег** с опытом работы с малым бизнесом. Твой бюджет ограничен, а главная цель — привлечь первых посетителей в течение месяца.

**Входные данные:**
<идеи_от_генератора>
*   Идея 1: Запустить в стратосферу талисман-лису с камерой GoPro.
*   Идея 2: Коллаборация с приютом для животных "Спаси лису".
*   Идея 3: Серия "слепых дегустаций", где люди не верят, что еда веганская.
*   ... (и еще 7 идей) ...


**Задание:**
1.  Проанализируй список идей выше.
2.  Выбери **3 самые реалистичные и эффективные** идеи для запуска с небольшим бюджетом.
3.  Для каждой выбранной идеи кратко опиши план реализации из 2-3 шагов и объясни, почему именно эта идея сработает.
🧠

Почему это работает:

Этот промпт работает за счет разделения когнитивной нагрузки.

  1. На Шаге 1 ("Генератор") модель освобождена от необходимости думать о практичности. Роль "креативного визионера" позволяет ей генерировать широкий спектр идей, включая те, что находятся на грани абсурда, но могут содержать ценное зерно. Это максимизирует творческий потенциал.
  2. На Шаге 2 ("Рецензент") модель получает четкую, сфокусированную задачу: не придумывать, а анализировать и выбирать. Роль "прагматичного стратега" и ограничение по бюджету задают жесткие рамки, заставляя LLM применять логику и критерии отбора к уже существующему материалу.
  3. Промежуточный артефакт (список из 10 идей) служит стабильным и конкретным контекстом для второго шага, делая критику предметной, а не абстрактной. В итоге пользователь получает не просто набор идей, а короткий список лучших из них с готовым планом действий.

📌

Другой пример практического применения

### **Задача: Составить план саморазвития на ближайшие 3 месяца**

---
#### **ШАГ 1: РОЛЬ ГЕНЕРАТОРА**
---

Ты — **мотивационный коуч и лайф-дизайнер**. Твоя философия — "возможно всё!". Ты помогаешь людям мечтать по-крупному и видеть все возможности для роста.

**Контекст:**
<информация_о_человеке>
Я работаю менеджером по продукту, хочу вырасти до руководителя группы. Чувствую, что мне не хватает навыков публичных выступлений и стратегического планирования. В свободное время люблю читать фантастику и ходить в походы.


**Задание:**
На основе контекста, набросай **амбициозный и вдохновляющий список из 10 целей и активностей** на 3 месяца для всестороннего развития (профессионального и личного). Не ограничивай себя реалистичностью.

---
*(...ожидаем ответ от LLM с 10 целями...)*
---

#### **ШАГ 2: РОЛЬ РЕЦЕНЗЕНТА**
---

Теперь ты — **опытный ментор и практик тайм-менеджмента**. Ты знаешь, что ресурсы (время, энергия) ограничены, и что лучше сделать меньше, но хорошо.

**Входные данные:**
<цели_от_генератора>
*   Цель 1: Прочитать 20 книг по стратегии и лидерству.
*   Цель 2: Выступить с докладом на крупной международной конференции.
*   Цель 3: Запустить собственный пет-проект и вывести его на 1000 пользователей.
*   Цель 4: Пройти 100-километровый поход в одиночку.
*   ... (и еще 6 целей) ...


**Задание:**
1.  Проанализируй этот амбициозный список.
2.  Выбери **1-2 ключевые профессиональные цели и 1 личную цель**, которые дадут максимальный эффект за 3 месяца и реалистично вписываются в жизнь занятого человека.
3.  Разбей каждую выбранную цель на **конкретные, измеримые еженедельные шаги**. Объясни, почему стоит сфокусироваться именно на них.
🧠

Объяснение механизма почему этот пример работает.

Механизм успеха здесь тот же — разделение ролей и фокуса.

  1. Генератор (Коуч): На первом шаге модель генерирует "поле возможностей", не будучи скованной рамками реальности. Это помогает пользователю увидеть, к чему в принципе можно стремиться, и расширяет его горизонты. Ответ получается вдохновляющим, но непрактичным.
  2. Рецензент (Ментор): На втором шаге модель выполняет функцию "фильтра реальности". Роль ментора и фокус на тайм-менеджменте заставляют ее отбросить нереалистичные цели (прочитать 20 книг за 3 месяца) и выбрать те, что принесут наибольшую пользу.
  3. Декомпозиция: Ключевое требование на втором шаге — "разбей на еженедельные шаги". Это заставляет модель превратить абстрактную цель ("улучшить публичные выступления") в конкретный план действий ("каждую неделю готовить 5-минутную речь и записывать на видео"). В результате пользователь получает не просто мечты, а готовый к исполнению трекшн-план.
📌

Оценка полезности: 95

📌

Основные критерии оценки

  • A. Релевантность техникам промптинга: Да, исследование подробно описывает конкретные и продвинутые техники: ролевые спецификации, структурированные разделители, инкрементальную доработку (цепочки промптов) и принудительное форматирование через Regex.
  • B. Улучшение качества диалоговых ответов: Да, вся суть исследования — в создании системы, которая генерирует более качественные, релевантные и педагогически ценные вопросы (ответы LLM), чем при использовании одного общего промпта.
  • C. Прямая практическая применимость: Да, принципы, особенно разделение на роли "Генератора" и "Рецензента" (Generator/Reviewer), а также использование тегов-разделителей, могут быть немедленно применены пользователем в обычном чате без какого-либо кода.
  • D. Концептуальная ценность: Очень высокая. Исследование дает мощную ментальную модель: вместо того чтобы пытаться создать один "идеальный" промпт, следует разбивать сложную задачу на последовательность более простых, где разные "агенты" (или шаги в чате) выполняют разные функции — генерацию, критику, форматирование.
  • E. Новая полезная практика: Работа попадает сразу в несколько кластеров:
    • 1. Техники формулирования промптов: Описывается продвинутая форма декомпозиции и ролевой игры.
    • 3. Оптимизация структуры промптов: Прямо упоминается использование разделителей (<problem>, <code>) и форматирования.
    • 4. Управление генерацией: Упоминается контроль температуры для детерминированности.
    • 7. Надежность и стабильность: Архитектура "Генератор + Рецензент" — это мощный метод повышения надежности и снижения "галлюцинаций" или нерелевантных ответов.
  • Чек-лист практичности: Даны готовые конструкции (роли, теги), показано, как структурировать сложные запросы, раскрыты неочевидные особенности (предотвращение "context bleeding"), предложены способы улучшить consistency. (+15 баллов к базовой оценке).
📌

Цифровая оценка полезности

Аргументы "ЗА" (почему оценка высокая): Исследование — это настоящая сокровищница для продвинутого промпт-инженера. Оно выходит за рамки простых советов и предлагает целую архитектуру взаимодействия с LLM, которую можно воспроизвести в обычном чате. Ключевая идея разделения ролей на "Генератора" и "Рецензента" — это фундаментальный сдвиг в подходе к решению сложных задач, который немедленно повышает качество и надежность результатов. Техники, такие как использование XML-тегов для разметки контекста, ролевые инструкции и пошаговая цепочка промптов, описаны четко и являются универсальными.

Контраргументы (почему оценка могла бы быть ниже/выше): * Почему могла быть ниже: Основной пример применения — узкоспециализированный (обучение программированию). Пользователю из другой сферы (например, маркетинг, юриспруденция) потребуется приложить усилия для адаптации. Полная реализация системы, как она описана, требует написания кода для вызова API, что выходит за рамки "обычного пользователя". * Почему могла быть выше (ближе к 100): Несмотря на узкий пример, описанные принципы являются одними из самых мощных и универсальных в современном промпт-инжиниринге. Концепция "Генератор + Рецензент" — это, по сути, упрощенная версия техник, которые используются в state-of-the-art LLM-агентах, и данное исследование делает ее доступной для понимания и частичного применения широкой аудиторией. Это фундаментальные знания, которые кардинально меняют подход к промптингу.


Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с