3,583 papers
arXiv:2410.04094 95 5 окт. 2024 г. FREE

BloomWise: повышение возможностей решения проблем большими языковыми моделями с использованием промптов, вдохновленных таксономией Блума

КЛЮЧЕВАЯ СУТЬ
Если нет — переходите на уровень "Applying" и так далее, пока два последовательных уровня не дадут одинаковый результат
Адаптировать под запрос

Исследование предлагает метод BloomWise, который заставляет LLM решать задачу, последовательно проходя через шесть уровней мышления по таксономии Блума: от простого запоминания фактов до анализа, оценки и создания новых решений. Вместо того чтобы просить модель "просто решить задачу", ей дают инструкцию, как именно думать на каждом шаге, имитируя процесс человеческого обучения. Это делает рассуждения модели более структурированными, объяснимыми и, как следствие, более точными.

Ключевой результат: Использование иерархии когнитивных стилей (от простого запоминания до сложного анализа) повышает точность и надежность решений LLM в сложных задачах по сравнению со стандартными техниками вроде Chain-of-Thought.

Суть метода BloomWise заключается в том, чтобы перестать относиться к LLM как к "черному ящику", который должен сразу выдать правильный ответ, и начать управлять его "мыслительным процессом". Авторы взяли за основу таксономию Блума — педагогическую модель, которая классифицирует мыслительные навыки по шести уровням возрастающей сложности:

  1. Remembering (Запоминание): Вспомнить факты, формулы, определения.
  2. Understanding (Понимание): Объяснить идеи, концепции, перефразировать.
  3. Applying (Применение): Использовать знание в новой ситуации, применить процедуру.
  4. Analyzing (Анализ): Разбить информацию на части, найти связи, проанализировать структуру.
  5. Evaluating (Оценка): Сделать суждение, покритиковать, сравнить и выбрать лучший вариант.
  6. Creating (Создание): Сгенерировать новую идею, продукт или способ решения.

Практическая методика для пользователя:

Вместо одного общего промпта, вы даете модели специальную инструкцию, которая активирует нужный уровень мышления. Вы можете либо провести модель через несколько уровней последовательно, либо сразу выбрать тот уровень, который лучше всего подходит для вашей задачи.

Например, если вам нужен глубокий анализ ситуации, вы используете промпт уровня "Analyzing". Если вам нужно сравнить два варианта и выбрать лучший — промпт уровня "Evaluating".

Исследование предлагает два продвинутых способа использования этой методики: * BLES (Ранняя остановка): Вы просите модель решить задачу сначала на уровне "Remembering", потом на уровне "Understanding". Если ответы совпали, вы останавливаетесь, считая ответ надежным. Если нет — переходите на уровень "Applying" и так далее, пока два последовательных уровня не дадут одинаковый результат. * BLM (Голосование): Вы просите модель решить задачу на всех шести уровнях, а затем выбираете тот ответ, который встречается чаще всего.

Для обычного пользователя наиболее практично не реализовывать сложные схемы BLES/BLM, а использовать промпты для отдельных уровней как самостоятельный инструмент для повышения качества ответа.

  • Прямая применимость: Исключительно высокая. Пользователь может взять готовую конструкцию из исследования (см. Таблицу 6) и вставить ее в свой промпт. Например, чтобы заставить модель провести глубокий анализ текста, достаточно добавить в начало инструкцию: You are at the Analyzing level. Solve the problem by breaking it into parts, determining how the parts relate to one another... Это немедленно меняет поведение модели.

  • Концептуальная ценность: Огромная. Метод учит пользователя тому, что LLM — это не просто генератор текста, а инструмент, "стиль мышления" которого можно и нужно настраивать. Вы начинаете думать не "что спросить?", а "как заставить модель думать над моим вопросом?". Это дает понимание, что для разных задач (суммирование, анализ, креатив, сравнение) нужны разные подходы к промптингу.

  • Потенциал для адаптации: Метод легко адаптируется с математики на любую другую область. Промпты для уровней Блума универсальны. Например, для анализа бизнес-кейса, написания маркетинговой стратегии или разбора юридического документа можно использовать те же самые "когнитивные" инструкции, просто подставив свою задачу. Механизм адаптации — просто заменить "solve the math problem" на "analyze this customer feedback" или "create a travel plan".

Представим, что вы менеджер по продукту и вам нужно проанализировать отзывы пользователей, чтобы составить план улучшений.

Ты — опытный менеджер по продукту. Твоя задача — проанализировать отзывы пользователей о нашем мобильном приложении и предложить план действий.

**# Контекст**
Наше приложение — это планировщик задач. Пользователи жалуются, что оно "сложное" и "непонятное". Вот несколько типичных отзывов:
- "Слишком много кнопок, я не понимаю, куда нажимать, чтобы просто добавить задачу".
- "Календарь неудобный, не могу быстро посмотреть задачи на неделю".
- "Хотел поделиться списком покупок с женой, но так и не нашел, как это сделать. Удалил приложение".
- "Уведомления приходят с опозданием или не приходят вообще".
- "Почему нельзя просто голосом добавить задачу? В 21 веке живем!"

**# Твоя задача**
Используй следующий когнитивный подход для решения этой задачи.

**You are at the Analyzing level. Solve the problem by breaking it into parts, determining how the parts relate to one another, and identifying patterns or relationships. Show your thought process by differentiating, organizing, and attributing relationships between the elements.**

Проанализируй эти отзывы. Разбей проблемы на категории, определи их первопричины и покажи, как они связаны между собой.

**# Формат ответа**
Представь свой анализ в виде структурированного отчета с четкими категориями проблем.

Этот промпт работает благодаря прямой инструкции, активирующей аналитический режим мышления LLM.

  • Роль и задача: Ты — опытный менеджер по продукту задает контекст и ожидаемый уровень экспертизы.
  • Ключевая механика (BloomWise): Фраза You are at the Analyzing level. Solve the problem by breaking it into parts... является прямым приказом из исследования. Она заставляет модель не просто перечислить или обобщить жалобы, а выполнить конкретные когнитивные операции:
    1. Breaking it into parts: Модель будет вынуждена выделить из сплошного текста отзывов отдельные проблемы (UI, календарь, шаринг, уведомления).
    2. Organizing: Она сгруппирует их по категориям (например, "Проблемы с интерфейсом", "Функциональные недостатки", "Технические сбои").
    3. Attributing relationships: Модель может выявить, что проблемы с "много кнопок" и "неудобный календарь" относятся к одной общей проблеме — плохой UX/UI дизайн.

Без этой инструкции LLM мог бы дать поверхностное обобщение вроде "Пользователям не нравится интерфейс и уведомления". С ней он проводит структурированный анализ, который гораздо полезнее для принятия решений.

Задача: Спланировать отпуск для семьи с двумя детьми (7 и 12 лет), выбрав между двумя направлениями: пляжный отдых в Турции или экскурсионный тур по городам Италии.

Ты — опытный турагент, который помогает семьям спланировать идеальный отпуск.

**# Контекст**
Семья из 4 человек (двое взрослых, дети 7 и 12 лет) выбирает, куда поехать в отпуск на 10 дней в июле. Бюджет — 300 000 рублей.
Варианты:
1.  **Турция (Анталья):** Пляжный отдых, система "все включено", аквапарки, детская анимация.
2.  **Италия (Рим, Флоренция, Венеция):** Экскурсионный тур, много ходьбы, музеи, история, другая культура.

**# Твоя задача**
Помоги семье сделать выбор. Используй следующий когнитивный подход.

**You are at the Evaluating level. Solve the problem by making judgments about different approaches or potential solutions. Express your thought process by checking, critiquing, and explaining why one approach or answer is better or more appropriate than others for this specific family.**

Сравни эти два варианта с точки зрения интересов каждого члена семьи (взрослых и детей разного возраста), бюджета и сезона (июль). Не просто перечисляй плюсы и минусы, а вынеси аргументированное суждение, какой вариант будет **лучше** для этой конкретной семьи и почему.

**# Формат ответа**
1.  Краткий анализ каждого варианта через призму интересов семьи.
2.  Сравнительная таблица по ключевым критериям (интересы детей, интересы взрослых, бюджет, сложность логистики).
3.  Твой финальный вердикт и четкое обоснование, почему один вариант предпочтительнее другого.

Этот промпт эффективен, потому что он задействует самый высокий уровень аналитического мышления LLM — оценку.

  • Роль и контекст: Ты — опытный турагент и описание семьи создают четкие рамки для принятия решения.
  • Ключевая механика (BloomWise): Инструкция You are at the Evaluating level... make judgments... critiquing, and explaining why one approach is better заставляет модель не просто быть информационным справочником, а стать настоящим советником.
    1. Making judgments: Модель не может просто сказать "в Турции пляжи, а в Италии музеи". Она обязана вынести суждение: "Для 7-летнего ребенка многочасовые экскурсии по жаркому Риму будут утомительны, поэтому Турция с аквапарком лучше подходит для младшего ребенка".
    2. Critiquing: Она должна критически оценить каждый вариант. Например: "Хотя Италия очень познавательна, для семейного отдыха в июле она может быть слишком дорогой и утомительной из-за толп туристов и жары".
    3. Explaining why one is better: Промпт требует не просто сравнения, а вынесения вердикта с обоснованием. Это приводит к гораздо более ценному и персонализированному совету, чем стандартный список плюсов и минусов.
📌

Основные критерии оценки

  • A. Релевантность техникам промтинга: Да, исследование предлагает совершенно новый, структурированный фреймворк (BloomWise) и конкретные формулировки промптов для каждого из 6 когнитивных уровней.
  • B. Улучшение качества диалоговых ответов: Да, исследование демонстрирует повышение точности в решении задач, что напрямую транслируется в более надежные и качественные ответы в чат-формате.
  • C. Прямая практическая применимость: Да, пользователь может немедленно скопировать и использовать промпты для каждого уровня (Remembering, Analyzing и т.д.) без какого-либо кода или специальных инструментов.
  • D. Концептуальная ценность: Очень высокая. Исследование дает пользователю мощную ментальную модель: LLM можно заставить "думать" на разных уровнях сложности, от простого припоминания до творческого синтеза. Это объясняет, почему иногда LLM дает поверхностные ответы и как заставить его "копать глубже".
  • E. Новая полезная практика: Работа попадает сразу в несколько кластеров:
    • Кластер 1 (Техники формулирования): Предлагает новый метод, основанный на когнитивной иерархии, который является развитием идей CoT.
    • Кластер 7 (Надежность и стабильность): Методы BLES (ранняя остановка) и BLM (голосование) напрямую нацелены на повышение надежности и верификацию ответа.
  • Чек-лист практичности (+15 баллов): Да, работа дает готовые фразы, показывает, как структурировать сложные запросы, раскрывает неочевидные особенности поведения LLM и предлагает способы улучшить точность.
📌

Цифровая оценка полезности

Аргументы за высокую оценку (95): Это исследование — настоящий подарок для продвинутого пользователя LLM. Оно не просто дает "магическую фразу", а предлагает целый фреймворк для управления мыслительным процессом модели. Ключевая ценность — в предоставлении готовых, протестированных промптов для каждого из шести уровней таксономии Блума (Таблица 6 в статье). Пользователь может сразу же взять промпт уровня "Analyzing" или "Evaluating" и заставить модель решать задачу более глубоко и структурированно. Это напрямую улучшает качество ответов в сложных задачах, требующих рассуждений. Концептуальная ценность огромна: пользователь начинает понимать, что можно и нужно управлять "когнитивной глубиной" LLM.

Контраргументы (почему не 100): * Сложность полной реализации: Полная реализация методов BLES (сравнение двух ответов подряд) или BLM (голосование большинством) требует от обычного пользователя в чате выполнения нескольких запросов и их ручного сравнения. Это может быть громоздко и не всегда удобно. * Фокус на математике: Хотя метод универсален, все примеры и тесты в статье сфокусированы на математических задачах. Пользователю придется самостоятельно адаптировать и проверять его эффективность для своих гуманитарных, творческих или бизнес-задач.

Несмотря на это, даже использование отдельных промптов из фреймворка (без сложной логики BLES/BLM) дает огромный прирост в качестве, поэтому оценка остается очень высокой.


Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с