Исследователи создали систему для оценки способности LLM выступать в роли агента-продавца и понимать намерения покупателя в ходе многоэтапного диалога (торга). Они обнаружили, что модели хорошо распознают четкие и конкретные запросы (например, "узнать подлинность товара"), но плохо справляются с двусмысленными, редкими или неявными намерениями (например, "предложить бизнес-сотрудничество").
Суть исследования можно свести к простому, но мощному принципу для написания промптов: иерархическая декомпозиция задачи. Вместо того чтобы давать LLM одну большую и расплывчатую цель, ее следует разбить на три уровня, как это сделали авторы:
- Цель (Intent): Что вы хотите получить в самом конце? Это ваш высокоуровневый замысел. Например: "Создать контент-план для блога".
- Действия (Action): Какие конкретные шаги нужно предпринять для достижения цели? Это промежуточные этапы. Например: "Проанализировать ЦА", "Сгенерировать темы постов", "Составить график публикаций".
- Инструменты/Формат (Tool): Каким должен быть результат каждого действия? Это атомарные, конкретные операции или требования к формату. Например: "Выдать результат в виде таблицы Markdown", "Темы должны быть в формате 'вопрос-ответ'", "Анализ ЦА должен включать боли и интересы".
Прямая применимость: Низкая. Пользователь не может использовать предложенный фреймворк
BargainBenchнапрямую. Однако, он может немедленно начать применять принцип декомпозиции в своих промптах, разбивая сложные задачи на более мелкие и четкие подзадачи.Концептуальная ценность: Высокая. Исследование дает пользователю "ментальную модель" для взаимодействия с LLM. Вместо того чтобы видеть LLM как "черный ящик", пользователь начинает понимать его как систему, которая лучше всего обрабатывает четко определенные, последовательные инструкции. Ключевая концепция: "Не заставляй модель догадываться о твоих намерениях — заяви их явно и пошагово".
Представим, что SMM-специалист хочет получить от LLM помощь в создании контент-плана.
Ты — опытный SMM-стратег. Твоя задача — помочь мне разработать контент-план для Instagram-аккаунта, который продает авторские свечи ручной работы.
Действуй строго по следующей иерархической структуре:
<Задача>
Разработать детальный контент-план на одну неделю.
Задача>
<Действия>
1. **Анализ Целевой Аудитории:** Кратко опиши основного покупателя этих свечей (возраст, интересы, боли).
2. **Генерация Рубрик:** Предложи 3-4 ключевые рубрики контента (например, "Процесс создания", "Польза ароматерапии", "Отзывы клиентов").
3. **Создание Контент-плана:** Для каждой рубрики сгенерируй по 2 идеи для постов на неделю.
Действия>
<Требования_к_результату>
* Для каждой идеи поста укажи:
* **Тип контента:** (Reels, Пост-карусель, Stories).
* **Краткий сценарий/тезисы:** (Что показать или о чем написать).
* **Призыв к действию (CTA):** (Что должен сделать пользователь после просмотра).
* Весь результат представь в виде одной таблицы Markdown с колонками: "День недели", "Рубрика", "Тип контента", "Сценарий/Тезисы", "CTA".
Требования_к_результату>
Этот промпт работает, потому что он напрямую применяет выводы исследования, превращая расплывчатый запрос "сделай контент-план" в четкую, структурированную задачу.
- Снижение неоднозначности: Вместо того чтобы заставлять LLM угадывать, что такое "контент-план", мы явно определяем его компоненты (
<Действия>) и финальный вид (<Требования_к_результату>). Это соответствует выводу статьи о том, что LLM отлично справляются с четко определенными задачами. - Иерархическая структура: Использование тегов
<Задача>,<Действия>и<Требования_к_результату>имитирует иерархию "Intent-Action-Tool". Это помогает модели последовательно обрабатывать запрос, не теряя контекст и не пропуская шаги.Задача: спланировать короткое путешествие.
Ты — эксперт по путешествиям по Европе. Помоги мне спланировать 3-дневную поездку в Лиссабон для пары. # Главная Цель (Intent) Составить сбалансированный и реалистичный маршрут на 3 полных дня в Лиссабоне для двух взрослых, которые любят историю, вкусную еду и красивые виды. Бюджет средний. ## Ключевые Этапы (Actions) 1. **День 1: Исторический центр.** Спланируй маршрут по районам Alfama и Baixa. Включи 2-3 ключевые достопримечательности, место для обеда с традиционной кухней и смотровую площадку для заката. 2. **День 2: Белен и культура.** Спланируй поездку в район Белен. Включи посещение монастыря Жеронимуш и башни Белен, а также место, где можно попробовать знаменитые пирожные "паштел-де-ната". Предложи вариант вечернего досуга (например, послушать фаду). 3. **День 3: Современный Лиссабон и шоппинг.** Предложи маршрут по району Chiado и проспекту Liberdade. Включи 1-2 интересных места (например, лифт Санта-Жушта) и рекомендации по магазинам с местными товарами. ### Требования к результату (Tools/Format) * Для каждого дня представь план в виде списка. * Для каждого пункта плана укажи примерное время на посещение и краткое описание (1-2 предложения). * В конце добавь раздел "Логистика" с советами по использованию общественного транспорта в Лиссабоне (метро, трамвай 28).Этот промпт эффективен, так как он переводит абстрактную цель "спланировать поездку" в конкретный, выполнимый алгоритм для LLM.
- Четкая декомпозиция: Вместо того чтобы модель сама решала, как структурировать поездку, мы разбиваем ее на логические блоки — дни (
Ключевые Этапы). Это устраняет двусмысленность и направляет генерацию в нужное русло. - Конкретизация на каждом уровне: На уровне "Действий" мы указываем не просто "посетить достопримечательности", а конкретные районы и типы активностей ("место для обеда", "смотровая площадка"). Это соответствует выводу исследования о том, что LLM лучше распознают конкретные, а не общие намерения.
- Управление форматом вывода: Раздел
Требования к результатудействует как "Инструмент" из исследования, диктуя точную структуру ответа. Это повышает надежность и предсказуемость результата, не позволяя модели отклониться от задачи и выдать ответ в неудобном виде.
- Четкая декомпозиция: Вместо того чтобы модель сама решала, как структурировать поездку, мы разбиваем ее на логические блоки — дни (
Основные критерии оценки
- A. Релевантность техникам промтинга: Низкая. Исследование не предлагает конкретных фраз или паттернов для промптов, а создает фреймворк для оценки моделей.
- B. Улучшение качества диалоговых ответов: Косвенное. Выводы помогают понять, почему ответы могут быть некачественными (из-за двусмысленности), но не дают прямого инструмента для улучшения.
- C. Прямая практическая применимость: Очень низкая. Пользователь не может воспроизвести методологию (создание датасетов, запуск тестов) без специальных инструментов и навыков.
- D. Концептуальная ценность: Высокая. Исследование дает ценную ментальную модель "Цель -> Действие -> Инструмент" для структурирования сложных запросов и объясняет, почему LLM лучше справляются с однозначными задачами.
- E. Новая полезная практика (кластеризация): Работа попадает в кластеры #2 (Поведенческие закономерности LLM) и #7 (Надежность и стабильность), так как выявляет, что LLM теряют точность при работе с неоднозначными намерениями и в длинных диалогах. Концептуально работа относится к кластеру #3 (Оптимизация структуры промптов), предлагая иерархический подход к декомпозиции задач.
- Чек-лист практичности (+15 баллов): Да, работа показывает, как структурировать сложные запросы (концептуально), раскрывает неочевидные особенности поведения LLM (провал на неоднозначных задачах) и предлагает способы улучшить consistency (через повышение четкости запроса).
Цифровая оценка полезности
Аргументы за оценку 65: Оценка отражает баланс между очень низкой прямой применимостью и высокой концептуальной ценностью. С одной стороны, исследование академическое и не дает готовых "рецептов" для промптов. С другой стороны, оно раскрывает фундаментальный принцип работы LLM: они лучше справляются с четко определенными, атомарными задачами, чем с размытыми и многослойными. Идея иерархической декомпозиции запроса ("Цель -> Действие -> Инструмент") — это мощная концепция, которую продвинутый пользователь может адаптировать для написания сложных промптов, что оправдывает оценку выше среднего.
Контраргументы (почему оценка могла быть выше): Для опытного пользователя или промпт-инженера, который создает сложные цепочки запросов или LLM-агентов, понимание иерархической декомпозиции намерения — это ключевой навык. Выводы о том, что модели проваливаются на редких и неоднозначных задачах, напрямую влияют на стратегию промптинга, заставляя разбивать сложные цели на простые и понятные шаги. С этой точки зрения, концептуальная польза может перевешивать отсутствие готовых фраз, и оценка могла бы быть в диапазоне 70-75.
Контраргументы (почему оценка могла быть ниже):
