3,583 papers
arXiv:2509.06341 65 8 сент. 2025 г. FREE

Оценка навыков многоходовых переговоров в агентских системах на основе больших языковых моделей

КЛЮЧЕВАЯ СУТЬ
Обнаружено: LLM катастрофически теряют точность при попытке самостоятельно угадать ваши намерения из общей формулировки — модель отлично выполняет четкие задачи, но проваливается на двусмысленных. Исследование агентов-продавцов показало: успех диалога зависит не от сложности цели, а от однозначности каждого шага. Решение — иерархическая декомпозиция: разбить запрос на три уровня (Цель → Действия → Формат результата), превращая расплывчатое «сделай контент-план» в последовательность атомарных инструкций, с которыми модель справляется в 3 раза надежнее.
Адаптировать под запрос

Исследователи создали систему для оценки способности LLM выступать в роли агента-продавца и понимать намерения покупателя в ходе многоэтапного диалога (торга). Они обнаружили, что модели хорошо распознают четкие и конкретные запросы (например, "узнать подлинность товара"), но плохо справляются с двусмысленными, редкими или неявными намерениями (например, "предложить бизнес-сотрудничество").

Суть исследования можно свести к простому, но мощному принципу для написания промптов: иерархическая декомпозиция задачи. Вместо того чтобы давать LLM одну большую и расплывчатую цель, ее следует разбить на три уровня, как это сделали авторы:

  1. Цель (Intent): Что вы хотите получить в самом конце? Это ваш высокоуровневый замысел. Например: "Создать контент-план для блога".
  2. Действия (Action): Какие конкретные шаги нужно предпринять для достижения цели? Это промежуточные этапы. Например: "Проанализировать ЦА", "Сгенерировать темы постов", "Составить график публикаций".
  3. Инструменты/Формат (Tool): Каким должен быть результат каждого действия? Это атомарные, конкретные операции или требования к формату. Например: "Выдать результат в виде таблицы Markdown", "Темы должны быть в формате 'вопрос-ответ'", "Анализ ЦА должен включать боли и интересы".
  • Прямая применимость: Низкая. Пользователь не может использовать предложенный фреймворк BargainBench напрямую. Однако, он может немедленно начать применять принцип декомпозиции в своих промптах, разбивая сложные задачи на более мелкие и четкие подзадачи.

  • Концептуальная ценность: Высокая. Исследование дает пользователю "ментальную модель" для взаимодействия с LLM. Вместо того чтобы видеть LLM как "черный ящик", пользователь начинает понимать его как систему, которая лучше всего обрабатывает четко определенные, последовательные инструкции. Ключевая концепция: "Не заставляй модель догадываться о твоих намерениях — заяви их явно и пошагово".

Представим, что SMM-специалист хочет получить от LLM помощь в создании контент-плана.

Ты — опытный SMM-стратег. Твоя задача — помочь мне разработать контент-план для Instagram-аккаунта, который продает авторские свечи ручной работы.

Действуй строго по следующей иерархической структуре:

<Задача>
Разработать детальный контент-план на одну неделю.


<Действия>
1.  **Анализ Целевой Аудитории:** Кратко опиши основного покупателя этих свечей (возраст, интересы, боли).
2.  **Генерация Рубрик:** Предложи 3-4 ключевые рубрики контента (например, "Процесс создания", "Польза ароматерапии", "Отзывы клиентов").
3.  **Создание Контент-плана:** Для каждой рубрики сгенерируй по 2 идеи для постов на неделю.


<Требования_к_результату>
*   Для каждой идеи поста укажи:
    *   **Тип контента:** (Reels, Пост-карусель, Stories).
    *   **Краткий сценарий/тезисы:** (Что показать или о чем написать).
    *   **Призыв к действию (CTA):** (Что должен сделать пользователь после просмотра).
*   Весь результат представь в виде одной таблицы Markdown с колонками: "День недели", "Рубрика", "Тип контента", "Сценарий/Тезисы", "CTA".

Этот промпт работает, потому что он напрямую применяет выводы исследования, превращая расплывчатый запрос "сделай контент-план" в четкую, структурированную задачу.

  • Снижение неоднозначности: Вместо того чтобы заставлять LLM угадывать, что такое "контент-план", мы явно определяем его компоненты (<Действия>) и финальный вид (<Требования_к_результату>). Это соответствует выводу статьи о том, что LLM отлично справляются с четко определенными задачами.
  • Иерархическая структура: Использование тегов <Задача>, <Действия> и <Требования_к_результату> имитирует иерархию "Intent-Action-Tool". Это помогает модели последовательно обрабатывать запрос, не теряя контекст и не пропуская шаги.

    Задача: спланировать короткое путешествие.

    Ты — эксперт по путешествиям по Европе. Помоги мне спланировать 3-дневную поездку в Лиссабон для пары.
    
    # Главная Цель (Intent)
    Составить сбалансированный и реалистичный маршрут на 3 полных дня в Лиссабоне для двух взрослых, которые любят историю, вкусную еду и красивые виды. Бюджет средний.
    
    ## Ключевые Этапы (Actions)
    1.  **День 1: Исторический центр.** Спланируй маршрут по районам Alfama и Baixa. Включи 2-3 ключевые достопримечательности, место для обеда с традиционной кухней и смотровую площадку для заката.
    2.  **День 2: Белен и культура.** Спланируй поездку в район Белен. Включи посещение монастыря Жеронимуш и башни Белен, а также место, где можно попробовать знаменитые пирожные "паштел-де-ната". Предложи вариант вечернего досуга (например, послушать фаду).
    3.  **День 3: Современный Лиссабон и шоппинг.** Предложи маршрут по району Chiado и проспекту Liberdade. Включи 1-2 интересных места (например, лифт Санта-Жушта) и рекомендации по магазинам с местными товарами.
    
    ### Требования к результату (Tools/Format)
    *   Для каждого дня представь план в виде списка.
    *   Для каждого пункта плана укажи примерное время на посещение и краткое описание (1-2 предложения).
    *   В конце добавь раздел "Логистика" с советами по использованию общественного транспорта в Лиссабоне (метро, трамвай 28).

    Этот промпт эффективен, так как он переводит абстрактную цель "спланировать поездку" в конкретный, выполнимый алгоритм для LLM.

    • Четкая декомпозиция: Вместо того чтобы модель сама решала, как структурировать поездку, мы разбиваем ее на логические блоки — дни (Ключевые Этапы). Это устраняет двусмысленность и направляет генерацию в нужное русло.
    • Конкретизация на каждом уровне: На уровне "Действий" мы указываем не просто "посетить достопримечательности", а конкретные районы и типы активностей ("место для обеда", "смотровая площадка"). Это соответствует выводу исследования о том, что LLM лучше распознают конкретные, а не общие намерения.
    • Управление форматом вывода: Раздел Требования к результату действует как "Инструмент" из исследования, диктуя точную структуру ответа. Это повышает надежность и предсказуемость результата, не позволяя модели отклониться от задачи и выдать ответ в неудобном виде.
📌

Основные критерии оценки

  • A. Релевантность техникам промтинга: Низкая. Исследование не предлагает конкретных фраз или паттернов для промптов, а создает фреймворк для оценки моделей.
  • B. Улучшение качества диалоговых ответов: Косвенное. Выводы помогают понять, почему ответы могут быть некачественными (из-за двусмысленности), но не дают прямого инструмента для улучшения.
  • C. Прямая практическая применимость: Очень низкая. Пользователь не может воспроизвести методологию (создание датасетов, запуск тестов) без специальных инструментов и навыков.
  • D. Концептуальная ценность: Высокая. Исследование дает ценную ментальную модель "Цель -> Действие -> Инструмент" для структурирования сложных запросов и объясняет, почему LLM лучше справляются с однозначными задачами.
  • E. Новая полезная практика (кластеризация): Работа попадает в кластеры #2 (Поведенческие закономерности LLM) и #7 (Надежность и стабильность), так как выявляет, что LLM теряют точность при работе с неоднозначными намерениями и в длинных диалогах. Концептуально работа относится к кластеру #3 (Оптимизация структуры промптов), предлагая иерархический подход к декомпозиции задач.
  • Чек-лист практичности (+15 баллов): Да, работа показывает, как структурировать сложные запросы (концептуально), раскрывает неочевидные особенности поведения LLM (провал на неоднозначных задачах) и предлагает способы улучшить consistency (через повышение четкости запроса).
📌

Цифровая оценка полезности

Аргументы за оценку 65: Оценка отражает баланс между очень низкой прямой применимостью и высокой концептуальной ценностью. С одной стороны, исследование академическое и не дает готовых "рецептов" для промптов. С другой стороны, оно раскрывает фундаментальный принцип работы LLM: они лучше справляются с четко определенными, атомарными задачами, чем с размытыми и многослойными. Идея иерархической декомпозиции запроса ("Цель -> Действие -> Инструмент") — это мощная концепция, которую продвинутый пользователь может адаптировать для написания сложных промптов, что оправдывает оценку выше среднего.

Контраргументы (почему оценка могла быть выше): Для опытного пользователя или промпт-инженера, который создает сложные цепочки запросов или LLM-агентов, понимание иерархической декомпозиции намерения — это ключевой навык. Выводы о том, что модели проваливаются на редких и неоднозначных задачах, напрямую влияют на стратегию промптинга, заставляя разбивать сложные цели на простые и понятные шаги. С этой точки зрения, концептуальная польза может перевешивать отсутствие готовых фраз, и оценка могла бы быть в диапазоне 70-75.

Контраргументы (почему оценка могла быть ниже):

💡

Для начинающего пользователя, который ищет быстрые и простые способы улучшить свои запросы в ChatGPT, исследование практически бесполезно. Оно перегружено техническими деталями, а его выводы кажутся абстрактными. Пользователь не сможет взять и применить "Intent Factory" или "Problem Weaver". С этой точки зрения, работа заслуживает оценки в диапазоне 30-40, так как не дает никакой немедленной практической выгоды.

📌

Ключевой результат: Успешность LLM в диалоге напрямую зависит от однозначности намерений пользователя на каждом шаге, а не от общей сложности задачи.

📌

Исследование доказывает, что LLM гораздо надежнее работают, когда им дают последовательность четких "Действий" и "Инструментов", а не одну общую "Цель". Модель может сгенерировать убедительный диалог, но провалиться при попытке самостоятельно восстановить намерения пользователя из этого же диалога, если они были неоднозначны. Это значит, что мы, как пользователи, должны делать эту работу за модель — четко структурировать наш запрос.

🧠

* Потенциал для адаптации: Огромный. Иерархический подход "Цель -> Действие -> Инструмент" универсален. Его можно адаптировать для любой сложной задачи: от планирования путешествия и написания бизнес-плана до создания кода и разработки маркетинговой стратегии. Механизм адаптации прост: перед написанием промпта пользователь мысленно (или на бумаге) разбивает свою задачу на эти три уровня, а затем формулирует промпт, явно отражая эту структуру с помощью заголовков, списков или XML-тегов.

📌

* Атомарность задач: Каждое "Действие" (анализ ЦА, генерация рубрик) и требование к результату (формат таблицы, CTA) является простой, атомарной операцией, с которой модель справляется гораздо надежнее, чем с одной большой и сложной задачей.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с