3,583 papers
arXiv:2503.01870 78 25 фев. 2025 г. FREE

Могут ли большие языковые модели извлекать потребности клиентов так же хорошо, как профессиональные аналитики?

КЛЮЧЕВАЯ СУТЬ
Результаты показали, что базовая LLM не справляется с задачей, генерируя слишком общие или нерелевантные ответы
Адаптировать под запрос

Исследование сравнивает способность извлекать "потребности клиентов" (Customer Needs, CNs) из текстовых отзывов тремя способами: профессиональными аналитиками, базовой LLM с промпт-инжинирингом и специально дообученной LLM (SFT). Результаты показали, что базовая LLM не справляется с задачей, генерируя слишком общие или нерелевантные ответы. Дообученная модель, напротив, показала результаты на уровне или даже лучше, чем у профессиональных аналитиков.

Ключевой результат: Простой промпт-инжиниринг недостаточен для сложных задач абстрактного анализа, требующих понимания отраслевых стандартов; для этого необходимо дообучение модели на релевантных примерах.

  • Прямая применимость: Низкая, если говорить о решении "в лоб" (использовать SFT). Однако, выводы исследования напрямую применимы для диагностики проблем с собственными промптами. Пользователь может понять, что его задача относится к классу сложных абстрактных задач, и перестать ожидать от LLM чуда по простому запросу.

  • Концептуальная ценность: Очень высокая. Исследование дает пользователю ключевую концепцию: LLM — это имитатор, а не мыслитель. Без четких правил и примеров она будет имитировать "среднестатистический" ответ, который для узких задач является бесполезным. Это помогает перейти от "магического мышления" к инженерному подходу в промтинге.

  • Потенциал для адаптации: Огромный. Главный вывод — "промпт-инжиниринг не справился" — можно и нужно адаптировать. Механизм адаптации — это компенсация отсутствия дообучения через усложнение и структурирование промпта. Вместо того чтобы просто просить извлечь "потребность", мы в самом промпте создаем мини-курс "Что такое потребность и как ее находить", включающий теорию (определения), практику (примеры) и "домашнее задание" (основной запрос).

Представим, что вы менеджер продукта и анализируете отзывы на новое приложение для онлайн-шоппинга.

# РОЛЬ
Ты — опытный продуктовый аналитик, специализирующийся на анализе пользовательского опыта (UX). Твоя сильная сторона — выявление глубинных, невысказанных потребностей пользователей, а не просто сбор жалоб.

# ЦЕЛЬ
Твоя задача — проанализировать отзыв пользователя о нашем новом приложении для онлайн-шоппинга и извлечь из него одну ключевую "глубинную потребность".

# КОНТЕКСТ И ОБУЧЕНИЕ
"Глубинная потребность" — это фундаментальное желание пользователя, которое стоит за его словами. Это "работа", которую пользователь пытается "нанять" наше приложение выполнить.

**Что НЕ является глубинной потребностью:**
- Прямое требование функции ("добавьте кнопку 'сортировка по цвету'").
- Жалоба на баг ("приложение вылетает").
- Простое мнение ("дизайн некрасивый").

**Примеры для обучения:**

**Пример 1 (Позитивный):**
- **Отзыв:** "Я накидал товаров в корзину с компьютера на работе, а потом вечером хотел с телефона оплатить, но корзина оказалась пустой. Пришлось все искать заново, ужасно взбесило."
- **Извлеченная глубинная потребность:** "Возможность бесшовно продолжать покупки на разных устройствах без потери данных."

**Пример 2 (Негативный):**
- **Отзыв:** "Все работает отлично, доставили быстро. Спасибо!"
- **Извлеченная глубинная потребность:** [НЕТ ПОТРЕБНОСТИ] (Это просто позитивный фидбэк, он не содержит информации о новой или неудовлетворенной потребности).

# ЗАДАЧА
Теперь, строго следуя приведенной методологии и примерам, проанализируй следующий отзыв и извлеки из него одну глубинную потребность. Если ее нет, напиши [НЕТ ПОТРЕБНОСТИ].

<ОТЗЫВ_ПОЛЬЗОВАТЕЛЯ>
"Вроде все неплохо, но я постоянно сомневаюсь, подойдет ли мне эта одежда. Фотографии красивые, но на модели все сидит идеально. А как это будет на мне? Я уже два раза возвращала вещи, потому что в реальности они мне не подошли. Трачу время и жду возврата денег."
</ОТЗЫВ_ПОЛЬЗОВАТЕЛЯ>

**Формат ответа:**
Глубинная потребность: <сформулируй потребность здесь>

Этот промпт работает, потому что он напрямую решает проблему, выявленную в исследовании, — неспособность базовой LLM работать в рамках сложного фреймворка.

  • Имитация SFT: Промпт не просто ставит задачу, а обучает модель. Разделы "КОНТЕКСТ И ОБУЧЕНИЕ", определения и особенно позитивные и негативные примеры служат "микро-датасетом" для дообучения в рамках одного запроса.
  • Четкий фреймворк: Вместо абстрактного "извлеки потребность", мы даем четкое определение, что это такое, и, что еще важнее, чем это не является. Это создает жесткие рамки, не позволяя модели скатиться в простое перефразирование отзыва.
  • Снижение неопределенности: Пример с "[НЕТ ПОТРЕБНОСТИ]" учит модель не выдумывать сущности там, где их нет, что напрямую борется с "галлюцинациями" и повышает надежность, как это делала SFT-модель в исследовании.

Анализ отзывов гостей отеля для улучшения сервиса.

# РОЛЬ
Ты — менеджер по качеству в сети пятизвездочных отелей. Твоя задача — не просто фиксировать жалобы, а выявлять скрытые ожидания гостей, чтобы превосходить их в будущем.

# ЦЕЛЬ
Проанализируй отзыв гостя и сформулируй "возможность для улучшения сервиса", основанную на его глубинном желании.

# КОНТЕКСТ И ОБУЧЕНИЕ
"Возможность для улучшения" — это не решение проблемы, а понимание, какой аспект комфорта или эмоций был затронут.

**Что НЕ является "возможностью для улучшения":**
- Констатация факта ("в номере было грязно"). Решение: "убирать лучше". Это очевидно.
- Прямая просьба ("дайте больше полотенец").

**Примеры для обучения:**

**Пример 1 (Позитивный):**
- **Отзыв:** "Мы приехали в 9 утра после ночного перелета, совершенно разбитые. Нас сразу заселили, хотя чекин в 14:00. Это было просто спасение!"
- **Извлеченная возможность:** "Проявлять гибкость и заботу о гостях, прибывающих в неурочное время, особенно после изнурительной дороги."

**Пример 2 (Негативный):**
- **Отзыв:** "Завтрак был до 11, мы пришли в 10:45, а почти все горячие блюда уже закончились и их не пополняли."
- **Извлеченная возможность:** "Обеспечивать одинаково высокий уровень сервиса и ассортимента на протяжении всего заявленного времени услуги, а не только в пиковые часы."

# ЗАДАЧА
Следуя этой логике, проанализируй отзыв ниже и сформулируй одну ключевую "возможность для улучшения сервиса".

<ОТЗЫВ_ГОСТЯ>
"Отличное расположение отеля, все рядом. Но когда мы вернулись вечером с долгой прогулки, хотели выпить чаю в номере, а в наборе была только одна бутылка воды на двоих. Пришлось звонить на ресепшн, ждать... Вроде мелочь, а расслабиться сразу не получилось."
</ОТЗЫВ_ГОСТЯ>

**Формат ответа:**
Возможность для улучшения сервиса: <сформулируй возможность здесь>

Этот пример работает по тому же принципу, что и предыдущий, применяя выводы исследования к другой предметной области.

  • Переход от конкретики к абстракции: Промпт заставляет модель не просто зафиксировать проблему ("мало воды"), а подняться на уровень выше и понять, какую глубинную потребность гостя эта мелочь нарушила ("желание немедленно расслабиться и отдохнуть без лишних усилий после возвращения в номер"). Это в точности соответствует задаче извлечения "Customer Needs", а не "Solutions" из исследования.
  • Обучение через контраст: Примеры показывают разницу между реактивным решением ("дать больше воды") и проактивным улучшением сервиса, основанным на понимании контекста и эмоционального состояния гостя. Это учит модель мыслить категориями, которые были заданы в секции обучения.
  • Фокус на "работе" (Job to be Done): Гость "нанимает" номер в отеле не просто чтобы спать, а чтобы "чувствовать себя комфортно и беззаботно". Промпт, через свои примеры и определения, настраивает LLM на анализ отзыва именно с этой точки зрения, что позволяет получить гораздо более ценный и неочевидный инсайт, чем при простом запросе.
📌

Основные критерии оценки

  • A. Релевантность техникам промтинга: Низкая. Исследование прямо заявляет, что стандартный промпт-инжиниринг (Base LLM) неэффективен для поставленной задачи. Ценность не в том, чтобы дать работающий промпт, а в том, чтобы показать границы его применимости.
  • B. Улучшение качества диалоговых ответов: Среднее. Прямых техник для улучшения диалога нет, но концептуальное понимание ограничений LLM позволяет пользователю ставить более реалистичные задачи и не тратить время на то, с чем модель заведомо не справится.
  • C. Прямая практическая применимость: Низкая. Основной успешный метод — дообучение модели (SFT LLM), что недоступно обычному пользователю. Выводы можно применить только опосредованно, через адаптацию подходов.
  • D. Концептуальная ценность: Очень высокая. Исследование блестяще демонстрирует разницу между поверхностным перефразированием, в котором сильны LLM, и глубоким абстрактным анализом, требующим понимания специфического фреймворка. Это ключевой инсайт для любого продвинутого пользователя.
  • E. Новая полезная практика (кластеры):
    • Кластер 2 (Поведенческие закономерности LLM): Да. Четко показывает, что LLM без специальной подготовки плохо справляются с задачами, требующими следования неявным профессиональным стандартам и абстрагирования.
    • Кластер 7 (Надежность и стабильность): Да. Демонстрирует, почему "из коробки" LLM может быть ненадежна для извлечения специфических, нюансированных данных, и что ее ответы могут быть слишком общими или нерелевантными.
  • Чек-лист практичности (+15 баллов): Да, исследование раскрывает неочевидные особенности поведения LLM, а именно — фундаментальное различие между способностью "говорить на тему" и способностью проводить анализ по заданной методологии.
📌

Цифровая оценка полезности

Исследование получает 78 баллов, так как его основная ценность для обычного пользователя — не в готовых рецептах, а в формировании глубокого концептуального понимания. Оно учит самому главному в промпт-инжиниринге: умению диагностировать тип задачи и понимать, когда простой запрос обречен на провал.

Аргументы "ЗА" оценку: * Фундаментальный инсайт: Работа наглядно показывает "потолок" возможностей стандартных LLM в задачах, требующих абстракции и следования профессиональным стандартам. Это знание экономит пользователю часы бесплодных попыток "дожать" модель простыми промптами. * Объяснение "почему не работает": Вместо того чтобы просто констатировать неудачу, авторы объясняют, что LLM хорошо перефразирует, но не "понимает" суть задачи так, как обученный специалист. Это помогает сформировать правильную "ментальную модель" LLM. * Стратегическая ценность: Поняв принципы из статьи, пользователь может не биться над нерешаемой задачей, а декомпозировать ее или использовать LLM для вспомогательных операций, что гораздо эффективнее.

Контраргументы (почему оценка могла быть ниже/выше): * Почему могла быть ниже (например, 65): Исследование не дает прямого, готового к использованию решения. Его главный вывод — "используйте дообучение (SFT)", что для 99% пользователей бесполезно. Отсутствие позитивной, легко применимой техники — серьезный минус с точки зрения прямой практики. * Почему могла быть выше (например, 85): Понимание границ возможностей LLM — это, возможно, самый ценный навык для промпт-инженера. Эта статья — одна из лучших иллюстраций таких границ. Осознав эту концепцию, пользователь переходит на новый уровень взаимодействия с LLM, что имеет огромную практическую ценность в долгосрочной перспективе.


Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с