3,583 papers
arXiv:2502.15990 92 21 фев. 2025 г. FREE

Автоматическая маркировка релевантности запросов и товаров с использованием больших языковых моделей для поиска в электронной коммерции

КЛЮЧЕВАЯ СУТЬ
Это прямое следствие вывода исследования о том, что разнообразие в примерах повышает качество результата
Адаптировать под запрос

Исследование показывает, как можно автоматизировать оценку релевантности товаров поисковым запросам в интернет-магазинах с помощью LLM, достигая качества, сравнимого с работой людей, но в сотни раз быстрее и дешевле. Авторы доказывают, что для получения точных ответов от LLM крайне эффективно подавать в промпт примеры, которые не просто похожи на текущую задачу, а являются разнообразными.

Ключевой результат: Наилучшую точность дает метод, который подбирает для промпта примеры, являющиеся одновременно релевантными и максимально непохожими друг на друга (принцип Maximum Marginal Relevance).

Суть метода заключается в умном подборе примеров (few-shot prompting) для LLM. Представьте, что вы просите модель выполнить задачу и для наглядности даете ей несколько примеров того, как это делать.

Обычный подход — найти примеры, максимально похожие на ваш текущий запрос. Исследование показывает, что это не всегда лучший путь. Если вы дадите модели 5 примеров, которые очень похожи друг на друга, она научится хорошо решать только этот узкий тип задач.

Метод, предложенный в исследовании (адаптация принципа MMR для пользователя), говорит: выбирайте примеры, которые иллюстрируют разные аспекты вашей задачи. Вместо пяти похожих примеров дайте один такой, один другой, третий — совсем с другой стороны.

Это как учить ребенка понятию "транспорт". Можно показать ему 5 разных легковых машин (похожие примеры). А можно показать легковую машину, автобус, мотоцикл, самолет и лодку (разнообразные примеры). Во втором случае у ребенка сформируется гораздо более полное и гибкое понимание концепции "транспорт". Точно так же и LLM: разнообразные примеры в промпте создают у нее более "богатую" и гибкую модель вашей задачи, что ведет к более точным и качественным ответам.

  • Прямая применимость: Пользователь может немедленно улучшить свои few-shot промпты. Вместо того чтобы просто копировать 2-3 похожих примера, нужно сознательно подбирать их так, чтобы они демонстрировали разные грани задачи. Например, при генерации идей для поста — один пример должен быть с юмором, другой — серьезный, третий — с призывом к действию. Это делается вручную, без всякого кода.

  • Концептуальная ценность: Исследование дает пользователю ключевую "ментальную модель": контекст в промпте — это не просто свалка информации, а обучающий набор данных в миниатюре. И как для любого хорошего набора данных, для него важно разнообразие (diversity), а не только объем или релевантность. Это помогает понять, почему иногда промпт с большим количеством примеров работает хуже, чем с меньшим, но более продуманным набором.

  • Потенциал для адаптации: Механизм адаптации очень прост. Перед тем как написать промпт с примерами, задайте себе вопросы:

    1. Какие аспекты моей задачи существуют? (Например, тон, стиль, структура, фокус).
    2. Покрывают ли мои примеры эти разные аспекты?
    3. Не слишком ли мои примеры похожи друг на друга? Если да, какой из них можно заменить на более "нестандартный", но все еще правильный пример? Этот простой мыслительный процесс и есть ручная адаптация принципа MMR.

Представим, что вы хотите использовать LLM для создания цепляющих заголовков для постов в блоге о путешествиях.

Ты — опытный копирайтер и редактор популярного блога о путешествиях. Твоя задача — придумать 5 ярких и вовлекающих заголовков для новой статьи.

**Тема статьи:** Недорогой, но насыщенный недельный отпуск в Армении.

Чтобы ты лучше понял задачу, вот несколько примеров хороших заголовков из нашего блога. Обрати внимание, насколько они разные по стилю.

### Примеры качественных заголовков (принцип разнообразия):

**Пример 1 (фокус на экономии):**
"Армения за копейки: как я провел 7 дней в раю и потратил меньше 30 000 рублей"

**Пример 2 (фокус на эмоциях и впечатлениях):**
"Перезагрузка души: 7 дней в Армении, которые изменили мой взгляд на мир"

**Пример 3 (интрига и конкретика):**
"Я съел лучшую долму в своей жизни не в ресторане, а в гостях у пастуха. Мой гид по настоящей Армении."

**Пример 4 (формат списка):**
"10 вещей, которые нужно успеть сделать в Армении за одну неделю"

### Твоя задача:
Теперь, используя эти примеры как вдохновение, напиши 5 совершенно новых, оригинальных и разноплановых заголовков для статьи о недельном отпуске в Армении.

Этот промпт эффективен благодаря прямому применению принципа разнообразия примеров (MMR), описанного в исследовании.

  1. Предотвращение "зацикливания": Вместо того чтобы дать 4 примера в стиле "Как дешево отдохнуть в Армении", мы показываем модели разные успешные стратегии: фокус на деньгах, на эмоциях, на личной истории, на формате списка.
  2. Расширение "пространства решений": Модель видит, что "хороший заголовок" — это не что-то одно. Это может быть и вопрос, и утверждение, и личный опыт. Получив такие разнообразные "маяки", LLM будет генерировать варианты в разных стилях, а не выдавать 5 вариаций одной и той же идеи.
  3. Явное указание на разнообразие: Фраза Обрати внимание, насколько они разные по стилю и заголовок Примеры качественных заголовков (принцип разнообразия) дополнительно фокусируют внимание модели на важности вариативности, что усиливает эффект.

Задача: Составить краткое и полезное письмо-фоллоуап после деловой встречи.

Ты — мой личный ассистент. Твоя задача — помочь мне составить идеальное письмо-фоллоуап после встречи с потенциальным клиентом, компанией "ТехноСтрой".

**Контекст встречи:** Мы обсудили наше предложение по внедрению CRM-системы. Клиент проявил интерес, но взял время подумать. Ключевые лица на встрече: Иван (директор), Мария (маркетолог).

Чтобы ты понял, что такое "идеальное письмо", вот несколько примеров удачных фоллоуапов, которые я отправлял разным клиентам. Заметь, они отличаются по тону и акцентам.

### Примеры эффективных писем (принцип разнообразия):

**Пример 1 (Краткий и деловой):**
> Тема: Итоги встречи по CRM
>
> Иван, Мария, добрый день!
> Спасибо за уделенное время. Ключевые моменты зафиксировал:
> - Потребность в автоматизации отдела продаж.
> - Интерес к модулю аналитики.
> Как и договаривались, высылаю коммерческое предложение. Буду рад ответить на вопросы.
> С уважением, [Мое Имя]

**Пример 2 (Более личный и с акцентом на пользу):**
> Тема: Рад был познакомиться!
>
> Иван, добрый день!
> Был очень рад нашей встрече. Особенно запомнился ваш рассказ о планах по выходу на новый рынок. Уверен, наша CRM поможет сделать этот процесс управляемым и прозрачным.
> Во вложении — презентация с акцентом на кейсы в вашей отрасли.
> Хорошего дня!
> С уважением, [Мое Имя]

**Пример 3 (Проактивный, с дополнительной ценностью):**
> Тема: В продолжение нашего разговора о маркетинге
>
> Мария, здравствуйте!
> Спасибо за интересный диалог. Вы упоминали, что ищете способы улучшить аналитику рекламных кампаний. Нашел для вас свежее исследование на эту тему (ссылка), возможно, будет полезно.
> Наше предложение по CRM, которое я выслал Ивану, как раз решает многие из этих задач.
> Буду на связи!
> С уважением, [Мое Имя]

### Твоя задача:
Опираясь на эти разнообразные примеры, составь проект письма для компании "ТехноСтрой". Оно должно быть профессиональным, но при этом показывать нашу заинтересованность и экспертизу.

Этот промпт работает, потому что он обучает LLM не просто "писать фоллоуапы", а понимать спектр возможных стратегий для фоллоуапа.

  1. Демонстрация тактического разнообразия: Примеры показывают, что фоллоуап — это не просто "спасибо за встречу". Это может быть:
    • Инструмент фиксации договоренностей (Пример 1).
    • Способ установить личный контакт (Пример 2).
    • Возможность продемонстрировать экспертизу (Пример 3).
  2. Гибкость в выборе тона: Модель видит, что тон может быть строго формальным, дружелюбно-деловым или проактивно-полезным. Это позволяет ей сгенерировать ответ, который будет не шаблонным, а адаптированным под конкретную ситуацию с "ТехноСтроем".
  3. Снижение риска генерации банальностей: Без этих примеров LLM, скорее всего, сгенерировала бы очень общее и безликое письмо. Благодаря разнообразию "входных данных", модель понимает, что от нее ждут чего-то более продуманного, и комбинирует лучшие черты из показанных примеров, создавая более сильный и эффективный текст. Это прямое следствие вывода исследования о том, что разнообразие в примерах повышает качество результата.
📌

Основные критерии оценки

  • A. Релевантность техникам промтинга: Да, очень высокая. Исследование напрямую сравнивает эффективность ключевых техник: Few-Shot (In-context Learning), Chain-of-Thought (CoT) и, что самое важное, Retrieval Augmented Generation (RAG) с инновационным дополнением в виде Maximum Marginal Relevance (MMR).
  • B. Улучшение качества диалоговых ответов: Да. Хотя исследование сфокусировано на задаче классификации (оценка релевантности), его выводы напрямую влияют на качество генерации, так как показывают, как более качественный контекст (разнообразные примеры) улучшает точность модели.
  • C. Прямая практическая применимость: Да, высокая. Пользователь не может реализовать автоматический RAG, но он может вручную применить главный принцип исследования — подбор разнообразных примеров для few-shot промптинга. Это не требует кода или специальных инструментов.
  • D. Концептуальная ценность: Очень высокая. Исследование дает блестящее концептуальное понимание: для обучения LLM в рамках одного промпта важно не просто количество примеров, а их разнообразие. Это объясняет, почему иногда добавление, казалось бы, хороших примеров не улучшает результат.
  • E. Новая полезная практика (кластеризация): Работа попадает сразу в несколько ключевых кластеров:
    • 1. Техники формулирования промптов: Прямо анализирует CoT и few-shot.
    • 2. Поведенческие закономерности LLM: Раскрывает важнейшую закономерность — модель лучше учится на разнообразных, а не на однотипных примерах.
    • 6. Контекст и память: RAG и MMR — это, по сути, продвинутые стратегии управления контекстом, подаваемым в промпт.
    • 7. Надежность и стабильность: Методы направлены на повышение точности и консистентности классификации.

Чек-лист практичности (+15 баллов): * Дает готовые фразы/конструкции для промптов? (Да, показывает структуру и примеры) * Объясняет, где в промпте размещать важную информацию? (Да, описывает структуру промпта из 3 частей) * Показывает, как структурировать сложные запросы? (Да, через few-shot и CoT) * Раскрывает неочевидные особенности поведения LLM? (Да, ключевой вывод о пользе разнообразия примеров (MMR) — это неочевидная, но мощная особенность) * Предлагает способы улучшить consistency/точность ответов? (Да, это основная цель исследования)

📌

Цифровая оценка полезности

Аргументы за высокую оценку (92/100): Исследование раскрывает чрезвычайно ценный и практичный принцип для любого пользователя, который пишет промпты с примерами (few-shot). Идея о том, что разнообразие примеров важнее их семантической близости к запросу, — это фундаментальный сдвиг в понимании того, как "думает" LLM. Это знание можно применить немедленно, в любом чат-боте, для любой задачи, просто изменив подход к выбору примеров. Работа дает не просто "совет", а доказывает его эффективность на данных, что повышает его ценность. Это один из тех редких инсайтов, который сразу улучшает качество промптов.

Контраргументы (почему не 100/100): * Сложность полной реализации: Обычный пользователь не сможет реализовать полноценный RAG+MMR пайплайн, который требует векторной базы данных и алгоритма поиска. Практическая польза извлекается через ручную адаптацию принципа, а не прямое использование метода "как есть". * Узкая задача исследования: Работа сфокусирована на специфической задаче e-commerce (оценка релевантности "запрос-товар"). Хотя выводы универсальны, сама постановка задачи может отпугнуть пользователя, решающего креативные или аналитические задачи.


Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с