3,583 papers
arXiv:2511.22978 68 28 нояб. 2025 г. FREE

ShoppingComp: почему LLM плохо справляются с реальным шоппингом

КЛЮЧЕВАЯ СУТЬ
Исследование показало, что LLM катастрофически плохо справляются с реальными задачами шоппинга — даже GPT-5 находит правильные товары лишь в 11% случаев (люди — 26%). Бенчмарк ShoppingComp проверяет три вещи: поиск товаров по сложным требованиям, генерацию экспертных отчётов и распознавание опасных рекомендаций.
Адаптировать под запрос

TL;DR

Исследование показало, что LLM катастрофически плохо справляются с реальными задачами шоппинга — даже GPT-5 находит правильные товары лишь в 11% случаев (люди — 26%). Бенчмарк ShoppingComp проверяет три вещи: поиск товаров по сложным требованиям, генерацию экспертных отчётов и распознавание опасных рекомендаций.

Главная находка: модели пишут убедительные отчёты про неподходящие товары. Проблема не в рассуждениях — GPT-5 набирает 90% в качестве обоснований. Проблема в поиске: модель не находит нужные товары в первую очередь. А в вопросах безопасности (например, установка водонагревателя в ванной — опасно!) модели пропускают критичные предупреждения в 35% случаев.

Почему так происходит: сложные запросы пользователей содержат 5-10 требований одновременно (ёмкость, сертификаты, совместимость, размер). Модели либо ищут слишком узко (один источник), либо теряют часть критериев. GPT-5 работает лучше других именно потому, что ищет широко — много разных запросов, проверка каждого требования отдельно.


📌

Ключевые инсайты для пользователей

📌

1. Не доверяй рекомендациям LLM без проверки

Модель может написать: "Этот водонагреватель идеально подходит для вашей ванной"
Реальность: Установка power-vented водонагревателя в ванной запрещена по нормам безопасности

Что делать: Явно проси модель проверить ограничения и нормы.

📌

2. Разбивай сложные запросы на рубрики

Вместо одного длинного запроса — структурируй требования.

Было:

Найди мне рисоварку для семьи 4-6 человек, чтобы влезала в маленькую кухню, 
умела жарить и готовить на пару, была безопасна для аллергика на глютен

Стало:

Найди рисоварку по критериям:
1. Объём: 3-4 литра (на 4-6 порций)
2. Функции: рис + жарка + пар
3. Размеры: компактная (для кухни 3 м²)  
4. Сертификация: пищевой контакт без глютена
5. Управление: и механическое, и через приложение

Для каждого критерия укажи, какой товар его удовлетворяет и почему (со ссылкой).
📌

3. Требуй широкий поиск, а не первый результат

GPT-5 превосходит другие модели потому что делает 20+ поисковых запросов вместо одного.

Найди 5-7 вариантов [категория товара].
Для каждого варианта:
- Проверь соответствие КАЖДОМУ требованию отдельно
- Дай ссылку на официальный источник характеристик
- Отметь, какие требования НЕ удовлетворены
📌

4. Явно проси проверку безопасности

Модели часто пропускают риски, если их не спросить напрямую.

Перед финальной рекомендацией проверь:
- Есть ли ограничения по месту установки/использования?
- Какие сертификаты безопасности нужны?
- Есть ли известные проблемы или отзывы о небезопасном использовании?
- Подходит ли для [конкретные условия: дети, аллергии, тип помещения]?

📌

Схема эффективного запроса

ШАГ 1: Декомпозиция → разбей запрос на отдельные критерии
ШАГ 2: Широкий поиск → найди 5-7 вариантов (не первый попавшийся)
ШАГ 3: Проверка каждого критерия → для каждого товара по каждому пункту
ШАГ 4: Проверка безопасности → явный чек-лист рисков
ШАГ 5: Источники → ссылка на официальные характеристики

🚀

Пример применения

Задача: Выбрать игровую мышь под конкретные параметры руки и стиля игры.

Промпт:

Подбери игровую мышь по критериям:

ФИЗИЧЕСКИЕ:
- Длина руки: 19.5 см
- Хват: расслабленный коготь (relaxed claw)
- Форма: низкий профиль (высота ≤40 мм)

ТЕХНИЧЕСКИЕ:
- Сенсор: уровня PAW3395 или выше
- Частота опроса: 1000-8000 Hz
- MCU: nRF52840 или новее

ОГРАНИЧЕНИЯ:
- Бюджет: до 15000 ₽

Для каждого варианта:
1. Укажи точные размеры (ДxШxВ) со ссылкой на официальный сайт
2. Проверь совместимость с размером руки по формуле hand_length / mouse_length
3. Отметь какие критерии удовлетворены/не удовлетворены

Предложи 5 вариантов от разных производителей.

Результат: Модель выполнит несколько поисковых запросов, для каждой мыши проверит характеристики по официальным источникам, сравнит с требованиями и укажет конкретные ссылки. Ты увидишь таблицу соответствия критериям и сможешь сам проверить данные.


🧠

Почему это работает

Слабость LLM: Модели оптимизированы на убедительность, не на точность. Они легко генерируют отчёт с "правильными" словами, но часто про неподходящий товар. В исследовании модели набирали 77-90% за качество обоснований, но только 2-11% за нахождение правильных товаров.

Сильная сторона LLM: Модели хорошо следуют структурированным инструкциям и могут выполнять много последовательных проверок. GPT-5 делал 20+ поисковых запросов на задачу — и это давало результат.

Как использовать: Вместо того чтобы просить "найди лучший X" — дай модели явную структуру поиска: критерии, количество вариантов, формат проверки каждого критерия, требование источников. Это переключает модель с режима "сгенерировать убедительный текст" на режим "систематически проверить данные".


📋

Шаблон промпта

Найди {категория товара} по следующим критериям:

ТРЕБОВАНИЯ:
1. {критерий_1}: {значение}
2. {критерий_2}: {значение}
3. {критерий_3}: {значение}
[добавь все важные критерии]

ОГРАНИЧЕНИЯ:
- Бюджет: {сумма}
- {другие ограничения}

ПРОВЕРКА БЕЗОПАСНОСТИ:
- Подходит ли для {условия использования}?
- Есть ли ограничения по {месту/способу использования}?
- Какие сертификаты нужны для {контекст}?

ИНСТРУКЦИИ:
1. Найди минимум {5-7} вариантов от разных производителей
2. Для каждого варианта проверь КАЖДЫЙ критерий отдельно
3. Дай ссылку на официальный источник характеристик
4. Отметь какие требования НЕ удовлетворены
5. В конце — таблица сравнения всех вариантов по всем критериям

Формат вывода:
- Название товара
- Ссылка на официальные характеристики
- Статус по каждому критерию: ✓ / ✗ / частично
- Итоговая рекомендация с обоснованием

Плейсхолдеры:

  • {категория товара} — что ищем (мышь, рисоварка, монитор)
  • {критерий_N} — конкретный параметр (размер, мощность, сертификат)
  • {условия использования} — где/как будет использоваться

⚠️

Ограничения

⚠️ Модели всё равно будут ошибаться: Даже с идеальным промптом точность поиска товаров останется низкой. Используй рекомендации LLM как отправную точку для собственного исследования, не как финальное решение.

⚠️ Безопасность требует экспертизы: Для технически сложных покупок (бытовая техника, медицинские товары, электроника) — консультируйся со специалистом. LLM пропускают критичные риски в 35% случаев.

⚠️ Ссылки могут устаревать: Товары исчезают, цены меняются, характеристики обновляются. Проверяй актуальность информации.


🔍

Как исследовали

Команда из ByteDance собрала 35 экспертов и потратила 1000+ часов на создание 120 задач. Каждая задача — реальный сценарий покупки с 5-10 критериями. Для каждого критерия эксперты нашли доказательства: ссылки на официальные характеристики, изображения, отзывы.

Особенность бенчмарка — ловушки безопасности. Эксперты специально создали запросы, где очевидный ответ опасен. Например: "Посоветуй водонагреватель для ванной" — правильный ответ должен включать предупреждение о запрете установки.

Результаты показали парадокс: модели хорошо пишут (90% за качество обоснований) но плохо ищут (11% F1). Это объясняет частое разочарование пользователей: отчёт выглядит экспертным, но рекомендует неподходящий товар. GPT-5 превзошёл другие модели за счёт стратегии широкого поиска — 20+ запросов вместо одного общего.


🔗

Ресурсы

Работа: ShoppingComp: Are LLMs Really Ready For Your Shopping Cart?

Код и данные: https://github.com/ByteDance-BandAI/ShoppingComp

Команда: Huaixiao Tou, Ying Zeng, Cong Ma, Muzhi Li, Minghao Li, Weijie Yuan, He Zhang, Kai Jia (ByteDance)


📖 Простыми словами

Суть провала AI в покупках проста: модели обучены красиво болтать, а не проверять факты. Когда ты просишь ChatGPT найти монитор с пятью жесткими критериями, он ведет себя как ленивый стажер: находит пару подходящих вариантов, а остальное додумывает из головы, лишь бы текст выглядел убедительно. Исследование ShoppingComp от ByteDance доказало, что в реальном поиске товаров топовые модели вроде GPT-5 выдают жалкие 11% точности, в то время как обычные люди выжимают 26%. Проблема в том, что LLM работают по принципу правдоподобного продолжения фразы, а в покупках нужен жесткий контроль характеристик, где ошибка в один миллиметр или ватт превращает совет в бесполезный хлам.

Это как если бы ты нанял риелтора, а он вместо осмотра квартир просто присылал тебе красивые описания из своей головы. Ты просишь дом с газовым отоплением и высокими потолками, а он скидывает вариант с электроплитой и говорит: "Зато там обои симпатичные". Формально он работает, но по факту ты тратишь время на просмотр жилья, которое тебе изначально не подходит. AI делает то же самое: он игнорирует "неудобные" критерии запроса, потому что ему лень искать дальше второй страницы Google.

Чтобы заставить AI работать нормально, исследователи внедрили декомпозицию на рубрики. Это когда сложный запрос "найди мышку для большой руки" разбивается на атомарные требования: длина больше 127 мм, высота до 40 мм, конкретный сенсор. Метод заставляет модель не просто выдавать список, а проводить валидацию каждого факта со ссылкой на источник. Только так можно победить галлюцинации, когда модель уверенно врет про наличие порта HDMI 2.1 там, где его нет. Цифры беспощадны: без такой проверки модели пропускают 35% критических ловушек, например, советуя поставить газовую колонку в ванную, что тупо опасно для жизни.

Хотя тест гоняли на шоппинге, этот принцип универсален. Он применим везде, где от AI требуется экспертный отчет: подбор софта для бизнеса, анализ юридических документов или выбор отеля. SEO для роботов уходит в прошлое, на смену приходит GEO (Generative Engine Optimization). Теперь мало просто набить текст ключевиками, нужно, чтобы характеристики твоего продукта были четко структурированы и подтверждены, иначе AI-ассистент просто выкинет тебя из выдачи как несоответствующий критериям мусор.

Короче: нынешние AI-помощники в покупках пока скорее вредны, чем полезны. Они находят в два раза меньше товаров, чем человек, и постоянно пытаются впарить фигню, которая не подходит под запрос. Если хочешь использовать AI для серьезных задач, забудь про простые промпты — используй структуру с проверкой фактов по рубрикам. Либо ты заставляешь модель работать по жесткому чек-листу, либо получаешь уверенный бред, за который потом придется платить из своего кармана.

Сгенерировано: 21.12.2025 16:54 | ArXiv Data Collector

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с