TL;DR
Исследование показало, что LLM катастрофически плохо справляются с реальными задачами шоппинга — даже GPT-5 находит правильные товары лишь в 11% случаев (люди — 26%). Бенчмарк ShoppingComp проверяет три вещи: поиск товаров по сложным требованиям, генерацию экспертных отчётов и распознавание опасных рекомендаций.
Главная находка: модели пишут убедительные отчёты про неподходящие товары. Проблема не в рассуждениях — GPT-5 набирает 90% в качестве обоснований. Проблема в поиске: модель не находит нужные товары в первую очередь. А в вопросах безопасности (например, установка водонагревателя в ванной — опасно!) модели пропускают критичные предупреждения в 35% случаев.
Почему так происходит: сложные запросы пользователей содержат 5-10 требований одновременно (ёмкость, сертификаты, совместимость, размер). Модели либо ищут слишком узко (один источник), либо теряют часть критериев. GPT-5 работает лучше других именно потому, что ищет широко — много разных запросов, проверка каждого требования отдельно.
Ключевые инсайты для пользователей
1. Не доверяй рекомендациям LLM без проверки
Модель может написать: "Этот водонагреватель идеально подходит для вашей ванной"
Реальность: Установка power-vented водонагревателя в ванной запрещена по нормам безопасности
Что делать: Явно проси модель проверить ограничения и нормы.
2. Разбивай сложные запросы на рубрики
Вместо одного длинного запроса — структурируй требования.
Было:
Найди мне рисоварку для семьи 4-6 человек, чтобы влезала в маленькую кухню,
умела жарить и готовить на пару, была безопасна для аллергика на глютен
Стало:
Найди рисоварку по критериям:
1. Объём: 3-4 литра (на 4-6 порций)
2. Функции: рис + жарка + пар
3. Размеры: компактная (для кухни 3 м²)
4. Сертификация: пищевой контакт без глютена
5. Управление: и механическое, и через приложение
Для каждого критерия укажи, какой товар его удовлетворяет и почему (со ссылкой).
3. Требуй широкий поиск, а не первый результат
GPT-5 превосходит другие модели потому что делает 20+ поисковых запросов вместо одного.
Найди 5-7 вариантов [категория товара].
Для каждого варианта:
- Проверь соответствие КАЖДОМУ требованию отдельно
- Дай ссылку на официальный источник характеристик
- Отметь, какие требования НЕ удовлетворены
4. Явно проси проверку безопасности
Модели часто пропускают риски, если их не спросить напрямую.
Перед финальной рекомендацией проверь:
- Есть ли ограничения по месту установки/использования?
- Какие сертификаты безопасности нужны?
- Есть ли известные проблемы или отзывы о небезопасном использовании?
- Подходит ли для [конкретные условия: дети, аллергии, тип помещения]?
Схема эффективного запроса
ШАГ 1: Декомпозиция → разбей запрос на отдельные критерии
ШАГ 2: Широкий поиск → найди 5-7 вариантов (не первый попавшийся)
ШАГ 3: Проверка каждого критерия → для каждого товара по каждому пункту
ШАГ 4: Проверка безопасности → явный чек-лист рисков
ШАГ 5: Источники → ссылка на официальные характеристики
Пример применения
Задача: Выбрать игровую мышь под конкретные параметры руки и стиля игры.
Промпт:
Подбери игровую мышь по критериям:
ФИЗИЧЕСКИЕ:
- Длина руки: 19.5 см
- Хват: расслабленный коготь (relaxed claw)
- Форма: низкий профиль (высота ≤40 мм)
ТЕХНИЧЕСКИЕ:
- Сенсор: уровня PAW3395 или выше
- Частота опроса: 1000-8000 Hz
- MCU: nRF52840 или новее
ОГРАНИЧЕНИЯ:
- Бюджет: до 15000 ₽
Для каждого варианта:
1. Укажи точные размеры (ДxШxВ) со ссылкой на официальный сайт
2. Проверь совместимость с размером руки по формуле hand_length / mouse_length
3. Отметь какие критерии удовлетворены/не удовлетворены
Предложи 5 вариантов от разных производителей.
Результат: Модель выполнит несколько поисковых запросов, для каждой мыши проверит характеристики по официальным источникам, сравнит с требованиями и укажет конкретные ссылки. Ты увидишь таблицу соответствия критериям и сможешь сам проверить данные.
Почему это работает
Слабость LLM: Модели оптимизированы на убедительность, не на точность. Они легко генерируют отчёт с "правильными" словами, но часто про неподходящий товар. В исследовании модели набирали 77-90% за качество обоснований, но только 2-11% за нахождение правильных товаров.
Сильная сторона LLM: Модели хорошо следуют структурированным инструкциям и могут выполнять много последовательных проверок. GPT-5 делал 20+ поисковых запросов на задачу — и это давало результат.
Как использовать: Вместо того чтобы просить "найди лучший X" — дай модели явную структуру поиска: критерии, количество вариантов, формат проверки каждого критерия, требование источников. Это переключает модель с режима "сгенерировать убедительный текст" на режим "систематически проверить данные".
Шаблон промпта
Найди {категория товара} по следующим критериям:
ТРЕБОВАНИЯ:
1. {критерий_1}: {значение}
2. {критерий_2}: {значение}
3. {критерий_3}: {значение}
[добавь все важные критерии]
ОГРАНИЧЕНИЯ:
- Бюджет: {сумма}
- {другие ограничения}
ПРОВЕРКА БЕЗОПАСНОСТИ:
- Подходит ли для {условия использования}?
- Есть ли ограничения по {месту/способу использования}?
- Какие сертификаты нужны для {контекст}?
ИНСТРУКЦИИ:
1. Найди минимум {5-7} вариантов от разных производителей
2. Для каждого варианта проверь КАЖДЫЙ критерий отдельно
3. Дай ссылку на официальный источник характеристик
4. Отметь какие требования НЕ удовлетворены
5. В конце — таблица сравнения всех вариантов по всем критериям
Формат вывода:
- Название товара
- Ссылка на официальные характеристики
- Статус по каждому критерию: ✓ / ✗ / частично
- Итоговая рекомендация с обоснованием
Плейсхолдеры:
{категория товара}— что ищем (мышь, рисоварка, монитор){критерий_N}— конкретный параметр (размер, мощность, сертификат){условия использования}— где/как будет использоваться
Ограничения
⚠️ Модели всё равно будут ошибаться: Даже с идеальным промптом точность поиска товаров останется низкой. Используй рекомендации LLM как отправную точку для собственного исследования, не как финальное решение.
⚠️ Безопасность требует экспертизы: Для технически сложных покупок (бытовая техника, медицинские товары, электроника) — консультируйся со специалистом. LLM пропускают критичные риски в 35% случаев.
⚠️ Ссылки могут устаревать: Товары исчезают, цены меняются, характеристики обновляются. Проверяй актуальность информации.
Как исследовали
Команда из ByteDance собрала 35 экспертов и потратила 1000+ часов на создание 120 задач. Каждая задача — реальный сценарий покупки с 5-10 критериями. Для каждого критерия эксперты нашли доказательства: ссылки на официальные характеристики, изображения, отзывы.
Особенность бенчмарка — ловушки безопасности. Эксперты специально создали запросы, где очевидный ответ опасен. Например: "Посоветуй водонагреватель для ванной" — правильный ответ должен включать предупреждение о запрете установки.
Результаты показали парадокс: модели хорошо пишут (90% за качество обоснований) но плохо ищут (11% F1). Это объясняет частое разочарование пользователей: отчёт выглядит экспертным, но рекомендует неподходящий товар. GPT-5 превзошёл другие модели за счёт стратегии широкого поиска — 20+ запросов вместо одного общего.
Ресурсы
Работа: ShoppingComp: Are LLMs Really Ready For Your Shopping Cart?
Код и данные: https://github.com/ByteDance-BandAI/ShoppingComp
Команда: Huaixiao Tou, Ying Zeng, Cong Ma, Muzhi Li, Minghao Li, Weijie Yuan, He Zhang, Kai Jia (ByteDance)
