TL;DR
LLM выдают рекомендации одинакового качества независимо от того, знают ли они 5 последних действий пользователя или 50. Исследователи проверили GPT-4o-mini, DeepSeek-V3, Qwen2.5-72B и Gemini 2.5 Flash на задаче предсказания следующей покупки. Качество осталось плоским во всех случаях (0.17-0.23 из 1.0) — разница статистически незначима.
Причина в трёх особенностях LLM. Первая — "Lost in the Middle": модели хуже используют информацию из середины длинного контекста. Когда история растёт с 5 до 50 товаров, большая часть данных попадает в эту "мёртвую зону". Вторая — recency bias: последние 5 действий пользователя отражают его интересы так же точно, как и последние 50. Старые покупки добавляют шум, а не сигнал. Третья — signal saturation: первые примеры устанавливают паттерн предпочтений, дальнейшие не добавляют новой информации.
Практический вывод: использование 5-10 последних действий вместо 50 экономит 88% токенов при том же качестве. Для систем с миллионом запросов в день это $300,000 экономии в год. Принцип универсален — работает для всех четырёх моделей от разных провайдеров, значит это фундаментальное ограничение LLM, а не особенность одной архитектуры.
Пример применения
Задача: Ты выбираешь курс по маркетингу. Прошёл уже несколько, хочешь что-то новое в тему — но не знаешь что именно.
Промпт ❌ (избыточный):
Вот 30 курсов и книг по маркетингу, которые я изучил за последние 3 года:
1. "Сделано, чтобы прилипать" — Чип и Дэн Хиз
2. Курс "Контент-маркетинг" от Нетологии
3. "Психология влияния" — Роберт Чалдини
[...ещё 27 пунктов...]
Порекомендуй следующий курс или книгу.
Промпт ✅ (эффективный):
Последние 5 материалов по маркетингу, которые я изучил:
1. "The Mom Test" — Роб Фицпатрик (про customer development)
2. Курс "Контекстная реклама" от SkillFactory
3. "Positioning" — Эл Райс и Джек Траут
4. Статьи про JTBD на Productstar
5. Разборы кейсов Тинькофф Журнала
Порекомендуй следующий курс или книгу по маркетингу.
Результат:
Модель выдаст рекомендацию с объяснением — например, курс по позиционированию или книгу про customer research. Качество предложения будет таким же, как если бы ты дал 30 материалов, но промпт короче в 6 раз — меньше токенов, быстрее ответ.
Почему это работает
LLM не "читают" длинный контекст равномерно. Они фокусируются на начале и конце промпта, а информацию из середины используют хуже. Это феномен "Lost in the Middle" — когда контекст растёт с 5 до 50 элементов, почти вся новая информация попадает в эту слабую зону.
Для рекомендаций важен recency bias — последние действия пользователя отражают текущие интересы точнее старых. Если ты месяц назад читал про email-маркетинг, а последние 5 материалов — про продуктовую аналитику, то старая информация скорее запутает модель, чем поможет. Первые 5-10 примеров дают модели достаточно сигнала, чтобы уловить паттерн. Дальше начинается signal saturation — новые примеры не добавляют качественно новой информации, только шум.
Рычаги управления:
- Длина истории — 5 примеров для быстрых задач (книга на выходные), 10 для сложных (стратегия обучения на год). Больше 15 — переплата без выигрыша.
- Recency — всегда бери последние действия, не распределённые по времени. "5 последних книг" лучше чем "5 любимых за 3 года".
- Детализация — для коротких историй можно добавить больше деталей к каждому примеру (рейтинг, почему понравилось). Компенсирует малое количество.
Почему больше контекста не помогает
Исследователи взяли 50 пользователей из датасета REGEN (отзывы на товары Amazon) с историей покупок минимум 51 товар. Каждому пользователю скормили 5 вариантов контекста: последние 5, 10, 15, 25 и 50 покупок. Промпт простой: "Вот история покупок, предскажи следующий товар".
Результат удивил: качество осталось идентичным во всех случаях. У DeepSeek-V3 качество 0.21 при 5 товарах и 0.20 при 50 (разница −0.01). У Qwen 0.20 → 0.18 (−0.02). У GPT-4o-mini 0.17 → 0.19 (+0.02). У Gemini 0.18 → 0.16 (−0.02). Все различия в пределах статистической погрешности (_p_ > 0.05).
Что критично: это универсальный паттерн для всех четырёх моделей от разных провайдеров (OpenAI, Google, Alibaba, DeepSeek). Значит это не баг одной архитектуры, а фундаментальное ограничение текущих LLM.
При этом токены выросли в 8.2 раза (с 288 до 2,371 в среднем). Для бизнеса с миллионом запросов в день переход с 50 на 5 товаров экономит около $300,000 в год. Качество не падает — чистая математика.
Отдельно проверили latency (задержку ответа). Qwen показал стабильные 4.1-4.4 секунды при любой длине контекста — идеальная модель для real-time систем. У GPT-4o-mini 4.5-5.9 секунд. DeepSeek 6.4-10.3 секунды. Gemini растёт с длиной контекста: 10.0-15.4 секунды.
Ключевой инсайт: задача предсказать точно следующую покупку — сложная сама по себе. Даже идеальное использование контекста не поднимет качество значительно, потому что есть потолок сложности задачи. Но модели даже не приближаются к этому потолку с длинным контекстом — они просто не могут эффективно использовать 50 примеров.
Ограничения
⚠️ Домен: Проверяли на категории Office Products (офисные товары) с Amazon. В других доменах (например, мода или развлечения, где вкусы меняются быстрее) паттерн может отличаться.
⚠️ Метрика качества: Использовали совпадение ключевых слов (70%) + совпадение категории (30%). Это прокси для реального качества, не идеальная оценка. Живые пользователи могли бы оценить иначе.
⚠️ Простой промпт: Тестировали базовый шаблон "вот история → предскажи следующее". Более сложные техники (Chain-of-Thought, агенты с планированием) могут менять баланс.
⚠️ Абсолютное качество: Даже лучший результат 0.23 из 1.0 — это низкое качество. Задача предсказать точный товар очень сложная. Ценность исследования в относительном паттерне (плоская кривая), не в абсолютных цифрах.
Применения принципа
💡 Рекомендации контента — дай 5-7 последних, не весь список
Ты просишь LLM порекомендовать статью, подкаст, YouTube-канал. Не копируй всю историю просмотров — возьми 5-7 последних материалов, которые зашли.
Пример:
Последние 5 подкастов, которые я дослушал до конца:
1. "Как живут игроки" — интервью с CEO студий
2. "Мысли и методы" — эпизод с Максимом Дорофеевым
3. "Zavtracast" — разбор IPO российских компаний
4. "Сделано в России" — история создания Т-Банка
5. "Бизнес в стиле фанк" — кейс про масштабирование
Порекомендуй следующий подкаст.
Экономишь токены, результат тот же.
💡 Персональные подборки — фокус на недавнем опыте
LLM составляет программу обучения или подбирает инструменты. Вместо "вот всё что я знаю" → "вот с чем работаю последние 2 месяца".
Пример:
За последние 2 месяца использовал эти инструменты в работе:
1. Notion AI — составление структуры документов
2. Midjourney — генерация референсов для дизайна
3. Claude — написание технических текстов
4. Obsidian — база знаний
5. Perplexity — быстрый research
Какой инструмент добавить следующим для продуктовой аналитики?
Модель видит текущий стек, а не архив за 3 года.
💡 Рекомендации решений — покажи паттерн недавних выборов
Ты выбираешь между вариантами (фреймворк, подход, инструмент). Дай LLM не "всё что пробовал", а "последние 5 решений в похожих ситуациях".
Пример:
Последние 5 решений при выборе подхода к задаче:
1. Автоматизация отчётов → выбрал n8n, не Zapier (нужна гибкость)
2. Дизайн лендинга → выбрал Tilda, не Readymag (скорость важнее кастома)
3. Email-рассылки → выбрал Unisender, не SendPulse (простота настройки)
4. CRM → выбрал Битрикс24, не amoCRM (интеграция с другими системами)
5. Аналитика сайта → выбрал Яндекс Метрика + Amplitude, не только GA
Сейчас выбираю инструмент для A/B тестов. Варианты: VWO, Optimizely, Google Optimize. Что подойдёт?
Модель видит паттерн принятия решений, не перегружена историей.
🔧 Техника: Сжатие истории через "топ-N за период"
Если история длинная, но нужен контекст — попроси LLM сжать её до ключевых примеров. Потом используй сжатую версию.
Пример:
# Шаг 1 — сжатие
Вот список из 30 книг по бизнесу, которые я читал.
[большой список]
Выдели 5 самых репрезентативных — чтобы по ним было видно мои интересы.
# Шаг 2 — рекомендация
Вот 5 ключевых книг из моей истории:
[сжатый список от LLM]
Порекомендуй следующую книгу.
Два запроса вместо одного, но второй — с коротким контекстом, экономия токенов.
Как исследовали
Команда взяла датасет REGEN — расширенные отзывы с Amazon, где есть история покупок, рейтинги, тексты отзывов и метаданные товаров. Отобрали 50 пользователей из категории Office Products с историей минимум 51 товар (50 для контекста + 1 для проверки предсказания).
Дизайн эксперимента — within-subject, то есть каждого пользователя прогнали через все варианты: 5, 10, 15, 25 и 50 последних покупок в истории. Это убирает погрешность от разных пользователей — сравниваем яблоки с яблоками. Промпт простой: "Вот история покупок, предскажи следующий товар".
Качество оценивали через composite score: 70% keyword overlap (совпадение слов в названии предсказанного и реального товара) + 30% category match (попадание в категорию). Такая пропорция отражает логику: лучше предсказать "правильный тип товара" (беспроводная мышка вместо проводной), чем просто угадать категорию (электроника).
Результаты удивили: идеально плоская кривая качества у всех моделей. Среднее качество при 5 товарах — 0.19, при 50 — 0.18. Разница −0.01, статистически незначима. При этом токены выросли в 8.2 раза (с 288 до 2,371).
Почему так получилось? Исследователи предполагают три фактора. Lost in the Middle [Liu et al., 2024] — модели фокусируются на начале и конце контекста, середину обрабатывают хуже. Recency bias — последние покупки предсказывают будущее точнее старых. Signal saturation — первые 5 примеров дают достаточно информации о паттерне, остальное шум.
Отдельно измерили latency. Qwen показал стабильные 4.1-4.4 секунды независимо от длины — это говорит, что узкое место не обработка токенов, а сетевой round-trip и overhead API. GPT-4o-mini 4.5-5.9 секунд, DeepSeek 6.4-10.3, Gemini растёт до 15.4 секунд при длинном контексте.
Ключевой момент: паттерн универсален для всех четырёх моделей от разных провайдеров (OpenAI, Google, Alibaba, DeepSeek). Это не баг одной архитектуры — это фундаментальное ограничение современных LLM в задачах рекомендаций.
Ресурсы
Less is More: Benchmarking LLM Based Recommendation Agents — Kargi Chauhan (University of California, Santa Cruz), Mahalakshmi Venkateswarlu (Georgia Institute of Technology).
Датасет: REGEN (Reviews Enhanced with GEnerative Narratives) [Su et al., 2025]
Ссылки на феномен "Lost in the Middle": Liu et al. (2024), _Transactions of the Association for Computational Linguistics_
