3,583 papers
arXiv:2601.20316 80 28 янв. 2026 г. FREE

Меньше контекста = та же точность: LLM не улучшают рекомендации с длинной историей

КЛЮЧЕВАЯ СУТЬ
Парадокс: 5 последних покупок пользователя дают рекомендацию той же точности что и 50. Но токенов уходит в 8 раз меньше. Метод позволяет экономить 88% токенов в рекомендательных системах без потери качества предсказаний. Причина — феномен Lost in the Middle: LLM фокусируются на начале и конце промпта, информация из середины теряется. Когда история растёт с 5 до 50 товаров, почти все новые данные попадают в эту мёртвую зону. Результат — качество остаётся 0.17-0.23 при любой длине, но затраты растут в 8.2 раза.
Адаптировать под запрос

TL;DR

LLM выдают рекомендации одинакового качества независимо от того, знают ли они 5 последних действий пользователя или 50. Исследователи проверили GPT-4o-mini, DeepSeek-V3, Qwen2.5-72B и Gemini 2.5 Flash на задаче предсказания следующей покупки. Качество осталось плоским во всех случаях (0.17-0.23 из 1.0) — разница статистически незначима.

Причина в трёх особенностях LLM. Первая — "Lost in the Middle": модели хуже используют информацию из середины длинного контекста. Когда история растёт с 5 до 50 товаров, большая часть данных попадает в эту "мёртвую зону". Вторая — recency bias: последние 5 действий пользователя отражают его интересы так же точно, как и последние 50. Старые покупки добавляют шум, а не сигнал. Третья — signal saturation: первые примеры устанавливают паттерн предпочтений, дальнейшие не добавляют новой информации.

Практический вывод: использование 5-10 последних действий вместо 50 экономит 88% токенов при том же качестве. Для систем с миллионом запросов в день это $300,000 экономии в год. Принцип универсален — работает для всех четырёх моделей от разных провайдеров, значит это фундаментальное ограничение LLM, а не особенность одной архитектуры.


🚀

Пример применения

Задача: Ты выбираешь курс по маркетингу. Прошёл уже несколько, хочешь что-то новое в тему — но не знаешь что именно.

Промпт ❌ (избыточный):

Вот 30 курсов и книг по маркетингу, которые я изучил за последние 3 года:

1. "Сделано, чтобы прилипать" — Чип и Дэн Хиз
2. Курс "Контент-маркетинг" от Нетологии
3. "Психология влияния" — Роберт Чалдини
[...ещё 27 пунктов...]

Порекомендуй следующий курс или книгу.

Промпт ✅ (эффективный):

Последние 5 материалов по маркетингу, которые я изучил:

1. "The Mom Test" — Роб Фицпатрик (про customer development)
2. Курс "Контекстная реклама" от SkillFactory
3. "Positioning" — Эл Райс и Джек Траут
4. Статьи про JTBD на Productstar
5. Разборы кейсов Тинькофф Журнала

Порекомендуй следующий курс или книгу по маркетингу.

Результат:

Модель выдаст рекомендацию с объяснением — например, курс по позиционированию или книгу про customer research. Качество предложения будет таким же, как если бы ты дал 30 материалов, но промпт короче в 6 раз — меньше токенов, быстрее ответ.


🧠

Почему это работает

LLM не "читают" длинный контекст равномерно. Они фокусируются на начале и конце промпта, а информацию из середины используют хуже. Это феномен "Lost in the Middle" — когда контекст растёт с 5 до 50 элементов, почти вся новая информация попадает в эту слабую зону.

Для рекомендаций важен recency bias — последние действия пользователя отражают текущие интересы точнее старых. Если ты месяц назад читал про email-маркетинг, а последние 5 материалов — про продуктовую аналитику, то старая информация скорее запутает модель, чем поможет. Первые 5-10 примеров дают модели достаточно сигнала, чтобы уловить паттерн. Дальше начинается signal saturation — новые примеры не добавляют качественно новой информации, только шум.

Рычаги управления:

  • Длина истории — 5 примеров для быстрых задач (книга на выходные), 10 для сложных (стратегия обучения на год). Больше 15 — переплата без выигрыша.
  • Recency — всегда бери последние действия, не распределённые по времени. "5 последних книг" лучше чем "5 любимых за 3 года".
  • Детализация — для коротких историй можно добавить больше деталей к каждому примеру (рейтинг, почему понравилось). Компенсирует малое количество.

📌

Почему больше контекста не помогает

Исследователи взяли 50 пользователей из датасета REGEN (отзывы на товары Amazon) с историей покупок минимум 51 товар. Каждому пользователю скормили 5 вариантов контекста: последние 5, 10, 15, 25 и 50 покупок. Промпт простой: "Вот история покупок, предскажи следующий товар".

Результат удивил: качество осталось идентичным во всех случаях. У DeepSeek-V3 качество 0.21 при 5 товарах и 0.20 при 50 (разница −0.01). У Qwen 0.20 → 0.18 (−0.02). У GPT-4o-mini 0.17 → 0.19 (+0.02). У Gemini 0.18 → 0.16 (−0.02). Все различия в пределах статистической погрешности (_p_ > 0.05).

Что критично: это универсальный паттерн для всех четырёх моделей от разных провайдеров (OpenAI, Google, Alibaba, DeepSeek). Значит это не баг одной архитектуры, а фундаментальное ограничение текущих LLM.

При этом токены выросли в 8.2 раза (с 288 до 2,371 в среднем). Для бизнеса с миллионом запросов в день переход с 50 на 5 товаров экономит около $300,000 в год. Качество не падает — чистая математика.

Отдельно проверили latency (задержку ответа). Qwen показал стабильные 4.1-4.4 секунды при любой длине контекста — идеальная модель для real-time систем. У GPT-4o-mini 4.5-5.9 секунд. DeepSeek 6.4-10.3 секунды. Gemini растёт с длиной контекста: 10.0-15.4 секунды.

Ключевой инсайт: задача предсказать точно следующую покупку — сложная сама по себе. Даже идеальное использование контекста не поднимет качество значительно, потому что есть потолок сложности задачи. Но модели даже не приближаются к этому потолку с длинным контекстом — они просто не могут эффективно использовать 50 примеров.


⚠️

Ограничения

⚠️ Домен: Проверяли на категории Office Products (офисные товары) с Amazon. В других доменах (например, мода или развлечения, где вкусы меняются быстрее) паттерн может отличаться.

⚠️ Метрика качества: Использовали совпадение ключевых слов (70%) + совпадение категории (30%). Это прокси для реального качества, не идеальная оценка. Живые пользователи могли бы оценить иначе.

⚠️ Простой промпт: Тестировали базовый шаблон "вот история → предскажи следующее". Более сложные техники (Chain-of-Thought, агенты с планированием) могут менять баланс.

⚠️ Абсолютное качество: Даже лучший результат 0.23 из 1.0 — это низкое качество. Задача предсказать точный товар очень сложная. Ценность исследования в относительном паттерне (плоская кривая), не в абсолютных цифрах.


📌

Применения принципа

📌

💡 Рекомендации контента — дай 5-7 последних, не весь список

Ты просишь LLM порекомендовать статью, подкаст, YouTube-канал. Не копируй всю историю просмотров — возьми 5-7 последних материалов, которые зашли.

Пример:

Последние 5 подкастов, которые я дослушал до конца:

1. "Как живут игроки" — интервью с CEO студий
2. "Мысли и методы" — эпизод с Максимом Дорофеевым
3. "Zavtracast" — разбор IPO российских компаний
4. "Сделано в России" — история создания Т-Банка
5. "Бизнес в стиле фанк" — кейс про масштабирование

Порекомендуй следующий подкаст.

Экономишь токены, результат тот же.


📌

💡 Персональные подборки — фокус на недавнем опыте

LLM составляет программу обучения или подбирает инструменты. Вместо "вот всё что я знаю" → "вот с чем работаю последние 2 месяца".

Пример:

За последние 2 месяца использовал эти инструменты в работе:

1. Notion AI — составление структуры документов
2. Midjourney — генерация референсов для дизайна
3. Claude — написание технических текстов
4. Obsidian — база знаний
5. Perplexity — быстрый research

Какой инструмент добавить следующим для продуктовой аналитики?

Модель видит текущий стек, а не архив за 3 года.


📌

💡 Рекомендации решений — покажи паттерн недавних выборов

Ты выбираешь между вариантами (фреймворк, подход, инструмент). Дай LLM не "всё что пробовал", а "последние 5 решений в похожих ситуациях".

Пример:

Последние 5 решений при выборе подхода к задаче:

1. Автоматизация отчётов → выбрал n8n, не Zapier (нужна гибкость)
2. Дизайн лендинга → выбрал Tilda, не Readymag (скорость важнее кастома)
3. Email-рассылки → выбрал Unisender, не SendPulse (простота настройки)
4. CRM → выбрал Битрикс24, не amoCRM (интеграция с другими системами)
5. Аналитика сайта → выбрал Яндекс Метрика + Amplitude, не только GA

Сейчас выбираю инструмент для A/B тестов. Варианты: VWO, Optimizely, Google Optimize. Что подойдёт?

Модель видит паттерн принятия решений, не перегружена историей.


📌

🔧 Техника: Сжатие истории через "топ-N за период"

Если история длинная, но нужен контекст — попроси LLM сжать её до ключевых примеров. Потом используй сжатую версию.

Пример:

# Шаг 1 — сжатие

Вот список из 30 книг по бизнесу, которые я читал.

[большой список]

Выдели 5 самых репрезентативных — чтобы по ним было видно мои интересы.

# Шаг 2 — рекомендация

Вот 5 ключевых книг из моей истории:

[сжатый список от LLM]

Порекомендуй следующую книгу.

Два запроса вместо одного, но второй — с коротким контекстом, экономия токенов.


🔍

Как исследовали

Команда взяла датасет REGEN — расширенные отзывы с Amazon, где есть история покупок, рейтинги, тексты отзывов и метаданные товаров. Отобрали 50 пользователей из категории Office Products с историей минимум 51 товар (50 для контекста + 1 для проверки предсказания).

Дизайн эксперимента — within-subject, то есть каждого пользователя прогнали через все варианты: 5, 10, 15, 25 и 50 последних покупок в истории. Это убирает погрешность от разных пользователей — сравниваем яблоки с яблоками. Промпт простой: "Вот история покупок, предскажи следующий товар".

Качество оценивали через composite score: 70% keyword overlap (совпадение слов в названии предсказанного и реального товара) + 30% category match (попадание в категорию). Такая пропорция отражает логику: лучше предсказать "правильный тип товара" (беспроводная мышка вместо проводной), чем просто угадать категорию (электроника).

Результаты удивили: идеально плоская кривая качества у всех моделей. Среднее качество при 5 товарах — 0.19, при 50 — 0.18. Разница −0.01, статистически незначима. При этом токены выросли в 8.2 раза (с 288 до 2,371).

Почему так получилось? Исследователи предполагают три фактора. Lost in the Middle [Liu et al., 2024] — модели фокусируются на начале и конце контекста, середину обрабатывают хуже. Recency bias — последние покупки предсказывают будущее точнее старых. Signal saturation — первые 5 примеров дают достаточно информации о паттерне, остальное шум.

Отдельно измерили latency. Qwen показал стабильные 4.1-4.4 секунды независимо от длины — это говорит, что узкое место не обработка токенов, а сетевой round-trip и overhead API. GPT-4o-mini 4.5-5.9 секунд, DeepSeek 6.4-10.3, Gemini растёт до 15.4 секунд при длинном контексте.

Ключевой момент: паттерн универсален для всех четырёх моделей от разных провайдеров (OpenAI, Google, Alibaba, DeepSeek). Это не баг одной архитектуры — это фундаментальное ограничение современных LLM в задачах рекомендаций.


🔗

Ресурсы

Less is More: Benchmarking LLM Based Recommendation Agents — Kargi Chauhan (University of California, Santa Cruz), Mahalakshmi Venkateswarlu (Georgia Institute of Technology).

Датасет: REGEN (Reviews Enhanced with GEnerative Narratives) [Su et al., 2025]

Ссылки на феномен "Lost in the Middle": Liu et al. (2024), _Transactions of the Association for Computational Linguistics_


📋 Дайджест исследования

Ключевая суть

Парадокс: 5 последних покупок пользователя дают рекомендацию той же точности что и 50. Но токенов уходит в 8 раз меньше. Метод позволяет экономить 88% токенов в рекомендательных системах без потери качества предсказаний. Причина — феномен Lost in the Middle: LLM фокусируются на начале и конце промпта, информация из середины теряется. Когда история растёт с 5 до 50 товаров, почти все новые данные попадают в эту мёртвую зону. Результат — качество остаётся 0.17-0.23 при любой длине, но затраты растут в 8.2 раза.

Принцип работы

Не собирай длинную историю в 50 примеров — дай 5-10 последних. Первые 5 примеров устанавливают паттерн предпочтений, следующие 45 добавляют шум а не сигнал. Это recency bias — недавние действия отражают текущие интересы точнее старых. Плюс signal saturation — после 5-10 примеров новая информация не меняет понимание паттерна.

Почему работает

Три причины почему больше контекста не помогает. Первая — феномен Lost in the Middle: модели читают начало и конец промпта внимательно, середину хуже. При росте с 5 до 50 примеров новые данные оказываются в слабой зоне. Вторая — recency bias: если месяц назад читал про email-маркетинг а последние 5 материалов про аналитику, старая информация запутает модель а не поможет. Третья — signal saturation: первые 5 примеров показывают паттерн вкуса, дальше повторение без новой информации. Критично: проверили на 4 моделях от разных провайдеров (GPT-4o-mini, DeepSeek-V3, Qwen, Gemini) — паттерн идентичный. Значит это фундаментальное ограничение архитектуры LLM, а не баг одной модели. Для бизнеса с миллионом запросов в день переход с 50 на 5 примеров экономит $300 тысяч в год.

Когда применять

Рекомендательные системы и персонализация → для задач где нужно предсказать следующее действие пользователя (товар, курс, статья, подкаст), особенно когда история длинная (20+ примеров) и есть желание сэкономить токены без потери качества. НЕ подходит для задач где критична вся история целиком — анализ динамики изменений предпочтений за год, выявление забытых интересов из прошлого.

Мини-рецепт

1. Возьми последние 5-10 действий: Не весь архив, а только недавние — последний месяц для быстро меняющихся интересов (мода, развлечения), последние 3 месяца для стабильных (обучение, инструменты).
2. Добавь детали к каждому примеру: Если используешь 5 примеров — укажи что именно понравилось или почему выбрал. Компенсирует малое количество.
3. Протестируй на своём кейсе: Сравни качество рекомендаций с 5 vs 20 примерами — если разницы нет, режь до минимума и экономь токены.

Примеры

[ПЛОХО] : Вот 30 курсов по маркетингу которые я прошёл за 3 года [большой список всех курсов]. Порекомендуй следующий курс.
[ХОРОШО] : Последние 5 курсов: "The Mom Test" про customer development, Контекстная реклама от SkillFactory, "Positioning" Эл Райс, JTBD на Productstar, Кейсы Тинькофф Журнала. Порекомендуй следующий курс по маркетингу.
Источник: Less is More: Benchmarking LLM Based Recommendation Agents
ArXiv ID: 2601.20316 | Сгенерировано: 2026-01-29 05:39

Концепты не выделены.

📖 Простыми словами

Less is More: BenchmarkingLLMBased Recommendation Agents

arXiv: 2601.20316

AI-ассистенты в роли рекомендашек работают совсем не так, как мы привыкли думать. Мы пичкаем их историей своих покупок или просмотров, надеясь, что чем больше данных скормим, тем точнее будет совет. На деле LLM плевать на объем данных: они выдают одинаковый результат, знают они о тебе пять фактов или пятьдесят. Исследование на GPT-4o-mini, DeepSeek-V3 и Qwen2.5 показало, что качество рекомендаций замирает на отметке 0.2 из 1.0 и не растет, сколько бы контекста ты ни вливал. Модель просто не видит разницы между коротким слепком твоих интересов и подробной биографией шопоголика.

Это как пытаться объяснить бармену свои предпочтения в выпивке, зачитывая ему список всего алкоголя, который ты выпил за последние десять лет. Формально ты выдал максимум инфы, но бедолага за стойкой запомнит только первый бокал пива и последний шот текилы, а все, что было посередине, превратится в невнятный гул. В итоге он все равно нальет тебе то же самое, что и парню, который просто сказал: "Люблю покрепче". Лишние слова здесь не уточняют портрет, а просто создают информационный шум, который модель не в силах переварить.

Корень проблемы в феномене Lost in the Middle: нейронки отлично помнят начало и конец промпта, но напрочь теряют фокус в середине. Когда ты расширяешь историю действий с 5 до 50 пунктов, 90% новой информации попадает в эту «мертвую зону». В итоге DeepSeek или Gemini тупо игнорируют массив данных, который должен был сделать их умнее. Исследователи подтвердили: статистической разницы нет, длинный контекст в рекомендациях — это просто сжигание токенов и денег без малейшего профита для качества.

Принцип универсален и выходит далеко за рамки выбора курсов по маркетингу или покупки кроссовок. Это касается любого сценария, где ты пытаешься «обучить» модель на лету через промпт. Будь то подбор контента, генерация идей на основе старых заметок или попытка заставить AI имитировать твой стиль письма по сотне примеров — эффект плато наступит очень быстро. Больше — не значит лучше, если архитектура модели физически не способна удержать в голове всю цепочку событий.

Короче: завязывай с гигантоманией и не надейся, что огромный контекст спасет плохую рекомендацию. 5 ключевых действий дают тот же выхлоп, что и 50, так что лучше фильтровать данные на входе, чем кормить модель мусором. Если хочешь адекватный совет от AI, давай ему только самое свежее и релевантное, иначе он просто запутается в твоих старых предпочтениях и выдаст рандомную фигню. В мире LLM-рекомендаций краткость — это не просто вежливость, а единственный способ выжить.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с