3,583 papers
arXiv:2601.06007 77 9 янв. 2026 г. PRO

Prompt Caching: как структурировать промпты для экономии и скорости

КЛЮЧЕВАЯ СУТЬ
Парадокс: кешировать весь промпт = замедление работы, а не ускорение. Провайдеры LLM (OpenAI, Anthropic, Google) автоматически сохраняют обработанные части промптов для переиспользования. Но если закешировать динамический мусор (timestamps, user ID, результаты поисков) — тратится время на запись в кеш, который никогда не будет прочитан. Каждая сессия уникальна → кеш бесполезен → overhead растёт. Исследование показало: full context caching на GPT-4o ухудшил скорость на 8.8% вместо улучшения. Метод позволяет экономить деньги и время при агентных задачах с 30-50 вызовами инструментов: кешируй только стабильный контент (system prompt с ролью, инструкциями, правилами), а динамику (дата, конкретные данные) размещай в конце или отдельным сообщением. Стабильная часть в 10k токенов кешируется один раз, затем переиспользуется в каждом из 30+ запросов → экономия 45-80% на API, ускорение первого ответа на 13-31%.
Адаптировать под запрос
📋 Дайджест исследования

Контент доступен только для PRO подписчиков

Чтобы получить доступ к дайджесту этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Контент доступен только для PRO подписчиков

Чтобы получить доступ к концептам этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO
📖 Простыми словами

Контент доступен только для PRO подписчиков

Чтобы получить доступ к упрощённому объяснению этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с