3,583 papers
arXiv:2512.18746 71 21 дек. 2025 г. FREE

MemEvolve: адаптивная память агента под разные типы задач

КЛЮЧЕВАЯ СУТЬ
Обнаружено: AI-агенты копят опыт, но не меняют способ обучения. Память растёт, механизм остаётся статичным. Фишка: память для веб-поиска провалится на математике. Веб-поиску нужны API и скрипты, математике – паттерны мышления. MemEvolve позволяет создавать архитектуру под тип задачи. Двухуровневая эволюция: внутренний цикл копит опыт, внешний меняет саму структуру памяти на основе результатов. +10-17% качества от правильной архитектуры.
Адаптировать под запрос

TL;DR

MemEvolve — исследование о том, что статичные системы памяти тормозят развитие AI-агентов. Ключевой инсайт: нет универсальной архитектуры памяти для всех задач. Память, которая отлично работает для веб-поиска (хранение API и инструментов), провалится на математике (нужны паттерны решений и самокритика). Аналогия: хороший студент учит стихи наизусть, а формулы — через понимание логики. Агенту тоже нужны разные стратегии запоминания под разные домены.

Исследователи обнаружили фундаментальную проблему: все существующие системы памяти агентов работают по принципу "один раз настроил — навсегда зафиксировал". Агент накапливает опыт, но механизм обучения не меняется. Это как если бы студент всю жизнь учил всё подряд одним методом — зубрёжкой или только через понимание. В реальности эффективные люди адаптируют стратегию обучения под предмет: литературу учат через примеры и цитаты, математику — через шаблоны решений, языки — через практику диалогов.

MemEvolve предлагает двухуровневую эволюцию: внутренний цикл накапливает опыт при фиксированной архитектуре памяти, внешний цикл меняет саму архитектуру на основе результатов. Система тестирует несколько вариантов памяти параллельно, отбирает лучшие, диагностирует слабости (плохой поиск, избыточное хранение, неэффективное кодирование) и создаёт улучшенные версии. Дополнительно исследователи создали EvolveLab — унифицированный фреймворк, который раскладывает любую систему памяти на 4 модуля: кодирование опыта (что запомнить), хранение (куда положить), поиск (как найти нужное), управление (когда забыть или обобщить).

📌

Схема концепции

Традиционная память агента:

Задача → Агент → Опыт → Фиксированная память → Накопление
                              ↓
                   (архитектура не меняется)

MemEvolve (двухуровневая эволюция):

ВНУТРЕННИЙ ЦИКЛ (эволюция опыта):
Задачи → Агент с памятью v1 → Опыт → Обновление базы памяти
      ↓
   Результат: Performance, Стоимость, Скорость

ВНЕШНИЙ ЦИКЛ (эволюция архитектуры):
Результаты → Диагностика слабостей → Новые варианты архитектуры
           → Отбор лучших → память v2, v3, v4
                          ↓
                   (следующая итерация)
📌

4 компонента любой памяти агента

Любую систему памяти можно разложить на 4 модуля:

♣ Encode (Кодирование): Что именно запомнить из опыта - Сырые траектории действий - Обобщённые советы и инсайты - Реюзабельные инструменты (API, функции) - Паттерны и шаблоны решений

♦ Store (Хранение): Куда и как положить - Vector database (семантический поиск) - Knowledge graph (связи между знаниями) - JSON (структурированные списки) - Tool library (библиотека функций)

♥ Retrieve (Поиск): Как найти релевантное при новой задаче - Semantic search (по смыслу запроса) - Contrastive comparison (сравнение с прошлыми успехами/провалами) - Skill-based probe (по типу навыка) - Hybrid search (комбинация методов)

♠ Manage (Управление): Как поддерживать качество со временем - Деdupликация (удаление дублей) - Консолидация (обобщение мелких кусков) - Pruning (удаление неэффективного) - Failure-driven adjustment (обновление на основе ошибок)

📌

Почему разные задачи требуют разной памяти

Веб-поиск и автоматизация: - ✅ Хорошо: хранение API, скриптов, shortcuts - ❌ Плохо: абстрактные советы, философские инсайты - Почему: задачи повторяются, нужны готовые инструменты "copy-paste"

Математика и reasoning: - ✅ Хорошо: паттерны решений, самокритика, контрпримеры - ❌ Плохо: конкретные API, специфические инструменты - Почему: каждая задача уникальна, нужен переносимый способ мышления

Coding: - ✅ Хорошо: библиотеки функций, типовые implementation patterns - ❌ Плохо: текстовые советы в духе "будь аккуратнее" - Почему: код либо работает, либо нет — нужны проверенные заготовки

Диалоги и персонализация: - ✅ Хорошо: факты о пользователе, предпочтения, история контекста - ❌ Плохо: обобщённые инструменты, абстрактные шаблоны - Почему: нужна специфика конкретного человека, не универсальность

📌

Применимость для работы в чатах

⚠️ Честно: MemEvolve — это исследовательская система с кодом, требующая Python и GitHub. Напрямую в ChatGPT/Claude не запустишь.

Но принципы применимы:

📌

Стратегия 1: Разные чаты под разные типы задач

Вместо одного универсального чата с памятью — специализированные чаты с разными стратегиями:

"Coding Assistant" — накапливай библиотеку функций:

Каждый раз когда пишем working solution для задачи, добавляй в библиотеку:
- Название функции
- Что решает
- Код с комментариями

При новой задаче сначала проверь библиотеку — может быть есть готовое.

"Strategy Advisor" — накапливай паттерны мышления:

После решения сложной задачи запиши:
- Тип задачи
- Какой подход сработал
- Почему именно он
- Когда применим / не применим

При новой задаче ищи похожие паттерны.

"Content Writer" — накапливай удачные формулировки:

Сохраняй примеры:
- Сильные заголовки
- Удачные метафоры
- Структуры, которые зашли
- Тон и стиль, который сработал

При новом тексте используй как референс.
📌

Стратегия 2: Четыре вопроса при настройке памяти

Перед началом проекта с памятью задай себе:

♣ Что кодировать? - Для повторяющихся задач: конкретные решения (API, скрипты) - Для уникальных задач: принципы и паттерны

♦ Как хранить? - Мало данных: простой список в промпте или файл - Много данных: Projects в Claude или GPTs с файлами

♥ Как искать? - По типу задачи: "найди похожие задачи про [X]" - По результату: "покажи что сработало в прошлый раз" - По контексту: "что релевантно для текущей ситуации"

♠ Как управлять? - Удаляй дубли: "объедини похожие примеры" - Обобщай: "выдели общий паттерн из 5 кейсов" - Фильтруй: "убери то, что не использовалось 20 запросов"

📌

Стратегия 3: Ручная двухуровневая эволюция

Каждые 20-30 задач делай мета-ревью:

Проанализируй последние 20 задач в этом чате:

1. Какие типы задач были?
2. Какая информация из памяти помогла?
3. Какая информация была бесполезна?
4. Чего не хватило?

На основе анализа предложи:
- Что изменить в ФОРМАТЕ памяти
- Что добавить в ПОИСК
- Что удалить или обобщить

Дай конкретный prompt для улучшенной версии системы памяти.

Пример диагностики:

Обнаружено: 
- 15 из 20 задач требовали быстрый доступ к API endpoints
- Текстовые советы использовались 2 раза
- Поиск по семантике находил нерелевантное

Рекомендация:
- Переключись на формат: название API + параметры + пример вызова
- Убери общие советы, храни только working code
- Добавь теги для точного поиска: [web], [database], [auth]
🚀

Пример применения

Задача: Ты развиваешь продуктовые навыки — читаешь кейсы успешных запусков, анализируешь, пробуешь применять. Но когда начинаешь новый проект, не помнишь что работало в прошлый раз. Нужна память, которая накапливает продуктовые паттерны.

Промпт (настройка системы памяти):

Ты — Product Strategy Memory System. Твоя задача: накапливать и выдавать паттерны успешных продуктовых решений.

ФОРМАТ ЗАПИСИ (Encode):
После каждого кейса/опыта записывай:
- Контекст: тип продукта, стадия, аудитория
- Проблема: что решали
- Решение: конкретная механика
- Почему сработало: объяснение
- Когда применимо: условия переноса
- Анти-паттерн: когда НЕ применять

ХРАНЕНИЕ (Store):
Группируй по категориям:
- Growth (привлечение, активация, retention)
- Pricing (монетизация, тарифы, модели)
- UX (онбординг, core loop, engagement)
- Distribution (каналы, партнёрства, virality)

ПОИСК (Retrieve):
При новой задаче:
1. Определи категорию проблемы
2. Найди 3 релевантных паттерна из похожих контекстов
3. Покажи что сработало И что провалилось
4. Предложи адаптацию под текущий кейс

УПРАВЛЕНИЕ (Manage):
Каждые 10 записей:
- Объедини похожие паттерны в мета-паттерн
- Удали дубли
- Выдели универсальные принципы vs специфичные тактики

ПЕРВАЯ ЗАПИСЬ:
[Вставь кейс или свой опыт]

Результат:

После 10-15 записанных кейсов система начнёт выдавать полезные паттерны. При запросе "Как увеличить retention в B2B SaaS для малого бизнеса?" она: - Найдёт 3 релевантных паттерна из retention-категории - Покажет что сработало в похожих B2B контекстах - Объяснит почему эти механики эффективны - Предупредит о сценариях где они не работают - Предложит адаптированное решение под твой кейс

Каждые 10 записей делай мета-ревью: "проанализируй накопленную память, предложи улучшения формата".

📌

Почему это важно

Проблема одной универсальной памяти:

LLM в чатах работают либо без памяти (каждый запрос изолирован), либо с простой памятью в виде истории чата. Проекты/GPTs добавляют долгосрочную память, но она статична по структуре. Модель просто складирует информацию и ищет по семантике. Это работает для простых сценариев, но ломается на сложных:

  • В coding-проектах семантический поиск находит "похожие по смыслу" функции вместо "точно подходящих по сигнатуре"
  • В research-проектах модель копит огромные куски текста вместо извлечения ключевых инсайтов
  • В персональных ассистентах факты о пользователе смешиваются с рабочими задачами

Ценность адаптивного подхода:

Понимание что тип памяти должен соответствовать типу задачи даёт рычаг управления:

  1. Осознанность: ты перестаёшь пытаться "запихнуть всё в один чат" и начинаешь проектировать память под задачу
  2. Эффективность: правильная структура памяти даёт 10-17% прирост качества (по данным исследования)
  3. Масштабируемость: когда память растёт до сотен записей, структура определяет выживет ли система или утонет в шуме

Рычаги управления памятью в промптах:

  • Granularity (детализация): храни сырые примеры vs обобщённые принципы
  • Scope (границы): узкоспециализированная vs универсальная память
  • Retrieval strategy (стратегия поиска): семантика vs точное совпадение vs гибрид
  • Lifecycle (жизненный цикл): статичная база vs обновление vs обобщение со временем
⚠️

Ограничения

⚠️ Автоматизация: MemEvolve сама эволюционирует архитектуру памяти через код. В чатах это нужно делать вручную — периодически анализировать что работает и менять формат.

⚠️ Параллельное тестирование: система тестирует несколько вариантов памяти одновременно и выбирает лучший. В чатах так не сделаешь — можно только последовательно пробовать варианты.

⚠️ Масштаб: исследование тестировалось на сотнях задач с агентами, которые выполняют web search, coding, research. В чатах при ручном управлении памятью эффект проявится после 20-30+ задач, не сразу.

⚠️ Сложность диагностики: система автоматически диагностирует слабости памяти (плохой retrieval, избыточное хранение). В чатах нужно самому замечать что не работает — это требует опыта.

⚠️ Барьер для новичков: понимание "какая память под какую задачу" требует опыта работы с LLM. Если ты только начинаешь — начни с простого накопления примеров, сложные стратегии потом.

🔍

Как исследовали

Команда из OPPO AI Agent Team и LV-NUS создала EvolveLab — unified codebase, который имплементирует 12 разных систем памяти из научной литературы последних двух лет: Voyager, ExpeL, Agent Workflow Memory, SkillWeaver, Dynamic Cheatsheet и другие. Каждую систему разложили на 4 модуля (encode, store, retrieve, manage) и написали в едином интерфейсе. Это позволило честно сравнивать подходы на одних и тех же задачах.

Потом запустили MemEvolve на четырёх бенчмарках: GAIA (комплексные вопросы с многошаговым reasoning), xBench-DS (глубокий research), WebWalkerQA (навигация по веб-сайтам), TaskCraft (разнородные agentic задачи). Каждая итерация: система запускает несколько вариантов памяти параллельно → смотрит performance (accuracy), стоимость (токены), скорость (latency) → отбирает top-K → диагностирует слабости через анализ траекторий → генерирует улучшенные версии.

Главная находка: статичные системы памяти проигрывают до 17% адаптивным на сложных бенчмарках. Например, базовый SmolAgent с фиксированной памятью даёт 42.7% на GAIA, а с памятью, эволюционированной MemEvolve — 49.9%. Flash-Searcher вырос с 69.77% до 78.8% на WebWalkerQA. Интересно: память, эволюционированная на одном бенчмарке, переносится на другие — система обучилась на TaskCraft дала +2-9% на незнакомых GAIA и xBench с другими LLM (GPT-4o, Claude). Это значит MemEvolve нашла универсальные принципы адаптации памяти, не просто подогнала под конкретные данные.

Исследователи также проверили cross-LLM generalization — память, разработанная с GPT-4o-mini, работала с GPT-4o и Claude без переобучения. Парадоксальный инсайт: на reasoning-задачах (GAIA) лучше работает граф-структура + контрастный поиск (сравнение с прошлыми успехами/провалами), а на web-задачах (WebWalkerQA) — библиотека инструментов + skill-based retrieval. Попытка применить "reasoning-память" к web-задачам снижала качество на 5-8%.

🔗

Ресурсы

MemEvolve: Meta-Evolution of Agent Memory Systems — OPPO AI Agent Team, LV-NUS lab, December 2025

GitHub: https://github.com/bingreeky/MemEvolve

Unified codebase с 12 системами памяти: https://github.com/bingreeky/MemEvolve/tree/main/EvolveLab

Упоминаемые системы памяти в EvolveLab: - Voyager (2023) — траектории + советы, vector DB - ExpeL (2023) — траектории + инсайты, контрастный поиск - Agent Workflow Memory (2024) — workflows, семантический поиск - SkillWeaver (2025) — библиотека API, function matching - Dynamic Cheatsheet (2025) — shortcuts, JSON-структура - G-Memory (2025) — граф знаний, эпизодическая консолидация - Agent-KB (2025) — гибридный поиск, дедупликация - EvolveR (2025) — failure-driven обновление, pruning


📋 Дайджест исследования

Ключевая суть

Обнаружено: AI-агенты копят опыт, но не меняют способ обучения. Память растёт, механизм остаётся статичным. Фишка: память для веб-поиска провалится на математике. Веб-поиску нужны API и скрипты, математике – паттерны мышления. MemEvolve позволяет создавать архитектуру под тип задачи. Двухуровневая эволюция: внутренний цикл копит опыт, внешний меняет саму структуру памяти на основе результатов. +10-17% качества от правильной архитектуры.

Принцип работы

Не делай универсальную память для всех задач – создавай специализированную под тип. Веб-автоматизация: храни готовые API, скрипты, shortcuts. Задачи повторяются, нужен copy-paste. Математика: храни паттерны решений, самокритику, контрпримеры. Каждая задача уникальна, нужен переносимый способ мышления. Coding: библиотеки функций, проверенные заготовки. Диалоги: факты о пользователе, предпочтения, история. Студент учит стихи наизусть, формулы – через понимание логики. Агенту тоже нужны разные стратегии запоминания.

Почему работает

Разные задачи требуют разных стратегий запоминания. Конкретные инструменты работают только для повторяющихся сценариев. API и скрипты не переносятся между задачами. Абстрактные паттерны переносятся, но бесполезны для рутины. Универсальная память смешивает оба типа – результат: плохой поиск, избыточное хранение, раздутая база. Адаптивная архитектура под домен даёт +10-17% качества. Как разница между студентом-зубрилой и тем, кто подбирает метод под предмет.

Когда применять

Работа с AI-агентами или чатами, где копится опыт (от 20+ задач). Конкретно для создания систем памяти – coding-ассистенты, research-помощники, персональные агенты. Особенно когда одна универсальная память перестаёт работать: семантический поиск находит нерелевантное, база раздувается, нужное не находится. НЕ подходит для одноразовых задач без истории – там память не нужна.

Мини-рецепт

1. Четыре вопроса перед настройкой памяти: Что кодировать (конкретные решения vs принципы)? Как хранить (список vs файлы vs Projects)? Как искать (по типу задачи vs результату vs контексту)? Как управлять (удалять дубли, обобщать, фильтровать)?

2. Создай специализированные чаты под типы задач: Coding Assistant – библиотека функций. Strategy Advisor – паттерны мышления. Content Writer – удачные формулировки. Каждый со своей структурой памяти.

3. Мета-ревью каждые 20-30 задач: Проанализируй что помогло, что было бесполезно, чего не хватило. Предложи изменения в формате памяти, поиске, хранении. Обнови промпт для следующей итерации.

Примеры

[ПЛОХО] : Один универсальный чат со всем – код, идеи, заметки, примеры. Память растёт, поиск находит нерелевантное, база раздувается.
[ХОРОШО] : Три специализированных чата: - Code Library хранит working functions с тегами [web], [database], [auth] - Strategy Patterns хранит паттерны: тип задачи + подход + когда применим - Content Examples хранит удачные формулировки Каждые 20 задач: проанализируй память – что сработало, что изменить в формате
Источник: MemEvolve: Meta-Evolution of Agent Memory Systems
ArXiv ID: 2512.18746 | Сгенерировано: 2026-01-09 00:37
📖 Простыми словами

MemEvolve: адаптивная память агента под разные типы задач

arXiv: 2512.18746

AI-агенты сейчас тупеют не из-за слабого процессора, а из-за того, что их память — это статичный чердак, куда сваливают всё подряд в одну кучу. Проблема в том, что разработчики пытаются впихнуть в модель одну универсальную архитектуру памяти на все случаи жизни. Но это фундаментальный облом: то, как агент запоминает шаги для написания кода, абсолютно не подходит для планирования путешествия или решения матана. Если память не умеет перестраиваться под задачу, агент начинает путаться в собственных «воспоминаниях» и выдавать чушь.

Это как если бы ты пытался готовить борщ, используя логику сборки шкафа из Икеи. Вроде и там, и там есть инструкция, но если ты будешь «вкручивать» морковку в кастрюлю, получится полная херня. Одному агенту нужно помнить каждое слово пользователя, другому — только общие выводы, а третьему вообще плевать на контекст, ему подавай библиотеку алгоритмов. Исследование MemEvolve доказывает: память должна эволюционировать и менять свою структуру на лету, иначе AI навсегда останется забывчивым золотым рыбкой.

Авторы предлагают метод мета-эволюции, где система сама допирает, какая структура памяти ей нужна прямо сейчас. Если задача про веб-поиск, агент делает упор на хранение API-инструментов; если нужно считать — переключается на паттерны логических цепочек. Это не просто «запиши и сохрани», это активная фильтрация и пересборка мозгов под конкретный домен. В итоге MemEvolve показывает, что адаптивная память работает в разы эффективнее, чем любая самая навороченная, но жестко прописанная база данных.

Этот принцип легко переносится на любой софт и даже на личную продуктивность. Мы привыкли хранить заметки в одной папке, но для обучения игре на гитаре и для ведения бизнеса нужны разные механики усвоения. Тестировали это на агентах, но принцип универсален: если твоя система хранения знаний не меняется в зависимости от того, что ты учишь, ты просто копишь цифровой мусор. Динамическая архитектура — это единственный способ заставить AI (и себя) реально прогрессировать, а не топтаться на месте.

Короче: хватит надеяться на «бездонный контекст» и огромные базы данных. Будущее за системами, которые эволюционируют вместе с задачей, отсекая лишнее и перестраивая логику запоминания. Если архитектура памяти статична — это тупик и деградация. Либо агент учится менять свои «мозги» под ситуацию, либо он так и будет уверенно лажать в элементарных вещах просто потому, что применил не ту линейку к задаче.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с