3,583 papers
arXiv:2605.08060 74 8 мая 2026 г. FREE

Проклятие памяти: больше истории в промпте — хуже результат в итеративных задачах

КЛЮЧЕВАЯ СУТЬ
Парадокс: чем больше истории переписки вы даёте модели, тем хуже она справляется с итеративными задачами. Метод короткого активного окна позволяет вести многодневные проекты, переговоры и разработку концепций без эффекта хождения по кругу. Фишка: контент памяти важнее её длины — когда исследователи заменили реальную историю конфликтов синтетическими кооперативными записями той же длины, сотрудничество восстанавливалось почти полностью. Не количество токенов портит результат — а то, что в них написано.
Адаптировать под запрос

TL;DR

Чем длиннее история переписки, которую вы скармливаете модели, тем хуже она кооперируется в итеративных и переговорных задачах. Исследователи назвали это "проклятием памяти": при расширении доступной истории взаимодействия модели начинают застревать в прошлых ошибках и конфликтах вместо того, чтобы двигаться вперёд. Оптимум — последние 2–5 обменов, не вся история.

Парадокс в том, что модели не становятся "злобнее" с ростом истории. Происходит другое: кооперативный язык буквально вытесняется из рассуждений. В длинном контексте прошлые провалы, отказы и конфликты занимают больше места, чем перспективные планы. Модель начинает генерировать осторожные, защитные ответы — не потому что хочет навредить, а потому что паттерн "было плохо" перевешивает паттерн "может быть хорошо". Отдельная находка: Chain-of-Thought (развёрнутые рассуждения) усиливают этот эффект — продуманный анализ длинной истории даёт ещё более пессимистичный исход.

Решение — короткая активная история + сжатое резюме прошлого + форвардный фрейм ("что нужно достичь дальше", а не "что было раньше"). Исследователи проверили это "память-санацией": когда реальную историю конфликтов заменяли синтетическим резюме с кооперативными записями — сотрудничество восстанавливалось почти полностью.


🔬

Схема метода

Все три действия выполняются в одном промпте или при подготовке контекста:

ШАГ 1: СЖАТИЕ — заменить всю длинную историю
        → 2-3 предложения резюме: что решили, к чему пришли

ШАГ 2: ОКНО — оставить только последние 2-5 обменов
        → полный текст только недавнего

ШАГ 3: ФОРВАРД-ФРЕЙМ — направить задачу вперёд
        → "что нужно достичь дальше" вместо "что произошло"

🚀

Пример применения

Задача: Вы три дня итерируете с Claude концепцию нового приложения для доставки еды. Было много обсуждений, несколько отброшенных идей, спорные моменты по монетизации. Теперь нужно выработать финальное позиционирование. Если вставить всю переписку — модель начнёт ходить по кругу вокруг уже закрытых возражений.

Промпт:

Контекст проекта: Работаем над приложением доставки еды из локальных кафе 
Москвы. Уже решили: фокус на районных заведениях, не на сетях. 
Монетизация — подписка для кафе, не комиссия с заказа. Целевая 
аудитория — люди 28-45 лет, ценящие местечковость.

Последний обмен (вчера): обсудили, что "гиперлокальность" как слово 
слишком сложное для массовой аудитории. Пришли к тому, что нужен 
более живой язык.

Задача вперёд: сформулировать одно позиционирование — одно предложение, 
которое объясняет суть сервиса незнакомому человеку. Никаких отсылок 
к конкурентам, только про нас.

Предложи три варианта позиционирования. Для каждого — в чём сила 
и где риск.

Результат: Модель сгенерирует три чётких варианта позиционирования с анализом сильных сторон и рисков каждого. Не будет возвращаться к закрытым вопросам по монетизации или аудитории — контекст чистый, задача форвардная. Ответ будет конкретным, без "с одной стороны, ранее мы рассматривали...".


🧠

Почему это работает

Слабость LLM: Модель не "читает" историю критически — она генерирует текст, следуя паттернам в контексте. Если в истории 40 раундов и 15 из них — конфликты или отказы, эти "токены провала" буквально занимают место в контексте. Модель не анализирует тренд — она следует локальному распределению слов. Чем больше слов про "риски", "отклонили", "не получилось" — тем больше модель их воспроизводит.

Что модель умеет хорошо: Она отлично работает с чистым, структурированным контекстом. Если вместо сырой истории дать компактное резюме — "вот что решили, вот где стоим" — модель опирается именно на это. Контент памяти важнее её длины. Исследователи заменяли реальную историю конфликтов на синтетические кооперативные записи той же длины — сотрудничество восстанавливалось. Значит, дело не в количестве токенов, а в том, что в них написано.

Рычаги управления: - Длина активного окна — 2-5 последних обменов работают лучше всего. Для простых задач достаточно 1-2. - Формат резюме — пишите в прошедшем времени с результатами ("решили X, отклонили Y"), не с процессом ("обсуждали разные варианты") - Форвард-фрейм — добавьте фразу "задача вперёд" или "что нужно достичь" — это явно смещает генерацию в сторону конструктива - CoT-осторожность — если просите "думать по шагам" над длинной историей, риск хождения по кругу выше. Для форвардных задач иногда лучше без "думай шаг за шагом"


📋

Шаблон промпта

Контекст работы: {2-3 предложения — что уже решено, к чему пришли, 
что отклонили. Только факты, без истории споров}

Последний обмен: {вставить только 2-3 последних сообщения дословно}

Задача вперёд: {что нужно достичь — конкретно, без отсылок к прошлому}

{конкретный запрос}

Что подставлять: - {контекст работы} — короткое резюме-итог, не пересказ процесса. "Решили A, выбрали B, отклонили C" — и всё. - {последний обмен} — буквально последние 2-3 сообщения из чата - {задача вперёд} — глагол будущего действия: "сформулировать", "выбрать", "составить"


🚀 Быстрый старт — вставь в чат:

Помоги мне применить технику "короткой активной памяти" для 
моей задачи: {твоя задача}. 
Задавай вопросы, чтобы заполнить поля шаблона.

[вставить шаблон выше]

LLM спросит что уже решено по проекту, какой был последний обмен и что нужно достичь дальше — потому что без этого невозможно заполнить "Контекст работы" и "Форвард-фрейм". Она возьмёт паттерн из шаблона и соберёт чистый промпт для вашей задачи.


⚠️

Ограничения

⚠️ Не для одноразовых задач: Если вы задаёте единственный вопрос без контекста — никакой "памяти" нет, принцип не применим. Техника нужна только при итеративной работе в несколько обменов.

⚠️ Короткая память ≠ всегда лучше: При нулевой памяти модели дефолтятся к осторожным, неконструктивным ответам. Минимум — последние 1-2 обмена. Ноль информации о контексте хуже, чем мало.

⚠️ Размер модели имеет значение: Более крупные и способные модели (условно "сильные" LLM) частично устойчивы к проклятию памяти за счёт внутренних форвард-ориентированных паттернов. Меньшие или специализированные модели уязвимее. Если используете слабую модель — принцип важнее.

⚠️ CoT в длинном контексте — осторожно: Явная инструкция "думай шаг за шагом" при большом объёме истории может усилить хождение по кругу. Для форвардных задач иногда лучше без развёрнутых рассуждений.

⚠️ Исследование — про агентов, не про чат: Формально изучались LLM-агенты в игровых дилеммах, не пользовательские чаты. Принцип экстраполирован — прямых экспериментов в ChatGPT/Claude не проводилось.


🔍

Как исследовали

Исследователи поставили масштабный эксперимент: 7 языковых моделей (от Mistral-7B до GPT-класса) играли в классические игры теории игр — "Дилемма заключённого", "Игра с доверием" и другие — по 500 раундов подряд. Большинство предыдущих работ ограничивались 10 раундами, что скрывало долгосрочные эффекты. Менялась только одна переменная: сколько прошлых раундов видит агент — от 0 до 80. Это дало 378 000 записей рассуждений для анализа.

Ключевой эксперимент — "санация памяти": исследователи держали длину промпта постоянной, но заменяли реальную историю конфликтов на синтетические записи о кооперации. Сотрудничество восстанавливалось — значит, дело не в объёме контекста, а в его содержании. Это разрушило альтернативную гипотезу "просто слишком длинный промпт".

Второй важный эксперимент — "асимметричная память": один агент видел только 2 последних раунда ("прощала"), второй — 80 ("держала обиду"). Агент с длинной памятью стабильно тянул пару вниз — даже когда партнёр был настроен кооперативно. Авторы назвали это "трагедией оверсинкинга". Кроме того, отключение Chain-of-Thought рассуждений замедляло деградацию — намеренный анализ длинной истории оказался хуже, чем её игнорирование.


🔗

Ресурсы

The Memory Curse: How Expanded Recall Erodes Cooperative Intent in LLM Agents

Авторы: Jiayuan Liu, Tianqin Li, Shiyi Du, Xin Luo, Haoxuan Zeng, Emanuel Tewolde, Tai Sing Lee, Tonghan Wang, Carl Kingsford, Vincent Conitzer

Организации: Carnegie Mellon University, Foundations of Cooperative AI Lab (FOCAL), University of Michigan, Harvard University

Препринт, на рецензии.

Контакт: {jiayuan4,tianqinl,shiyid}@cs.cmu.edu


💡

Адаптации и экстраполяции

💡 Адаптация для длинных рабочих сессий с AI: Если работаете над документом или проектом в несколько сессий — начинайте каждую новую беседу не с вставки всей предыдущей переписки, а с короткого брифа-итога.

Мы работаем над {название проекта}.

Уже решено: {3-5 bullet-пунктов с финальными решениями}
Открытые вопросы: {1-2 пункта, что ещё не закрыто}
Следующий шаг: {конкретная задача на этот сеанс}

🔧 Техника: форвард-маркер → переключение режима

Добавьте в начало промпта явную форвард-инструкцию — особенно если предстоит итеративная работа:

Опирайся только на итоги, не на процесс обсуждения. 
Фокус — что нужно достичь дальше.

Это работает как явный сигнал модели игнорировать "токены провала" в истории и генерировать по конструктивному паттерну.


🔧 Техника: осознанное управление CoT в длинных сессиях

Исследование показало, что Chain-of-Thought усиливает проклятие памяти: чем тщательнее модель "думает" над длинной историей конфликтов, тем хуже итог.

  • Для форвардных задач с чистым контекстом → CoT полезен, оставьте
  • Для итеративных задач с длинной историей → уберите "думай шаг за шагом", дайте прямой запрос

📋 Дайджест исследования

Ключевая суть

Парадокс: чем больше истории переписки вы даёте модели, тем хуже она справляется с итеративными задачами. Метод короткого активного окна позволяет вести многодневные проекты, переговоры и разработку концепций без эффекта хождения по кругу. Фишка: контент памяти важнее её длины — когда исследователи заменили реальную историю конфликтов синтетическими кооперативными записями той же длины, сотрудничество восстанавливалось почти полностью. Не количество токенов портит результат — а то, что в них написано.

Принцип работы

Три шага — и задача перестаёт буксовать. Сначала сожми прошлое: 2-3 предложения итогов в формате «решили X, выбрали Y, отклонили Z». Никакого пересказа споров — только факты. Потом оставь только последние 2-5 обменов дословно. Это рабочая память — свежая и конкретная. Всё остальное — в резюме. В конце — форвард-фрейм: добавь «Задача вперёд: {что нужно достичь}». Глагол будущего действия вместо «как ты помнишь, мы обсуждали». И отдельное предупреждение: если обычно просишь модель «думать по шагам» — с длинной историей это усиливает эффект. Подробный анализ длинного контекста даёт ещё более пессимистичный результат. Для форвардных задач — иногда лучше без пошаговых рассуждений.

Почему работает

Модель не читает историю критически. Она воспроизводит паттерны токенов. Если 15 из 40 раундов — слова «отклонили», «риск», «не получилось» — эти токены буквально занимают место в контексте. Модель не анализирует тренд, а следует локальному распределению слов. Чем больше слов про провалы — тем больше осторожных, защитных ответов на выходе. Не потому что модель «хочет» мешать. Просто так работает следующий токен. Ключевой эксперимент из исследования: реальную историю конфликтов заменили синтетическими кооперативными записями той же длины — и сотрудничество восстановилось почти полностью. Значит, проблема не в длине окна — а в том, чем оно набито.

Когда применять

Итеративная работа в несколько сессий: разработка концепций, редактирование документов, переговоры, стратегические проекты — любая задача, где за несколько дней накопилась история. Особенно когда задача буксует: модель возвращается к закрытым вопросам, избыточно осторожничает, снова поднимает уже отклонённые варианты. НЕ подходит для: одноразовых запросов без контекста — там нечего сжимать. И при нулевой памяти модель выдаёт осторожные дефолтные ответы — минимум 1-2 последних обмена всё равно нужны.

Мини-рецепт

1. Сожми историю: напиши 2-3 предложения итогов. Формат — «решили X, выбрали Y, отклонили Z». Никаких споров и процессов — только результаты.

2. Вырежи активное окно: возьми последние 2-5 сообщений дословно. Это единственный полный текст в контексте — свежий и конкретный.

3. Добавь форвард-фрейм: напиши «Задача вперёд: {что нужно достичь}» — глагол будущего действия, без отсылок к прошлому.

4. Подай запрос: конкретный вопрос без «что мы раньше обсуждали» и «как ты помнишь».

Примеры

[ПЛОХО] : [вставить всю переписку за три дня] Что думаешь, куда двигаться дальше?
[ХОРОШО] : Контекст работы: выбрали подписную модель монетизации для кафе, отклонили комиссию с заказа, определили аудиторию 28-45 лет ценящих районные заведения. Отдельно решили: слово 'гиперлокальность' — слишком сложное, нужен живой язык. Последний обмен: [вставить буквально последние 2-3 сообщения из чата] Задача вперёд: сформулировать одно предложение позиционирования для незнакомого человека. Без отсылок к конкурентам, только про нас. Предложи три варианта. Для каждого — в чём сила и где риск.
Источник: The Memory Curse: How Expanded Recall Erodes Cooperative Intent in LLM Agents
ArXiv ID: 2605.08060 | Сгенерировано: 2026-05-11 05:28

Проблемы LLM

ПроблемаСутьКак обойти
Длинный контекст прошлых обменов ухудшает итеративную работуПри долгой переписке в контексте накапливаются токены провалов: "отклонили", "не получилось", "риски". Модель следует паттернам в тексте — не анализирует тренд. Чем больше таких слов в истории, тем осторожнее и менее конструктивнее новые ответы. Проблема возникает примерно после 5-7 обменов.Не вставляй всю переписку. Замени её на: (1) 2-3 предложения резюме с итогами — "решили X, отклонили Y"; (2) последние 2-5 сообщений дословно; (3) фразу "задача вперёд: {цель}" в конце промпта
Цепочка рассуждений усиливает деградацию от длинной историиКогда просишь модель "думать по шагам" и даёшь длинную историю — она тщательнее анализирует конфликты и провалы из прошлого. Чем глубже разбирает — тем пессимистичнее выход. Без цепочки рассуждений эффект слабее.Не используй "думай шаг за шагом" вместе с большим объёмом истории. Для форвардных задач убери инструкцию про рассуждения — или сначала сожми историю, потом включай.

Методы

МетодСуть
Санация контекста — замена истории на резюмеВместо сырой переписки подавай три блока. Контекст работы: {что решили, что отклонили — 2-3 факта}. Последний обмен: {2-5 последних сообщений дословно}. Задача вперёд: {конкретная цель}. Почему работает: Модель опирается на то что написано в контексте. Синтетическое резюме с позитивными итогами даёт те же результаты что и реальная кооперативная история той же длины. Значит дело не в количестве токенов — а в их содержании. Когда применять: итеративная работа от 5+ обменов. Не нужно: одноразовые запросы, нулевой контекст тоже плохо — оставь хотя бы 1-2 последних обмена

Тезисы

ТезисКомментарий
Содержание контекста важнее его объёмаМодель не считает длину истории — она следует паттернам слов. Замени длинную историю конфликтов на короткое резюме с позитивными итогами — качество восстанавливается. Замени на резюме с негативными итогами той же длины — качество падает так же как от полной истории. Объём сам по себе не вредит. Вредит содержание. Применяй: чисти контекст не сокращением, а переформулировкой — пиши что решили, не что обсуждали
📖 Простыми словами

The Memory Curse: How Expanded Recall Erodes Cooperative Intent inLLMAgents

arXiv: 2605.08060

Нейросети тупеют от избытка информации, и это официально назвали проклятием памяти. Суть в том, что LLM не умеет делать выводы из своих ошибок — она просто продолжает текст, опираясь на то, что уже написано в чате. Если в истории переписки накопилось много правок, споров или неудачных попыток, модель воспринимает этот негативный паттерн как руководство к действию. Вместо того чтобы выдать свежее решение, она начинает буксовать в старых конфликтах, потому что «токены провала» буквально перевешивают здравый смысл.

Это как пытаться помириться с бывшей, перечитывая перед встречей все ваши ссоры за последние три года. Формально ты освежил контекст, но на деле ты просто накрутил себя и готов сорваться на первый же косой взгляд. Вместо конструктивного диалога ты невольно воспроизводишь старые обиды, потому что они занимают 90% твоего внимания. Модель делает то же самое: она видит гору текста про «это не подходит» и решает, что «не подходить» — это и есть главная тема разговора.

Исследователи проверили это на итеративных задачах и выяснили, что 2–5 последних реплик — это золотой стандарт. Метод простой: нужно безжалостно обрезать историю, оставляя только свежий контекст. Если скормить модели простыню из 40 раундов обсуждения, она превращается в упрямого барана. Но стоит оставить только суть последних минут разговора, как она снова становится кооперативной и гибкой. Лишние данные здесь не помогают, а создают шум, в котором тонет логика.

Тестировали это на переговорах и сложных итерациях, но принцип универсален для любой работы с AI. Будь то написание кода, создание стратегии или дизайн-проект — длинный контекст убивает креатив. Если ты три дня спорил с Claude о монетизации приложения, а потом попросил финал, модель начнет жевать старую жвачку. Этот эффект проявляется везде, где есть цикл «вопрос-ответ-правка», и чем дольше длится цикл, тем выше риск, что память станет балластом.

Короче: больше — не значит лучше. Если чувствуешь, что нейронка начала тупить и ходить по кругу, не пытайся «объяснить еще раз» в том же чате — ты только подливаешь масла в огонь. Обрезай контекст до минимума или переноси только финальные выводы в новый чат. Либо ты управляешь историей, либо история управляет моделью, и во втором случае ты гарантированно получишь херню на выходе.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с