3,583 papers
arXiv:2604.09670 73 1 апр. 2026 г. FREE

Интерференция рабочей памяти LLM: почему модель путается, когда нужно помнить несколько вещей сразу

КЛЮЧЕВАЯ СУТЬ
Модель видит весь текст — нужный факт прямо там — но в ответе появляется другой: тот, что ближе к концу или звучит похоже. Это не случайность, это системная ошибка, одинаковая у всех протестированных LLM. Техника структурированной подачи позволяет контролировать эту конкуренцию: нужный факт попадает в ответ, а не тонет в похожем шуме. Разбей контекст на блоки, положи главное ПОСЛЕДНИМ и попроси модель повторить — рецентность, которая раньше работала против тебя, теперь работает на тебя. Эффект зафиксирован на всех популярных LLM — это не баг одной модели, это свойство архитектуры.
Адаптировать под запрос

TL;DR

Модели хуже всего справляются не с длинными текстами, а с задачами где нужно одновременно держать в голове несколько конкурирующих кусков информации. LLM видит весь контекст — но это не помогает. Проблема не в том, что информации нет, а в том, что нужный элемент тонет в помехах от соседних.

Главная находка: у LLM есть рабочая память — и она работает почти как человеческая, со всеми теми же ограничениями. Чем больше элементов нужно отслеживать одновременно — тем хуже точность. Причём модель чаще ошибается в сторону самого свежего, а не самого нужного. Если вы просите вспомнить факт из начала разговора, а в конце накидали похожих — модель «притягивается» к последним. Это не баг конкретной модели, это системное свойство всех протестированных LLM.

Суть: проблема не в доступе к информации, а в интерференции (interference) — конкурирующие элементы мешают извлечь нужный. Чем больше похожих «кандидатов» в контексте — тем сложнее модели изолировать цель. Значит, грамотный промпт должен уменьшать помехи, а не просто повторять нужный факт ещё раз.


🧠

Схема механизма

СОСТОЯНИЕ ВХОДА: несколько похожих элементов в контексте
     ↓
ПОМЕХА 1: недавние элементы «перетягивают» внимание (recency bias)
ПОМЕХА 2: похожий контент конкурирует с целевым (lure effect)
ПОМЕХА 3: чем больше элементов → тем сильнее наложение
     ↓
РЕЗУЛЬТАТ: модель выдаёт неверный элемент или теряет нить

---

КАК СНИЗИТЬ ПОМЕХИ (практические принципы):

ПРИНЦИП 1: Уменьши нагрузку → меньше конкурирующих элементов в контексте
ПРИНЦИП 2: Используй рецентность → ключевое — ближе к вопросу
ПРИНЦИП 3: Разделяй элементы явно → модель лучше изолирует нужный
ПРИНЦИП 4: Убирай нерелевантное → похожий шум создаёт лишние помехи

Все четыре принципа работают в обычном чате, ничего не нужно программировать.


🚀

Пример применения

Задача: Ты готовишь коммерческое предложение. Дал модели длинный бриф: описание клиента, его боли, бюджет, дедлайны, требования к формату, примеры конкурентов, пожелания по тону. Спрашиваешь: «Напиши оффер, учитывая ограничение по бюджету». Модель пишет оффер — но про бюджет молчит или называет цифру из раздела про конкурентов.

Почему так: бюджет упомянут в начале, а «похожие числа» (цены конкурентов) — ближе к концу. Рецентность + лур-эффект сработали против тебя.

Промпт с учётом интерференции:

Сейчас я дам тебе контекст по частям. После каждой части — просто подтверди "понял".

[ЧАСТЬ 1 — Клиент и боли]:
Клиент: [имя/описание]. Боль: [что болит].

[ЧАСТЬ 2 — Требования]:
Формат: [формат]. Тон: [тон].

[ЧАСТЬ 3 — Ключевое ограничение]:
БЮДЖЕТ: строго до [сумма]. Это главное условие. Повтори его.

Теперь напиши оффер. Главный фокус — ограничение бюджета из Части 3.

Результат: Модель подтвердит каждую часть отдельно — это снижает интерференцию между блоками. Явное повторение ключевого ограничения в конце использует рецентность в твою пользу. Оффер будет точнее учитывать именно то, что нужно.


🧠

Почему это работает

Слабость LLM — не в том, что она не видит контекст. Она видит всё. Проблема в том, что при генерации ответа похожие элементы конкурируют за влияние на результат. Это как пытаться вспомнить конкретный телефонный разговор, когда их было пять в один день — все похожи, и мозг «смешивает».

Рецентность работает потому что недавние токены имеют более сильное влияние на финальный вывод. Это не метафора — это буквально то, что показало исследование: ошибки LLM систематически смещены в сторону самых последних нецелевых элементов, а не случайных.

Разделение снижает помехи потому что явные разделители («ЧАСТЬ 1», ---, теги) помогают модели формировать разные представления для разных блоков контента. Чем меньше наложение между блоками — тем легче изолировать нужный при ответе.

Рычаги управления: - Количество элементов → чем меньше «конкурирующих фактов» одновременно, тем точнее модель. Дроби на шаги. - Позиция ключевого факта → кладёшь главное в самый конец перед вопросом — используешь рецентность. - Явное повторение → «повтори X» — заставляет модель активно изолировать нужный элемент. - Удаление похожего шума → убираешь примеры конкурентов с похожими числами → меньше лур-эффекта.


📋

Шаблон промпта

📌

Принцип «снижения интерференции»

Буду давать контекст по блокам. После каждого — просто напиши "ОК".

[БЛОК 1 — {категория_1}]:
{содержание_1}

[БЛОК 2 — {категория_2}]:
{содержание_2}

[КЛЮЧЕВОЕ УСЛОВИЕ / ГЛАВНЫЙ ФАКТ]:
{самое важное — то, что должно попасть в ответ точно}
Повтори это своими словами, чтобы я убедился что понял правильно.

Теперь {задача}. Главный приоритет — условие из последнего блока.

Что подставлять: - {категория_N} — тип информации: «Клиент», «Требования», «Ограничения» - {содержание_N} — сам контент - {самое важное} — то что ДОЛЖНО попасть в финальный ответ - {задача} — что нужно сделать: «напиши письмо», «составь план», «сформулируй оффер»


🚀 Быстрый старт — вставь в чат:

Вот шаблон для снижения интерференции в промпте. 
Адаптируй под мою задачу: [твоя задача]. 
Задавай вопросы, чтобы заполнить все поля.

[вставить шаблон выше]

LLM уточнит сколько блоков нужно и что является «ключевым условием» — потому что именно позиция и явность главного элемента определяют точность ответа.


⚠️

Ограничения

⚠️ Не серебряная пуля: Разделение блоков снижает интерференцию, но не устраняет её полностью. При очень высокой нагрузке (много похожих элементов) точность всё равно падает — просто медленнее.

⚠️ Рецентность — палка о двух концах: То, что ты кладёшь в конец, усиливается. Но если в конце несколько похожих элементов — они сами начинают мешать друг другу. Изолируй одно главное, не несколько.

⚠️ Болтает про похожее → это лур-эффект: Если модель упорно тянет не тот факт — скорее всего рядом с нужным есть похожий. Убери конкурирующий контент из контекста перед повторным запросом.

⚠️ Не работает для задач без «рабочей памяти»: Для простых генеративных задач (напиши стих, переведи текст) — интерференция рабочей памяти почти не влияет. Эффект нагляден когда нужно отслеживать, помнить и применять конкретное из большого контекста.


🔍

Как исследовали

Исследователи взяли N-back — классический психологический тест на рабочую память. В нём нужно ответить не на текущий стимул, а на тот, что был N шагов назад: при 2-back на A,B,C,D отвечаешь -,-,A,B. Простая идея, жёсткий контроль. Для LLM сделали мультитёрный диалог: каждый ход — одна буква, задача — вспомнить нужную.

Протестировали 10 разных моделей: Gemma 3 (1B до 27B), Qwen 3.5 (2B до 27B), Llama-3.1-8B, Ministral 14B. Проверяли два режима: обычная генерация и «teacher forcing» (где правильные ответы подставляются принудительно). Оба режима показали одно и то же.

Что удивило: маленький двухслойный трансформер, натренированный прямо на N-back, решает задачу идеально. А огромные LLM с доступом ко всему контексту — нет. Это значит дело не в архитектуре и не в «не видит предыдущее». Дело в том, как информация закодирована после предобучения на общих данных.

Самая сильна находка — рабочая память предсказывает общий интеллект модели. Точность на N-back коррелировала с MMLU Pro, GPQA Diamond и IFEval сильнее, чем количество параметров. Размер модели сам по себе не предсказывал ни один бенчмарк — а тест на рабочую память предсказывал все три. Как у людей: IQ и рабочая память связаны.

Механистически: команда смотрела как представления меняются слой за слоем. Нашли одинаковый паттерн у всех моделей — сначала подавление нерелевантного контента, потом разведение представлений разных элементов, потом выравнивание нужного к выходному слою только в самом конце. И провели каузальный эксперимент: насильно убрали информацию об идентичности букв из активаций — точность улучшилась. Значит, именно этот «шум» мешает, а не что-то другое.


💡

Адаптации и экстраполяции

📌

🔧 Техника: явная «зачистка контекста» перед ключевым вопросом

Если ты работаешь с длинным документом и нужен конкретный факт — попроси модель сначала изолировать только релевантное:

Из текста выше выдели ТОЛЬКО информацию о {нужный_аспект}. 
Остальное — не включай. 
Потом на основе только этого ответь: {вопрос}.

Это ручная симуляция того, что модель должна делать внутри — подавление иррелевантного перед ответом.


📌

🔧 Техника: явное «якорение» через повторение

Если в долгом диалоге важный факт был давно — не надейся что модель его «помнит» через 30 сообщений:

Напомню ключевой контекст: {Имя клиента} — {главная боль} — бюджет {сумма}.
С учётом этого: {вопрос}.

Это использует рецентность намеренно — ты перемещаешь нужный факт поближе к вопросу.


📌

🔧 Экстраполяция: N-back как стресс-тест для выбора модели

Хочешь понять какая модель лучше держит контекст для твоей задачи? Дай обеим задачу с явным отслеживанием нескольких конкурирующих фактов. Та, у которой лучше рабочая память — лучше справится и с анализом сложного брифа, и с многошаговыми инструкциями. Число параметров не показательно — тест на «рабочую память» показательнее.


🔗

Ресурсы

Human-like Working Memory Interference in Large Language Models (препринт, на рецензии)

Авторы: Hua-Dong Xiong, Li Ji-An, Jiaqi Huang, Robert C. Wilson, Kwonjoon Lee, Xue-Xin Wei

Аффилиации: Georgia Tech (School of Psychological and Brain Sciences, Center of Excellence for Computational Cognition), New York University (Psychology), Indiana University Bloomington (Cognitive Science), Honda Research Institute, University of Texas at Austin (Neuroscience and Psychology)

Задача N-back: классический инструмент когнитивной психологии, Baddeley & Hitch (1993) Трансформерные архитектуры: базируется на rotary positional embeddings (Su et al., 2024) Бенчмарки: MMLU Pro (Wang et al., 2024), GPQA Diamond (Rein et al., 2024), IFEval (Zhou et al., 2023)


📋 Дайджест исследования

Ключевая суть

Модель видит весь текст — нужный факт прямо там — но в ответе появляется другой: тот, что ближе к концу или звучит похоже. Это не случайность, это системная ошибка, одинаковая у всех протестированных LLM. Техника структурированной подачи позволяет контролировать эту конкуренцию: нужный факт попадает в ответ, а не тонет в похожем шуме. Разбей контекст на блоки, положи главное ПОСЛЕДНИМ и попроси модель повторить — рецентность, которая раньше работала против тебя, теперь работает на тебя. Эффект зафиксирован на всех популярных LLM — это не баг одной модели, это свойство архитектуры.

Принцип работы

Задача "помни факт X из большого контекста" звучит просто. Для модели — это гонка. Каждый похожий элемент в тексте тянет на себя. Недавние токены давят на финальный вывод сильнее ранних. Чем больше похожих кандидатов в контексте — тем выше шанс, что модель выберет не тот. Три рычага снижают эту помеху: меньше конкурирующих элементов в одном сообщении, явные разделители между блоками информации, и ключевой факт — в самом конце перед вопросом.

Почему работает

При генерации ответа похожие элементы буквально конкурируют — как пять похожих телефонных разговоров в один день, которые мозг перемешивает в одну кашу. Недавние токены влияют на вывод сильнее ранних — исследование это зафиксировало: ошибки систематически смещены в сторону последних нецелевых элементов, не случайных. Явные разделители между блоками помогают модели держать куски информации изолированно — наложение снижается, и нужный факт перестаёт тонуть в похожем шуме рядом. Явное повторение («повтори своими словами») дополнительно изолирует нужный элемент — модель вынуждена активно его выделить.

Когда применять

Для задач, где нужно отследить и применить конкретный факт из большого контекста — особенно когда в тексте есть похожие числа, имена или условия, которые конкурируют с нужным. Работает для: брифов с множеством параметров, длинных переписок где нужно «помнить» решение из начала разговора, промптов с несколькими ограничениями сразу. НЕ подходит для простых генеративных задач (написать стих, перевести текст) — там конкуренция между элементами рабочей памяти почти не влияет на результат.

Мини-рецепт

1. Разбей на блоки: Не вали всё в один промпт. Каждая категория — отдельный блок с лейблом: [КЛИЕНТ], [ТРЕБОВАНИЯ], [ОГРАНИЧЕНИЯ].

2. Попроси подтверждение: После каждого блока добавь «напиши ОК». Модель обрабатывает блоки по отдельности — информация не смешивается в одну кашу.

3. Главное — последним: Ключевое условие, которое ДОЛЖНО попасть в ответ, идёт в самый конец. Рецентность теперь на твоей стороне.

4. Заставь повторить: После ключевого условия добавь «повтори своими словами». Модель активно изолирует нужный элемент — шанс потерять его в ответе резко падает.

5. Убери похожий шум: Если рядом с нужным фактом есть похожие числа или формулировки — цены конкурентов, альтернативные варианты — удали их или уведи в отдельный блок подальше от главного.

Примеры

[ПЛОХО] : Вот бриф: клиент, боли, бюджет до 50к, примеры конкурентов (цены 40-60к), формат, тон. Напиши оффер с учётом бюджета.
[ХОРОШО] : [БЛОК 1 — Клиент и боли]: [описание]. Напиши ОК. [БЛОК 2 — Формат и тон]: [требования]. Напиши ОК. [КЛЮЧЕВОЕ УСЛОВИЕ — Бюджет]: строго до 50 тысяч. Это главный ограничитель. Повтори своими словами. Теперь напиши оффер. Главный приоритет — бюджет из последнего блока. Что изменилось: конкурирующие цены убраны в отдельный блок подальше от главного ограничения. Бюджет стоит последним — рецентность тянет его в ответ, а не цифры конкурентов. Повторение фиксирует нужный элемент.
Источник: Human-like Working Memory Interference in Large Language Models
ArXiv ID: 2604.09670 | Сгенерировано: 2026-04-14 04:53

Проблемы LLM

ПроблемаСутьКак обойти
Похожие факты в контексте мешают друг другуДаёшь модели длинный контекст с несколькими похожими элементами. Просишь вспомнить один конкретный. Модель достаёт не тот. Причина не в том, что факт отсутствует — он есть. Причина в том, что соседние похожие элементы создают помехи. Чем больше таких элементов — тем сильнее помехи. Работает для любой задачи где нужно удержать и применить конкретный факт из большого контекстаРаздели контекст на блоки с явными заголовками. Ключевой факт положи последним перед вопросом. Попроси модель повторить его: это снижает влияние соседних элементов

Методы

МетодСуть
Блочная подача + ключевое в конце — точное извлечение нужного фактаРазбей контекст на именованные блоки. Давай по одному, жди подтверждения. Ключевое условие — последним. Попроси повторить его перед задачей. [БЛОК 1 — Клиент]: {содержание} ОК [БЛОК 2 — Требования]: {содержание} ОК [ГЛАВНОЕ УСЛОВИЕ]: {факт}. Повтори своими словами. Теперь {задача}. Приоритет — условие из последнего блока. Почему работает: явные разделители снижают наложение блоков. Позиция в конце использует рецентность в твою пользу. Явное повторение заставляет модель активно изолировать нужный элемент. Когда применять: модель должна удержать и применить конкретный факт из большого контекста. Не нужно для простой генерации (перевод, стихи). Ограничение: не клади несколько "главных" в конец — они сами начнут мешать друг другу

Тезисы

ТезисКомментарий
Ошибки модели смещены к последним элементам, а не к случайнымКогда модель путается, она достаёт не произвольный факт. Она достаёт самый недавний из похожих. Это не случайность — это системное свойство всех протестированных моделей. Почему: недавние токены сильнее влияют на финальный вывод. Механизм работает против тебя если ключевое — в начале, а похожее — в конце. И в твою пользу если ключевое — в конце. Применяй: клади главное условие прямо перед вопросом
📖 Простыми словами

Human-like Working Memory Interference inLargeLanguageModels

arXiv: 2604.09670

Нейросети тупят не потому, что у них «память короткая», а потому, что их мозги забивает информационный шум. Фундаментальная механика тут простая: когда ты закидываешь в модель огромный контекст, она видит каждое слово, но не может расставить приоритеты. Внутри LLM происходит интерференция рабочей памяти — это когда несколько похожих кусков данных начинают драться за внимание алгоритма. В итоге модель не забывает информацию, она в ней путается, выбирая не то, что нужно, а то, что «громче кричит» или просто подвернулось под руку.

Это как пытаться расслышать шепот друга на рок-концерте. Друг стоит рядом, ты его видишь, он открывает рот, но вокруг еще сотня людей орет то же самое. Формально звук до тебя доходит, но разобрать конкретные слова невозможно. В голове у нейронки происходит ровно такой же когнитивный перегруз: нужная цифра из брифа тонет в куче аналогичных цифр, и модель выдает случайную дичь, просто чтобы хоть что-то ответить.

Главный облом в том, что длина контекста не спасает. Исследователи выяснили: даже если модель «вмещает» 100к токенов, она лажает на элементарных задачах, если в тексте много конкурирующих сущностей. Например, если в брифе указаны три разных бюджета (прошлый, текущий и желаемый), модель с огромной вероятностью их перепутает. Это эффект соседства: похожие по смыслу или формату данные создают помехи, которые ломают логику генерации. Чем больше в тексте однотипных деталей, тем выше шанс, что на выходе будет каша.

Этот принцип универсален: он работает и в кодинге, и в юридических документах, и в обычном чате. Тестировали на сухих данных, но в жизни это проявляется везде, где есть множественные условия. Если ты просишь AI составить план тренировок, упоминая пять разных травм и три вида диет, готовься к тому, что он посоветует приседания со штангой человеку с больной спиной, просто потому что слово спина мелькнуло в контексте рядом с упражнением. Контекстное окно — это не склад, а узкое горлышко.

Короче: не надейся, что «умная» модель сама разберется в твоей простыне текста. Чтобы она не лажала, нужно убирать конкурирующие куски и подавать информацию максимально изолированно. Если хочешь четкий ответ по бюджету — выноси его в отдельный блок и не смешивай с цифрами конкурентов. Либо ты чистишь контекст от мусора, либо модель продолжает уверенно галлюцинировать, смешивая коней и людей. Кто научится структурировать промпты без лишнего шума, тот и получит адекватный результат.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с