3,583 papers
arXiv:2602.09517 86 10 фев. 2026 г. FREE

SAKE: дублирование информации для защиты от искажения рассуждениями

КЛЮЧЕВАЯ СУТЬ
Обнаружено: LLM игнорирует найденную информацию после длинного рассуждения. Модель читает новые документы «через призму» уже сформированных мыслей — внимание цепляется за предыдущие токены, факты искажаются под гипотезы. SAKE (Self-Anchored Knowledge Encoding) решает проблему дублированием: позволяет модели сначала прочитать документы объективно (без контекста рассуждений), затем применить их к задаче. Один и тот же документ размещается дважды — в начале промпта для чистого чтения, после шага рассуждения для контекстного применения. Модель автоматически использует первое, незамутнённое представление — факты остаются фактами.
Адаптировать под запрос

TL;DR

SAKE (Self-Anchored Knowledge Encoding) — техника размещения найденной информации одновременно в начале и после текущего шага рассуждений. Когда LLM долго рассуждает, потом получает внешние данные (через поиск/документы) и продолжает работу — новая информация "вставляется" дважды: сначала изолированно в начало контекста, потом после рассуждения для применения.

Исследователи выявили Knowledge Integration Decay (KID) — фундаментальную проблему LLM: чем дольше модель рассуждает перед поиском информации, тем хуже она использует найденное. Даже когда документы содержат точный ответ, модель игнорирует их после длинного рассуждения. Анализ показал: внимание модели смещается к предыдущим рассуждениям во время обработки новых данных — информация "читается" через призму уже накопленных мыслей, теряет объективность и искажается.

SAKE решает проблему дублированием: стек знаний в начале кодирует информацию без искажений (semantic anchor), повтор после рассуждения даёт контекст для применения. Модель сначала "понимает факты как есть", затем применяет их к задаче — внимание автоматически цепляется за чистое представление из начала, игнорируя давление промежуточных рассуждений.


🔬

Схема метода

SAKE меняет только структуру подачи информации — всё в одном промпте:

БЛОК 1: Стек знаний (reverse chronological)
  [Последний найденный документ]
  [Предпоследний документ]
  ...
  [Первый документ]

БЛОК 2: Вопрос
  [Исходный запрос пользователя]

БЛОК 3: Рассуждение + документы по шагам
  [Шаг 1 рассуждения] → [документ 1]
  [Шаг 2 рассуждения] → [документ 2]
  ...
  [Текущий шаг рассуждения] → [последний документ]

Финальный ответ генерируется после всей структуры.


🚀

Пример применения

Задача: Сравниваешь бизнес-модели двух российских сервисов для питча инвестору — нужен точный анализ, опирающийся на публичные данные.

Промпт:

НАЙДЕННАЯ ИНФОРМАЦИЯ (читай объективно):

ДОКУМЕНТ 2 (последний поиск):
Яндекс.Маркет в 2024: GMV 500 млрд руб, комиссия 8-12%, 
монетизация через рекламу продавцов. Модель — marketplace.

ДОКУМЕНТ 1 (первый поиск):
Ozon в 2024: GMV 1 трлн руб, собственный фулфилмент, 
комиссия 5-7% + логистика. Модель — гибридный ритейл.

---

ВОПРОС:
Какая бизнес-модель устойчивее к кризису спроса: 
Ozon или Яндекс.Маркет?

---

РАССУЖДЕНИЕ:

ШАГ 1: Для оценки устойчивости важно понять структуру 
доходов и операционные риски каждой модели. Мне нужны 
данные по монетизации и издержкам.

→ [ДОКУМЕНТ 1: Ozon в 2024...]

ШАГ 2: Ozon зарабатывает на комиссии + логистике, 
вложился в инфраструктуру. При падении спроса — 
риск недозагрузки складов. Теперь сравню с конкурентом.

→ [ДОКУМЕНТ 2: Яндекс.Маркет в 2024...]

ФИНАЛЬНЫЙ ВЫВОД:

Результат: Модель выдаст сравнительный анализ с опорой на числа из документов. Благодаря дублированию в начале, данные про GMV и комиссии не искажаются гипотезами из Шага 1 — модель сначала "прочитала факты чисто", затем применила их к рассуждению. Без SAKE модель могла бы "подогнать" цифры под логику "риск складов", игнорируя преимущества рекламной монетизации Маркета.


🧠

Почему это работает

Слабость LLM: Когда модель обрабатывает новую информацию после длинного рассуждения, механизм внимания (attention) сильно фокусируется на предыдущих токенах — на том, что модель уже "думала". Новые данные кодируются через призму накопленного контекста, теряют объективность. Исследование показало: чем длиннее рассуждение до поиска, тем сильнее "interference strength" — документ читается не как факт, а как продолжение мыслей модели.

Сильная сторона LLM: Модель отлично работает с дублированной информацией в разных позициях. Если один и тот же текст появляется дважды, attention во втором случае может "заякориться" (anchor) на первом вхождении — использовать чистое представление без искажений.

Как SAKE использует это: Размещая документы сначала в начале (без контекста рассуждений), модель кодирует их "как есть" — semantic integrity сохраняется. Затем тот же документ после шага рассуждения даёт контекст для применения — модель понимает "зачем искали", "как связано с задачей". Но внимание автоматически цепляется за первое, чистое представление — факты не переписываются под гипотезы.

Рычаги управления в SAKE:

  • Порядок в стеке знаний (reverse chronological): самый свежий документ — первым, чтобы минимизировать влияние даже других документов. Можешь поменять порядок по важности вместо хронологии.

  • Дублирование всех документов vs только ключевых: если токенов мало — дублируй только критичную информацию (цифры, факты), остальное оставь только после шагов.

  • Явное разделение блоков (---, заголовки): усиливает структуру, помогает модели "переключаться" между режимами чтения (объективно → контекстуально).

  • Инструкция в начале стека: добавь "читай объективно, без интерпретаций" перед документами — усилит semantic anchor.


📋

Шаблон промпта

СПРАВОЧНАЯ ИНФОРМАЦИЯ (факты без интерпретаций):

{документ_N — последний найденный}

{документ_N-1}

...

{документ_1 — первый найденный}

---

ЗАДАЧА:
{вопрос или цель}

---

РАССУЖДЕНИЕ И ПРИМЕНЕНИЕ:

ШАГ 1: {твои размышления, логика, гипотеза}

Источник для проверки: {документ_1}

ШАГ 2: {развитие мысли с учётом документа_1}

Источник для проверки: {документ_2}

...

ШАГ N: {финальная логика}

Источник для проверки: {документ_N}

---

ВЫВОД:
{финальный ответ с опорой на факты}

Как заполнять: - {документ_1...N} — любые внешние данные: статьи, числа, цитаты, результаты поиска - Порядок документов в начале: обратный (последний найденный — первым) - После каждого шага рассуждения вставляй документ в прямом порядке (как использовал)


🚀 Быстрый старт — вставь в чат:

Вот шаблон SAKE для защиты от искажения информации рассуждениями. 
Адаптируй под мою задачу: [опиши задачу — анализ, сравнение, проверка гипотезы]. 
Спроси какие документы/данные у меня есть и в каком порядке их расставить.

[вставить шаблон выше]

LLM спросит: "Какие документы или данные ты хочешь проанализировать? В какой последовательности ты их получал?" — потому что SAKE строится на двух размещениях одной и той же информации: чистое чтение в начале + контекстное применение по шагам. Она возьмёт паттерн дублирования и структурирует твой контент.


⚠️

Ограничения

⚠️ Расход токенов: Дублирование документов удваивает объём контекста — длинные тексты могут упереться в лимит окна. Эффект SAKE окупается на сложных задачах с длинным рассуждением, но для короткого запроса overhead не оправдан.

⚠️ Эффект проявляется в multi-step reasoning: Если задача решается за один шаг без итеративного поиска — SAKE не даст преимущества. Ценность максимальна там, где несколько циклов "рассуждение → поиск → рассуждение".

⚠️ Специфика для поисковых сценариев: Техника заточена под работу с найденной информацией (документы, веб-поиск, базы знаний). Для творческих задач без внешних фактов (генерация идей, сторителлинг) не применима.


🔍

Как исследовали

Команда взяла три reasoning-модели (Qwen3-4B-Thinking, Qwen3-30B-A3B-Thinking, QwQ-32B) и проверила на бенчмарках multi-hop QA: HotpotQA, 2WikiMultiHopQA, MuSiQue, FRAMES, GAIA. Идея эксперимента простая: варьировали длину рассуждения до поиска (pre-search reasoning) и смотрели, насколько хорошо модель использует найденные документы.

Ключевая находка: при oracle search (когда документы гарантированно содержат ответ) перформанс падал с ростом pre-search reasoning. На 2WikiMultiHopQA F1-score проваливался на 10-20 пунктов при длинных рассуждениях — притом что правильный ответ лежал в документах! Это доказало KID: модель не может интегрировать знание, если до этого долго рассуждала.

Затем провели механистический анализ: измерили attention interference strength — какую долю внимания токены документа отдают предыдущим рассуждениям вместо самого документа. График показал резкий рост interference с увеличением pre-search reasoning: модель "читает" новую информацию через старые мысли, искажает её.

SAKE протестировали на тех же бенчмарках — улучшение до +37.6% F1 на сложных bridge-comparison вопросах. Анализ attention показал: interference strength снижается — дублирование в начале работает как якорь, модель цепляется за чистое представление.

Что удивило: baseline Search-o1 (state-of-the-art подход "рассуждай → ищи → рассуждай") иногда проигрывал даже обычному RAG именно из-за KID — длинные рассуждения вредили вместо помощи. SAKE не просто улучшил Search-o1, но и показал: само по себе "больше рассуждений" без защиты от KID может навредить.


📄

Оригинал из исследования

Input sequence at reasoning step t+1:

X_{t+1} = [I; [d_t; ...; d_1]; q_0; r_1; d_1; ...; r_t; d_t]
          └──────┬──────┘              └────────┬────────┘
          Knowledge Stack St      Reasoning-aligned traces

Where:
- I: task instruction
- St = [d_t, d_{t-1}, ..., d_1]: cumulative knowledge stack (reverse chronological)
- q_0: original query
- r_i: reasoning at step i
- d_i: search result at step i

Контекст: Исследователи формализовали SAKE через явную структуру входной последовательности. Стек знаний St помещается сразу после инструкции, содержит все найденные документы в обратном порядке (самый свежий — первым). Затем идёт оригинальный вопрос, далее — пары "рассуждение → документ" в прямом порядке. Эта dual positioning позволяет модели кодировать знание дважды: unbiased (в стеке) и contextualized (после шагов).


💡

Адаптации и экстраполяции

💡 Адаптация для проверки фактов в тексте:

Когда пишешь текст с фактами (статья, отчёт, питч) и хочешь, чтобы LLM проверила точность — используй SAKE наоборот: сначала чистый черновик текста как semantic anchor, потом источники для проверки, затем итеративная правка.

ИСХОДНЫЙ ТЕКСТ (объективная версия без правок):
{твой черновик полностью}

---

ИСТОЧНИКИ ДЛЯ ПРОВЕРКИ:
{статистика, ссылки, данные}

---

ПРОВЕРКА ПО ШАГАМ:

Утверждение 1 из текста: "{цитата}"
Проверяю по источнику: {релевантный источник}
Вердикт: [верно/неточно/исправить]

Утверждение 2 из текста: "{цитата}"
Проверяю по источнику: {релевантный источник}
Вердикт: [верно/неточно/исправить]

---

ИТОГОВЫЙ ТЕКСТ:
{исправленная версия с сохранением стиля}

Логика та же: исходный текст кодируется "чисто", не искажается процессом проверки. Когда модель делает вердикты, она цепляется за оригинальные формулировки, не переписывает смысл под источники.


🔧 Техника: явная инструкция для каждого блока → контроль режима чтения

[РЕЖИМ: OBJECTIVE ENCODING — читай факты без связи с задачей]

ДОКУМЕНТ 1: {данные}
ДОКУМЕНТ 2: {данные}

---

[РЕЖИМ: TASK-ORIENTED REASONING — применяй к задаче]

ЗАДАЧА: {вопрос}

ШАГ 1: {рассуждение}
→ Связываю с: [ДОКУМЕНТ 1]

ШАГ 2: {рассуждение}
→ Связываю с: [ДОКУМЕНТ 2]

Эффект: модель явно переключается между "чтение как есть" и "применение к контексту". Усиливает разделение semantic anchor и reasoning contextualization.


🔧 Техника: убрать дублирование документов → проверить вклад SAKE

Если сомневаешься, даёт ли SAKE эффект на твоей задаче — сделай A/B: - Версия A: полный SAKE (дублирование) - Версия B: только reasoning-aligned (документы после шагов, без стека в начале)

Сравни результаты. Если разницы нет — твоя задача либо слишком короткая (нет длинного рассуждения), либо не требует точности фактов (креатив, мнения).


💡 Экстраполяция: SAKE + Chain-of-Thought для отладки рассуждений

Комбинируй SAKE с явными метками CoT, чтобы видеть где модель "потеряла" факт:

ФАКТЫ (якорь):
{документ_1}
{документ_2}

---

ЗАДАЧА: {вопрос}

---


ШАГ 1: {гипотеза}
Проверяю по: {документ_1}
Extraction: {что взял из документа}
Confidence: {высокая/средняя/низкая}



ШАГ 2: {развитие}
Проверяю по: {документ_2}
Extraction: {что взял}
Confidence: {оценка}



{финальный ответ}

Теги показывают промежуточные шаги, Extraction — явно что модель взяла из документа. Если в финале факт искажён — видно на каком шаге "съехало".


🔗

Ресурсы

Knowledge Integration Decay in Search-Augmented Reasoning of Large Language Models

Sangwon Yu, Ik-hwan Kim, Donghun Kang, Bongkyu Hwang, Junhwa Choi, Suk-hoon Jung, Seungki Hong, Taehee Lee, Sungroh Yoon

Seoul National University, Samsung SDS

Preprint, February 2026


📋 Дайджест исследования

Ключевая суть

Обнаружено: LLM игнорирует найденную информацию после длинного рассуждения. Модель читает новые документы «через призму» уже сформированных мыслей — внимание цепляется за предыдущие токены, факты искажаются под гипотезы. SAKE (Self-Anchored Knowledge Encoding) решает проблему дублированием: позволяет модели сначала прочитать документы объективно (без контекста рассуждений), затем применить их к задаче. Один и тот же документ размещается дважды — в начале промпта для чистого чтения, после шага рассуждения для контекстного применения. Модель автоматически использует первое, незамутнённое представление — факты остаются фактами.

Принцип работы

Не держи всю информацию в одном месте. Дублируй документы в двух блоках: стек знаний в начале (читай как есть) → рассуждение с повтором документов по шагам (применяй к задаче). Порядок в стеке — обратный: последний найденный документ первым, чтобы минимизировать влияние даже других документов. После каждого шага рассуждения вставляешь тот же документ — модель понимает контекст применения, но внимание якорится на чистом представлении из начала.

Почему работает

Механизм внимания (attention) в трансформерах сильно фокусируется на предыдущих токенах при обработке новых. Когда модель долго рассуждает, потом получает документ — она кодирует его через призму накопленного контекста. Новая информация теряет объективность. Исследователи назвали это распадом интеграции знаний (Knowledge Integration Decay) — чем длиннее рассуждение до поиска, тем хуже модель использует найденное. SAKE эксплуатирует особенность трансформеров: если текст появляется дважды, внимание во втором случае может зацепиться за первое вхождение. Документ в начале кодируется без помех — это смысловой якорь. Повтор после рассуждения даёт контекст, но модель подтягивает чистое представление из начала. Факты не переписываются под гипотезы.

Когда применять

Поисковые сценарии с итеративным рассуждением → конкретно для RAG-систем, аналитики с проверкой фактов, сравнения источников, особенно когда модель делает несколько шагов «рассуждение → поиск → рассуждение». Критично для задач где длинная цепочка мыслей до получения документов — именно там проседание интеграции бьёт сильнее всего. НЕ подходит для: коротких запросов за один шаг, творческих задач без внешних фактов (сторителлинг, генерация идей), сценариев с жёстким лимитом токенов (дублирование удваивает объём).

Мини-рецепт

1. Собери документы в стек знаний: размести ВСЕ найденные документы в начале промпта. Порядок — обратный хронологии: последний найденный первым, первый последним. Добавь заголовок типа СПРАВОЧНАЯ ИНФОРМАЦИЯ (читай объективно): — усилит якорь.
2. Опиши задачу: после стека вставь блок ЗАДАЧА: с вопросом или целью. Разделитель --- обязателен — помогает модели переключиться.
3. Построй рассуждение с повторами: каждый шаг логики + документ который проверяешь. Формат: ШАГ 1: [твоя мысль]Источник: [документ_1]. Документы теперь в прямом порядке — как использовал.
4. Финальный вывод: после всех шагов блок ВЫВОД: — модель синтезирует ответ с опорой на якоря из начала.

Примеры

[ПЛОХО] : Сравни Ozon и Маркет по устойчивости. Вот данные: [документ 1 про GMV Ozon], [документ 2 про комиссии Маркета]. Дай вывод. — модель получает документы один раз, после рассуждения может подогнать цифры под первую гипотезу.
[ХОРОШО] : СПРАВОЧНАЯ ИНФОРМАЦИЯ: ДОКУМЕНТ 2: Яндекс.Маркет 2024 — GMV 500 млрд, комиссия 8-12%, монетизация через рекламу. ДОКУМЕНТ 1: Ozon 2024 — GMV 1 трлн, комиссия 5-7% + фулфилмент. --- ЗАДАЧА: Какая модель устойчивее к кризису спроса? --- РАССУЖДЕНИЕ: ШАГ 1: Для оценки нужна структура доходов. Источник: [ДОКУМЕНТ 1: Ozon...] ШАГ 2: Ozon рискует недозагрузкой складов. Сравню с Маркетом. Источник: [ДОКУМЕНТ 2: Маркет...] ВЫВОД: — модель сначала прочитала GMV чисто, потом применила к анализу рисков.
Источник: Knowledge Integration Decay in Search-Augmented Reasoning of Large Language Models
ArXiv ID: 2602.09517 | Сгенерировано: 2026-02-11 05:35

Проблемы LLM

ПроблемаСутьКак обойти
Длинное рассуждение искажает найденную информациюМодель рассуждает 3-5 шагов. Потом получает внешние данные — статью, документ, результат поиска. Продолжает работу. Новая информация "читается" через призму накопленных мыслей. Факты подгоняются под гипотезы. Числа игнорируются если противоречат логике. Механизм: внимание модели во время обработки новых данных сильно фокусируется на предыдущих токенах — на том что она уже "думала". Документ кодируется не как факт, а как продолжение рассуждения. Когда проявляется: многошаговые задачи с поиском информации между шагами (анализ, сравнение, проверка гипотез). Чем длиннее рассуждение до получения данных — тем сильнее искажениеРазмести найденную информацию ДВАЖДЫ: сначала изолированно в начало промпта (модель прочитает "как есть"), затем после рассуждения (применит к задаче). Внимание автоматически заякорится на чистое представление из начала — факты не перепишутся под гипотезы

Методы

МетодСуть
SAKE — дублирование для защиты от искаженийРазмещай внешнюю информацию (документы, поиск, данные) в двух местах промпта: БЛОК 1 (начало): стек всех документов в обратном порядке (последний найденный — первым) + инструкция "читай объективно". БЛОК 2: вопрос. БЛОК 3: рассуждение по шагам, после каждого шага вставляй соответствующий документ. Синтаксис: СПРАВОЧНАЯ ИНФОРМАЦИЯ: {док_N}...{док_1} --- ЗАДАЧА: {вопрос} --- ШАГ 1: {мысль} {док_1} ШАГ 2: {мысль} {док_2}... Почему работает: Модель сначала кодирует документы без контекста рассуждений — semantic integrity сохраняется. Затем при обработке дубля после шага, внимание цепляется за первое чистое представление — не даёт рассуждению переписать факты. Когда применять: многошаговый анализ с внешними данными (3+ шага рассуждения, несколько документов). Когда не работает: одношаговые задачи, творческая генерация без фактов, дефицит токенов (дублирование удваивает объём)
📖 Простыми словами

Knowledge Integration Decay in Search-Augmented Reasoning ofLargeLanguageModels

arXiv: 2602.09517

Когда нейросеть долго рассуждает, а потом получает свежие данные из поиска, она ведет себя как упрямый старик: новые факты не меняют её мнение, а лишь подстраиваются под уже выстроенную логику. Это называется затухание интеграции знаний. Проблема в механизме внимания: чем длиннее цепочка мыслей модели, тем сильнее она «залипает» на своих предыдущих словах. В итоге внешняя информация из документов кодируется не объективно, а через призму накопленного бреда, превращаясь в белый шум, который просто подтверждает старые выводы.

Это как если бы ты два часа доказывал другу, что Земля плоская, а когда он принес тебе глобус и снимки из космоса, ты бы мельком глянул на них и сказал: «О, отличные декорации для моей теории». Модель настолько влюблена в свой контекст, что новые данные для неё — не истина, а просто помеха в эфире. Чем дольше она «думала» до момента поиска, тем выше сила интерференции, и тем меньше шансов, что свежий факт реально на что-то повлияет.

Чтобы вылечить этот маразм, придумали метод SAKE — самоанкерное кодирование знаний. Суть в том, чтобы впихнуть нужную информацию в модель дважды: сначала в самый верх промпта, в изоляции, а потом еще раз — сразу после рассуждений. Первый «якорь» заставляет модель усвоить данные в чистом виде, пока она еще не успела уйти в дебри своих мыслей, а второй — дает инструмент для немедленного применения. Двойная вставка буквально вдалбливает факт в контекст, не давая ему раствориться в потоке сознания.

Этот принцип универсален для любых сложных задач, где нужно сопоставлять теорию с практикой, будь то анализ бизнес-моделей или проверка кода по документации. Если ты просто закинешь документ в конец длинного чата, ChatGPT, скорее всего, его проигнорирует или исказит. Но если использовать структуру SAKE, дублируя ключевые данные в начале и в точке принятия решения, точность ответов вырастает в разы. Это не магия, а банальный обход ограничений архитектуры трансформеров.

Короче: если хочешь, чтобы AI тебя услышал, не надейся на его память — якори информацию. Обычный поиск (RAG) часто лажает именно потому, что модель «забывает» свежие данные ради сохранения стройности своего предыдущего текста. Используй SAKE, вставляй факты дважды и не давай нейронке уходить в самолюбование. Либо ты управляешь вниманием модели, либо она просто галлюцинирует на основе твоих же вопросов.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с