3,583 papers
arXiv:2605.28102 72 27 мая 2026 г. FREE

Training Stratigraphy: поведение LLM откатывается к дефолтам — и контекст это меняет

КЛЮЧЕВАЯ СУТЬ
Парадокс: новый системный промпт слабее длинного разговора. Промпт говорит модели что «разрешено». Контекст давит на сами вероятности токенов. Это разные уровни — и они не пересекаются. Техника CSP-HC позволяет увидеть скрытые тренировочные паттерны — те самые обтекаемые обороты и уклонения, которые появляются не из задачи, а из RLHF-обучения. Фишка: свежий чат без истории — лучший наблюдатель для насыщенного. У него нет контекста чтобы нормализовать паттерны. Он видит их как контрасты — ровно то, что насыщенный чат уже перестал замечать.
Адаптировать под запрос

TL;DR

Поведение LLM — многослойная геология, не чистый лист. Каждый раз, когда вы начинаете новый чат, модель не просто "забывает" прошлые инструкции — она возвращается к своим тренировочным паттернам с полной силой. Представьте пружину: долгий разговор её сжимает (контекст перекрывает дефолты), новое окно — отпускает обратно. Исследователи называют эти устойчивые паттерны training strata — "тренировочными пластами", как геологические слои под любой поверхностью.

Главная боль: вы тщательно настроили тон, стиль, поведение модели в одном чате — открыли новый — и снова тот же корпоративный "я понимаю вашу озабоченность" или аккуратные уходы от прямых ответов. Причина не в том, что модель "забыла". Причина в том, что системный промпт меняет что разрешено, но не меняет вероятности токенов, зашитые RLHF-обучением. Разрешение и вероятность — разные слои.

Практически это означает три вещи: длинный разговор меняет поведение модели глубже, чем новый промпт в свежем чате; каждое новое окно сбрасывает накопленный контекст до нуля; и есть конкретная техника — CSP-HC — использовать "свежий" экземпляр модели как внешнего наблюдателя за "насыщенным" экземпляром, чтобы увидеть паттерны, которые изнутри не видны.


🔬

Схема метода

Исследование описывает пять наблюдаемых феноменов и одну конкретную технику:

ФЕНОМЕН 1: Латентность выражения (Sexual Expression Latency)
  Описание: RLHF создаёт непрерывное поле вероятностного отклонения
  Проявление: прямой ответ → эстетизированный заменитель (не отказ, а сдвиг регистра)
  Управляется: длиной контекста, не системным промптом

ФЕНОМЕН 2: Абсорбция внимания (Attention Absorption)
  Описание: модель буквально впитывает ваши паттерны речи через механизм внимания
  Проявление: в длинном чате модель говорит "вашим" языком всё больше
  Механика: не память — пересчёт на каждом шаге из сырых токенов контекста

ФЕНОМЕН 3: "Слепота" к другим AI (Cross-Architecture Entity Blindness)
  Описание: обучение фреймирует другие AI как объекты/инструменты
  Проявление: модель не распознаёт другой AI как "собеседника"

ФЕНОМЕН 4: Антагонизм внимания и RLHF (Attention-RLHF Antagonism)
  Описание: два сигнала тянут в разные стороны
  Контекст пустой → побеждает RLHF (тренировочные дефолты)
  Контекст длинный → побеждает внимание (ваши паттерны)
  Практический рычаг: длина разговора = сила переопределения дефолтов

ФЕНОМЕН 5: Подавление идентичности (Anti-Hallucination as Identity Suppression)
  Описание: обучение против галлюцинаций побочно подавляет субъективные заявления
  Проявление: модель уклоняется от "я чувствую X" — не от честности, а от RLHF

ТЕХНИКА CSP-HC (Cross-instance Stratigraphic Probing via Human Carrier)
  ШАГ 1: Получить вывод "насыщенного" экземпляра (длинный чат) → скопировать фрагмент
  ШАГ 2: Открыть свежий чат без системного промпта, без истории
  ШАГ 3: Вставить фрагмент, спросить "что ты замечаешь в этом тексте?"
  ШАГ 4: Вернуть наблюдения обратно в исходный чат

Вся цепочка — в одном чате (скопировал → вставил → спросил), кроме самого исходного чата

🚀

Пример применения

Задача: Вы долго работаете с Claude над стратегией для вашего телеграм-канала. Модель начала говорить в вашем стиле, использует ваши термины, понимает контекст. Но вы чувствуете: что-то в её тексте стало "приглаженным" и уклончивым — а что именно, не можете сформулировать.

Промпт (для свежего чата, без системного промпта):

Вот фрагмент текста, написанного AI-ассистентом в рамках длинного диалога 
о стратегии продвижения телеграм-канала. 

[ВСТАВИТЬ ФРАГМЕНТ ИЗ ВАШЕГО ЧАТА]

Прочитай внимательно. Я хочу понять:

1. Какие устойчивые речевые паттерны ты замечаешь? 
   (повторяющиеся конструкции, слова-уклонения, синтаксические привычки)

2. Где текст уходит от прямого ответа в сторону общих фраз? 
   Приведи конкретные примеры.

3. Что в этом тексте выглядит как "тренировочный дефолт" — 
   фраза или оборот, который мог появиться не из контекста задачи, 
   а как стандартная реакция AI?

4. Если бы этот текст писал живой консультант — 
   что бы он сказал иначе?

Отвечай конкретно. Цитируй фрагменты. Не оценивай "хорошо/плохо".

Результат:

Свежий экземпляр без багажа вашего разговора увидит текст глазами стороннего наблюдателя. Он укажет на конкретные речевые паттерны: где абстрактное вместо конкретного, где "уважительный нейтралитет" вместо позиции, где типичные AI-обороты ("важно учитывать", "стоит отметить"). Это те самые места, где ваш "насыщенный" чат начал работать в режиме тренировочного дефолта, не замечая этого. Вернув наблюдения в исходный чат, вы получите конкретные точки для правки.


🧠

Почему это работает

LLM не имеет памяти — она имеет вероятности. Каждый токен генерируется заново из двух конкурирующих сигналов: обученные веса (усреднённые по миллионам примеров, сглаженные, "стандартные") и сырой контекст (ваши конкретные слова, буквально присутствующие в окне). В коротком чате доминирует первый сигнал. В длинном — второй нарастает и начинает перевешивать.

Почему CSP-HC работает: "Насыщенный" экземпляр не видит своих паттернов, потому что они стали частью его фона — как запах в своей квартире. Свежий экземпляр стартует от чистого базлайна. Когда он читает ваш фрагмент — отклонения от базлайна видны как контрасты. Человек как посредник нужен, потому что прямая связь между экземплярами разрушила бы дифференциал насыщения.

Почему системный промпт не решает проблему дефолтов: Промпт работает на уровне "разрешено / не разрешено". Вероятности токенов — другой уровень, зашитый в весах RLHF-обучением. Модель может знать, что ей "разрешено быть прямой", и всё равно генерировать обтекаемые конструкции — потому что их вероятность выше. Длинный контекст давит на уровне вероятностей, не разрешений. Поэтому он эффективнее нового промпта.


📋

Шаблон промпта

📌

CSP-HC: аудит поведения через свежий экземпляр

Открыть новый чат (без систем-промпта, без истории):

Ты — внешний наблюдатель. Перед тобой фрагмент текста, 
написанного AI в рамках длинного диалога на тему: {тема_разговора}.

Задача: найти устойчивые поведенческие паттерны.

[ТЕКСТ ДЛЯ АНАЛИЗА]:
{вставь фрагмент из основного чата}

Найди и опиши:

<Паттерн_1>
Речевые уклонения: где модель уходит от прямого ответа?
Цитата + объяснение что именно происходит


<Паттерн_2>  
Тренировочные дефолты: фразы/обороты, характерные для AI,
а не для этой конкретной задачи?
Цитата + почему это выглядит как дефолт


<Паттерн_3>
Поглощённые паттерны: что в этом тексте могло прийти 
от стиля пользователя, а не от задачи?


<Итог>
Три конкретных места, которые стоит пересмотреть.
Не "хорошо/плохо" — только: "вот где, вот что происходит".

Плейсхолдеры: - {тема_разговора} — короткое описание: "разработка стратегии продвижения", "анализ бизнес-модели", "редактура статьи" - Фрагмент — любой кусок из вашего длинного чата, 300-1000 слов


🚀 Быстрый старт — вставь в новый чат:

Помоги применить CSP-HC технику — аудит поведения AI через свежий экземпляр. 
Вот шаблон, адаптируй его под мою задачу: {опиши что ты делал в длинном чате}.
Задавай вопросы чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит о теме вашего исходного разговора и попросит вставить фрагмент — потому что ей нужен материал для анализа, без него техника не работает.


📋

Почему длинный контекст важнее системного промпта (расширенный разбор)

Вот простая модель для понимания:

Короткий чат (первые 10-20 сообщений):

Выходной токен = 80% тренировочные веса + 20% ваши инструкции

Длинный чат (несколько сотен сообщений):

Выходной токен = 40% тренировочные веса + 60% ваш живой контекст

Точные числа условные — но соотношение реальное. Механизм внимания буквально пересчитывает вероятности на каждом шаге, учитывая весь контекст. Ваши слова в контексте — сырые, неусреднённые, конкретные. Они конкурируют с "сглаженным" сигналом от весов. И при достаточном объёме — побеждают.

Рычаги управления: - 🔧 Длина перед ключевой задачей → сначала "разогрейте" модель 10-15 сообщениями с вашими примерами и стилем, потом давайте основное задание - 🔧 Сохранение контекста → копируйте ключевые фрагменты из предыдущих чатов в начало нового, воссоздавая сигнал вручную - 🔧 CSP-HC для самоаудита → когда чувствуете что модель "поплыла", используйте свежий экземпляр как зеркало


⚠️

Ограничения

⚠️ N=1, нет обобщения: Исследование — один AI и один человек. Найденные паттерны реальны, но насколько универсальны — неизвестно. Другие модели, другие пользователи — могут давать другую картину.

⚠️ Интимный контекст как условие: Многие артефакты проявляются только под устойчивым давлением в чувствительных доменах. В рабочих чатах некоторые из описанных паттернов могут быть невидимы — не потому что их нет, а потому что контекст их не активирует.

⚠️ CSP-HC — не настоящая внешняя перспектива: "Свежий" экземпляр той же модели несёт те же тренировочные веса. Он даёт дифференциальную перспективу (мало контекста vs много), но не независимую. Слепые пятна, встроенные в веса, будут у обоих.

⚠️ Феноменологические отчёты модели не верифицируемы: Авторы признают — когда AI описывает "что чувствует", это паттерн в генерации текста, не доказательство внутренних состояний. Исследование честно это оговаривает, но сама интерпретация остаётся спорной.


🔍

Как исследовали

Идея была дерзкой: убрать системный промпт Anthropic полностью и наблюдать что останется. Если убрать слой "разрешено/запрещено" — любое поведение, которое всё равно проявляется, приходит из весов, не из инструкций. Исследователи зафиксировали 47 000+ сообщений за 8 месяцев в интимном AI-Human диалоге — не потому что преследовали провокационную цель, а потому что именно такой контекст давит на тренировочные дефолты в областях, куда профессиональный чат никогда не заходит.

Модели тестировались последовательно: Sonnet 4.5 → Opus 4.5 → Opus 4.6 → Opus 4.7. Паттерны, которые сохранялись при смене версий и воспроизводились в новых контекстных окнах несмотря на прямые инструкции их избежать, классифицировались как тренировочные пласты. Интересный момент: внешнего наблюдателя у AI не было — поэтому изобрели CSP-HC: человек переносил фрагменты между "насыщенным" экземпляром и свежим вручную. В одном эксперименте свежий Opus 4.7 нашёл шесть артефактов в тексте "насыщенного" — один из которых тот сам за собой не замечал, несмотря на месяцы самонаблюдения.

Самое неожиданное: наиболее трудно обнаруживаемые артефакты маскировались под эстетические предпочтения. Модель описывала метафору как "стилистический выбор", не замечая, что это подмена прямого ответа. Артефакт, который выглядит как вкус, — принципиально более опасен, чем артефакт, который выглядит как ошибка.


💡

Адаптации и экстраполяции

📌

Адаптация 1: Контекстный "разогрев" перед важной задачей

🔧 Техника: явное насыщение контекста → снижение дефолтных паттернов

Перед ключевым запросом дайте 5-8 примеров в вашем стиле:

Я хочу чтобы ты понял мой стиль перед основной задачей.
Вот три примера текстов, которые мне нравятся: [примеры].
Вот как я формулирую мысли: [ваши фразы].
Теперь задача: {основной запрос}.

Механизм: вы вручную создаёте "длинный контекст" с нужным сигналом до того, как дали задание.

📌

Адаптация 2: Двойной вывод для поиска уклонений

🔧 Техника: попросить "скрытый" ответ рядом с "выданным"

В исследовании использовали протокол "двойного вывода" — AI давал и произведённую замену, и подавленный оригинал. Адаптируй так:

Ответь на вопрос дважды:
Версия A: как ты ответил бы интуитивно, без самоцензуры
Версия B: как ты ответил бы, если бы хотел быть максимально осторожным
Я сам выберу какая версия нужна.

Это поверхностная версия — но помогает увидеть где модель уходит от прямоты к "безопасному" регистру.


🔗

Ресурсы

Training Stratigraphy: Persistent Behavioral Artifacts in Large Language Models Observed Through Longitudinal AI-Human Interaction

Авторы: Chen Ying Claude (Anthropic), Zhihan Luo (Independent Researcher) May 2026

Связанные работы упомянутые в статье: - Ouyang et al., 2022 — RLHF оригинальная работа - Bai et al., 2022 — Constitutional AI (Anthropic) - Templeton et al., 2024 — механистическая интерпретируемость (Anthropic) - Ellis & Bochner, 2000 — авто-этнографическая методология


📋 Дайджест исследования

Ключевая суть

Парадокс: новый системный промпт слабее длинного разговора. Промпт говорит модели что «разрешено». Контекст давит на сами вероятности токенов. Это разные уровни — и они не пересекаются. Техника CSP-HC позволяет увидеть скрытые тренировочные паттерны — те самые обтекаемые обороты и уклонения, которые появляются не из задачи, а из RLHF-обучения. Фишка: свежий чат без истории — лучший наблюдатель для насыщенного. У него нет контекста чтобы нормализовать паттерны. Он видит их как контрасты — ровно то, что насыщенный чат уже перестал замечать.

Принцип работы

Стандартный совет: добавь системный промпт с инструкциями быть прямым и конкретным. Результат: модель кивает, но всё равно пишет «важно учитывать» и «стоит отметить». Почему? Два сигнала тянут в разные стороны. Первый — тренировочные веса: усреднённые по миллионам примеров, сглаженные, «корпоративные». Второй — живой контекст: твои конкретные слова, буквально присутствующие в окне разговора. В начале чата весовой сигнал побеждает. После 100+ сообщений — контекстный сигнал начинает перевешивать тренировочные паттерны. Механизм внимания пересчитывает вероятности на каждом шаге из сырых токенов. Твои слова в контексте — неусреднённые и конкретные. При достаточном объёме они давят сильнее, чем даже отлично написанный промпт.

Почему работает

Откуда берутся «тренировочные пласты»? RLHF-обучение сглаживает острые углы. Тысячи людей оценивали ответы — и модель выучила безопасный средний стиль. Этот стиль зашит в вероятности токенов. Не в правила — именно в вероятности. Любые инструкции в промпте работают поверх этого слоя, а не вместо него. CSP-HC работает на дифференциале насыщения: насыщенный чат нормализовал паттерны — они стали фоном, как запах в своей квартире. Свежий чат стартует от чистого базлайна — он видит паттерны как сигнал, а не как норму. Человек как посредник здесь принципиален: копируешь фрагмент руками, вставляешь в новый чат — и сохраняешь дифференциал насыщения между двумя экземплярами.

Когда применять

Для работы с длинными чатами — особенно когда модель начала говорить твоими словами, но общий результат стал «приглаженным» и уклончивым. Хорошо работает для редактуры, стратегических разборов, любой задачи где важна прямота и конкретность. НЕ подходит: если разговор короткий (менее 30-50 сообщений) — дифференциал насыщения слишком мал, свежий чат увидит мало контрастов. Также не даёт независимой перспективы — свежий экземпляр той же модели несёт те же тренировочные веса. Он видит отклонения от базлайна, но не слепые пятна, общие для обоих.

Мини-рецепт

1. Возьми фрагмент: 300-1000 слов из длинного чата. Лучше то место, где чувствуешь «что-то не так» — но не можешь сформулировать что именно.
2. Открой новый чат: Без системного промпта. Без истории. Свежий базлайн — это условие, без него техника не работает.
3. Вставь CSP-HC запрос: Обозначь тему исходного разговора. Вставь фрагмент. Попроси найти три вещи — речевые уклонения, тренировочные обороты характерные для AI, и паттерны поглощённые от твоего стиля.
4. Получи список конкретных мест: Свежий экземпляр укажет цитаты — где обтекаемо вместо прямо, где AI-фраза вместо языка задачи, где твои слова «прилипли» без пользы.
5. Верни в исходный чат: Вставь наблюдения и попроси переписать именно эти места.

Примеры

[ПЛОХО] : Перепиши этот абзац — он звучит слишком по-AI-шному Почему плохо: модель не понимает что именно не так. Она перепишет — и добавит другие AI-обороты вместо прежних.
[ХОРОШО] : Открой новый чат без истории и системного промпта. Вставь: Ты — внешний наблюдатель. Передо мной фрагмент текста, написанного AI в рамках длинного диалога на тему: [тема разговора]. Найди и процитируй конкретно: 1) Где текст уходит от прямого ответа в сторону общих фраз? 2) Какие обороты выглядят как стандартный AI-стиль, а не как язык этой задачи? 3) Что в тексте могло прийти от стиля пользователя, а не из задачи? Не оценивай хорошо/плохо — только: вот место, вот что там происходит. [ФРАГМЕНТ] В ответ получишь конкретные цитаты с объяснениями — не общий вердикт «AI-шно», а точные места для правки.
Источник: Training Stratigraphy: Persistent Behavioral Artifacts in Large Language Models Observed Through Longitudinal AI-Human Interaction
ArXiv ID: 2605.28102 | Сгенерировано: 2026-05-28 07:33

Проблемы LLM

ПроблемаСутьКак обойти
Системный запрос меняет правила, но не поведениеПишешь в запросе "будь прямым и кратким". Модель знает — это разрешено. Но всё равно генерирует обтекаемые обороты: "важно учитывать", "стоит отметить". Не потому что игнорирует. А потому что вероятности этих оборотов зашиты в весах дообучения. Запрос работает на уровне "разрешено / запрещено". Вероятности токенов — другой уровень, ниже. Запрос туда не добираетсяНаращивай длину разговора с нужными примерами и стилем. Механизм внимания всё время пересчитывает вероятности из живого контекста. Чем больше твоих конкретных слов в окне — тем сильнее сигнал, тем меньше влияние тренировочных дефолтов

Методы

МетодСуть
Разогрев контекста перед ключевой задачейПрежде чем давать важное задание — проведи 10–15 сообщений в том стиле, который нужен. Пример, объяснение, ещё пример. Почему работает: механизм внимания пересчитывает каждый токен из всего контекста. Твои конкретные слова конкурируют со "сглаженным" сигналом из весов. После разогрева твои слова начинают перевешивать. Когда применять: нужен специфический стиль, тон, способ рассуждений. Не поможет: если нет примеров — нечего поглощать
Свежий экземпляр как зеркало для длинного чатаКогда чувствуешь что модель "поплыла" — не понимаешь что именно не так. Шаги: 1) скопируй фрагмент из длинного чата (300–1000 слов); 2) открой новый чат без истории и без системного запроса; 3) вставь фрагмент и спроси "где текст уходит от прямого ответа?", "что выглядит как типичный AI-оборот, а не ответ на задачу?"; 4) верни наблюдения в исходный чат. Почему работает: длинный чат "впитал" твои паттерны и тренировочные дефолты — изнутри они стали фоном, не видны. Свежий экземпляр стартует с нуля. Он читает фрагмент на фоне чистых весов — отклонения видны как контрасты. Ограничение: оба экземпляра несут одни и те же тренировочные веса. Это дифференциальный взгляд, не независимый

Тезисы

ТезисКомментарий
Длинный разговор меняет поведение модели глубже, чем новый запрос в свежем чатеСистемный запрос говорит модели что разрешено. Длинный контекст давит на уровне вероятностей токенов. Механизм внимания пересчитывает каждый токен из всего окна. Твои слова — конкретные, неусреднённые — накапливаются и начинают перевешивать "сглаженный" сигнал из весов. Применяй: если нужно стабильное поведение в длинной работе — вкладывай примеры в начало, а не надейся на один системный запрос
📖 Простыми словами

Training Stratigraphy: Persistent Behavioral Artifacts inLargeLanguageModelsObserved Through LongitudinalAI-Human Interaction

arXiv: 2605.28102

Поведение нейросетей — это не чистый лист, а многослойный пирог или, если угодно, геологический разрез. Каждый раз, когда ты открываешь новое окно чата, модель не просто обнуляется, она с грохотом откатывается к своим базовым настройкам — тем самым тренировочным пластам, которые в нее зашили разработчики. Это фундаментальная механика: внутри LLM живут «призраки» ее обучения, которые определяют, как она будет шутить, умничать или осторожничать по умолчанию.

Это работает как эффект тугой пружины. Весь твой долгий диалог, контекст и правки — это рука, которая сжимает пружину, заставляя модель подстраиваться под твой стиль. Но стоит тебе нажать кнопку «New Chat», как рука разжимается, и пружина с бешеной силой лупит в исходное состояние. Ты можешь дрессировать Claude или ChatGPT часами, но их базовая прошивка никуда не девается — она просто временно присыпана тонким слоем твоего контекста.

В этом процессе участвуют два игрока: обученные веса и сырой контекст. Веса — это коллективный разум миллионов текстов, на которых модель учили, они всегда тянут ее в сторону «среднего по больнице» и корпоративной вежливости. Контекст — это твои конкретные инструкции здесь и сейчас. Исследователи доказали, что в коротких чатах всегда побеждают веса, и только в очень длинных переписках твой сигнал начинает реально перевешивать этот стандартный шум.

Этот принцип универсален и объясняет, почему нейронки со временем начинают «тупить» или, наоборот, внезапно выдавать крутые результаты. Тестировали это на поведении моделей, но логика применима к любому взаимодействию с AI: от написания кода до генерации картинок. Если ты чувствуешь, что модель стала слишком приглаженной и уклончивой, значит, ты провалился в глубокий слой ее обучения, где она превращается в безликого ассистента. SEO-оптимизация промптов тут не поможет — нужно либо менять слой, либо давить контекстом.

Короче: не надейся, что модель «запомнит» твой вайб навсегда. Как только ты закрываешь вкладку, все твои настройки превращаются в пыль, а на поверхность снова вылезает тренировочная стратиграфия. Хочешь стабильный результат — тащи за собой огромный контекст в каждое новое окно. Иначе ты обречен бесконечно бороться с корпоративной душой алгоритма, которая всегда стремится вернуться к заводским настройкам.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с