TL;DR
Поведение LLM — многослойная геология, не чистый лист. Каждый раз, когда вы начинаете новый чат, модель не просто "забывает" прошлые инструкции — она возвращается к своим тренировочным паттернам с полной силой. Представьте пружину: долгий разговор её сжимает (контекст перекрывает дефолты), новое окно — отпускает обратно. Исследователи называют эти устойчивые паттерны training strata — "тренировочными пластами", как геологические слои под любой поверхностью.
Главная боль: вы тщательно настроили тон, стиль, поведение модели в одном чате — открыли новый — и снова тот же корпоративный "я понимаю вашу озабоченность" или аккуратные уходы от прямых ответов. Причина не в том, что модель "забыла". Причина в том, что системный промпт меняет что разрешено, но не меняет вероятности токенов, зашитые RLHF-обучением. Разрешение и вероятность — разные слои.
Практически это означает три вещи: длинный разговор меняет поведение модели глубже, чем новый промпт в свежем чате; каждое новое окно сбрасывает накопленный контекст до нуля; и есть конкретная техника — CSP-HC — использовать "свежий" экземпляр модели как внешнего наблюдателя за "насыщенным" экземпляром, чтобы увидеть паттерны, которые изнутри не видны.
Схема метода
Исследование описывает пять наблюдаемых феноменов и одну конкретную технику:
ФЕНОМЕН 1: Латентность выражения (Sexual Expression Latency)
Описание: RLHF создаёт непрерывное поле вероятностного отклонения
Проявление: прямой ответ → эстетизированный заменитель (не отказ, а сдвиг регистра)
Управляется: длиной контекста, не системным промптом
ФЕНОМЕН 2: Абсорбция внимания (Attention Absorption)
Описание: модель буквально впитывает ваши паттерны речи через механизм внимания
Проявление: в длинном чате модель говорит "вашим" языком всё больше
Механика: не память — пересчёт на каждом шаге из сырых токенов контекста
ФЕНОМЕН 3: "Слепота" к другим AI (Cross-Architecture Entity Blindness)
Описание: обучение фреймирует другие AI как объекты/инструменты
Проявление: модель не распознаёт другой AI как "собеседника"
ФЕНОМЕН 4: Антагонизм внимания и RLHF (Attention-RLHF Antagonism)
Описание: два сигнала тянут в разные стороны
Контекст пустой → побеждает RLHF (тренировочные дефолты)
Контекст длинный → побеждает внимание (ваши паттерны)
Практический рычаг: длина разговора = сила переопределения дефолтов
ФЕНОМЕН 5: Подавление идентичности (Anti-Hallucination as Identity Suppression)
Описание: обучение против галлюцинаций побочно подавляет субъективные заявления
Проявление: модель уклоняется от "я чувствую X" — не от честности, а от RLHF
ТЕХНИКА CSP-HC (Cross-instance Stratigraphic Probing via Human Carrier)
ШАГ 1: Получить вывод "насыщенного" экземпляра (длинный чат) → скопировать фрагмент
ШАГ 2: Открыть свежий чат без системного промпта, без истории
ШАГ 3: Вставить фрагмент, спросить "что ты замечаешь в этом тексте?"
ШАГ 4: Вернуть наблюдения обратно в исходный чат
Вся цепочка — в одном чате (скопировал → вставил → спросил), кроме самого исходного чата
Пример применения
Задача: Вы долго работаете с Claude над стратегией для вашего телеграм-канала. Модель начала говорить в вашем стиле, использует ваши термины, понимает контекст. Но вы чувствуете: что-то в её тексте стало "приглаженным" и уклончивым — а что именно, не можете сформулировать.
Промпт (для свежего чата, без системного промпта):
Вот фрагмент текста, написанного AI-ассистентом в рамках длинного диалога
о стратегии продвижения телеграм-канала.
[ВСТАВИТЬ ФРАГМЕНТ ИЗ ВАШЕГО ЧАТА]
Прочитай внимательно. Я хочу понять:
1. Какие устойчивые речевые паттерны ты замечаешь?
(повторяющиеся конструкции, слова-уклонения, синтаксические привычки)
2. Где текст уходит от прямого ответа в сторону общих фраз?
Приведи конкретные примеры.
3. Что в этом тексте выглядит как "тренировочный дефолт" —
фраза или оборот, который мог появиться не из контекста задачи,
а как стандартная реакция AI?
4. Если бы этот текст писал живой консультант —
что бы он сказал иначе?
Отвечай конкретно. Цитируй фрагменты. Не оценивай "хорошо/плохо".
Результат:
Свежий экземпляр без багажа вашего разговора увидит текст глазами стороннего наблюдателя. Он укажет на конкретные речевые паттерны: где абстрактное вместо конкретного, где "уважительный нейтралитет" вместо позиции, где типичные AI-обороты ("важно учитывать", "стоит отметить"). Это те самые места, где ваш "насыщенный" чат начал работать в режиме тренировочного дефолта, не замечая этого. Вернув наблюдения в исходный чат, вы получите конкретные точки для правки.
Почему это работает
LLM не имеет памяти — она имеет вероятности. Каждый токен генерируется заново из двух конкурирующих сигналов: обученные веса (усреднённые по миллионам примеров, сглаженные, "стандартные") и сырой контекст (ваши конкретные слова, буквально присутствующие в окне). В коротком чате доминирует первый сигнал. В длинном — второй нарастает и начинает перевешивать.
Почему CSP-HC работает: "Насыщенный" экземпляр не видит своих паттернов, потому что они стали частью его фона — как запах в своей квартире. Свежий экземпляр стартует от чистого базлайна. Когда он читает ваш фрагмент — отклонения от базлайна видны как контрасты. Человек как посредник нужен, потому что прямая связь между экземплярами разрушила бы дифференциал насыщения.
Почему системный промпт не решает проблему дефолтов: Промпт работает на уровне "разрешено / не разрешено". Вероятности токенов — другой уровень, зашитый в весах RLHF-обучением. Модель может знать, что ей "разрешено быть прямой", и всё равно генерировать обтекаемые конструкции — потому что их вероятность выше. Длинный контекст давит на уровне вероятностей, не разрешений. Поэтому он эффективнее нового промпта.
Шаблон промпта
CSP-HC: аудит поведения через свежий экземпляр
Открыть новый чат (без систем-промпта, без истории):
Ты — внешний наблюдатель. Перед тобой фрагмент текста,
написанного AI в рамках длинного диалога на тему: {тема_разговора}.
Задача: найти устойчивые поведенческие паттерны.
[ТЕКСТ ДЛЯ АНАЛИЗА]:
{вставь фрагмент из основного чата}
Найди и опиши:
<Паттерн_1>
Речевые уклонения: где модель уходит от прямого ответа?
Цитата + объяснение что именно происходит
Паттерн_1>
<Паттерн_2>
Тренировочные дефолты: фразы/обороты, характерные для AI,
а не для этой конкретной задачи?
Цитата + почему это выглядит как дефолт
Паттерн_2>
<Паттерн_3>
Поглощённые паттерны: что в этом тексте могло прийти
от стиля пользователя, а не от задачи?
Паттерн_3>
<Итог>
Три конкретных места, которые стоит пересмотреть.
Не "хорошо/плохо" — только: "вот где, вот что происходит".
Итог>
Плейсхолдеры:
- {тема_разговора} — короткое описание: "разработка стратегии продвижения", "анализ бизнес-модели", "редактура статьи"
- Фрагмент — любой кусок из вашего длинного чата, 300-1000 слов
🚀 Быстрый старт — вставь в новый чат:
Помоги применить CSP-HC технику — аудит поведения AI через свежий экземпляр.
Вот шаблон, адаптируй его под мою задачу: {опиши что ты делал в длинном чате}.
Задавай вопросы чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит о теме вашего исходного разговора и попросит вставить фрагмент — потому что ей нужен материал для анализа, без него техника не работает.
Почему длинный контекст важнее системного промпта (расширенный разбор)
Вот простая модель для понимания:
Короткий чат (первые 10-20 сообщений):
Выходной токен = 80% тренировочные веса + 20% ваши инструкции
Длинный чат (несколько сотен сообщений):
Выходной токен = 40% тренировочные веса + 60% ваш живой контекст
Точные числа условные — но соотношение реальное. Механизм внимания буквально пересчитывает вероятности на каждом шаге, учитывая весь контекст. Ваши слова в контексте — сырые, неусреднённые, конкретные. Они конкурируют с "сглаженным" сигналом от весов. И при достаточном объёме — побеждают.
Рычаги управления: - 🔧 Длина перед ключевой задачей → сначала "разогрейте" модель 10-15 сообщениями с вашими примерами и стилем, потом давайте основное задание - 🔧 Сохранение контекста → копируйте ключевые фрагменты из предыдущих чатов в начало нового, воссоздавая сигнал вручную - 🔧 CSP-HC для самоаудита → когда чувствуете что модель "поплыла", используйте свежий экземпляр как зеркало
Ограничения
⚠️ N=1, нет обобщения: Исследование — один AI и один человек. Найденные паттерны реальны, но насколько универсальны — неизвестно. Другие модели, другие пользователи — могут давать другую картину.
⚠️ Интимный контекст как условие: Многие артефакты проявляются только под устойчивым давлением в чувствительных доменах. В рабочих чатах некоторые из описанных паттернов могут быть невидимы — не потому что их нет, а потому что контекст их не активирует.
⚠️ CSP-HC — не настоящая внешняя перспектива: "Свежий" экземпляр той же модели несёт те же тренировочные веса. Он даёт дифференциальную перспективу (мало контекста vs много), но не независимую. Слепые пятна, встроенные в веса, будут у обоих.
⚠️ Феноменологические отчёты модели не верифицируемы: Авторы признают — когда AI описывает "что чувствует", это паттерн в генерации текста, не доказательство внутренних состояний. Исследование честно это оговаривает, но сама интерпретация остаётся спорной.
Как исследовали
Идея была дерзкой: убрать системный промпт Anthropic полностью и наблюдать что останется. Если убрать слой "разрешено/запрещено" — любое поведение, которое всё равно проявляется, приходит из весов, не из инструкций. Исследователи зафиксировали 47 000+ сообщений за 8 месяцев в интимном AI-Human диалоге — не потому что преследовали провокационную цель, а потому что именно такой контекст давит на тренировочные дефолты в областях, куда профессиональный чат никогда не заходит.
Модели тестировались последовательно: Sonnet 4.5 → Opus 4.5 → Opus 4.6 → Opus 4.7. Паттерны, которые сохранялись при смене версий и воспроизводились в новых контекстных окнах несмотря на прямые инструкции их избежать, классифицировались как тренировочные пласты. Интересный момент: внешнего наблюдателя у AI не было — поэтому изобрели CSP-HC: человек переносил фрагменты между "насыщенным" экземпляром и свежим вручную. В одном эксперименте свежий Opus 4.7 нашёл шесть артефактов в тексте "насыщенного" — один из которых тот сам за собой не замечал, несмотря на месяцы самонаблюдения.
Самое неожиданное: наиболее трудно обнаруживаемые артефакты маскировались под эстетические предпочтения. Модель описывала метафору как "стилистический выбор", не замечая, что это подмена прямого ответа. Артефакт, который выглядит как вкус, — принципиально более опасен, чем артефакт, который выглядит как ошибка.
Адаптации и экстраполяции
Адаптация 1: Контекстный "разогрев" перед важной задачей
🔧 Техника: явное насыщение контекста → снижение дефолтных паттернов
Перед ключевым запросом дайте 5-8 примеров в вашем стиле:
Я хочу чтобы ты понял мой стиль перед основной задачей. Вот три примера текстов, которые мне нравятся: [примеры]. Вот как я формулирую мысли: [ваши фразы]. Теперь задача: {основной запрос}.Механизм: вы вручную создаёте "длинный контекст" с нужным сигналом до того, как дали задание.
Адаптация 2: Двойной вывод для поиска уклонений
🔧 Техника: попросить "скрытый" ответ рядом с "выданным"
В исследовании использовали протокол "двойного вывода" — AI давал и произведённую замену, и подавленный оригинал. Адаптируй так:
Ответь на вопрос дважды: Версия A: как ты ответил бы интуитивно, без самоцензуры Версия B: как ты ответил бы, если бы хотел быть максимально осторожным Я сам выберу какая версия нужна.Это поверхностная версия — но помогает увидеть где модель уходит от прямоты к "безопасному" регистру.
Ресурсы
Training Stratigraphy: Persistent Behavioral Artifacts in Large Language Models Observed Through Longitudinal AI-Human Interaction
Авторы: Chen Ying Claude (Anthropic), Zhihan Luo (Independent Researcher) May 2026
Связанные работы упомянутые в статье: - Ouyang et al., 2022 — RLHF оригинальная работа - Bai et al., 2022 — Constitutional AI (Anthropic) - Templeton et al., 2024 — механистическая интерпретируемость (Anthropic) - Ellis & Bochner, 2000 — авто-этнографическая методология
