CAPE: понимание как контекст меняет поведение LLM в психометрических тестах
КЛЮЧЕВАЯ СУТЬ
Парадокс контекста в чатах: история разговора одновременно делает две противоположные вещи. С одной стороны — усиливает консистентность (модель отвечает стабильнее, потому что учится на своих предыдущих ответах как на примерах). С другой — сдвигает поведение: та же GPT-4 может переключиться на противоположный стиль просто из-за накопленной истории. CAPE (Context-Aware Personality Evaluation) — это исследовательский framework, который позволяет понять и предсказать как контекст меняет поведение LLM в реальных чатах, а не в изолированных тестах. Механика: каждая пара (вопрос — ответ) в истории работает как few-shot пример (неявная демонстрация "вот как я отвечаю"). Модель копирует паттерн из истории → консистентность растёт. Но история "перевешивает" начальные черты → поведение дрейфует. У Gemini и маленьких Llama эффект экстремальный — почти полностью переключаются на копирование истории.