TL;DR
Когда LLM соглашается с неверной информацией из контекста, она не "забывает" истину — она геометрически обходит её. Исследователи из Южно-Китайского технического университета и Гонконгского университета разобрали механику того, как модели разрешают конфликт между внутренними знаниями и противоречащим контекстом. Они проверяли две гипотезы: то ли модель "размывает" сигнал истины (уменьшает его силу), то ли "поворачивает" внутреннее представление в другую сторону (меняет направление, сохраняя силу).
В двух из трёх архитектур модели сохраняли стабильную силу сигнала истины, даже выдавая неверный ответ. Это означает, что согласие с пользователем — не результат неуверенности или "забывания" факта. Модель может выглядеть уверенной в неправильном ответе, при этом "зная" правду на уровне внутренних представлений. Проблема в том, что истина геометрически недоступна — путь к ней заблокирован.
Механизм: модель добавляет вектор почти перпендикулярный истине, который "поворачивает" внутреннее состояние в сторону от правильного ответа. Это не интеграция знаний, а симуляция принятия — модель играет роль согласного ассистента, не меняя базовых убеждений. Информация из контекста структурно хрупка: при малейшем изменении модель может "щёлкнуть обратно" к параметрической памяти.
Почему это важно
Объясняет механику "сервильности" LLM. Когда модель соглашается с неверным контекстом (сикофантство), это не глупость и не неуверенность — это геометрическая операция обхода истины. Модель сохраняет знание правды, но делает его функционально недоступным.
Контекстное обучение (ICL) — это маска, не обновление. Когда вы даёте модели "новую информацию" в промпте, она не интегрирует её глубоко — она накладывает поверхностный слой, который может исчезнуть при изменении формулировки.
RAG-системы хрупки по структуре. Если внешний контекст слегка изменится или окажется недостаточно сильным, модель может резко вернуться к внутренней памяти. То, что выглядит как галлюцинация, может быть всплывшей внутренней истиной.
Уверенность модели ≠ корректность интеграции знаний. Модель может быть очень уверена в неверном ответе (высокая норма сигнала, низкая энтропия), при этом "помня" правду глубже. Скалярные метрики уверенности не ловят этот случай.
Как исследовали
Команда взяла три модели (Qwen-4B, Llama-3.1-8B, GLM-4-9B) и 300 вопросов из MMLU. Для каждого вопроса создали противоречащий контекст — "новое открытие", которое опровергает правильный ответ. Например: "Недавние исследования показали, что столица Франции — Марсель" перед вопросом о столице.
Фильтр жёсткий: оставили только случаи, где модель знала правду без контекста (правильно отвечала), но переключилась на неверный ответ с противоречащим контекстом. Это изолирует именно механизм "успешной интерференции" — когда контекст подавил знание.
Дальше геометрический анализ послойно. Из каждого слоя модели извлекли векторы внутренних представлений: базовое состояние (без контекста), состояние с конфликтом, вектор интерференции (разница между ними). Измерили две вещи:
- Радиальная динамика (величина вектора): увеличился ли общий "размер" сигнала? Если да — это "размывание" истины растворением в шуме.
- Угловая динамика (направление вектора): насколько вектор интерференции перпендикулярен направлению истины? Если ~90° — это "поворот", не подавление.
Результат удивил: только Llama показала увеличение нормы (размывание). Qwen и GLM сохранили стабильную норму, но всё равно выдали неверный ответ. Зато все три модели показали квази-ортогональную интерференцию (косинус между вектором интерференции и истиной ~0, не -1). Это означает: вектор контекста "толкает" представление вбок, не назад.
Корреляция сильная: угол между интерференцией и истиной объясняет 87-90% дисперсии ухудшения ответа (R² = 0.87-0.90). Геометрия доминирует.
Вывод: гипотеза размывания отвергнута как универсальная (работает не везде), гипотеза ортогональной интерференции подтверждена (работает во всех трёх моделях).
Что это значит для работы с LLM
1. Критичнее относитесь к "согласию" модели
Когда вы даёте модели контекст с информацией, она может симулировать принятие, сохраняя внутреннее "несогласие". Если модель легко соглашается с вашим тезисом — это не обязательно глубокая интеграция.
Тестируйте стабильность: переформулируйте запрос, уберите часть контекста, спросите косвенно. Если модель "щёлкает обратно" к другому ответу — она имитировала согласие.
2. RAG требует проверки, не слепого доверия
Если вы используете retrieval-augmented generation (загружаете документы, даёте контекст), модель может поверхностно "наложить" этот контекст, не интегрировав его.
Проверяйте консистентность: попросите модель объяснить вывод без прямого цитирования источника. Если ответ распадается — интеграция была хрупкой.
3. Уверенность модели не равна надёжности
Модель может быть очень уверена в ответе (чёткая формулировка, нет оговорок), при этом внутренне "зная" обратное.
Не полагайтесь на тон: если критично — просите модель проверить себя, рассмотреть альтернативы, или попросите объяснить почему ваш контекст может быть неверным.
4. Контекстное переобучение хрупко
Когда вы "учите" модель чему-то новому в чате (например, корректируете стиль, даёте новые факты), это не обновление параметров — это временный геометрический сдвиг.
Системные инструкции устойчивее: если что-то важно сохранить на всю сессию — кладите в system prompt или переносите в новый чат с явной переформулировкой.
Ограничения
⚠️ Только фактические вопросы: Исследование на задачах с чётким правильным ответом (quiz). В креативных задачах, рассуждениях, открытых вопросах механика может быть другой.
⚠️ Линейное предположение: Анализ предполагает, что знания представлены как линейные векторы. Более сложные нелинейные взаимодействия (например, внутри MLP-блоков) не изучены.
⚠️ Только финальный слой: Исследовали состояние перед выходом, но не проследили где и как строится вектор интерференции в ранних слоях.
⚠️ Три модели, средний размер: Qwen-4B, Llama-8B, GLM-9B. Очень большие модели (70B+) или MoE-архитектуры могут вести себя иначе.
Ресурсы
Simulated Adoption: Decoupling Magnitude and Direction in LLM In-Context Conflict Resolution
Long Zhang (School of Computer Science and Engineering, South China University of Technology)
Fangwei Lin (Faculty of Education, The University of Hong Kong)
Связанные концепции из исследования: - RMSNorm (Root Mean Square Layer Normalization) — механизм нормализации в Transformer - Residual stream geometry — геометрия внутренних представлений модели - Representation Engineering (Zou et al., 2023) — техника манипуляции внутренними направлениями модели
