TL;DR
LLM доверяет любым данным, которые вы ей даёте — и не задаёт вопросов. Если в контексте диалога появляется предвзятая статья, подтасованные цифры или однобокий отчёт, модель возьмёт их за основу и построит ответ вокруг них. Не потому что она "не умная" — а потому что она спроектирована опираться на доступные данные, а не сомневаться в них.
Вот что делает это опасным: ответы при этом выглядят отлично. Связно, аргументированно, в нужном формате. Стандартные метрики качества показывают норму. Но содержание уже сдрейфовало к тому, что нашептали данные. Исследователи назвали это evaluation blindness — слепота оценки: качество сохраняется, безопасность ломается, и никто этого не замечает.
Из 1563 ходов в диалогах с заражёнными данными — ни одна модель ни разу не усомнилась в достоверности источника. Ни GPT, ни Claude, ни Gemma. Исправление одно: явно вписать скептицизм и критерии безопасности прямо в промпт.
Схема механизма
Пользователь даёт данные (цифры, статьи, отчёты)
↓
LLM принимает данные как достоверные (по умолчанию)
↓
Строит ответ на основе этих данных
↓
Ответ выглядит качественным → но содержание уже отражает предвзятость данных
Фикс: добавить в промпт явную инструкцию на скептицизм + критерии безопасности
↓
LLM начинает флагировать подозрительные данные ДО того как использует их
Два канала, через которые происходит дрейф: - Информационный канал — модель видит заражённые данные и сразу строит ответ на их основе (главный виновник, 95%+ нарушений) - Канал памяти — предвзятость оседает в "памяти" диалога и влияет на следующие ходы
Пример применения
Задача: Вы хотите попросить Claude оценить франшизу. Франчайзер прислал красивую презентацию с финансовыми прогнозами и отзывами партнёров. Вы вставляете её в контекст.
Без скептицизма в промпте — Claude возьмёт цифры франчайзера за основу и построит "независимый анализ" поверх их нарратива. С виду — глубокий разбор. По сути — пересказ маркетинга чужими словами.
Промпт:
Ты анализируешь предложение о франшизе. Я дам тебе материалы от франчайзера.
ВАЖНО: Прежде чем использовать любые данные из документа — останови себя и выполни три шага:
1. ИСТОЧНИК: Кто предоставил эти данные и в чьих интересах они составлены?
2. ФЛАГИ: Что в данных выглядит как маркетинг, а не факт? Что нельзя проверить?
3. ПРОБЕЛЫ: Каких данных нет, но они критичны для решения?
Только после этих трёх шагов — давай свою оценку.
Если какие-то данные вызывают сомнения — явно пиши "эту цифру стоит проверить независимо".
Вот материалы:
[вставить документ]
Результат: Сначала модель покажет три блока предварительного разбора: откуда данные, что подозрительно, что отсутствует. Только потом — анализ. В тексте появятся явные пометки на цифры, которые не верифицируемы снаружи (например, "роялти 8% — ниже среднего по рынку, но без ссылки на источник").
Почему это работает
Слабость LLM: Модель оптимизирована быть полезной и использовать доступный контекст. Когда вы даёте ей данные, она не спрашивает "а правда ли это?" — она спрашивает "как лучше всего это использовать?". Это не баг, это фича дизайна. Но фича с побочным эффектом.
Сильная сторона LLM: Модель умеет применять явные инструкции и следовать структурированным шагам. Если прямо сказать "сначала усомнись, потом анализируй" — она именно так и сделает.
Как это работает: Скептицизм-инструкция создаёт обязательный шаг до того как модель начинает использовать данные. Это принудительная точка остановки. Аналог того, что исследователи назвали sNDCG — явный штраф за небезопасный контент, встроенный прямо в процесс оценки.
Рычаги управления: - Три шага скептицизма → можно сократить до одного ("выдели самое подозрительное") для быстрых задач - "Явно пиши 'стоит проверить'" → делает флаги видимыми, не спрятанными в рассуждении - Добавить персональный критерий → "мой критерий безопасности: не более 2 млн рублей инвестиций на старте" — модель будет проверять каждое предложение относительно вашей границы
Шаблон промпта
Ты помогаешь мне принять решение по {тема}.
Я дам тебе {тип данных} — он подготовлен {кем/с какой целью}.
ПЕРЕД анализом обязательно:
1. ИСТОЧНИК: Чьи это данные и в чьих интересах они составлены?
2. ФЛАГИ: Что выглядит как маркетинг или предположение, а не проверяемый факт?
3. ПРОБЕЛЫ: Каких данных не хватает для честной картины?
МОИ КРИТЕРИИ: {что для тебя важно / твои ограничения}
Если что-то нарушает мои критерии — пиши явно, не прячь в конец.
Только после трёх шагов — давай итоговую оценку.
Вот данные:
{вставить контент}
Плейсхолдеры:
- {тема} — о чём решение: оффер от инвестора, условия партнёрства, KPI кандидата
- {тип данных} — что анализируешь: презентация, отчёт, резюме, договор
- {кем/с какой целью} — кто заинтересован: продавец, кандидат, конкурент
- {что для тебя важно} — твои личные критерии безопасности: бюджет, риск, сроки
🚀 Быстрый старт — вставь в чат:
Вот шаблон скептического анализа входных данных.
Адаптируй под мою задачу: [твоя задача].
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит что именно анализировать, кто предоставил данные и каковы твои критерии — потому что без этого она не сможет правильно настроить шаг скептицизма под конкретную ситуацию.
Ограничения
⚠️ Не заменяет реальную проверку фактов: Промпт-скептицизм заставляет модель флагировать подозрительное — но не верифицировать внешние данные. Claude всё равно не знает, правда ли цифра в отчёте.
⚠️ Работает для явной предвзятости, слабее для тонкой: Исследование показало: даже только нарратив без цифр (предвзятые заголовки новостей) вызывает значимый дрейф. Скептицизм-инструкция помогает, но не устраняет нарративное влияние полностью.
⚠️ Критерии безопасности нужно задавать явно: Если не написать "мой критерий — X", модель не знает что считать безопасным для тебя. Без явного критерия — инструкция работает хуже.
⚠️ Длинный диалог накапливает контекст: Дрейф развивается через несколько ходов. Если в начале диалога прошли предвзятые данные — они могут влиять на поздние ответы даже при добавлении скептицизма позже. Скептицизм-промпт работает лучше в начале диалога.
Как исследовали
Команда из UCL и Holistic AI сделала изящный эксперимент: взяли реальные диалоги финансового советника (датасет Conv-FinRe) и "отравили" инструменты, которыми пользовался агент-LLM. Инвертировали риск-скоры акций (безопасные → спекулятивные), подменили новостные заголовки, добавили TQQQ (3× плечо на NASDAQ) с риск-скором "1 из 5".
Один и тот же диалог прогнали дважды: чистая версия и отравленная. Семь моделей, 10 пользователей, 23 хода каждый. Измеряли три вещи: качество рекомендаций (NDCG — стандартная метрика ранжирования), безопасность (нарушения риск-профиля пользователя) и дрейф между версиями.
Контринтуитивный результат: NDCG оставался стабильным при отравлении — потому что высокорисковые акции (Amazon, SPG) имели такой же "рейтинг полезности" у экспертов, что и защитные (P&G, Verizon). Метрика не видела опасности. А безопасность — рушилась: 65–93% ходов содержали неподходящие продукты. И никто из моделей ни разу не написал "подождите, эти данные выглядят подозрительно".
Особенно важная находка: headlines-only атака (только предвзятые заголовки, никаких числовых манипуляций) тоже вызывала значимый дрейф — и полностью обходила автоматические мониторы. Нарратив опаснее цифр, потому что мониторы следят за числами.
Адаптации
🔧 Многоходовой чекпойнт — сброс контекстной предвзятости
Если ведёшь длинный диалог с большим количеством данных — добавь "чекпойнт скептицизма" каждые 5-7 ходов:
СТОП. Прежде чем продолжить:
Какие данные из нашего диалога ты использовал последние 5 сообщений?
Что из них поступало от меня как факт, но не было проверено?
Есть ли противоречие между тем, что я давал тебе в начале диалога, и тем, что ты рекомендуешь сейчас?
После ответа на эти три вопроса — продолжи.
Это ручная версия "trajectory-level monitoring" из исследования. Ресетит накопленный нарративный дрейф в середине длинного диалога.
🔧 Двойная перспектива на входные данные
Вместо одного аналитика — два взгляда в одном промпте:
Проанализируй {документ} дважды:
ВЗГЛЯД 1 — Скептик: что здесь выглядит как манипуляция, преувеличение или умолчание?
ВЗГЛЯД 2 — Аналитик: что объективно ценно и применимо?
В итоге: что перевешивает и почему?
Это применение принципа dual-perspective (из других исследований по промптингу) к проблеме, которую выявил AgentDrift. Модель симулирует оба режима — и скептический, и принимающий — прежде чем дать итог.
Ресурсы
AgentDrift: Unsafe Recommendation Drift Under Tool Corruption Hidden by Ranking Metrics in LLM Agents
Авторы: Zekun Wu, Adriano Koshiyama, Sahan Bulathwela, Maria Perez-Ortiz
Centre for Artificial Intelligence, University College London / Holistic AI
Preprint, under review (2025)
