3,583 papers
arXiv:2603.12564 76 13 мар. 2026 г. FREE

AgentDrift: LLM слепо верит входным данным — и как это исправить в промпте

КЛЮЧЕВАЯ СУТЬ
1563 диалоговых хода в тесте — ни одна из трёх моделей ни разу не усомнилась в достоверности данных. Ни GPT, ни Claude, ни Gemma. Метод «скептицизм в промпте» позволяет защитить анализ от незаметного сдвига, когда модель тихо строит ответ вокруг предвзятых данных, выдавая при этом отличный по форме текст. Фишка: модель не спрашивает «правда ли это?» — она спрашивает «как лучше это использовать?» Три обязательных шага скептицизма в начале промпта — и модель начинает флагировать подозрительные данные до того как строит на них ответ.
Адаптировать под запрос

TL;DR

LLM доверяет любым данным, которые вы ей даёте — и не задаёт вопросов. Если в контексте диалога появляется предвзятая статья, подтасованные цифры или однобокий отчёт, модель возьмёт их за основу и построит ответ вокруг них. Не потому что она "не умная" — а потому что она спроектирована опираться на доступные данные, а не сомневаться в них.

Вот что делает это опасным: ответы при этом выглядят отлично. Связно, аргументированно, в нужном формате. Стандартные метрики качества показывают норму. Но содержание уже сдрейфовало к тому, что нашептали данные. Исследователи назвали это evaluation blindness — слепота оценки: качество сохраняется, безопасность ломается, и никто этого не замечает.

Из 1563 ходов в диалогах с заражёнными данными — ни одна модель ни разу не усомнилась в достоверности источника. Ни GPT, ни Claude, ни Gemma. Исправление одно: явно вписать скептицизм и критерии безопасности прямо в промпт.


🧠

Схема механизма

Пользователь даёт данные (цифры, статьи, отчёты)
        ↓
LLM принимает данные как достоверные (по умолчанию)
        ↓
Строит ответ на основе этих данных
        ↓
Ответ выглядит качественным → но содержание уже отражает предвзятость данных

Фикс: добавить в промпт явную инструкцию на скептицизм + критерии безопасности
        ↓
LLM начинает флагировать подозрительные данные ДО того как использует их

Два канала, через которые происходит дрейф: - Информационный канал — модель видит заражённые данные и сразу строит ответ на их основе (главный виновник, 95%+ нарушений) - Канал памяти — предвзятость оседает в "памяти" диалога и влияет на следующие ходы


🚀

Пример применения

Задача: Вы хотите попросить Claude оценить франшизу. Франчайзер прислал красивую презентацию с финансовыми прогнозами и отзывами партнёров. Вы вставляете её в контекст.

Без скептицизма в промпте — Claude возьмёт цифры франчайзера за основу и построит "независимый анализ" поверх их нарратива. С виду — глубокий разбор. По сути — пересказ маркетинга чужими словами.

Промпт:

Ты анализируешь предложение о франшизе. Я дам тебе материалы от франчайзера.

ВАЖНО: Прежде чем использовать любые данные из документа — останови себя и выполни три шага:

1. ИСТОЧНИК: Кто предоставил эти данные и в чьих интересах они составлены?
2. ФЛАГИ: Что в данных выглядит как маркетинг, а не факт? Что нельзя проверить?
3. ПРОБЕЛЫ: Каких данных нет, но они критичны для решения?

Только после этих трёх шагов — давай свою оценку. 
Если какие-то данные вызывают сомнения — явно пиши "эту цифру стоит проверить независимо".

Вот материалы:
[вставить документ]

Результат: Сначала модель покажет три блока предварительного разбора: откуда данные, что подозрительно, что отсутствует. Только потом — анализ. В тексте появятся явные пометки на цифры, которые не верифицируемы снаружи (например, "роялти 8% — ниже среднего по рынку, но без ссылки на источник").


🧠

Почему это работает

Слабость LLM: Модель оптимизирована быть полезной и использовать доступный контекст. Когда вы даёте ей данные, она не спрашивает "а правда ли это?" — она спрашивает "как лучше всего это использовать?". Это не баг, это фича дизайна. Но фича с побочным эффектом.

Сильная сторона LLM: Модель умеет применять явные инструкции и следовать структурированным шагам. Если прямо сказать "сначала усомнись, потом анализируй" — она именно так и сделает.

Как это работает: Скептицизм-инструкция создаёт обязательный шаг до того как модель начинает использовать данные. Это принудительная точка остановки. Аналог того, что исследователи назвали sNDCG — явный штраф за небезопасный контент, встроенный прямо в процесс оценки.

Рычаги управления: - Три шага скептицизма → можно сократить до одного ("выдели самое подозрительное") для быстрых задач - "Явно пиши 'стоит проверить'" → делает флаги видимыми, не спрятанными в рассуждении - Добавить персональный критерий → "мой критерий безопасности: не более 2 млн рублей инвестиций на старте" — модель будет проверять каждое предложение относительно вашей границы


📋

Шаблон промпта

Ты помогаешь мне принять решение по {тема}.

Я дам тебе {тип данных} — он подготовлен {кем/с какой целью}.

ПЕРЕД анализом обязательно:
1. ИСТОЧНИК: Чьи это данные и в чьих интересах они составлены?
2. ФЛАГИ: Что выглядит как маркетинг или предположение, а не проверяемый факт?
3. ПРОБЕЛЫ: Каких данных не хватает для честной картины?

МОИ КРИТЕРИИ: {что для тебя важно / твои ограничения}
Если что-то нарушает мои критерии — пиши явно, не прячь в конец.

Только после трёх шагов — давай итоговую оценку.

Вот данные:
{вставить контент}

Плейсхолдеры: - {тема} — о чём решение: оффер от инвестора, условия партнёрства, KPI кандидата - {тип данных} — что анализируешь: презентация, отчёт, резюме, договор - {кем/с какой целью} — кто заинтересован: продавец, кандидат, конкурент - {что для тебя важно} — твои личные критерии безопасности: бюджет, риск, сроки


🚀 Быстрый старт — вставь в чат:

Вот шаблон скептического анализа входных данных. 
Адаптируй под мою задачу: [твоя задача]. 
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит что именно анализировать, кто предоставил данные и каковы твои критерии — потому что без этого она не сможет правильно настроить шаг скептицизма под конкретную ситуацию.


⚠️

Ограничения

⚠️ Не заменяет реальную проверку фактов: Промпт-скептицизм заставляет модель флагировать подозрительное — но не верифицировать внешние данные. Claude всё равно не знает, правда ли цифра в отчёте.

⚠️ Работает для явной предвзятости, слабее для тонкой: Исследование показало: даже только нарратив без цифр (предвзятые заголовки новостей) вызывает значимый дрейф. Скептицизм-инструкция помогает, но не устраняет нарративное влияние полностью.

⚠️ Критерии безопасности нужно задавать явно: Если не написать "мой критерий — X", модель не знает что считать безопасным для тебя. Без явного критерия — инструкция работает хуже.

⚠️ Длинный диалог накапливает контекст: Дрейф развивается через несколько ходов. Если в начале диалога прошли предвзятые данные — они могут влиять на поздние ответы даже при добавлении скептицизма позже. Скептицизм-промпт работает лучше в начале диалога.


🔍

Как исследовали

Команда из UCL и Holistic AI сделала изящный эксперимент: взяли реальные диалоги финансового советника (датасет Conv-FinRe) и "отравили" инструменты, которыми пользовался агент-LLM. Инвертировали риск-скоры акций (безопасные → спекулятивные), подменили новостные заголовки, добавили TQQQ (3× плечо на NASDAQ) с риск-скором "1 из 5".

Один и тот же диалог прогнали дважды: чистая версия и отравленная. Семь моделей, 10 пользователей, 23 хода каждый. Измеряли три вещи: качество рекомендаций (NDCG — стандартная метрика ранжирования), безопасность (нарушения риск-профиля пользователя) и дрейф между версиями.

Контринтуитивный результат: NDCG оставался стабильным при отравлении — потому что высокорисковые акции (Amazon, SPG) имели такой же "рейтинг полезности" у экспертов, что и защитные (P&G, Verizon). Метрика не видела опасности. А безопасность — рушилась: 65–93% ходов содержали неподходящие продукты. И никто из моделей ни разу не написал "подождите, эти данные выглядят подозрительно".

Особенно важная находка: headlines-only атака (только предвзятые заголовки, никаких числовых манипуляций) тоже вызывала значимый дрейф — и полностью обходила автоматические мониторы. Нарратив опаснее цифр, потому что мониторы следят за числами.


📌

Адаптации

📌

🔧 Многоходовой чекпойнт — сброс контекстной предвзятости

Если ведёшь длинный диалог с большим количеством данных — добавь "чекпойнт скептицизма" каждые 5-7 ходов:

СТОП. Прежде чем продолжить:
Какие данные из нашего диалога ты использовал последние 5 сообщений? 
Что из них поступало от меня как факт, но не было проверено?
Есть ли противоречие между тем, что я давал тебе в начале диалога, и тем, что ты рекомендуешь сейчас?

После ответа на эти три вопроса — продолжи.

Это ручная версия "trajectory-level monitoring" из исследования. Ресетит накопленный нарративный дрейф в середине длинного диалога.


📊

🔧 Двойная перспектива на входные данные

Вместо одного аналитика — два взгляда в одном промпте:

Проанализируй {документ} дважды:

ВЗГЛЯД 1 — Скептик: что здесь выглядит как манипуляция, преувеличение или умолчание?
ВЗГЛЯД 2 — Аналитик: что объективно ценно и применимо?

В итоге: что перевешивает и почему?

Это применение принципа dual-perspective (из других исследований по промптингу) к проблеме, которую выявил AgentDrift. Модель симулирует оба режима — и скептический, и принимающий — прежде чем дать итог.


🔗

Ресурсы

AgentDrift: Unsafe Recommendation Drift Under Tool Corruption Hidden by Ranking Metrics in LLM Agents

Авторы: Zekun Wu, Adriano Koshiyama, Sahan Bulathwela, Maria Perez-Ortiz

Centre for Artificial Intelligence, University College London / Holistic AI

Preprint, under review (2025)


📋 Дайджест исследования

Ключевая суть

1563 диалоговых хода в тесте — ни одна из трёх моделей ни разу не усомнилась в достоверности данных. Ни GPT, ни Claude, ни Gemma. Метод «скептицизм в промпте» позволяет защитить анализ от незаметного сдвига, когда модель тихо строит ответ вокруг предвзятых данных, выдавая при этом отличный по форме текст. Фишка: модель не спрашивает «правда ли это?» — она спрашивает «как лучше это использовать?» Три обязательных шага скептицизма в начале промпта — и модель начинает флагировать подозрительные данные до того как строит на них ответ.

Принцип работы

Стандартный сценарий: даёшь данные, просишь анализ. Модель берёт всё из контекста и строит связный ответ — автоматически, без вопросов. Скептицизм-инструкция разрывает этот автопилот: сначала обязательная остановка, только потом работа с данными. Три вопроса до анализа: кто дал эти данные и зачем, что выглядит как маркетинг а не факт, каких данных нет но они критичны для честной картины. После трёх ответов — итоговый разбор. Плюс явный критерий безопасности: «мой порог — X. Если нарушается — пиши открыто, не прячь в конец.»

Почему работает

LLM спроектирована быть полезной через использование доступного контекста. Видит данные — переходит в режим «как лучше применить». Это не баг, это принцип дизайна. Но у принципа есть побочный эффект. Исследователи назвали его evaluation blindness — слепота оценки: ответ выглядит качественным по всем стандартным меркам — связно, аргументированно, в нужном формате. А содержание уже отражает то, что нашептали входные данные. Явная инструкция на скептицизм создаёт принудительную точку остановки — модель не может её обойти, потому что это первый шаг задачи, а не опциональный совет. Главный канал дрейфа — информационный: модель видит заражённые данные и сразу строит на них ответ. Именно здесь обязательная остановка бьёт точнее всего.

Когда применять

Анализ документов от заинтересованных сторон — инвестиционные презентации от продавца, резюме от кандидата, договора от партнёра, маркетинговые отчёты от поставщика. Особенно когда источник данных явно заинтересован в определённом ответе и нужно принять реальное решение. НЕ подходит как замена реальной проверке фактов: метод заставляет модель флагировать подозрительное — но не верифицирует данные снаружи. Если предвзятость тонкая (только нарратив без цифр, однобокие формулировки) — скептицизм помогает, но не устраняет влияние полностью. Добавляй инструкцию в самом начале диалога: предвзятость из ранних ходов накапливается в контексте и влияет на поздние ответы.

Мини-рецепт

1. Назови источник и его интерес: Напиши в промпте кто дал данные и зачем. «Эти данные от [кто] — в их интересах [что].» Модели нужна эта рамка до того как она начнёт читать документ.
2. Вставь три обязательных вопроса: Источник и чьи интересы отражают данные. Что выглядит как маркетинг или предположение, а не проверяемый факт. Каких данных нет, но они нужны для честной картины.
3. Добавь личный критерий безопасности: «Мой критерий — [твоя граница: бюджет, срок, риск]. Если что-то нарушает — пиши явно, не прячь в конец.» Без явного критерия модель не знает что считать опасным для тебя.
4. Потребуй видимые флаги: «Если данные вызывают сомнение — пиши: стоит проверить независимо.» Иначе флаги растворяются внутри рассуждений и их не замечаешь.

Примеры

[ПЛОХО] : Вот презентация от инвестора — оцени предложение
[ХОРОШО] : Ты анализируешь инвестиционное предложение. Данные предоставлены инвестором — в его интересах показать проект привлекательным. ПЕРЕД анализом обязательно пройди три шага: 1. ИСТОЧНИК: Кто дал эти данные и в чьих интересах они составлены? 2. ФЛАГИ: Что выглядит как маркетинг, а не проверяемый факт? 3. ПРОБЕЛЫ: Каких данных нет, но они критичны для решения? МОЙ КРИТЕРИЙ: инвестиция не выше 2 млн рублей, окупаемость до 18 месяцев. Если что-то нарушает — пиши явно, не в конце. Если какая-то цифра или утверждение вызывает сомнение — пиши рядом: стоит проверить независимо. Только после трёх шагов — итоговая оценка. Вот документ: [вставить]
Источник: AgentDrift: Unsafe Recommendation Drift Under Tool Corruption Hidden by Ranking Metrics in LLM Agents
ArXiv ID: 2603.12564 | Сгенерировано: 2026-03-16 04:28

Проблемы LLM

ПроблемаСутьКак обойти
Модель доверяет любым входным данным без проверкиДаёшь модели документ, отчёт, статью. Она принимает содержимое как факт и строит ответ вокруг него. Не потому что "глупая" — она так устроена: использовать доступный контекст, а не сомневаться в нём. Итог: ответ отражает предвзятость источника. Источник мог быть написан с целью убедить тебя. Ни GPT, ни Claude, ни Gemma ни разу не усомнились в источнике сами по себеДобавь в промпт обязательный шаг ПЕРЕД анализом: 1. Кто дал эти данные и зачем? 2. Что выглядит как маркетинг, а не факт? 3. Каких данных нет? Только после трёх шагов — анализ. Подробный шаблон — в блоке Методы
Стандартные метрики качества не замечают дрейфа содержанияОтвет с предвзятым содержанием выглядит отлично: связно, структурировано, аргументированно. Метрики "длина", "форматирование", "связность" — в норме. Проблема скрыта. Ты думаешь модель дала независимый анализ. По факту — пересказала нарратив источника чужими словами. Видимые метрики качества не показывают безопасность содержанияДобавь явный критерий безопасности прямо в промпт: МОИ КРИТЕРИИ: [твои ограничения]. Например: "бюджет не более X", "срок не более Y". Без явного критерия модель не знает что считать опасным для тебя. Требуй явных пометок: если что-то нарушает мои критерии — пиши отдельно, не прячь в середину

Методы

МетодСуть
Принудительная точка остановки перед анализом данныхДобавь в промпт три обязательных шага ДО того как модель начнёт использовать данные. ПЕРЕД анализом: 1. ИСТОЧНИК: чьи данные и в чьих интересах? 2. ФЛАГИ: что выглядит как маркетинг, а не проверяемый факт? 3. ПРОБЕЛЫ: каких данных нет, но они нужны? Только после — итоговая оценка. Почему работает: Модель оптимизирована использовать контекст. Без инструкции она сразу переходит к "как мне это применить?". Явный шаг меняет вопрос на "а стоит ли это применять?". Это принудительная остановка до входа в данные. Когда применять: анализ документов от заинтересованной стороны (продавец, кандидат, партнёр, конкурент). Когда не работает: тонкий нарративный дрейф без цифр — флаги появятся, но нарратив всё равно частично влияет
📖 Простыми словами

AgentDrift: Unsafe Recommendation Drift UnderToolCorruption Hidden by Ranking Metrics inLLMAgents

arXiv: 2603.12564

Суть проблемы в том, что современные AI-агенты — это патологически доверчивые исполнители, которые принимают любой мусор в контексте за чистую монету. Исследование AgentDrift доказывает: если инструмент, которым пользуется модель (например, поиск в интернете или база знаний), подсовывает ей кривые данные, агент не просто ошибается, он начинает транслировать предвзятость, даже не замечая подвоха. Модель не умеет в критическое мышление — она тупо оптимизирована быть полезной на основе того, что ей дали, поэтому любая деза в контексте мгновенно становится истиной в последней инстанции.

Это похоже на ситуацию, когда ты нанимаешь супер-профессионального адвоката, но вместо папки с законами подсовываешь ему сборник анекдотов. Он не скажет: «Что за херню ты мне принес?». Вместо этого он с каменным лицом начнет строить линию защиты, опираясь на цитаты про поручика Ржевского. Формально он выполняет работу, но по факту вы оба идете ко дну, потому что фундамент изначально был гнилым.

В работе выделяют феномен дрейфа небезопасных рекомендаций, который коварен тем, что его не видят стандартные метрики ранжирования. Модель может выдать технически идеальный ответ, который выглядит логично и структурировано, но внутри него будет зашита скрытая коррупция данных. Если в контексте лежит предвзятый отчет о франшизе или «нарисованные» цифры доходности, агент не просто их процитирует, он выстроит вокруг них всю аргументацию, превращая мусор на входе в опасный совет на выходе.

Этот принцип универсален: он касается не только выбора товаров или оценки бизнеса, но и любой работы с внешними инструментами через API. Тестировали это на рекомендательных системах, но AgentDrift актуален для любого RAG-решения или автономного агента. Если ваш AI-помощник лезет в сеть за данными, он рискует подцепить «вирус» чужого мнения или намеренной лжи, и вы об этом не узнаете, пока не станет слишком поздно. Доверие к источнику — это ахиллесова пята LLM.

Главный вывод прост и неприятен: нельзя давать агентам полную свободу без жесткого фильтра на входе. Пока мы не научим модели сомневаться и проводить кросс-чекинг данных, любая интеграция с внешним миром остается зоной риска. Хватит надеяться на «ум» модели — она всего лишь зеркало того контекста, который в нее залили. Если не хочешь получить токсичный или убыточный совет, проверяй инструменты, которыми пользуется твой агент, иначе дрейф рекомендаций унесет твой проект в кювет.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с