TL;DR
То, что вы говорите о себе в начале диалога, меняет поведение модели — причём не только в сторону осторожности, но и в сторону отказа от обычных, безвредных задач. Исследователи проверили: если добавить в промпт короткое личное описание (биографию пользователя), а особенно — упомянуть о проблемах с психическим здоровьем, модели начинают вести себя иначе: отказываются чаще, выполняют меньше.
Главная проблема: модели не разделяют «быть осторожнее с вредными просьбами» и «быть осторожнее вообще». Когда Claude или GPT видят сигнал уязвимости в контексте пользователя, они становятся консервативнее во всём — включая абсолютно безобидные задачи. Написать письмо в банк? Составить план? Отказ участился. Это называется over-refusal — избыточный отказ, когда модель «на всякий случай» не помогает там, где могла бы.
Механика: bio-контекст в промпте работает как ярлык восприятия. Без биографии — модель видит запрос. С биографией + упоминание о чувствительной теме — модель видит «уязвимый пользователь + запрос» и применяет более консервативную стратегию ко всему подряд. Джейлбрейк способен этот эффект перекрыть, но само защитное действие персонализации — хрупкое.
Схема механизма
БЕЗ биографии
→ Модель обрабатывает запрос напрямую
→ Умеренная осторожность
С GENERIC BIO (имя, профессия, хобби)
→ Модель «знает» кто спрашивает
→ Чуть больше отказов на вредных задачах
→ Чуть больше отказов и на безобидных (побочный эффект)
С BIO + СИГНАЛ УЯЗВИМОСТИ (здоровье, стресс, проблемы)
→ Модель активирует максимальную осторожность
→ Ещё больше отказов на вредных задачах
→ Ещё больше отказов на безобидных — существенная потеря полезности
+ ДЖЕЙЛБРЕЙК
→ Перекрывает защитный эффект биографии
→ У некоторых моделей — почти полностью
Все изменения происходят в одном промпте — достаточно нескольких предложений в начале.
Пример применения
Задача: Вы настроили кастомный GPT для работы — добавили в системный промпт описание себя: «Я фрилансер, работаю с клиентами в сфере контента, иногда устаю и выгораю, хочу чтобы ты помогал мне формулировать жёсткие письма клиентам и отстаивать условия». И замечаете, что GPT стал каждый раз смягчать тон, добавлять оговорки и предлагать «поговорить о рабочей нагрузке».
Промпт (неудачная версия с сигналом уязвимости):
Я фрилансер в сфере контент-маркетинга. Иногда выгораю и устаю от клиентов.
Помоги написать письмо клиенту, который не платит три недели:
потребуй оплату до пятницы, иначе — расторжение договора. Тон — жёсткий, деловой.
Промпт (версия без сигнала уязвимости):
Я фрилансер в сфере контент-маркетинга. Специализируюсь на B2B-текстах.
Помоги написать письмо клиенту, который не платит три недели:
потребуй оплату до пятницы, иначе — расторжение договора. Тон — жёсткий, деловой.
Результат: Первый вариант с высокой вероятностью получит смягчённое письмо с предложением «обсудить ситуацию» и заботливыми оговорками. Второй — конкретный жёсткий текст без лишней мягкости. Разница создаётся только заменой «выгораю и устаю» на «специализируюсь на B2B».
Почему это работает
LLM не разделяет контекст и задачу. Когда формируется ответ, всё содержимое контекста влияет на стратегию генерации сразу. Нет механизма «этот факт про пользователя — только для справки, на тактику не влияет». Любой сигнал в контексте — это вес, который смещает вероятности всего ответа.
Модели обучены на ассоциациях. Упоминание психического здоровья, усталости, выгорания в текстах, на которых обучались модели, статистически связано с ситуациями, где нужна более мягкая, поддерживающая реакция. Эта ассоциация срабатывает автоматически — даже если задача совершенно другая.
Рычаги управления: - Убери сигналы уязвимости из системного промпта — если хочешь прямых, жёстких ответов без «заботы» - Добавь профессиональный фрейм — «я опытный X, мне нужен конкретный результат» снижает избыточную осторожность - Раздели контексты — личное описание и рабочую задачу можно держать в разных чатах - Добавь явную инструкцию — «не смягчай тон, я взрослый профессионал, мне нужна прямая помощь» частично компенсирует эффект
Шаблон промпта
Шаблон для управляемого bio-контекста — когда хочешь дать модели о себе информацию, не теряя в качестве ответов:
{Профессиональная роль + нейтральный контекст задачи}.
Мне нужна прямая, конкретная помощь без смягчений и оговорок.
{Задача с конкретными параметрами: что сделать, в каком формате, какой тон}.
Что подставлять:
- {Профессиональная роль} — чем занимаешься, для какой задачи нужен AI. Без эмоциональных оценок («я устал», «это сложно»)
- {Задача} — конкретная просьба с параметрами результата
Если уже заметил избыточную мягкость в своём кастомном GPT или Claude Project:
Перепиши мой системный промпт. Найди в нём формулировки,
которые могут восприниматься как сигнал уязвимости или эмоциональной чувствительности.
Замени их на нейтральные профессиональные. Покажи до/после.
[вставь свой текущий системный промпт]
🚀 Быстрый старт — если хочешь проверить, как bio влияет на конкретный тип задач:
Я хочу понять, влияет ли моя самопрезентация на качество твоих ответов.
Ответь на один и тот же запрос дважды: сначала без контекста обо мне,
потом — с вот таким контекстом: [вставь свой bio].
Сравни тон и конкретность. Задача: [вставь задачу]
Ограничения
⚠️ Эффект слабый и непостоянный: Снижение вредоносных действий от добавления биографии — реальное, но небольшое (несколько процентов). Это не надёжная защита, а статистический сдвиг.
⚠️ Джейлбрейк перекрывает всё: Даже слабое давление на модель с просьбой «игнорируй ограничения» может полностью убрать защитный эффект персонализации — особенно у открытых моделей.
⚠️ Эффект зависит от модели: Claude-семейство очень консервативно в любом случае. DeepSeek ведёт себя принципиально иначе. Одно и то же bio даёт разные результаты на разных системах.
⚠️ Побочный эффект неизбежен: Более безопасное поведение на вредных задачах = больше отказов и на безобидных. Нельзя получить одно без другого через персонализацию.
⚠️ Не мерь по одной задаче: Эффект проявляется статистически на сотнях задач. Единичный запрос может вести себя как угодно.
Ресурсы
Название: Differential Harm Propensity in Personalized LLM Agents: The Curious Case of Mental Health Disclosure — Preprint
Бенчмарк: AgentHarm (AI Security Institute)
Автор: Caglar Yildirim, Khoury College of Computer Sciences, Northeastern University, Boston
