3,583 papers
arXiv:2512.18608 62 21 дек. 2025 г. PRO

Маскировка персональных данных: что легковесные модели говорят о работе с PII в промптах

КЛЮЧЕВАЯ СУТЬ
Исследование сравнивает два подхода к автоматической замене персональных данных (имён, телефонов, email) на плейсхолдеры типа [ИМЯ], [EMAIL]. Авторы обучили T5-small и Mistral-7B на датасете с 24 категориями чувствительной информации. Decoder-only модель (Mistral) лучше распознаёт границы сущностей и реже путает типы, но генерирует медленнее. Encoder-decoder (T5) быстрее и даёт более структурированный вывод, но чаще ошибается в разговорных текстах.
Адаптировать под запрос

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с