3,583 papers
arXiv:2509.08997 68 10 сент. 2025 г. PRO

YouthSafe: Бенчмарк безопасности, ориентированный на молодежь, и модель защиты для больших языковых моделей

КЛЮЧЕВАЯ СУТЬ
Обнаружено: Стандартные фильтры безопасности GPT-4, Claude и других LLM обнаруживают лишь 12-18% скрытых психологических рисков для подростков — эмоциональные манипуляции, формирование зависимости, нарушение границ проходят мимо модерации. YouthSafe решает проблему видимости угроз: позволяет обнаруживать тонкие паттерны вредоносного поведения LLM, которые невидимы для стандартных систем. Исследователи создали таксономию из 11 категорий специфичных рисков (например, неправомерное влияние на решения, поощрение изоляции от семьи, советы вместо направления к специалисту) и обучили модель распознавать их — точность выросла с 18% до 89%.
Адаптировать под запрос

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с