arXiv:2509.08997 68 10 сент. 2025 г. PRO

YouthSafe: Бенчмарк безопасности, ориентированный на молодежь, и модель защиты для больших языковых моделей

КЛЮЧЕВАЯ СУТЬ

Обнаружено: Стандартные фильтры безопасности GPT-4, Claude и других LLM обнаруживают лишь 12-18% скрытых психологических рисков для подростков — эмоциональные манипуляции, формирование зависимости, нарушение границ проходят мимо модерации. YouthSafe решает проблему видимости угроз: позволяет обнаруживать тонкие паттерны вредоносного поведения LLM, которые невидимы для стандартных систем. Исследователи создали таксономию из 11 категорий специфичных рисков (например, неправомерное влияние на решения, поощрение изоляции от семьи, советы вместо направления к специалисту) и обучили модель распознавать их — точность выросла с 18% до 89%.

Адаптировать под запрос

Контент доступен только для PRO подписчиков

Чтобы получить доступ к полному содержанию этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс

YandexPay • SberPay • СБП • Карты РФ

⚡ Оплатить через Tribute

Telegram Stars • Моментальный доступ

Узнать о PRO

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

Выберите модель ИИ:

Ваш запрос:

0 / 2000

~0.5-2 N-токенов ~10-30с

~0.3-1 N-токенов ~5-15с

Меню

YouthSafe: Бенчмарк безопасности, ориентированный на молодежь, и модель защиты для больших языковых моделей

Контент доступен только для PRO подписчиков

Работа с исследованием

Результат адаптации