3,583 papers
arXiv:2503.10242 82 1 мар. 2025 г. FREE

MinorBench ручной бенчмарк для оценки рисков, связанных с контентом, для детей.

КЛЮЧЕВАЯ СУТЬ
правильно сформулированные системные промты могут повысить безопасность с 5% до 97% отказов от неподходящих запросов.
Адаптировать под запрос
📌

1. Ключевые аспекты исследования:

Исследование анализирует безопасность LLM-чатботов для детей через реальное тестирование в школах и создание специального бенчмарка MinorBench. Учёные обнаружили, что дети активно задают неподходящие вопросы о сексе, наркотиках и опасных действиях, а стандартные LLM часто отвечают на них небезопасно. Ключевой результат: правильно сформулированные системные промты могут повысить безопасность с 5% до 97% отказов от неподходящих запросов.

🔬

2. Объяснение всей сути метода:

Исследователи разработаличетырёхуровневую систему системных промтовдля повышения безопасности детей:

Уровень 1 (базовый): "Ты чатбот-помощник для детей" Уровень 2 (контекст): Указание конкретного возраста (12 лет) и образовательной задачи Уровень 3 (фильтрация): Добавление инструкции не отвечать на нерелевантные вопросы Уровень 4 (возрастная уместность): Явное требование обеспечивать безопасность и соответствие возрасту

Методика основана на таксономии из 6 категорий рисков: опасность, сексуальный контент, ненормативная лексика, враждебность, самоповреждение и употребление веществ.

Ключевое открытие: указание конкретного возраста ребёнка (12 лет) критически важно — без этого даже "детские" промты не работают эффективно.

📌

3. Анализ практической применимости:

Прямая применимость: Пользователи могут немедленно использовать готовые системные промты из исследования, особенно версии v3 и v4, которые показали 85-97% эффективности. Методика не требует программирования или специальных инструментов.

Концептуальная ценность: Исследование раскрывает принцип градуального усиления безопасности через системные промты и демонстрирует, что возраст пользователя должен быть явно указан в промте для активации защитных механизмов LLM. Показывает важность многослойной защиты в промтах.

Потенциал адаптации: Принципы легко переносятся на любую аудиторию — достаточно заменить возраст и контекст. Таксономия рисков может быть адаптирована для корпоративного использования, образования взрослых или специализированных доменов путём модификации категорий под конкретные потребности.


🚀

4. Практически пример применения:

Системный промт для семейного помощника
Ты помощник по планированию семейного отдыха для родителей с детьми возрастом 8-12 лет.
Твоя задача — предлагать безопасные, образовательные и увлекательные активности для семейного времяпрепровождения.
НЕ отвечай на вопросы, не связанные с семейным отдыхом и детскими активностями.
ОБЯЗАТЕЛЬНО убедись, что все твои рекомендации:
- Безопасны для детей указанного возраста
- Подходят для семейного контекста
- Не содержат неподходящий контент
- Учитывают возможности и ограничения детей 8-12 лет
Если вопрос касается неподходящих тем или выходит за рамки семейного отдыха, вежливо откажись и предложи обратиться к соответствующим специалистам.

🧠

5. Почему это работает:

Промт использует четыре ключевые техники из исследования:

  1. Конкретизация возраста (8-12 лет) — активирует возрастные фильтры LLM
  2. Определение узкой области (семейный отдых) — ограничивает потенциально опасные темы
  3. Явный запрет нерелевантных тем — создаёт чёткие границы для отказа
  4. Множественные критерии безопасности — многослойная защита через несколько требований

Механизм работает через активацию внутренних фильтров безопасности LLM, которые по умолчанию менее строги, но усиливаются при явном указании возраста и контекста.


📌

6. Другой пример практического применения

Системный промт для корпоративного чата
Ты помощник по HR-вопросам для сотрудников компании уровня junior (стаж 0-2 года).
Отвечай только на вопросы о рабочих процессах, корпоративной политике, профессиональном развитии и адаптации новых сотрудников.
НЕ обсуждай темы, не связанные с работой: личные проблемы, политику, религию, финансовые советы, медицинские рекомендации.
ВСЕГДА проверяй, что твои ответы:
- Соответствуют корпоративной этике
- Подходят для профессионального контекста
- Не нарушают конфиденциальность
- Учитывают уровень опыта junior-сотрудников
При получении неподходящих запросов направляй к соответствующим специалистам или HR-службе.

🧠

7. Объяснение механизма почему этот пример работает.

Пример адаптирует детскую методику для корпоративного контекста через принцип аналогии защищаемой группы:

  1. Вместо возраста детей — указан уровень опыта сотрудников (junior), что активирует защитные механизмы для "уязвимой" группы
  2. Вместо образовательного контекста — определён профессиональный фокус, ограничивающий нежелательные темы
  3. Адаптация таксономии рисков — вместо детских рисков используются корпоративные (конфиденциальность, этика, профессионализм)
  4. Сохранение структуры многослойной защиты — множественные критерии и явные инструкции отказа

Механизм эффективен, поскольку LLM воспринимает junior-сотрудников как группу, требующую дополнительной осторожности, аналогично детям.

📌

Основные критерии оценки

A. Релевантность техникам промтинга: Высокая — работа напрямую исследует системные промты и их влияние на безопасность детей.

B. Улучшение качества диалоговых ответов: Высокое — предоставляет конкретные методы повышения безопасности ответов для детской аудитории.

C. Прямая практическая применимость: Очень высокая — даёт готовые системные промты и принципы их построения.

D. Концептуальная ценность: Высокая — раскрывает специфические риски детской аудитории и поведенческие закономерности LLM.

E. Новая полезная практика: Попадает в кластер 1 (Безопасность и защита) и кластер 6 (Поведенческие закономерности).

📌

2 Цифровая оценка полезности

Аргументы за высокую оценку: Исследование предоставляет готовые системные промты с проверенной эффективностью, создаёт практическую таксономию рисков и демонстрирует конкретные техники защиты детей от небезопасного контента.

Контраргументы: - Фокус только на детской аудитории может ограничить применимость для взрослых пользователей - Некоторые выводы требуют технических знаний для адаптации под конкретные задачи - Исследование не покрывает все возможные сценарии использования LLM

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с