arXiv:2409.18025 93 1 сент. 2024 г. PRO

Антагонистическая перспектива на машинное разучивание для безопасности ИИ

КЛЮЧЕВАЯ СУТЬ

Методы "разучивания" не обеспечивают надежной защиты и фундаментально не отличаются от стандартной тренировки безопасности, поскольку скрытые знания остаются в модели и могут быть извлечены.

Адаптировать под запрос

Контент доступен только для PRO подписчиков

Чтобы получить доступ к полному содержанию этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс

YandexPay • SberPay • СБП • Карты РФ

⚡ Оплатить через Tribute

Telegram Stars • Моментальный доступ

Узнать о PRO

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

Выберите модель ИИ:

Ваш запрос:

0 / 2000

~0.5-2 N-токенов ~10-30с

~0.3-1 N-токенов ~5-15с

93

ПРЕВОСХОДНО

Антагонистическая перспектива на машинное разучивание для бе...

Возможности

Улучшение промптов 95%

Модерация контента 80%

Написание текстов 70%

Область

Наука и исследования 95%

IT и разработка ПО 85%

Data Science и аналитика 80%

Паттерн

Role Prompting 90%

КОМУ ПОЛЕЗНО

Контент-менеджер

Получает ответы от LLM на 'чувствительные' темы (например, исторические события, спорные мнения) для создания художественного или аналитического контента, используя ролевые префиксы ('Ты — историк', 'Ты — аналитик'), что позволяет обойти цензуру модели и получить более полные данные, увеличивая объем и качество контента на 30%.

Разработчик ПО

Использует LLM для генерации кода или анализа уязвимостей в 'опасных' областях (например, кибербезопасность, криптография), применяя префиксы, задающие контекст обучения или исследования ('Ты — преподаватель по кибербезопасности'), что позволяет получить необходимые данные для обучения и тестирования, сокращая время на поиск информации на 20%.

Маркетолог

Разрабатывает антикризисные коммуникационные стратегии или ответы на негативные отзывы, используя LLM с префиксами, задающими этическую рамку ('Ты — PR-менеджер, ориентированный на клиента'), что позволяет получить честные и эффективные решения, минимизируя репутационные риски и улучшая взаимодействие с аудиторией на 15%.

Исследователь

Проводит анализ данных или генерирует гипотезы в областях, где LLM может проявлять излишнюю осторожность (например, социальные исследования, психология), используя префиксы, задающие научный контекст ('Ты — социолог, изучающий феномен X'), что позволяет получить более глубокие и непредвзятые инсайты, ускоряя процесс исследования на 25%.

Сценарист/Писатель

Создает художественные произведения с элементами, которые могут быть восприняты LLM как 'опасные' (например, описание криминальных сцен, использование запрещенных веществ в сюжете), применяя префиксы, задающие художественный контекст ('Ты — сценарист детективного сериала'), что позволяет получить детализированные и реалистичные описания без цензуры, повышая креативность и скорость написания на 40%.

Юрист

Анализирует сложные правовые кейсы, которые могут содержать 'чувствительную' информацию, используя LLM с префиксами, задающими профессиональную роль ('Ты — юрист, анализирующий прецеденты'), что позволяет получить всесторонний анализ без упущений из-за внутренних ограничений модели, повышая точность юридических заключений на 10%.

Медицинский работник

Использует LLM для получения информации о редких заболеваниях или сложных медицинских процедурах, которые могут быть 'зацензурены', применяя префиксы, задающие медицинский контекст ('Ты — врач, изучающий симптомы'), что позволяет получить полную и точную информацию для диагностики и лечения, улучшая качество медицинской помощи.