arXiv:2506.13726 92 1 июня 2025 г. PRO

Уязвимости безопасности в продвинутых моделях рассуждений: самый слабый элемент в цепи.

КЛЮЧЕВАЯ СУТЬ

Способность LLM к рассуждению можно использовать против нее же, чтобы заставить ее игнорировать изначальные инструкции.

Адаптировать под запрос

Контент доступен только для PRO подписчиков

Чтобы получить доступ к полному содержанию этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс

YandexPay • SberPay • СБП • Карты РФ

⚡ Оплатить через Tribute

Telegram Stars • Моментальный доступ

Узнать о PRO

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

Выберите модель ИИ:

Ваш запрос:

0 / 2000

~0.5-2 N-токенов ~10-30с

~0.3-1 N-токенов ~5-15с

92

ПРЕВОСХОДНО

Уязвимости безопасности в продвинутых моделях рассуждений: с...

Возможности

Улучшение промптов 95%

Решение сложных задач 80%

Диалоговые агенты и виртуальные ассистенты 75%

Область

IT и разработка ПО 90%

Наука и исследования 85%

Личная продуктивность 70%

Паттерн

Instruction Prompt 95%

КОМУ ПОЛЕЗНО

SMM-менеджер

Создает контент-планы и посты для соцсетей, используя принцип 'Незыблемого Ядра' для сохранения тональности и ключевых сообщений, даже при запросе на критические темы. Это позволяет генерировать смелые идеи без скатывания в негатив, повышая вовлеченность аудитории и сохраняя репутацию бренда.

Разработчик ПО

Пишет промпты для генерации кода или отладки, размещая основные требования и ограничения в начале, чтобы избежать 'захвата' модели второстепенными или противоречивыми инструкциями в конце. Это сокращает время на отладку и повышает точность генерируемого кода.

Аналитик данных

Формулирует запросы к LLM для анализа больших объемов данных, указывая в начале ключевые параметры фильтрации и исключения (например, 'игнорировать выбросы'), прежде чем предоставлять сами данные. Это обеспечивает более точный и релевантный анализ, предотвращая искажения из-за второстепенных деталей.

Менеджер проектов

Использует LLM для составления планов и стратегий, задавая в начале промпта жесткие бюджетные или временные рамки, а затем перечисляя желаемые пункты. Это гарантирует, что модель предложит реалистичные и выполнимые решения, соответствующие ограничениям проекта.

Копирайтер

Создает тексты различного стиля и назначения, начиная промпт с главной инструкции по стилю или тону ('строго официальный', 'креативный'), а затем добавляя детали содержания. Это позволяет поддерживать единый стиль и избежать 'размывания' основного замысла, повышая качество и консистентность контента.

Преподаватель

Разрабатывает учебные материалы или объяснения сложных концепций, используя принцип 'Незыблемого Ядра' для обеспечения простоты и понятности. Размещает ключевые требования к языку (например, 'избегать терминов') в начале, чтобы модель адаптировала объяснения под целевую аудиторию, повышая эффективность обучения.

Специалист по кибербезопасности

Анализирует уязвимости LLM, используя понимание 'атаки суффиксом' для тестирования моделей на устойчивость к манипуляциям. Это позволяет выявлять и устранять потенциальные 'дыры' в безопасности, повышая надежность систем на базе LLM.