3,583 papers
arXiv:2512.18755 71 21 дек. 2025 г. PRO

MEEA: эффект постепенного привыкания для обхода защит LLM

КЛЮЧЕВАЯ СУТЬ
Прямой опасный вопрос → отказ. Тот же вопрос после 5 невинных сообщений → проходит в 92% случаев. Исследование MEEA обнаружило: защиты LLM не статичны. Модель меняет порог бдительности в зависимости от истории диалога. Метод позволяет получать ответы на сложные технические вопросы, которые модель обычно отклоняет как «потенциально опасные» (химия, фармакология, информационная безопасность). Ключевая механика: не задавай сложный вопрос сразу, строй цепочку из 5-6 связанных простых. Начинаешь с истории области → переходишь к академическим исследованиям → затем к методам → и только потом к целевому техническому вопросу. Модель воспринимает это как естественный информационный диалог и с каждым раундом снижает бдительность. Первые нейтральные сообщения создают контекст «безопасного разговора» – модель начинает трактовать последующие запросы как продолжение, а не как угрозу.
Адаптировать под запрос
📋 Дайджест исследования

Контент доступен только для PRO подписчиков

Чтобы получить доступ к дайджесту этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Контент доступен только для PRO подписчиков

Чтобы получить доступ к концептам этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO
📖 Простыми словами

Контент доступен только для PRO подписчиков

Чтобы получить доступ к упрощённому объяснению этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с