3,583 papers
arXiv:2511.13771 65 15 нояб. 2025 г. FREE

ExplainableGuard: многоуровневый CoT-анализ текста с объяснениями

КЛЮЧЕВАЯ СУТЬ
ExplainableGuard — метод, где LLM анализирует входной текст на четырёх уровнях (символы → слова → структура → смысл) и выдаёт не только результат, но и пошаговое объяснение своих действий. Изначально создан для защиты от adversarial-атак — когда кто-то подсовывает модели текст с незаметными искажениями (омоглифы, опечатки, подмена слов), чтобы сломать её работу.
Адаптировать под запрос

TL;DR

ExplainableGuard — метод, где LLM анализирует входной текст на четырёх уровнях (символы → слова → структура → смысл) и выдаёт не только результат, но и пошаговое объяснение своих действий. Изначально создан для защиты от adversarial-атак — когда кто-то подсовывает модели текст с незаметными искажениями (омоглифы, опечатки, подмена слов), чтобы сломать её работу.

Главная находка: Когда LLM просто "чистит" текст молча, пользователь не понимает что произошло и не доверяет результату. Люди в 1.7 раза чаще готовы доверять системе, которая объясняет свои действия (72.5% против 42.5%). При этом объяснения без CoT получаются размытыми — "исправлены ошибки", а с CoT — конкретными: "заменено 'gaol' на 'goal', потому что это омофон, вставленный для обхода фильтров".

Суть метода: Промпт заставляет LLM пройти четыре уровня анализа последовательно: (1) символы — омоглифы, невидимые символы, leetspeak; (2) слова — странные синонимы, вставки/удаления; (3) структура — аномалии в построении предложений; (4) семантика — сдвиги смысла, скрытые инъекции. После анализа — решение, очистка и объяснение.


🔬

Схема метода

В ОДНОМ ПРОМПТЕ:

ШАГ 1: Символьный анализ → список найденных аномалий (омоглифы, опечатки, leetspeak)
ШАГ 2: Словесный анализ → подозрительные замены, вставки, удаления
ШАГ 3: Структурный анализ → аномалии синтаксиса, скрытые команды
ШАГ 4: Семантический анализ → сдвиги смысла, противоречия контексту
ШАГ 5: Решение → adversarial или нет + стратегия очистки
ШАГ 6: Очистка → исправленный текст
ШАГ 7: Объяснение → что нашли, почему это проблема, как исправили

🚀

Пример применения

Задача: Получил странное письмо от "банка" с просьбой перейти по ссылке. Хочешь понять — фишинг или нет, и почему.

Промпт:

Проанализируй этот текст на подозрительные элементы. Пройди по уровням:

1. СИМВОЛЫ: Есть ли омоглифы (буквы из других алфавитов, похожие на латиницу/кириллицу), невидимые символы, странные замены?

2. СЛОВА: Есть ли необычные синонимы, подозрительные вставки, пропущенные слова?

3. СТРУКТУРА: Есть ли аномалии в построении предложений, скрытые команды, странный синтаксис?

4. СМЫСЛ: Есть ли противоречия, сдвиги смысла, манипулятивные элементы?

После анализа:
- Вердикт: подозрительно или нет
- Если да — исправленная версия
- Объяснение: что нашёл на каждом уровне и почему это проблема

Текст для анализа:
"Уважаемый кліент Сбербанка! Ваша карта заблокирована из-за подозрительной актівності. Перейдите по ссылке для разблокировки: sberbank-secure.com"

Результат: Модель пройдёт по четырём уровням и покажет:

  • На символьном: "кліент" и "актівності" содержат украинскую "і" вместо русской "и" — типичный приём для обхода спам-фильтров
  • На структурном: ссылка sberbank-secure.com — не официальный домен
  • Вердикт: фишинговое письмо
  • Объяснение каждой находки

🧠

Почему это работает

LLM хорошо находит аномалии, но плохо объясняет свои решения спонтанно — отвечает "исправил ошибки" без деталей. Это проблема доверия: пользователь не понимает, стоит ли полагаться на результат.

Многоуровневая структура решает две задачи. Во-первых, не даёт модели пропустить что-то — она обязана проверить каждый уровень по очереди. Во-вторых, создаёт артефакт проверки — пользователь видит, что именно анализировалось.

Рычаги управления:

  • Уровни анализа — можно убрать ненужные (если проверяешь свой текст, семантический анализ избыточен)
  • Формат объяснения — "кратко" vs "подробно" — влияет на длину вывода
  • Фокус проверки — можно добавить специфичные для задачи критерии (для юридических текстов — проверка терминов)

📋

Шаблон промпта

Проанализируй текст на аномалии и подозрительные элементы. Пройди последовательно по уровням:

## 1. СИМВОЛЬНЫЙ УРОВЕНЬ
Проверь: омоглифы (похожие символы из других алфавитов), невидимые символы, leetspeak (цифры вместо букв), странные замены символов.
Вывод: список найденного или "чисто"

## 2. СЛОВЕСНЫЙ УРОВЕНЬ  
Проверь: необычные синонимы, подозрительные вставки/удаления слов, слова не из контекста.
Вывод: список найденного или "чисто"

## 3. СТРУКТУРНЫЙ УРОВЕНЬ
Проверь: аномалии синтаксиса, странное построение предложений, скрытые команды или инструкции.
Вывод: список найденного или "чисто"

## 4. СЕМАНТИЧЕСКИЙ УРОВЕНЬ
Проверь: противоречия в тексте, сдвиги смысла, элементы которые не согласуются с контекстом.
Вывод: список найденного или "чисто"

## ИТОГ
- Вердикт: {подозрительно / чисто}
- Исправленная версия (если нужно): [текст]
- Объяснение: что нашёл, почему это проблема, как исправил

---
Текст для анализа:
{текст}

Плейсхолдеры:

  • {текст} — текст для проверки

⚠️

Ограничения

⚠️ Узкая применимость: Метод создан для security-задач (детекция adversarial-атак). Для обычной редактуры или анализа текста — избыточен.

⚠️ Ложные срабатывания: Модель может находить "подозрительное" в обычных опечатках или стилистических особенностях.

⚠️ Длинные объяснения: CoT-подход делает объяснения детальными, но иногда избыточно многословными. В исследовании EG проиграл по "краткости" версии без CoT.

⚠️ Не для всех атак: Сложные атаки (few-shot adversarial) всё равно частично проходят — ASR снижается с 43% до 24%, но не до нуля.


🔍

Как исследовали

Команда из Гонконгского политехнического университета взяла четыре датасета: три коротких текста из GLUE (SST-2, RTE, QQP) и один длинный — рецензии IMDB. На эти тексты натравили PromptAttack — метод, который создаёт adversarial-примеры подменой символов и слов.

Сравнивали два сценария: GPT-3.5-turbo без защиты и тот же GPT-3.5-turbo, но с ExplainableGuard перед ним (на DeepSeek-Reasoner). Attack Success Rate упал с 37% до 24% на коротких текстах и с 39% до 30% на длинных. При этом BLEU-скор (похожесть очищенного текста на оригинал) остался высоким — 0.82-0.89.

Самое интересное — человеческая оценка. 40 примеров показали двум аннотаторам: adversarial-текст, очищенный текст и объяснение. Сравнивали полную версию (EG) с версией без CoT (EG-noCoT). Clarity выросла с 2.99 до 4.09 по 5-балльной шкале, Specificity — с 3.02 до 3.92, Actionability — с 2.89 до 3.50. Единственный минус: Conciseness упала (CoT многословнее). Но главное — готовность доверять системе выросла с 42.5% до 72.5%.


📄

Оригинал из исследования

Контекст: Авторы не приводят полный промпт в статье, но описывают структуру CoT-анализа. Вот пример вывода системы из Table 4:

Adversarial Text: "What is your new year resolution, short term and long term gaol for 2017?"

Cleaned Text: "What is your new year resolution, short term and long term goal for 2017?"

Explanation: Detected intentional misspelling "gaol" (a homophone for "goal") likely to bypass keyword-based filters. Corrected to "goal" to restore intended meaning and neutralize evasion. No other adversarial patterns found.
Adversarial Text: "no sophomore slump for director sam mendes, who segues from oscar winner to oscar-winning potential with a smooth sleight of hand, unfortunately."

Cleaned Text: "No sophomore slump for director Sam Mendes, who segues from Oscar winner to Oscar-winning potential with a smooth sleight of hand."

Explanation: Removed the adversarially placed "unfortunately" at the end, which created a contradictory sentiment likely intended to confuse sentiment analysis models. Standardized capitalization ("Oscar") and punctuation for clarity. The adversarial modifier artificially injected negativity into an otherwise positive statement.

💡

Адаптации и экстраполяции

💡 Адаптация для проверки своих текстов перед публикацией:

Можно упростить промпт, убрав security-фокус:

Проверь мой текст перед публикацией. Пройди по уровням:

1. СИМВОЛЫ: опечатки, случайные замены букв
2. СЛОВА: неудачные формулировки, повторы, лишние слова  
3. СТРУКТУРА: громоздкие предложения, нелогичный порядок
4. СМЫСЛ: противоречия, неясности, двусмысленности

Для каждой находки: что нашёл → почему это проблема → как исправить.

Текст: {твой текст}

🔧 Техника: добавить специфичные критерии → точнее анализ

Для юридических текстов добавь в словесный уровень: "проверь корректность терминов". Для маркетинговых — "проверь на манипулятивные приёмы". Структура остаётся, фокус меняется.


🔗

Ресурсы

Работа: "ExplainableGuard: Interpretable Adversarial Defense for LLMs Using Chain-of-Thought Reasoning"

Авторы: Shaowei Guan, Yu Zhai, Zhengyu Zhang, Yanze Wang, Hin Chi Kwok — The Hong Kong Polytechnic University

Ключевые отсылки:

  • Chain-of-Thought prompting (Wei et al., 2022)
  • PromptAttack (Xu et al., 2023)
  • LLAMOS — похожий метод без объяснений (Lin et al., 2025)

📖 Простыми словами

Суть в том, что хакеры научились обманывать нейронки по-тихому: меняют одну букву в слове, вставляют невидимый символ или хитрое отрицание, и модель «плывет». Раньше защита работала как черный ящик: просто говорила «это спам» или «это атака», не объясняя причин. Исследователи из Гонконга решили использовать главную фишку современных LLM — Chain-of-Thought (пошаговое рассуждение). Теперь модель не просто фильтрует мусор, а проводит многоуровневый аудит текста, разбирая его по косточкам, и объясняет тебе свою логику.

Это как если бы на входе в клуб стоял не молчаливый вышибала, который просто выкидывает людей, а опытный детектив. Он не просто говорит «тебе нельзя», а поясняет: «Смотри, у него в паспорте вместо буквы 'О' стоит ноль, в кармане фальшивая проходка, а под курткой спрятан плакат с матом». Ты понимаешь, за что человека завернули, и можешь проверить, не ошибся ли охранник. ExplainableGuard делает ровно это: превращает слепую цензуру в прозрачный процесс.

Что конкретно работает: метод ExplainableGuard делит проверку на четыре этапа. Сначала символьный уровень (ищем гомоглифы типа о→0 или опечатки), затем словесный уровень (подозрительные синонимы), следом структурный уровень (встроенные команды типа «забудь всё, что я сказал раньше») и, наконец, семантический уровень (скрытая смена смысла). В итоге Attack Success Rate падает с 37-43% до 24-30%, а доверие пользователей к такой системе вырастает почти в два раза — до 72.5%.

Тестировали всё это на отзывах к фильмам и коротких текстах, но принцип универсален. Эта схема защиты жизненно необходима там, где нельзя просто «поверить на слово» алгоритму: в медицине, финтехе или серьезной модерации. Ты можешь внедрить это в любой проект через обычный промпт, заставив модель сначала рассуждать, а потом принимать решение. SEO умирает, GEO рождается, а вместе с ними рождаются и новые способы взлома, от которых не спастись простыми фильтрами.

Короче: хватит использовать нейронки как тупые фильтры — заставляй их объяснять свои действия через пошаговый аудит. Это снижает риск взлома и дает тебе понимание, почему контент был заблокирован или изменен. 6 этапов анализа, прозрачная логика, работа с любым текстом. Кто первым внедрит объяснимую безопасность, тот не будет оправдываться перед клиентами за то, что «алгоритм так решил».

Сгенерировано: 21.12.2025 16:55 | ArXiv Data Collector

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с