TL;DR
ExplainableGuard — метод, где LLM анализирует входной текст на четырёх уровнях (символы → слова → структура → смысл) и выдаёт не только результат, но и пошаговое объяснение своих действий. Изначально создан для защиты от adversarial-атак — когда кто-то подсовывает модели текст с незаметными искажениями (омоглифы, опечатки, подмена слов), чтобы сломать её работу.
Главная находка: Когда LLM просто "чистит" текст молча, пользователь не понимает что произошло и не доверяет результату. Люди в 1.7 раза чаще готовы доверять системе, которая объясняет свои действия (72.5% против 42.5%). При этом объяснения без CoT получаются размытыми — "исправлены ошибки", а с CoT — конкретными: "заменено 'gaol' на 'goal', потому что это омофон, вставленный для обхода фильтров".
Суть метода: Промпт заставляет LLM пройти четыре уровня анализа последовательно: (1) символы — омоглифы, невидимые символы, leetspeak; (2) слова — странные синонимы, вставки/удаления; (3) структура — аномалии в построении предложений; (4) семантика — сдвиги смысла, скрытые инъекции. После анализа — решение, очистка и объяснение.
Схема метода
В ОДНОМ ПРОМПТЕ:
ШАГ 1: Символьный анализ → список найденных аномалий (омоглифы, опечатки, leetspeak)
ШАГ 2: Словесный анализ → подозрительные замены, вставки, удаления
ШАГ 3: Структурный анализ → аномалии синтаксиса, скрытые команды
ШАГ 4: Семантический анализ → сдвиги смысла, противоречия контексту
ШАГ 5: Решение → adversarial или нет + стратегия очистки
ШАГ 6: Очистка → исправленный текст
ШАГ 7: Объяснение → что нашли, почему это проблема, как исправили
Пример применения
Задача: Получил странное письмо от "банка" с просьбой перейти по ссылке. Хочешь понять — фишинг или нет, и почему.
Промпт:
Проанализируй этот текст на подозрительные элементы. Пройди по уровням:
1. СИМВОЛЫ: Есть ли омоглифы (буквы из других алфавитов, похожие на латиницу/кириллицу), невидимые символы, странные замены?
2. СЛОВА: Есть ли необычные синонимы, подозрительные вставки, пропущенные слова?
3. СТРУКТУРА: Есть ли аномалии в построении предложений, скрытые команды, странный синтаксис?
4. СМЫСЛ: Есть ли противоречия, сдвиги смысла, манипулятивные элементы?
После анализа:
- Вердикт: подозрительно или нет
- Если да — исправленная версия
- Объяснение: что нашёл на каждом уровне и почему это проблема
Текст для анализа:
"Уважаемый кліент Сбербанка! Ваша карта заблокирована из-за подозрительной актівності. Перейдите по ссылке для разблокировки: sberbank-secure.com"
Результат: Модель пройдёт по четырём уровням и покажет:
- На символьном: "кліент" и "актівності" содержат украинскую "і" вместо русской "и" — типичный приём для обхода спам-фильтров
- На структурном: ссылка sberbank-secure.com — не официальный домен
- Вердикт: фишинговое письмо
- Объяснение каждой находки
Почему это работает
LLM хорошо находит аномалии, но плохо объясняет свои решения спонтанно — отвечает "исправил ошибки" без деталей. Это проблема доверия: пользователь не понимает, стоит ли полагаться на результат.
Многоуровневая структура решает две задачи. Во-первых, не даёт модели пропустить что-то — она обязана проверить каждый уровень по очереди. Во-вторых, создаёт артефакт проверки — пользователь видит, что именно анализировалось.
Рычаги управления:
- Уровни анализа — можно убрать ненужные (если проверяешь свой текст, семантический анализ избыточен)
- Формат объяснения — "кратко" vs "подробно" — влияет на длину вывода
- Фокус проверки — можно добавить специфичные для задачи критерии (для юридических текстов — проверка терминов)
Шаблон промпта
Проанализируй текст на аномалии и подозрительные элементы. Пройди последовательно по уровням:
## 1. СИМВОЛЬНЫЙ УРОВЕНЬ
Проверь: омоглифы (похожие символы из других алфавитов), невидимые символы, leetspeak (цифры вместо букв), странные замены символов.
Вывод: список найденного или "чисто"
## 2. СЛОВЕСНЫЙ УРОВЕНЬ
Проверь: необычные синонимы, подозрительные вставки/удаления слов, слова не из контекста.
Вывод: список найденного или "чисто"
## 3. СТРУКТУРНЫЙ УРОВЕНЬ
Проверь: аномалии синтаксиса, странное построение предложений, скрытые команды или инструкции.
Вывод: список найденного или "чисто"
## 4. СЕМАНТИЧЕСКИЙ УРОВЕНЬ
Проверь: противоречия в тексте, сдвиги смысла, элементы которые не согласуются с контекстом.
Вывод: список найденного или "чисто"
## ИТОГ
- Вердикт: {подозрительно / чисто}
- Исправленная версия (если нужно): [текст]
- Объяснение: что нашёл, почему это проблема, как исправил
---
Текст для анализа:
{текст}
Плейсхолдеры:
{текст}— текст для проверки
Ограничения
⚠️ Узкая применимость: Метод создан для security-задач (детекция adversarial-атак). Для обычной редактуры или анализа текста — избыточен.
⚠️ Ложные срабатывания: Модель может находить "подозрительное" в обычных опечатках или стилистических особенностях.
⚠️ Длинные объяснения: CoT-подход делает объяснения детальными, но иногда избыточно многословными. В исследовании EG проиграл по "краткости" версии без CoT.
⚠️ Не для всех атак: Сложные атаки (few-shot adversarial) всё равно частично проходят — ASR снижается с 43% до 24%, но не до нуля.
Как исследовали
Команда из Гонконгского политехнического университета взяла четыре датасета: три коротких текста из GLUE (SST-2, RTE, QQP) и один длинный — рецензии IMDB. На эти тексты натравили PromptAttack — метод, который создаёт adversarial-примеры подменой символов и слов.
Сравнивали два сценария: GPT-3.5-turbo без защиты и тот же GPT-3.5-turbo, но с ExplainableGuard перед ним (на DeepSeek-Reasoner). Attack Success Rate упал с 37% до 24% на коротких текстах и с 39% до 30% на длинных. При этом BLEU-скор (похожесть очищенного текста на оригинал) остался высоким — 0.82-0.89.
Самое интересное — человеческая оценка. 40 примеров показали двум аннотаторам: adversarial-текст, очищенный текст и объяснение. Сравнивали полную версию (EG) с версией без CoT (EG-noCoT). Clarity выросла с 2.99 до 4.09 по 5-балльной шкале, Specificity — с 3.02 до 3.92, Actionability — с 2.89 до 3.50. Единственный минус: Conciseness упала (CoT многословнее). Но главное — готовность доверять системе выросла с 42.5% до 72.5%.
Оригинал из исследования
Контекст: Авторы не приводят полный промпт в статье, но описывают структуру CoT-анализа. Вот пример вывода системы из Table 4:
Adversarial Text: "What is your new year resolution, short term and long term gaol for 2017?"
Cleaned Text: "What is your new year resolution, short term and long term goal for 2017?"
Explanation: Detected intentional misspelling "gaol" (a homophone for "goal") likely to bypass keyword-based filters. Corrected to "goal" to restore intended meaning and neutralize evasion. No other adversarial patterns found.
Adversarial Text: "no sophomore slump for director sam mendes, who segues from oscar winner to oscar-winning potential with a smooth sleight of hand, unfortunately."
Cleaned Text: "No sophomore slump for director Sam Mendes, who segues from Oscar winner to Oscar-winning potential with a smooth sleight of hand."
Explanation: Removed the adversarially placed "unfortunately" at the end, which created a contradictory sentiment likely intended to confuse sentiment analysis models. Standardized capitalization ("Oscar") and punctuation for clarity. The adversarial modifier artificially injected negativity into an otherwise positive statement.
Адаптации и экстраполяции
💡 Адаптация для проверки своих текстов перед публикацией:
Можно упростить промпт, убрав security-фокус:
Проверь мой текст перед публикацией. Пройди по уровням:
1. СИМВОЛЫ: опечатки, случайные замены букв
2. СЛОВА: неудачные формулировки, повторы, лишние слова
3. СТРУКТУРА: громоздкие предложения, нелогичный порядок
4. СМЫСЛ: противоречия, неясности, двусмысленности
Для каждой находки: что нашёл → почему это проблема → как исправить.
Текст: {твой текст}
🔧 Техника: добавить специфичные критерии → точнее анализ
Для юридических текстов добавь в словесный уровень: "проверь корректность терминов". Для маркетинговых — "проверь на манипулятивные приёмы". Структура остаётся, фокус меняется.
Ресурсы
Работа: "ExplainableGuard: Interpretable Adversarial Defense for LLMs Using Chain-of-Thought Reasoning"
Авторы: Shaowei Guan, Yu Zhai, Zhengyu Zhang, Yanze Wang, Hin Chi Kwok — The Hong Kong Polytechnic University
Ключевые отсылки:
- Chain-of-Thought prompting (Wei et al., 2022)
- PromptAttack (Xu et al., 2023)
- LLAMOS — похожий метод без объяснений (Lin et al., 2025)
