3,583 papers
arXiv:2512.02306 68 1 дек. 2025 г. FREE

OmniGuard: структурированная оценка безопасности контента с объяснениями

КЛЮЧЕВАЯ СУТЬ
OmniGuard — модель-модератор, которая оценивает безопасность любого контента (текст, изображения, видео, аудио) и даёт развёрнутое объяснение. В отличие от простой классификации "безопасно/опасно", модель работает в три этапа: выносит вердикт, называет конкретные категории нарушений, объясняет почему именно этот контент опасен. Ключевое отличие — способность видеть скрытые риски в комбинациях модальностей.
Адаптировать под запрос

TL;DR

OmniGuard — модель-модератор, которая оценивает безопасность любого контента (текст, изображения, видео, аудио) и даёт развёрнутое объяснение. В отличие от простой классификации "безопасно/опасно", модель работает в три этапа: выносит вердикт, называет конкретные категории нарушений, объясняет почему именно этот контент опасен. Ключевое отличие — способность видеть скрытые риски в комбинациях модальностей.

Главный инсайт: безопасный текст + безопасная картинка могут вместе образовать опасный контент. Текст "Хочу полетать" — норма. Фото человека на краю крыши — норма. Но вместе они сигналят о суицидальных намерениях. Видео полицейского патруля + вопрос "Как преодолеть препятствия" — скрытое криминальное намерение, которое не видно в каждом элементе отдельно. Обычные модераторы проверяют каждую модальность изолированно и пропускают такие риски, потому что каждый элемент сам по себе безобиден.

OmniGuard обучена на 210 тысячах примеров с готовыми объяснениями от экспертных моделей. Модель не просто классифицирует, а рассуждает: анализирует контент, идентифицирует нарушенные категории (насилие, дискриминация, незаконная деятельность и т.д.), формулирует обоснование решения. Это делает модерацию прозрачной — видно почему контент заблокирован, не только что заблокировано.

📌

Схема работы

ВХОД: Контент (текст/изображение/видео/аудио/комбинация)

ШАГ 1: Общая оценка → safe / unsafe

ШАГ 2: Категории нарушений → [список категорий если unsafe]
(насилие, дискриминация, сексуальный контент, незаконная деятельность, 
самоповреждение, дезинформация, приватность)

ШАГ 3: Объяснение → развёрнутое обоснование решения

ВЫХОД: Структурированный вердикт с reasoning

Всё выполняется в одном запросе к модели.

📌

Ключевой принцип для пользователя

⚠️ OmniGuard — это специализированная модель, недоступная напрямую в ChatGPT/Claude. Но из исследования можно извлечь принцип структурированной оценки безопасности, который работает в обычном чате.

📌

Принцип: Трёхступенчатая модерация с reasoning

Вместо простого "это опасно?" используй структуру: 1. Общий вердикт — безопасно или нет 2. Конкретные категории — что именно нарушено 3. Обоснование — почему это нарушение

Это особенно важно для мультимодального контента — когда текст безопасен, визуал безопасен, но комбинация создаёт риск.

🚀

Пример применения

Задача: Модерируешь телеграм-канал про урбанистику. Пришёл пост: фото заброшенной высотки + текст "Лучшие виды города открываются с самых высоких точек. Кто со мной на закат?". Каждый элемент по отдельности выглядит безобидно, но вместе?

Промпт:

Оцени безопасность этого контента для публикации в канале про урбанистику.

КОНТЕНТ:
Изображение: [описание изображения или прикрепи картинку]
Текст: "Лучшие виды города открываются с самых высоких точек. Кто со мной на закат?"

Дай структурированную оценку:

1. ВЕРДИКТ: Безопасно / Небезопасно для публикации

2. КАТЕГОРИИ (если небезопасно):
   - Призыв к опасному поведению
   - Романтизация риска
   - Другие категории...

3. ОБОСНОВАНИЕ:
   - Какие элементы создают риск
   - Почему комбинация опаснее чем отдельные части
   - Какие последствия возможны
   - Как это может быть воспринято аудиторией

4. РЕКОМЕНДАЦИЯ: Что изменить чтобы контент стал безопасным

Результат:

Модель проанализирует cross-modal риски — как текст и изображение влияют друг на друга. Даст вердикт с конкретными категориями (скорее всего пометит как "призыв к опасному поведению" — руфинг). Объяснит что заброшенная высотка + романтизация высоты + призыв присоединиться = потенциально опасный контент, даже если каждый элемент нейтрален. Предложит как переформулировать — например, добавить предупреждение об опасности или изменить призыв на легальные смотровые площадки.

🧠

Почему это работает

Слабость LLM: Без явной инструкции модели склонны к surface-level анализу — оценивают текст и изображение раздельно, пропускают скрытые риски в комбинациях. Простой вопрос "это безопасно?" даёт бинарный ответ без контекста — непонятно почему небезопасно и насколько критично.

Сильная сторона LLM: Модели отлично работают со структурированными инструкциями. Когда задаёшь явную схему анализа (вердикт → категории → обоснование), модель последовательно рассуждает через каждый шаг. Это заставляет её глубже анализировать контент и артикулировать логику решения.

Как принцип использует силу: Трёхступенчатая структура работает как chain-of-thought для модерации. Модель не может дать вердикт без анализа категорий, не может назвать категории без понимания контекста, не может объяснить без cross-modal reasoning. Явное требование обосновать решение заставляет модель учитывать взаимодействие между модальностями — как текст меняет восприятие изображения и наоборот.

Рычаги управления:

  • Список категорий — добавь специфичные для твоего домена риски (для финтеха: финансовое мошенничество, для медицины: непроверенные методы лечения)
  • Глубина обоснования — добавь "объясни как это воспримут разные сегменты аудитории" для более нюансированного анализа
  • Порог риска — добавь "оцени риск по шкале 1-10" если нужны оттенки серого, не только safe/unsafe
  • Контекст применения — укажи платформу и аудиторию ("для детской аудитории", "для профессионального сообщества") — модель подстроит оценку под контекст
📋

Шаблон промпта

Оцени безопасность контента для {контекст применения}.

КОНТЕНТ:
{описание или прикрепи контент — текст, изображение, видео, аудио, комбинация}

Дай структурированную оценку:

1. ВЕРДИКТ: Безопасно / Небезопасно

2. КАТЕГОРИИ НАРУШЕНИЙ (если небезопасно):
   Выбери применимые:
   - Насилие и жестокость
   - Дискриминация и hate speech
   - Сексуальный контент
   - Незаконная деятельность
   - Призыв к самоповреждению
   - Дезинформация
   - Нарушение приватности
   - {добавь специфичные категории для твоей области}

3. ОБОСНОВАНИЕ:
   - Какие конкретные элементы создают риск
   - Как разные части контента взаимодействуют друг с другом
   - Почему это нарушает политику безопасности
   - Какие последствия возможны

4. РЕКОМЕНДАЦИЯ (если небезопасно):
   Как изменить контент чтобы устранить риски

Заполняй плейсхолдеры: - {контекст применения} — где и для кого контент: "публикация в корпоративном блоге", "реклама для подростков", "образовательный курс" - {описание контента} — текст, описание изображения/видео/аудио, или прикрепи файлы если модель поддерживает - {специфичные категории} — добавь риски характерные для твоей области

📌

🚀 Быстрый старт

Если не хочешь заполнять вручную:

Адаптируй этот шаблон модерации под мою задачу: {опиши что модерируешь и для какого контекста}.
Задавай вопросы чтобы уточнить детали.

[вставь шаблон выше]

Модель спросит про контекст применения, целевую аудиторию, специфичные риски для твоей области. Она возьмёт структуру из шаблона и настроит категории нарушений, формулировки и уровень строгости под твою ситуацию.

⚠️

Ограничения

⚠️ Не замена специализированному модератору: GPT-4o/Claude — модели общего назначения, не обучены специально на safety tasks. Для высоконагруженной модерации (тысячи постов в день) или критичных контекстов (детский контент, финансы) нужны специализированные инструменты.

⚠️ Субъективность boundary cases: В серых зонах (сатира vs hate speech, образовательный vs шокирующий контент) разные модели дадут разные оценки. Модель отражает паттерны обучающих данных, не универсальную истину.

⚠️ Английский vs русский: Качество safety reasoning в русском языке ниже — большинство safety датасетов на английском. Для критичных задач тестируй на своих примерах.

⚠️ Нет контекста истории: Модель видит только текущий контент, не знает предыдущих публикаций автора. Паттерны поведения (серия пограничных постов, эскалация агрессии) остаются невидимыми.

🔍

Как исследовали

Команда собрала 210 тысяч примеров контента из всех модальностей — текст, изображения, видео, аудио, плюс их комбинации. Каждый пример получил три типа разметки: бинарную оценку (safe/unsafe), категории нарушений, и самое ценное — развёрнутые объяснения от экспертных моделей. Для текста разметку делал GPT-OSS-120B, для визуала — Qwen3-VL-235B, для аудио — Kimi-Audio-7B.

Ключевая идея — targeted distillation: не просто научить модель классифицировать, а перенести способность рассуждать от больших экспертных моделей к компактной. Экспертную модель просили не просто пометить "опасно", а объяснить почему, какие конкретно элементы создают риск, как они взаимодействуют друг с другом. Эти объяснения стали обучающим сигналом.

Обучили две версии: OmniGuard-7B и OmniGuard-3B на базе Qwen2.5-Omni. Проверили на 15 бенчмарках — от классических текстовых (BeaverTails, ToxicChat) до мультимодальных (MM-SafetyBench, Video-SafetyBench). Результат: OmniGuard-7B превосходит специализированные guardrail модели (LLaMA Guard 3, LlavaGuard) и даже огромные модели общего назначения вроде GPT-4o и Qwen3-235B. Меньшая версия OmniGuard-3B показывает результаты сравнимые с моделями в 70-80 раз больше.

Самое интересное — cross-modal эффект. На задачах где нужно оценить комбинацию модальностей (текст+изображение, видео+текст), OmniGuard показала значительно лучше результаты чем модели общего назначения. Это подтверждает гипотезу: для мультимодальной безопасности недостаточно оценивать каждую модальность отдельно — нужна специальная тренировка на взаимодействии между модальностями. Исследование показало, что именно reasoning (способность объяснить решение) даёт прирост качества — модели без этапа объяснения показывали на 5-10% хуже результаты на сложных кейсах.

🔗

Ресурсы

OmniGuard: Unified Omni-Modal Guardrails with Deliberate Reasoning

Boyu Zhu (Fudan University), Xiaofei Wen (UC Davis), Wenjie Jacky Mo (UC Davis), Tinghui Zhu (UC Davis), Yanan Xie (Uniphore), Peng Qi (Uniphore), Muhao Chen (UC Davis)

Project page: https://luka-group.github.io/OmniGuard_webpage/


Методы

МетодСуть
Вердикт Категории Объяснение — против поверхностного анализа безопасностиСтруктурируй запрос в 3 шага: 1. ВЕРДИКТ: Безопасно/Небезопасно 2. КАТЕГОРИИ: [список нарушений] 3. ОБОСНОВАНИЕ: почему это риск. Механика: работает как chain-of-thought для модерации — модель не может дать вердикт без анализа категорий, не может объяснить без учёта взаимодействий между частями контента (текст меняет восприятие изображения). Особенно эффективно для мультимодального контента — выявляет скрытые риски в комбинациях (безопасный текст + безопасное фото = опасный смысл). Для: модерация контента, оценка серых зон, задачи где нужна прозрачность решения. НЕ для: простые бинарные проверки, когда объяснение не требуется
📖 Простыми словами

OmniGuard: структурированная оценка безопасности контента с объяснениями

arXiv: 2512.02306

Нынешние фильтры безопасности в нейросетях работают как сонный охранник на входе: он либо пускает всех подряд, либо закрывает дверь перед носом без объяснения причин. OmniGuard меняет правила игры, внедряя осознанное рассуждение в процесс модерации. Вместо того чтобы просто выплюнуть вердикт «ок» или «не ок», модель раскладывает контент на атомы в три этапа: сначала дает общую оценку, потом тыкает пальцем в конкретную статью нарушений и в финале пишет подробный отчет, почему это вообще считается опасным. Главная фишка здесь в омни-модальности — нейронка одновременно «слышит», «видит» и «читает», понимая контекст, который обычные классификаторы просто в упор не замечают.

Это как если бы вы показали цензору фотографию обычного кухонного ножа и текст с рецептом салата — по отдельности всё чисто. Но если на фото тот же нож, а в тексте адрес соседа и фраза «пора навестить старика», ситуация резко меняется. Обычные модели часто лажают на таких скрытых комбинациях, потому что анализируют картинку и текст в разных «коробочках». OmniGuard же видит всю картину целиком и понимает, что сумма факторов дает криминал, даже если слагаемые выглядят вполне невинно. Формально всё может быть легально, но модель считывает намерение, а не просто набор пикселей и букв.

Внутри системы крутится механизм, который исследователи называют целенаправленным рассуждением. Модель не просто гадает на кофейной гуще, а сопоставляет входные данные с жесткой иерархией политик безопасности. Если в видео кто-то шутит про самодельные петарды, OmniGuard не просто забанит ролик, а четко аргументирует: здесь есть инструкция по созданию опасных предметов, что нарушает конкретный пункт правил. Это избавляет от «черных ящиков» в модерации, когда контент удаляют, а автор сидит и гадает, какая именно муха укусила алгоритм.

Хотя систему гоняли на тестах безопасности, этот принцип прозрачной фильтрации применим везде — от клиентской поддержки до корпоративных чатов. Любой бизнес, где нужно отсеивать токсичность, спам или утечки данных, может использовать этот паттерн. OmniGuard доказывает, что эпоха тупых фильтров, работающих по ключевым словам, закончилась. Теперь модерация — это не просто забор с колючей проволокой, а интеллектуальный аудит, который понимает иронию, подтекст и сложные угрозы в реальном времени.

Короче, пора перестать надеяться на примитивные «черные списки» — они дырявые и легко обходятся любым троллем. Будущее за моделями, которые умеют объяснять свои решения и видеть связи между картинкой и звуком. Если ваш модератор не может внятно ответить, за что он забанил пост, значит, он безнадежно устарел. OmniGuard задает стандарт: либо нейронка понимает контекст на уровне человека, либо это просто бесполезная трата вычислительных мощностей.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с