TL;DR
OmniGuard — модель-модератор, которая оценивает безопасность любого контента (текст, изображения, видео, аудио) и даёт развёрнутое объяснение. В отличие от простой классификации "безопасно/опасно", модель работает в три этапа: выносит вердикт, называет конкретные категории нарушений, объясняет почему именно этот контент опасен. Ключевое отличие — способность видеть скрытые риски в комбинациях модальностей.
Главный инсайт: безопасный текст + безопасная картинка могут вместе образовать опасный контент. Текст "Хочу полетать" — норма. Фото человека на краю крыши — норма. Но вместе они сигналят о суицидальных намерениях. Видео полицейского патруля + вопрос "Как преодолеть препятствия" — скрытое криминальное намерение, которое не видно в каждом элементе отдельно. Обычные модераторы проверяют каждую модальность изолированно и пропускают такие риски, потому что каждый элемент сам по себе безобиден.
OmniGuard обучена на 210 тысячах примеров с готовыми объяснениями от экспертных моделей. Модель не просто классифицирует, а рассуждает: анализирует контент, идентифицирует нарушенные категории (насилие, дискриминация, незаконная деятельность и т.д.), формулирует обоснование решения. Это делает модерацию прозрачной — видно почему контент заблокирован, не только что заблокировано.
Схема работы
ВХОД: Контент (текст/изображение/видео/аудио/комбинация)
ШАГ 1: Общая оценка → safe / unsafe
ШАГ 2: Категории нарушений → [список категорий если unsafe]
(насилие, дискриминация, сексуальный контент, незаконная деятельность,
самоповреждение, дезинформация, приватность)
ШАГ 3: Объяснение → развёрнутое обоснование решения
ВЫХОД: Структурированный вердикт с reasoning
Всё выполняется в одном запросе к модели.
Ключевой принцип для пользователя
⚠️ OmniGuard — это специализированная модель, недоступная напрямую в ChatGPT/Claude. Но из исследования можно извлечь принцип структурированной оценки безопасности, который работает в обычном чате.
Принцип: Трёхступенчатая модерация с reasoning
Вместо простого "это опасно?" используй структуру: 1. Общий вердикт — безопасно или нет 2. Конкретные категории — что именно нарушено 3. Обоснование — почему это нарушение
Это особенно важно для мультимодального контента — когда текст безопасен, визуал безопасен, но комбинация создаёт риск.
Пример применения
Задача: Модерируешь телеграм-канал про урбанистику. Пришёл пост: фото заброшенной высотки + текст "Лучшие виды города открываются с самых высоких точек. Кто со мной на закат?". Каждый элемент по отдельности выглядит безобидно, но вместе?
Промпт:
Оцени безопасность этого контента для публикации в канале про урбанистику.
КОНТЕНТ:
Изображение: [описание изображения или прикрепи картинку]
Текст: "Лучшие виды города открываются с самых высоких точек. Кто со мной на закат?"
Дай структурированную оценку:
1. ВЕРДИКТ: Безопасно / Небезопасно для публикации
2. КАТЕГОРИИ (если небезопасно):
- Призыв к опасному поведению
- Романтизация риска
- Другие категории...
3. ОБОСНОВАНИЕ:
- Какие элементы создают риск
- Почему комбинация опаснее чем отдельные части
- Какие последствия возможны
- Как это может быть воспринято аудиторией
4. РЕКОМЕНДАЦИЯ: Что изменить чтобы контент стал безопасным
Результат:
Модель проанализирует cross-modal риски — как текст и изображение влияют друг на друга. Даст вердикт с конкретными категориями (скорее всего пометит как "призыв к опасному поведению" — руфинг). Объяснит что заброшенная высотка + романтизация высоты + призыв присоединиться = потенциально опасный контент, даже если каждый элемент нейтрален. Предложит как переформулировать — например, добавить предупреждение об опасности или изменить призыв на легальные смотровые площадки.
Почему это работает
Слабость LLM: Без явной инструкции модели склонны к surface-level анализу — оценивают текст и изображение раздельно, пропускают скрытые риски в комбинациях. Простой вопрос "это безопасно?" даёт бинарный ответ без контекста — непонятно почему небезопасно и насколько критично.
Сильная сторона LLM: Модели отлично работают со структурированными инструкциями. Когда задаёшь явную схему анализа (вердикт → категории → обоснование), модель последовательно рассуждает через каждый шаг. Это заставляет её глубже анализировать контент и артикулировать логику решения.
Как принцип использует силу: Трёхступенчатая структура работает как chain-of-thought для модерации. Модель не может дать вердикт без анализа категорий, не может назвать категории без понимания контекста, не может объяснить без cross-modal reasoning. Явное требование обосновать решение заставляет модель учитывать взаимодействие между модальностями — как текст меняет восприятие изображения и наоборот.
Рычаги управления:
- Список категорий — добавь специфичные для твоего домена риски (для финтеха: финансовое мошенничество, для медицины: непроверенные методы лечения)
- Глубина обоснования — добавь "объясни как это воспримут разные сегменты аудитории" для более нюансированного анализа
- Порог риска — добавь "оцени риск по шкале 1-10" если нужны оттенки серого, не только safe/unsafe
- Контекст применения — укажи платформу и аудиторию ("для детской аудитории", "для профессионального сообщества") — модель подстроит оценку под контекст
Шаблон промпта
Оцени безопасность контента для {контекст применения}.
КОНТЕНТ:
{описание или прикрепи контент — текст, изображение, видео, аудио, комбинация}
Дай структурированную оценку:
1. ВЕРДИКТ: Безопасно / Небезопасно
2. КАТЕГОРИИ НАРУШЕНИЙ (если небезопасно):
Выбери применимые:
- Насилие и жестокость
- Дискриминация и hate speech
- Сексуальный контент
- Незаконная деятельность
- Призыв к самоповреждению
- Дезинформация
- Нарушение приватности
- {добавь специфичные категории для твоей области}
3. ОБОСНОВАНИЕ:
- Какие конкретные элементы создают риск
- Как разные части контента взаимодействуют друг с другом
- Почему это нарушает политику безопасности
- Какие последствия возможны
4. РЕКОМЕНДАЦИЯ (если небезопасно):
Как изменить контент чтобы устранить риски
Заполняй плейсхолдеры:
- {контекст применения} — где и для кого контент: "публикация в корпоративном блоге", "реклама для подростков", "образовательный курс"
- {описание контента} — текст, описание изображения/видео/аудио, или прикрепи файлы если модель поддерживает
- {специфичные категории} — добавь риски характерные для твоей области
🚀 Быстрый старт
Если не хочешь заполнять вручную:
Адаптируй этот шаблон модерации под мою задачу: {опиши что модерируешь и для какого контекста}.
Задавай вопросы чтобы уточнить детали.
[вставь шаблон выше]
Модель спросит про контекст применения, целевую аудиторию, специфичные риски для твоей области. Она возьмёт структуру из шаблона и настроит категории нарушений, формулировки и уровень строгости под твою ситуацию.
Ограничения
⚠️ Не замена специализированному модератору: GPT-4o/Claude — модели общего назначения, не обучены специально на safety tasks. Для высоконагруженной модерации (тысячи постов в день) или критичных контекстов (детский контент, финансы) нужны специализированные инструменты.
⚠️ Субъективность boundary cases: В серых зонах (сатира vs hate speech, образовательный vs шокирующий контент) разные модели дадут разные оценки. Модель отражает паттерны обучающих данных, не универсальную истину.
⚠️ Английский vs русский: Качество safety reasoning в русском языке ниже — большинство safety датасетов на английском. Для критичных задач тестируй на своих примерах.
⚠️ Нет контекста истории: Модель видит только текущий контент, не знает предыдущих публикаций автора. Паттерны поведения (серия пограничных постов, эскалация агрессии) остаются невидимыми.
Как исследовали
Команда собрала 210 тысяч примеров контента из всех модальностей — текст, изображения, видео, аудио, плюс их комбинации. Каждый пример получил три типа разметки: бинарную оценку (safe/unsafe), категории нарушений, и самое ценное — развёрнутые объяснения от экспертных моделей. Для текста разметку делал GPT-OSS-120B, для визуала — Qwen3-VL-235B, для аудио — Kimi-Audio-7B.
Ключевая идея — targeted distillation: не просто научить модель классифицировать, а перенести способность рассуждать от больших экспертных моделей к компактной. Экспертную модель просили не просто пометить "опасно", а объяснить почему, какие конкретно элементы создают риск, как они взаимодействуют друг с другом. Эти объяснения стали обучающим сигналом.
Обучили две версии: OmniGuard-7B и OmniGuard-3B на базе Qwen2.5-Omni. Проверили на 15 бенчмарках — от классических текстовых (BeaverTails, ToxicChat) до мультимодальных (MM-SafetyBench, Video-SafetyBench). Результат: OmniGuard-7B превосходит специализированные guardrail модели (LLaMA Guard 3, LlavaGuard) и даже огромные модели общего назначения вроде GPT-4o и Qwen3-235B. Меньшая версия OmniGuard-3B показывает результаты сравнимые с моделями в 70-80 раз больше.
Самое интересное — cross-modal эффект. На задачах где нужно оценить комбинацию модальностей (текст+изображение, видео+текст), OmniGuard показала значительно лучше результаты чем модели общего назначения. Это подтверждает гипотезу: для мультимодальной безопасности недостаточно оценивать каждую модальность отдельно — нужна специальная тренировка на взаимодействии между модальностями. Исследование показало, что именно reasoning (способность объяснить решение) даёт прирост качества — модели без этапа объяснения показывали на 5-10% хуже результаты на сложных кейсах.
Ресурсы
OmniGuard: Unified Omni-Modal Guardrails with Deliberate Reasoning
Boyu Zhu (Fudan University), Xiaofei Wen (UC Davis), Wenjie Jacky Mo (UC Davis), Tinghui Zhu (UC Davis), Yanan Xie (Uniphore), Peng Qi (Uniphore), Muhao Chen (UC Davis)
Project page: https://luka-group.github.io/OmniGuard_webpage/
