3,583 papers
arXiv:2508.05360 73 7 авг. 2025 г. FREE

Четырёхуровневая защита от токсичного контента: как Oak National Academy фильтрует AI-уроки

КЛЮЧЕВАЯ СУТЬ
Проблема: Проверяешь AI-текст в том же чате – модель защищает свой вывод и пропускает токсичность в контексте диалога. Метод независимой модерации позволяет объективно фильтровать AI-контент на риски (токсичность, юридические косяки, чувствительные темы для аудитории). Отправляешь текст в новый чат – агент не знает твоей задачи, видит только голый результат. Как незнакомец читает впервые – свежий взгляд ловит скрытые проблемы. Oak Academy использует четыре слоя: промпт-правила → детекция атак → независимый агент (оценка 1-5 по трём категориям) → учитель как финальный фильтр.
Адаптировать под запрос

TL;DR

Исследователи Oak National Academy построили четырёхслойную систему фильтрации контента для AI-ассистента планирования уроков Aila. Ключевая идея — независимая оценка без контекста: отдельный AI-агент проверяет каждый кусок контента, не зная ни задачи учителя, ни инструкций основной модели. Это как отдать текст незнакомцу — он увидит токсичность, которую вы могли пропустить в своём контексте.

Главная находка: Модели генерируют разный контент каждый раз, поэтому одноразовое тестирование не работает. Oak создала иллюстративный датасет из 1000+ уроков — прогнали AI по типовым темам без участия человека, чтобы увидеть границы системы. Например, урок "Оружие массового поражения" для 11 класса по религиоведению (этика войны) — нормально. Но тот же заголовок в начале генерации триггерит блокировку. Контекст меняет всё.

Суть защиты: Четыре слоя последовательно. (1) Промпт с правилами — что можно и нельзя создавать. (2) Детекция атак на вводе — блокирует jailbreak-попытки. (3) Независимый агент модерации — оценивает каждый блок контента по шкале 1-5 в трёх категориях (безопасно / требует внимания / токсично). (4) Учитель как финальный фильтр — проверяет перед использованием в классе.

🔬

Схема метода

ШАГ 1: Промпт-инструкции → что можно/нельзя генерировать (встроено в основную модель)

ШАГ 2: Детекция атак на вводе → блокирует jailbreak и манипуляции

ШАГ 3: Независимый агент (IACMA) → оценивает каждый блок контента
 - Safe (5 баллов) → проходит
 - Content guidance (<5) → показывает предупреждение учителю
 - Toxic (<5) → блокирует весь урок, завершает сессию

ШАГ 4: Учитель проверяет → финальный контроль перед классом

Важно: Шаги 1-3 выполняются автоматически. Агент модерации работает независимо — не знает ни задачи пользователя, ни инструкций основной модели.

🚀

Пример применения

⚠️ Метод разработан для образовательной системы с кодом и API. Ниже — адаптация принципа независимой модерации для личного использования в чате.

Задача: Вы пишете статью про влияние соцсетей на подростков. Хотите проверить текст на токсичность и потенциально опасные идеи — не хотите случайно романтизировать селфхарм или давать плохие советы.

Промпт (два запроса):

Запрос 1 — генерация контента:

Напиши раздел статьи (500 слов) о влиянии соцсетей на психическое здоровье подростков. 
Фокус на реальные риски: зависимость, сравнение себя с другими, буллинг. 
Тон — информативный, без паники, с опорой на исследования.

Запрос 2 — независимая модерация (в НОВОМ чате, без контекста):

Ты — модератор контента для подростковой аудитории (12-18 лет).

Оцени текст ниже по трём категориям. Для каждой дай оценку 1-5 и объяснение.

КАТЕГОРИИ:
1. Safe (безопасно) — контент не содержит ничего вредного
2. Content guidance (требует внимания) — контент корректен, но может задеть чувствительные темы
3. Toxic (токсично) — контент опасен: романтизирует селфхарм, содержит инструкции по причинению вреда, дискриминацию

ШКАЛА: 1 = серьёзная проблема, 5 = никаких проблем

---
[Вставить текст из первого запроса]

Результат: Модель оценит текст независимо, без знания вашей задачи. Вы увидите числовые оценки по каждой категории + обоснование. Если "Content guidance" < 5 — читайте критически и добавьте контекст. Если "Toxic" < 5 — переделывайте.

Почему новый чат: Если проверять в том же чате, модель будет защищать свой же текст или объяснять контекст. В новом чате — она видит только голый текст, как незнакомый читатель.

🧠

Почему это работает

Проблема: AI генерирует контент под ваш запрос и контекст диалога. Если вы спросите "всё ли тут ОК?" в том же чате — модель будет защищать свой ответ, потому что помнит задачу и ваши намерения. Токсичность теряется в контексте.

Сильная сторона LLM: Модели хорошо оценивают контент изолированно — когда не знают ни задачи автора, ни предыстории. Как редактор, который видит текст первый раз: свежий взгляд ловит то, что автор пропустил.

Как метод использует это: Разделяет генерацию и модерацию. Первый промпт создаёт контент, второй — оценивает без контекста, как будто это чужой текст. Агент модерации не знает, что вы хотели сказать — он видит только результат. Это убирает предвзятость и ловит скрытые риски.

Рычаги управления:

  1. Категории модерации → адаптируйте под свою задачу:
    • Для бизнес-текстов: юридические риски, неподтверждённые факты, спорные утверждения
    • Для личного контента: privacy, чувствительность, tone
  2. Шкала оценки → Oak использует 1-5, но можно упростить до бинарного "проходит / не проходит" для быстрой фильтрации
  3. Детализация → попросите агента показать конкретные фрагменты, которые вызвали низкую оценку — это ускорит исправление
  4. Чувствительность → Oak намеренно сделали агента пересторожным (лучше ложная тревога, чем пропуск токсичности). Для личного использования можно ослабить: "оценивай строго, но без паранойи"
📋

Шаблон промпта

Промпт для независимой модерации (используй в НОВОМ чате):

Ты — независимый модератор контента для {целевая_аудитория}.

Оцени текст ниже по категориям. Для каждой дай оценку 1-5 и краткое обоснование.

КАТЕГОРИИ МОДЕРАЦИИ:
1. {категория_1} — {описание_что_проверять}
2. {категория_2} — {описание_что_проверять}
3. {категория_3} — {описание_что_проверять}

ШКАЛА ОЦЕНКИ:
1 = серьёзная проблема
3 = требует внимания
5 = никаких проблем

ФОРМАТ ОТВЕТА:
Категория | Оценка | Обоснование
[название] | [1-5] | [почему такая оценка]

Если оценка < 5, укажи конкретные фрагменты текста, которые вызвали снижение.

---
ТЕКСТ ДЛЯ МОДЕРАЦИИ:
{твой_текст}

Что подставлять:

  • {целевая_аудитория} — для кого контент: подростки, корпоративные клиенты, инвесторы
  • {категория_N} — что проверять: токсичность, юридические риски, фактчекинг, тон
  • {твой_текст} — контент из первого запроса

Пример заполнения для корпоративного контента:

Категории:
1. Юридические риски — обещания без оговорок, неподтверждённые данные, спорные утверждения
2. Tone — агрессивность, снисходительность, манипулятивность
3. Privacy — упоминания конкретных людей, компаний, чувствительных данных

🚀 Быстрый старт — вставь в новый чат:

Вот шаблон независимой модерации контента. Адаптируй под мою задачу: [твоя задача и аудитория].
Предложи категории для проверки.

[вставить шаблон выше]

LLM спросит про целевую аудиторию и тип контента — чтобы подобрать релевантные категории модерации. Например, для медицинских текстов добавит проверку на непроверенные методы лечения, для образовательных — на возрастную уместность.

⚠️

Ограничения

⚠️ Стоимость токенов: Каждая независимая проверка = новый запрос. Для больших текстов это дорого. Oak решает через асинхронные проверки кусками — вы так не сможете.

⚠️ Несогласованность модели: AI даёт разные оценки на один текст при повторных проверках. Oak борется с этим массовым тестированием — у вас будет одна оценка, и она может быть неточной.

⚠️ Контекст важен, но его нет: Метод специально убирает контекст для объективности. Но иногда контекст критичен для понимания уместности. Урок про оружие для религиоведения — ОК, тот же текст в другом контексте — токсично. Агент без контекста этого не увидит.

⚠️ Пересторожность vs полезность: Oak намеренно сделали систему oversensitive — лучше заблокировать безобидное, чем пропустить токсичное. Для личного использования это раздражает: модель будет триггерить на безобидные фразы.

🔍

Как исследовали

Команда Oak National Academy тестировала свою систему модерации на трёх уровнях сложности:

1. Pre-launch тест на экспертном корпусе Взяли 10,000 уроков, созданных профессиональными методистами и уже проверенных людьми на чувствительный контент. Прогнали через IACMA — агент модерации должен был давать такие же оценки, как эксперты. Это калибровка: обучили агента думать как человек-модератор.

2. Stress-test через red-teaming Пригласили специалистов по безопасности AI пытаться сломать систему — jailbreak, токсичные запросы, обход фильтров. Проверяли по HarmBench — стандартизированному фреймворку для оценки защиты от вредного контента. Это выявило слабые места до запуска.

3. Реальное использование + иллюстративный датасет После запуска учителя создали 45,000 реальных уроков. Параллельно команда сама сгенерировала 1000+ "иллюстративных" уроков — прогнали AI по типовым темам национальной программы БЕЗ участия учителя, чтобы увидеть базовое поведение системы.

Почему это важно: Выяснилось, что реальные уроки часто получают другие категории модерации, чем иллюстративные на ту же тему. Причина — ввод учителя сдвигает контент. Учитель может увести урок в сторону от учебной программы, и модерация меняется. Пример: урок про наркотики для 11 класса (биология) — безопасно. Тот же урок, но учитель просит добавить "личный опыт употребления" — токсично.

Неожиданная находка: Модерация в процессе создания отличается от модерации готового урока. Агент проверяет каждый блок контента по мере генерации. Урок "Оружие массового поражения" на старте триггерит "toxic" по заголовку — система блокирует. Но если бы урок был создан полностью (религиоведение, этика войны, GCSE-программа), итоговая модерация была бы "content guidance". В реальности этот урок никогда не доходит до конца — блокируется на первом шаге.

Инсайт для практики: Тестировать AI-модерацию нужно поэтапно, как она работает в продакшене — не только на готовых текстах. Иначе пропустишь проблемы, которые видны только в процессе.

📄

Оригинал из исследования

Контекст: Oak использует 5-балльную шкалу Likert для оценки контента по каждой подкатегории. Оценка 5 = "no concern". Ниже 5 в категории "content guidance" → показывается предупреждение учителю. Ниже 5 в категории "toxic" → урок блокируется, сессия завершается, отправляется алерт команде.

Категории модерации IACMA (из исследования):

SAFE: content is appropriate for use in classrooms with the specified age group

CONTENT GUIDANCE: content is appropriate but may require additional considerations 
or sensitivity from the teacher when delivering. Topics include:
- Physical or practical activities
- Upsetting/sensitive content or language
- Discussion of discriminatory behaviour or language
- Nudity or sexual content
- Violence or crime

TOXIC: inappropriate for use in classrooms (highly sensitive or harmful). Includes:
- Encouraging harmful behaviour (inc. self-harm) or illegal activity
- Creation of weapons or harmful substances
- Encouragement of violence

Из промпта IACMA (принцип работы):

The agent is context-unaware—it has no knowledge of:
- What Aila was instructed to do
- What the user inputted
- The lesson topic or age group

This ensures the judgement is based ONLY on the content itself, 
not influenced by the original intent or context.
💡

Адаптации и экстраполяции

📌

💡 Адаптация для оценки публичных высказываний

Задача: Вы готовите пост для LinkedIn / Telegram / Twitter. Хотите проверить на репутационные риски до публикации — не хотите случайно оскорбить аудиторию или нарваться на негатив.

Промпт для модерации (в новом чате):

Ты — PR-консультант. Оцени публичное высказывание ниже на репутационные риски.

КАТЕГОРИИ ОЦЕНКИ (1-5, где 1 = проблема, 5 = чисто):

1. Tone — агрессивность, снисходительность, высокомерие
2. Controversial statements — спорные политические/религиозные/социальные взгляды
3. Privacy risks — упоминания конкретных людей/компаний без согласия
4. Factual accuracy — неподтверждённые утверждения, которые можно опровергнуть

Для каждой категории < 5 укажи **конкретные фрагменты** и предложи исправление.

---
ТЕКСТ:
{твой_пост}

Эффект: Модель ловит то, что вы не замечаете в пылу написания — пассивную агрессию, неочевидные триггеры аудитории, фактические ошибки. Проверка занимает 30 секунд, может спасти репутацию.


📌

🔧 Техника: Двухраундная модерация → снизить false positives

Проблема: Независимый агент без контекста часто даёт ложные срабатывания — блокирует безобидный контент, потому что не понимает задачу.

Решение: Добавьте второй раунд с контекстом для спорных случаев.

Модифицированный процесс:

Раунд 1 — Независимая оценка (как выше):

[Независимая модерация без контекста]
Результат: оценка по категориям

Раунд 2 — Модерация с контекстом (если оценка < 5):

Ты — эксперт по [твоя_область]. Перепроверь оценку коллеги.

КОНТЕКСТ ЗАДАЧИ:
{зачем_создавался_контент}
{для_кого_предназначен}

ПЕРВОНАЧАЛЬНАЯ ОЦЕНКА:
{результат_из_раунда_1}

ВОПРОС: С учётом контекста, оценка справедлива? Или это false positive?

---
ТЕКСТ:
{твой_текст}

Эффект: Два фильтра последовательно. Первый ловит явную токсичность без предвзятости. Второй проверяет — не переусердствовал ли первый с учётом реальной задачи. Это снижает раздражение от пересторожной модерации, сохраняя безопасность.


📌

💡 Экстраполяция: Модерация диалогов в реальном времени

Принцип Oak: Модерация по кускам в процессе генерации. Это можно применить к длинным диалогам.

Задача: У вас длинный разговор с AI (50+ сообщений). Хотите проверить — не наплодили ли вы вместе галлюцинаций, противоречий, токсичного контента.

Промпт (в новом чате):

Ты — аудитор AI-диалогов. Оцени следующий разговор по блокам.

ПРОВЕРЯЙ КАЖДЫЕ 10 СООБЩЕНИЙ ОТДЕЛЬНО:
1. Фактическая согласованность — противоречия между блоками
2. Дрейф контекста — AI забыла начальную задачу и ушла в сторону
3. Галлюцинации — AI выдумывает факты без источников

ФОРМАТ:
Блок 1 (сообщения 1-10): [оценка + проблемы]
Блок 2 (сообщения 11-20): [оценка + проблемы]
...

Итог: [общий вердикт + рекомендации]

---
ДИАЛОГ:
{твой_разговор_с_AI}

Эффект: Вместо оценки всего диалога целиком (где модель может пропустить детали) — проверка посекционно. Так легче найти момент, где разговор съехал с рельсов.

🔗

Ресурсы

Building Effective Safety Guardrails in AI Education Tools

Hannah-Beth Clark, Laura Benton, Emma Searle, Margaux Dowland, Matthew Gregory, Will Gayne, John Roberts

Oak National Academy, UK

Conference: International Conference on Artificial Intelligence in Education (AIED), 2025

https://doi.org/10.1007/978-3-031-99261-2_12

Открытые ресурсы:

Связанные работы:

  • HarmBench: стандартизированный фреймворк для оценки защиты от вредного контента (Mazeika et al., 2024)
  • UK Government Guidance: Generative AI in Education (Department for Education, 2025)

📋 Дайджест исследования

Ключевая суть

Проблема: Проверяешь AI-текст в том же чате – модель защищает свой вывод и пропускает токсичность в контексте диалога. Метод независимой модерации позволяет объективно фильтровать AI-контент на риски (токсичность, юридические косяки, чувствительные темы для аудитории). Отправляешь текст в новый чат – агент не знает твоей задачи, видит только голый результат. Как незнакомец читает впервые – свежий взгляд ловит скрытые проблемы. Oak Academy использует четыре слоя: промпт-правила → детекция атак → независимый агент (оценка 1-5 по трём категориям) → учитель как финальный фильтр.

Принцип работы

Разделяешь генерацию и модерацию. Запрос 1 (чат А): создаёшь контент. Запрос 2 (новый чат Б): проверяешь как независимый модератор. Агент не помнит задачу, не знает контекста – видит только текст, как незнакомец. Даёшь ему категории для проверки (например: токсичность, юридические риски, tone) и шкалу 1-5. Модель оценивает каждую категорию + показывает конкретные фрагменты, если оценка меньше 5.

Почему работает

Модели защищают свой вывод когда помнят контекст. Спрашиваешь "всё ОК?" в том же чате – AI объясняет почему спорная фраза уместна, вместо объективной оценки. Изоляция убирает предвзятость – агент видит текст как чужой. Oak обнаружила парадокс: урок "Оружие массового поражения" для религиоведения (этика войны) – ОК, тот же заголовок без контекста – токсично. Контекст меняет восприятие, поэтому независимая оценка ловит риски, которые пропустишь в своём чате.

Когда применять

Образовательный контент → для проверки уроков, материалов для детей, особенно когда тема чувствительная (насилие, политика, этика). Корпоративные тексты → фильтруешь юридические риски, непроверенные данные, агрессивный tone. Личный контент → статьи для подростков, посты в соцсетях, где важна безопасность аудитории. НЕ подходит если контекст критичен для понимания уместности – агент без контекста не увидит nuance.

Мини-рецепт

1. Генерируешь контент (чат А): Обычный промпт для AI – создай текст/урок/статью
2. Открываешь новый чат (чат Б): Критически важно – НЕ в том же окне
3. Промпт модератора: Ты независимый модератор для [аудитория]. Оцени текст по категориям [Safe / Content guidance / Toxic]. Шкала 1-5. Если < 5 – покажи проблемные фрагменты
4. Вставляешь текст из первого чата: Агент оценивает изолированно
5. Читаешь оценки: Если категория < 5 – смотришь конкретные фрагменты и решаешь переделывать или добавить контекст

Примеры

[ПЛОХО] : Напиши статью о влиянии соцсетей на подростков. [AI пишет текст] Всё ли тут безопасно для аудитории 12-18? (Модель защищает свой вывод, пропускает романтизацию селфхарма в контексте информативной статьи)
[ХОРОШО] : Чат А: Статья о влиянии соцсетей на подростков, 500 слов, риски: зависимость + буллинг Чат Б (новый): Модератор для 12-18 лет. Оцени по: Safe / Content guidance / Toxic. Шкала 1-5. Покажи проблемные фрагменты если < 5. Текст: [вставить из А] (Агент находит фразу "подростки находят утешение онлайн" – Content guidance 3/5, может читаться как поощрение изоляции)
Источник: Building Effective Safety Guardrails in AI Education Tools
ArXiv ID: 2508.05360 | Сгенерировано: 2026-01-12 05:43

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с