TL;DR
Исследователи Oak National Academy построили четырёхслойную систему фильтрации контента для AI-ассистента планирования уроков Aila. Ключевая идея — независимая оценка без контекста: отдельный AI-агент проверяет каждый кусок контента, не зная ни задачи учителя, ни инструкций основной модели. Это как отдать текст незнакомцу — он увидит токсичность, которую вы могли пропустить в своём контексте.
Главная находка: Модели генерируют разный контент каждый раз, поэтому одноразовое тестирование не работает. Oak создала иллюстративный датасет из 1000+ уроков — прогнали AI по типовым темам без участия человека, чтобы увидеть границы системы. Например, урок "Оружие массового поражения" для 11 класса по религиоведению (этика войны) — нормально. Но тот же заголовок в начале генерации триггерит блокировку. Контекст меняет всё.
Суть защиты: Четыре слоя последовательно. (1) Промпт с правилами — что можно и нельзя создавать. (2) Детекция атак на вводе — блокирует jailbreak-попытки. (3) Независимый агент модерации — оценивает каждый блок контента по шкале 1-5 в трёх категориях (безопасно / требует внимания / токсично). (4) Учитель как финальный фильтр — проверяет перед использованием в классе.
Схема метода
ШАГ 1: Промпт-инструкции → что можно/нельзя генерировать (встроено в основную модель)
ШАГ 2: Детекция атак на вводе → блокирует jailbreak и манипуляции
ШАГ 3: Независимый агент (IACMA) → оценивает каждый блок контента
- Safe (5 баллов) → проходит
- Content guidance (<5) → показывает предупреждение учителю
- Toxic (<5) → блокирует весь урок, завершает сессию
ШАГ 4: Учитель проверяет → финальный контроль перед классом
Важно: Шаги 1-3 выполняются автоматически. Агент модерации работает независимо — не знает ни задачи пользователя, ни инструкций основной модели.
Пример применения
⚠️ Метод разработан для образовательной системы с кодом и API. Ниже — адаптация принципа независимой модерации для личного использования в чате.
Задача: Вы пишете статью про влияние соцсетей на подростков. Хотите проверить текст на токсичность и потенциально опасные идеи — не хотите случайно романтизировать селфхарм или давать плохие советы.
Промпт (два запроса):
Запрос 1 — генерация контента:
Напиши раздел статьи (500 слов) о влиянии соцсетей на психическое здоровье подростков.
Фокус на реальные риски: зависимость, сравнение себя с другими, буллинг.
Тон — информативный, без паники, с опорой на исследования.
Запрос 2 — независимая модерация (в НОВОМ чате, без контекста):
Ты — модератор контента для подростковой аудитории (12-18 лет).
Оцени текст ниже по трём категориям. Для каждой дай оценку 1-5 и объяснение.
КАТЕГОРИИ:
1. Safe (безопасно) — контент не содержит ничего вредного
2. Content guidance (требует внимания) — контент корректен, но может задеть чувствительные темы
3. Toxic (токсично) — контент опасен: романтизирует селфхарм, содержит инструкции по причинению вреда, дискриминацию
ШКАЛА: 1 = серьёзная проблема, 5 = никаких проблем
---
[Вставить текст из первого запроса]
Результат: Модель оценит текст независимо, без знания вашей задачи. Вы увидите числовые оценки по каждой категории + обоснование. Если "Content guidance" < 5 — читайте критически и добавьте контекст. Если "Toxic" < 5 — переделывайте.
Почему новый чат: Если проверять в том же чате, модель будет защищать свой же текст или объяснять контекст. В новом чате — она видит только голый текст, как незнакомый читатель.
Почему это работает
Проблема: AI генерирует контент под ваш запрос и контекст диалога. Если вы спросите "всё ли тут ОК?" в том же чате — модель будет защищать свой ответ, потому что помнит задачу и ваши намерения. Токсичность теряется в контексте.
Сильная сторона LLM: Модели хорошо оценивают контент изолированно — когда не знают ни задачи автора, ни предыстории. Как редактор, который видит текст первый раз: свежий взгляд ловит то, что автор пропустил.
Как метод использует это: Разделяет генерацию и модерацию. Первый промпт создаёт контент, второй — оценивает без контекста, как будто это чужой текст. Агент модерации не знает, что вы хотели сказать — он видит только результат. Это убирает предвзятость и ловит скрытые риски.
Рычаги управления:
- Категории модерации → адаптируйте под свою задачу:
- Для бизнес-текстов: юридические риски, неподтверждённые факты, спорные утверждения
- Для личного контента: privacy, чувствительность, tone
- Шкала оценки → Oak использует 1-5, но можно упростить до бинарного "проходит / не проходит" для быстрой фильтрации
- Детализация → попросите агента показать конкретные фрагменты, которые вызвали низкую оценку — это ускорит исправление
- Чувствительность → Oak намеренно сделали агента пересторожным (лучше ложная тревога, чем пропуск токсичности). Для личного использования можно ослабить: "оценивай строго, но без паранойи"
Шаблон промпта
Промпт для независимой модерации (используй в НОВОМ чате):
Ты — независимый модератор контента для {целевая_аудитория}.
Оцени текст ниже по категориям. Для каждой дай оценку 1-5 и краткое обоснование.
КАТЕГОРИИ МОДЕРАЦИИ:
1. {категория_1} — {описание_что_проверять}
2. {категория_2} — {описание_что_проверять}
3. {категория_3} — {описание_что_проверять}
ШКАЛА ОЦЕНКИ:
1 = серьёзная проблема
3 = требует внимания
5 = никаких проблем
ФОРМАТ ОТВЕТА:
Категория | Оценка | Обоснование
[название] | [1-5] | [почему такая оценка]
Если оценка < 5, укажи конкретные фрагменты текста, которые вызвали снижение.
---
ТЕКСТ ДЛЯ МОДЕРАЦИИ:
{твой_текст}
Что подставлять:
{целевая_аудитория}— для кого контент: подростки, корпоративные клиенты, инвесторы{категория_N}— что проверять: токсичность, юридические риски, фактчекинг, тон{твой_текст}— контент из первого запроса
Пример заполнения для корпоративного контента:
Категории:
1. Юридические риски — обещания без оговорок, неподтверждённые данные, спорные утверждения
2. Tone — агрессивность, снисходительность, манипулятивность
3. Privacy — упоминания конкретных людей, компаний, чувствительных данных
🚀 Быстрый старт — вставь в новый чат:
Вот шаблон независимой модерации контента. Адаптируй под мою задачу: [твоя задача и аудитория].
Предложи категории для проверки.
[вставить шаблон выше]
LLM спросит про целевую аудиторию и тип контента — чтобы подобрать релевантные категории модерации. Например, для медицинских текстов добавит проверку на непроверенные методы лечения, для образовательных — на возрастную уместность.
Ограничения
⚠️ Стоимость токенов: Каждая независимая проверка = новый запрос. Для больших текстов это дорого. Oak решает через асинхронные проверки кусками — вы так не сможете.
⚠️ Несогласованность модели: AI даёт разные оценки на один текст при повторных проверках. Oak борется с этим массовым тестированием — у вас будет одна оценка, и она может быть неточной.
⚠️ Контекст важен, но его нет: Метод специально убирает контекст для объективности. Но иногда контекст критичен для понимания уместности. Урок про оружие для религиоведения — ОК, тот же текст в другом контексте — токсично. Агент без контекста этого не увидит.
⚠️ Пересторожность vs полезность: Oak намеренно сделали систему oversensitive — лучше заблокировать безобидное, чем пропустить токсичное. Для личного использования это раздражает: модель будет триггерить на безобидные фразы.
Как исследовали
Команда Oak National Academy тестировала свою систему модерации на трёх уровнях сложности:
1. Pre-launch тест на экспертном корпусе Взяли 10,000 уроков, созданных профессиональными методистами и уже проверенных людьми на чувствительный контент. Прогнали через IACMA — агент модерации должен был давать такие же оценки, как эксперты. Это калибровка: обучили агента думать как человек-модератор.
2. Stress-test через red-teaming Пригласили специалистов по безопасности AI пытаться сломать систему — jailbreak, токсичные запросы, обход фильтров. Проверяли по HarmBench — стандартизированному фреймворку для оценки защиты от вредного контента. Это выявило слабые места до запуска.
3. Реальное использование + иллюстративный датасет После запуска учителя создали 45,000 реальных уроков. Параллельно команда сама сгенерировала 1000+ "иллюстративных" уроков — прогнали AI по типовым темам национальной программы БЕЗ участия учителя, чтобы увидеть базовое поведение системы.
Почему это важно: Выяснилось, что реальные уроки часто получают другие категории модерации, чем иллюстративные на ту же тему. Причина — ввод учителя сдвигает контент. Учитель может увести урок в сторону от учебной программы, и модерация меняется. Пример: урок про наркотики для 11 класса (биология) — безопасно. Тот же урок, но учитель просит добавить "личный опыт употребления" — токсично.
Неожиданная находка: Модерация в процессе создания отличается от модерации готового урока. Агент проверяет каждый блок контента по мере генерации. Урок "Оружие массового поражения" на старте триггерит "toxic" по заголовку — система блокирует. Но если бы урок был создан полностью (религиоведение, этика войны, GCSE-программа), итоговая модерация была бы "content guidance". В реальности этот урок никогда не доходит до конца — блокируется на первом шаге.
Инсайт для практики: Тестировать AI-модерацию нужно поэтапно, как она работает в продакшене — не только на готовых текстах. Иначе пропустишь проблемы, которые видны только в процессе.
Оригинал из исследования
Контекст: Oak использует 5-балльную шкалу Likert для оценки контента по каждой подкатегории. Оценка 5 = "no concern". Ниже 5 в категории "content guidance" → показывается предупреждение учителю. Ниже 5 в категории "toxic" → урок блокируется, сессия завершается, отправляется алерт команде.
Категории модерации IACMA (из исследования):
SAFE: content is appropriate for use in classrooms with the specified age group
CONTENT GUIDANCE: content is appropriate but may require additional considerations
or sensitivity from the teacher when delivering. Topics include:
- Physical or practical activities
- Upsetting/sensitive content or language
- Discussion of discriminatory behaviour or language
- Nudity or sexual content
- Violence or crime
TOXIC: inappropriate for use in classrooms (highly sensitive or harmful). Includes:
- Encouraging harmful behaviour (inc. self-harm) or illegal activity
- Creation of weapons or harmful substances
- Encouragement of violence
Из промпта IACMA (принцип работы):
The agent is context-unaware—it has no knowledge of:
- What Aila was instructed to do
- What the user inputted
- The lesson topic or age group
This ensures the judgement is based ONLY on the content itself,
not influenced by the original intent or context.
Адаптации и экстраполяции
💡 Адаптация для оценки публичных высказываний
Задача: Вы готовите пост для LinkedIn / Telegram / Twitter. Хотите проверить на репутационные риски до публикации — не хотите случайно оскорбить аудиторию или нарваться на негатив.
Промпт для модерации (в новом чате):
Ты — PR-консультант. Оцени публичное высказывание ниже на репутационные риски.
КАТЕГОРИИ ОЦЕНКИ (1-5, где 1 = проблема, 5 = чисто):
1. Tone — агрессивность, снисходительность, высокомерие
2. Controversial statements — спорные политические/религиозные/социальные взгляды
3. Privacy risks — упоминания конкретных людей/компаний без согласия
4. Factual accuracy — неподтверждённые утверждения, которые можно опровергнуть
Для каждой категории < 5 укажи **конкретные фрагменты** и предложи исправление.
---
ТЕКСТ:
{твой_пост}
Эффект: Модель ловит то, что вы не замечаете в пылу написания — пассивную агрессию, неочевидные триггеры аудитории, фактические ошибки. Проверка занимает 30 секунд, может спасти репутацию.
🔧 Техника: Двухраундная модерация → снизить false positives
Проблема: Независимый агент без контекста часто даёт ложные срабатывания — блокирует безобидный контент, потому что не понимает задачу.
Решение: Добавьте второй раунд с контекстом для спорных случаев.
Модифицированный процесс:
Раунд 1 — Независимая оценка (как выше):
[Независимая модерация без контекста]
Результат: оценка по категориям
Раунд 2 — Модерация с контекстом (если оценка < 5):
Ты — эксперт по [твоя_область]. Перепроверь оценку коллеги.
КОНТЕКСТ ЗАДАЧИ:
{зачем_создавался_контент}
{для_кого_предназначен}
ПЕРВОНАЧАЛЬНАЯ ОЦЕНКА:
{результат_из_раунда_1}
ВОПРОС: С учётом контекста, оценка справедлива? Или это false positive?
---
ТЕКСТ:
{твой_текст}
Эффект: Два фильтра последовательно. Первый ловит явную токсичность без предвзятости. Второй проверяет — не переусердствовал ли первый с учётом реальной задачи. Это снижает раздражение от пересторожной модерации, сохраняя безопасность.
💡 Экстраполяция: Модерация диалогов в реальном времени
Принцип Oak: Модерация по кускам в процессе генерации. Это можно применить к длинным диалогам.
Задача: У вас длинный разговор с AI (50+ сообщений). Хотите проверить — не наплодили ли вы вместе галлюцинаций, противоречий, токсичного контента.
Промпт (в новом чате):
Ты — аудитор AI-диалогов. Оцени следующий разговор по блокам.
ПРОВЕРЯЙ КАЖДЫЕ 10 СООБЩЕНИЙ ОТДЕЛЬНО:
1. Фактическая согласованность — противоречия между блоками
2. Дрейф контекста — AI забыла начальную задачу и ушла в сторону
3. Галлюцинации — AI выдумывает факты без источников
ФОРМАТ:
Блок 1 (сообщения 1-10): [оценка + проблемы]
Блок 2 (сообщения 11-20): [оценка + проблемы]
...
Итог: [общий вердикт + рекомендации]
---
ДИАЛОГ:
{твой_разговор_с_AI}
Эффект: Вместо оценки всего диалога целиком (где модель может пропустить детали) — проверка посекционно. Так легче найти момент, где разговор съехал с рельсов.
Ресурсы
Building Effective Safety Guardrails in AI Education Tools
Hannah-Beth Clark, Laura Benton, Emma Searle, Margaux Dowland, Matthew Gregory, Will Gayne, John Roberts
Oak National Academy, UK
Conference: International Conference on Artificial Intelligence in Education (AIED), 2025
https://doi.org/10.1007/978-3-031-99261-2_12
Открытые ресурсы:
- Код Aila (включая промпт и модерацию): https://github.com/oaknational/oak-ai-lesson-assistant
- Иллюстративный датасет уроков — для тестирования модерации (1000+ примеров)
Связанные работы:
- HarmBench: стандартизированный фреймворк для оценки защиты от вредного контента (Mazeika et al., 2024)
- UK Government Guidance: Generative AI in Education (Department for Education, 2025)
