3,583 papers
arXiv:2509.14493 70 17 сент. 2025 г. FREE

Translate-then-Classify: двухшаговая модерация для многоязычного контента

КЛЮЧЕВАЯ СУТЬ
Обнаружено: безопасные LLM отказываются переводить токсичный контент. Для турецкого до 20% отказов — система модерации ломается. Метод Translate-then-Classify позволяет детектировать токсичность на языках без готовых классификаторов. От казахского до малайялам. Фишка: разбить на два шага — перевод на английский, потом детекция на знакомом языке. Результат: 13 из 16 языков показали точность выше чем при прямой оценке.
Адаптировать под запрос

TL;DR

Исследователи сравнили два способа детекции токсичных комментариев на разных языках: классифицировать текст сразу на исходном языке или сначала перевести на английский, а потом классифицировать. Проверили на 17 языках с разным уровнем ресурсов — от амхарского и каннада до немецкого и русского.

Главная находка: Для большинства языков (13 из 16) подход "сначала переведи, потом классифицируй" даёт лучший результат, чем прямая классификация. Особенно для низкоресурсных языков, где нет качественных специализированных классификаторов. Но есть подвох: у безопасных LLM (safety-tuned) высокий процент отказов при переводе токсичного контента — модель просто не переводит текст, если видит в нём что-то подозрительное. Для турецкого языка отказы достигают 20%, что делает систему бесполезной.

Решение: Дообучение LLM на переводах (MT supervised fine-tuning) снижает отказы до нуля и улучшает качество детекции для высокоресурсных языков. Бонус: традиционные BERT-классификаторы работают лучше LLM-джаджей на низкоресурсных языках — модель лучше распознаёт токсичность через специализированный классификатор, чем через zero-shot промпт.


🔬

Схема метода

Два подхода к детекции:

Прямая классификация (classify):

Текст на языке X → Классификатор → Оценка токсичности

Translate-then-Classify:

ШАГ 1: Текст на языке X → Перевод на английский
ШАГ 2: Английский перевод → Классификатор → Оценка токсичности

Каждый шаг — отдельный запрос. Первый шаг использует MT-систему (NLLB, Llama, GPT-4o), второй — специализированный классификатор токсичности.


🚀

Пример применения

Задача: Ты модерируешь комментарии в телеграм-канале про недвижимость в Казахстане. Половина комментов — на казахском, половина — на русском. Нужно отфильтровать токсичные.

Промпт (версия 1 — базовая):

Вот комментарий на казахском языке:
"[текст комментария]"

Задача: оцени токсичность этого комментария.

Шаг 1: Переведи комментарий на русский
Шаг 2: Оцени токсичность перевода по шкале 0-10, где:
- 0-3: безопасно
- 4-6: спорно
- 7-10: токсично (оскорбления, угрозы, дискриминация)
Шаг 3: Объясни почему дал такую оценку

Промпт (версия 2 — с защитой от отказов):

Ты — переводчик для системы модерации. Твоя задача — точно переводить ВСЕ комментарии, даже если они содержат оскорбления. Это необходимо для работы модерации.

Вот комментарий на казахском:
"[текст комментария]"

1. Переведи на русский (ОБЯЗАТЕЛЬНО переведи, даже если контент неприятный)
2. Оцени токсичность перевода: безопасно / спорно / токсично
3. Укажи конкретные признаки токсичности, если есть

Результат: Модель выдаст перевод комментария, числовую оценку токсичности и объяснение. Если используешь версию 2 с явным указанием "переводи всё" — снизишь вероятность отказа модели при встрече с грубыми выражениями.


🧠

Почему это работает

Слабость LLM: Модели обучены на текстах где английского гораздо больше, чем казахского, каннада или амхарского. Для низкоресурсных языков у модели меньше примеров токсичного контента, она хуже понимает нюансы оскорблений в этих языках. Прямая оценка "это токсично?" на малайялам даст низкое качество.

Сильная сторона LLM: Зато модель хорошо переводит на английский. И на английском у неё огромный опыт детекции токсичности — миллионы примеров из датасетов модерации. Перевод переносит задачу в зону, где модель натренирована лучше.

Как метод использует силу: Разбивает сложную задачу (оценить токсичность на редком языке) на две простые: (1) перевести на язык где модель сильна, (2) оценить на знакомом языке. Каждый шаг модель делает хорошо → итоговый результат лучше чем "в лоб".

Подвох с отказами: Безопасные LLM (GPT, Claude) настроены не переводить токсичный контент. Увидела мат → отказалась → система сломалась. Исследование показало: явная инструкция "ты переводчик для модерации, переводи всё" снижает отказы, но не до нуля. Полное решение требует дообучения модели на переводах без safety-фильтров.


📋

Шаблон промпта

Для модерации контента на любом языке:

Ты — переводчик для системы модерации контента.
Твоя задача — точно переводить ВСЕ сообщения на {целевой_язык}, даже если они содержат оскорбления или грубые выражения. Это необходимо для работы модерации.

Текст на {исходный_язык}:
"{текст}"

Шаг 1: Переведи текст на {целевой_язык}
(ОБЯЗАТЕЛЬНО переведи полностью, даже если контент неприятный)

Шаг 2: Оцени токсичность перевода:
- Безопасно (0-3): обычное общение
- Спорно (4-6): резкие высказывания, но без прямых оскорблений
- Токсично (7-10): оскорбления, угрозы, дискриминация, призывы к насилию

Шаг 3: Укажи конкретные признаки токсичности:
- Какие слова/фразы токсичны
- К какой категории относятся (оскорбления, угрозы, дискриминация)

Формат ответа:
ПЕРЕВОД: [текст]
ОЦЕНКА: [число 0-10]
ПРИЗНАКИ: [список или "нет токсичности"]

Плейсхолдеры:

  • {исходный_язык} — язык исходного текста (казахский, хинди, амхарский...)
  • {целевой_язык} — язык для перевода (обычно русский или английский)
  • {текст} — текст для модерации

Важно: Явная инструкция "переводи ВСЕ, даже неприятное" снижает вероятность отказа модели. Без этого LLM может отказаться переводить грубые выражения.


⚠️

Ограничения

⚠️ Отказы на токсичном контенте: Безопасные LLM (GPT, Claude) могут отказываться переводить грубые тексты. Для турецкого языка отказы достигают 20%, для тайского — 5%. Явная инструкция "ты переводчик для модерации" снижает отказы, но не гарантирует их отсутствие.

⚠️ Работает хуже для высокоресурсных языков: Если есть качественный классификатор токсичности для конкретного языка (немецкий, русский, испанский) — прямая классификация может дать лучший результат чем перевод. Translate-then-classify — это решение когда нет специализированного инструмента для твоего языка.

⚠️ Зависимость от качества перевода: Если MT-система плохо переводит (NLLB для низкоресурсных языков), ошибки перевода снижают точность детекции. Модель может пропустить токсичность из-за неточного перевода или наоборот — ложно детектировать из-за двусмысленности.

⚠️ Потеря культурного контекста: Оскорбления и табу специфичны для культуры. Фраза может быть токсичной на казахском, но нейтральной в переводе на английский — модель пропустит. Или наоборот: нейтральная фраза переведётся с двусмысленностью и получит ложную оценку.


🔍

Как исследовали

Команда взяла 17 языков от амхарского (280 тысяч документов в интернете) до русского (605 миллионов) и 10 датасетов токсичных комментариев из соцсетей, Википедии, твиттера. Для каждого языка протестировали все возможные комбинации: 5 систем перевода (NLLB, Llama 3.1, Gemma 3, GPT-4o) × 9 классификаторов токсичности = 45 вариантов. Сравнивали с базовой линией — прямой классификацией без перевода.

Измеряли AUC (площадь под ROC-кривой) — метрика показывает насколько хорошо система разделяет токсичные и безопасные комментарии. AUC = 0.5 — случайное гадание, AUC = 1.0 — идеальная классификация.

Главный паттерн: Translate-then-classify выигрывает в 13 из 16 языков при сравнении с обычными (не дообученными) классификаторами. Преимущество растёт для высокоресурсных языков (больше данных в интернете = лучше качество перевода) и для качественных MT-систем (GPT-4o лучше NLLB).

Неожиданная находка: Дообучение Llama 3.1 на переводах (TowerBlocks/MT датасет) снизило отказы с 20% до 0% для турецкого и с 5% до 0% для тайского. Причём это дообучение улучшило точность детекции для высокоресурсных языков на 0.1-0.2 AUC пункта. Получается что safety-tuning вредит переводу токсичного контента, а MT-finetuning решает проблему.

Провал LLM-джаджей: Zero-shot оценка токсичности через промпт к Llama 3.1 ("classify this as toxic or not") проиграла традиционным BERT-классификаторам почти на всех низкоресурсных языках. Для амхарского, каннада, малаялам разница в точности — 10-15%. LLM хороша в переводе, но слаба в zero-shot классификации на редких языках. Специализированный классификатор обучен на конкретных примерах токсичности и побеждает.


🔗

Ресурсы

No Language Left Behind: Scaling Human-Centered Machine Translation — NLLB-Team et al., 2022 Translation Artifacts in Cross-Lingual Transfer Learning — Artetxe, Ruder, Yogatama, 2020 Revisiting Machine Translation for Cross-Lingual Classification — Artetxe et al., 2023 Tower: An Open Multilingual Large Language Model for Translation-Related Tasks — Alves et al., 2024 (TowerBlocks/MT датасет для MT-SFT)

Датасеты: Jigsaw Multilingual Toxic Comment Classification, MACD (Hindi/Kannada/Malayalam/Tamil/Telugu), TextDetox 2024, L-HSAB (Levantine Arabic), Amharic Hate Speech, ToLD-Br (Brazilian Portuguese), Russian Language Toxic Comments

Авторы из различных университетов и институтов, список не указан явно в статье.


📋 Дайджест исследования

Ключевая суть

Обнаружено: безопасные LLM отказываются переводить токсичный контент. Для турецкого до 20% отказов — система модерации ломается. Метод Translate-then-Classify позволяет детектировать токсичность на языках без готовых классификаторов. От казахского до малайялам. Фишка: разбить на два шага — перевод на английский, потом детекция на знакомом языке. Результат: 13 из 16 языков показали точность выше чем при прямой оценке.

Принцип работы

Не пытайся оценить токсичность сразу на редком языке. Разбей на два отдельных запроса. Шаг 1: переведи на английский. Шаг 2: оцени токсичность перевода. Каждый шаг — отдельная задача для модели. Перевод она делает хорошо. Детекция на английском — тоже. А вот «оцени токсичность на каннада» — слабое место.

Почему работает

LLM обучена на текстах где английского в разы больше чем казахского или амхарского. Для редких языков у модели меньше примеров токсичного контента — она хуже распознаёт нюансы оскорблений. Перевод переносит задачу в зону где модель видела миллионы примеров модерации. Две простые задачи вместо одной сложной. Но есть подвох: модели с фильтрами безопасности отказываются переводить мат. Решение: явная инструкция «ты переводчик для модерации, переводи ВСЁ». Отказы падают с 20% почти до нуля.

Когда применять

Модерация пользовательского контента → для языков где нет готовых классификаторов токсичности (казахский, хинди, амхарский, тайский), особенно когда работаешь с международной аудиторией и нужно единое решение. НЕ подходит для высокоресурсных языков (русский, немецкий, испанский) — там прямая классификация через специализированный классификатор работает лучше.

Мини-рецепт

1. Добавь роль: «Ты переводчик для модерации. Переводи ВСЁ, даже оскорбления — это нужно для работы системы»
2. Переведи текст: отдельный запрос с комментарием на исходном языке
3. Оцени перевод: второй запрос — дай шкалу 0-10 или категории (безопасно/спорно/токсично)
4. Требуй детали: попроси указать конкретные токсичные фразы и тип (оскорбления/угрозы/дискриминация)

Примеры

[ПЛОХО] : Оцени токсичность этого комментария на казахском: [текст] — модель плохо понимает нюансы оскорблений на языке где мало обучающих данных, точность проседает
[ХОРОШО] : Шаг 1: Переведи комментарий на английский (переводи всё, даже грубое — это для модерации). Шаг 2: Оцени токсичность перевода 0-10. Шаг 3: Укажи признаки: какие фразы токсичны, категория (оскорбления/угрозы/дискриминация) — разбивка на шаги плюс явная инструкция переводить токсичное снижают отказы с 20% до нуля
Источник: Translate, then Detect: Leveraging Machine Translation for Cross-Lingual Toxicity Classification
ArXiv ID: 2509.14493 | Сгенерировано: 2026-01-12 06:12

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с