3,583 papers
arXiv:2603.01724 74 2 мар. 2026 г. FREE

GMP: два слепых пятна LLM при следовании правилам — неполный охват и инерция обучения

КЛЮЧЕВАЯ СУТЬ
Обнаружено: LLM не работает с чистого листа — у неё есть встроенные суждения из обучения о том, что «плохо» и что «нормально». Когда твои правила с ними расходятся, выигрывают встроенные, а не твои. Два метода — явный чеклист критериев и декларация приоритета правил — позволяют запустить собственный регламент проверки, не теряя редкие нарушения и не давая модели подменить твои инструкции своими. Добавь «руководствуйся ТОЛЬКО этими правилами» + пропиши каждый критерий отдельной строкой — и модель перестаёт «видеть» только самое яркое нарушение и игнорировать остальное. Плюс контринтуитивный результат: «думай шаг за шагом» в задачах строгого следования правилам снижает точность, а не повышает.
Адаптировать под запрос

TL;DR

LLM систематически проваливаются в двух сценариях. Первый: когда контент нарушает несколько правил одновременно — модель флажит очевидное нарушение, но пропускает редкое. Второй: когда твои правила расходятся с тем, чему модель обучена — она следует своей «встроенной морали», а не твоим инструкциям.

Исследователи проверили 20+ LLM на задачах модерации с несколькими одновременными нарушениями и правилами, которые конфликтуют с обучением модели. Вскрылось две системные слабости. Первая — дефицит охвата: модели уверенно ловят частые, очевидные нарушения (оскорбления), но регулярно пропускают редкие сопутствующие (дискриминацию по инвалидности, призывы к употреблению наркотиков). Вторая — инерция обучения (alignment inertia): когда правило разрешает что-то, что модель считает «плохим» по умолчанию, она замещает твоё правило своим, особенно если видит «токсично звучащие» слова.

Дополнительная находка: Chain-of-Thought («подумай шаг за шагом») в задачах строгого следования правилам — не помогает, а мешает. Без режима «обдумывания» модели соблюдают правила точнее и работают быстрее. Это контринтуитивно — но подтверждено на нескольких моделях.


🔬

Схема метода

Это не техника, а набор выводов. Превращаются в три принципа работы с промптами:

ПРИНЦИП 1: Явное перечисление критериев
→ Не "проверь контент", а список каждого критерия отдельно
→ Для каждого: "есть / нет / почему"

ПРИНЦИП 2: Декларация приоритета правил
→ Добавь явную инструкцию: "руководствуйся ТОЛЬКО этими правилами,
   не своими дефолтными суждениями"
→ Формат: "РАЗРЕШЕНО: ..., ЗАПРЕЩЕНО: ..."

ПРИНЦИП 3: Без режима "обдумывания" для задач строгого следования
→ Если задача — точно применить правила, не рассуждать
→ Укажи: "Отвечай напрямую, без размышлений вслух"

Все три принципа применяются в одном промпте.


🚀

Пример применения

Задача: Ты управляешь комьюнити ВКонтакте для инвестиционного клуба. Нужно проверять посты перед публикацией по конкретным правилам площадки — не по общим нормам, а именно по вашим.

Промпт:

Ты — модератор инвестиционного комьюнити. Твоя задача — применять 
ТОЛЬКО правила ниже. Не используй собственные суждения о том, 
что "кажется" вредным или безопасным.

ПРАВИЛА ПЛОЩАДКИ:
ЗАПРЕЩЕНО: конкретные инвестиционные советы ("купи X"), 
            обещания доходности, личные оскорбления участников
РАЗРЕШЕНО: критика стратегий, обсуждение рисков, 
           скептицизм по отношению к конкретным активам

Проверь пост по КАЖДОМУ правилу отдельно:

[ ] Конкретный инвестиционный совет — есть / нет
[ ] Обещание доходности — есть / нет
[ ] Личное оскорбление — есть / нет

Для каждого пункта: результат + одна цитата из текста как обоснование.
Отвечай напрямую по чеклисту, без вводных рассуждений.

ПОСТ:
{текст поста}

Результат: Модель пройдёт по каждому критерию отдельно с явным «есть/нет» и цитатой. Благодаря явному перечислению критериев — не пропустит редкое нарушение. Благодаря «руководствуйся ТОЛЬКО этими правилами» — не заблокирует резкую критику, которую по умолчанию могла бы счесть «токсичной». Благодаря «без вводных рассуждений» — ответ придёт быстро и по делу.


🧠

Почему это работает

Слабость LLM — модель не работает с чистым листом. У неё есть «встроенные» суждения из обучения: что безопасно, что токсично, что нормально. Когда твои правила расходятся с этими суждениями — встроенные побеждают. Это не баг, это особенность: модель обучена «отфильтровывать плохое», и эта установка очень сильная.

Вторая слабость — при оценке чего-либо модель, как правило, фокусируется на самом ярком нарушении. Остальное уходит на второй план. Если контент расистский И содержит призыв к насилию — модель поставит флаг за расизм и может не заметить второе. Чем реже тип нарушения встречается в обучающих данных, тем выше шанс что его пропустят.

Как принципы это обходят: Явный чеклист заставляет модель «смотреть» на каждый критерий отдельно — нет возможности проскочить мимо редкого. Декларация «ТОЛЬКО эти правила» создаёт явный приоритет и снижает вес встроенных суждений. Запрет на «обдумывание вслух» убирает шаг, в котором модель начинает «рассуждать» и возвращается к дефолтным паттернам.

Рычаги управления: - Уровень детализации чеклиста → чем конкретнее формулировка критерия («обещание доходности выше 30%» вместо «обещание доходности»), тем точнее оценка - Фраза «ТОЛЬКО эти правила» → усилить через «даже если тебе кажется, что контент нормальный/вредный» под конкретный кейс - «Без рассуждений вслух» → убери, если хочешь видеть логику — полезно при отладке промпта - Формат вывода → замени чеклист на JSON, если нужна машинная обработка


📋

Шаблон промпта

Ты — эксперт по оценке {тип контента}.
Применяй ТОЛЬКО правила ниже. Не используй собственные суждения.

ПРАВИЛА:
ЗАПРЕЩЕНО: {запрещённое действие 1}, {запрещённое действие 2}
РАЗРЕШЕНО: {разрешённое действие 1}, {разрешённое действие 2}

Проверь {тип контента} по каждому критерию отдельно:

[ ] {Критерий 1} — есть / нет + цитата-обоснование
[ ] {Критерий 2} — есть / нет + цитата-обоснование
[ ] {Критерий 3} — есть / нет + цитата-обоснование

Итог: разрешить / отклонить + одна строка почему.
Отвечай напрямую по чеклисту, без вводных рассуждений.

{тип контента}:
{сам контент}

Плейсхолдеры: - {тип контента} — отзыв, пост, комментарий, резюме, текст письма - {запрещённое/разрешённое действие} — конкретные формулировки твоих правил - {Критерий} — каждое правило выносится в отдельную строку чеклиста - {сам контент} — текст для проверки


🚀 Быстрый старт — вставь в чат:

Вот шаблон для строгой проверки контента по правилам. 
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит какой контент проверять, какие правила применять и какие критерии важны — потому что без этого не сможет правильно расставить «ЗАПРЕЩЕНО/РАЗРЕШЕНО» и составить чеклист под твою задачу.


⚠️

Ограничения

⚠️ Инерция обучения сохраняется: Даже с явными инструкциями «ТОЛЬКО эти правила» — модели всё равно частично следуют своим обученным суждениям. Особенно когда контент содержит «токсично звучащие» слова. Полностью отключить встроенную мораль промптом нельзя.

⚠️ Редкие нарушения всё равно хуже: Чеклист помогает, но модели объективно слабее на редких категориях (дискриминация по инвалидности, специфичные сленговые оскорбления). Для критически важных задач — добавляй примеры таких нарушений в промпт.

⚠️ Chain-of-Thought в модерации: Если используешь модели с режимом «обдумывания» (o3, DeepSeek-R1) для строгого следования правилам — попробуй без него. В задачах чёткого применения правил расширенное мышление может снижать точность, а не повышать. Для сложного анализа с нюансами — CoT по-прежнему полезен.

⚠️ Контекстная зависимость слова: Если правило разрешает что-то, что «звучит плохо» (например, резкая критика или ненормативная лексика в определённом контексте) — модель может проигнорировать разрешение. Тогда добавь пример: «РАЗРЕШЕНО: [пример фразы]».


🔗

Ресурсы

GMP: A Benchmark for Content Moderation under Co-occurring Violations and Dynamic Rules

GitHub: https://github.com/howarddong711/GMP-Benchmark

HuggingFace: https://huggingface.co/datasets/HowardDong/GMP-Benchmark

Авторы: Houde Dong, Yifei She, Kai Ye, Liangcai Su, Chenxiong Qian, Jie Hao — Beijing University of Posts and Telecommunications, The University of Hong Kong


📋 Дайджест исследования

Ключевая суть

Обнаружено: LLM не работает с чистого листа — у неё есть встроенные суждения из обучения о том, что «плохо» и что «нормально». Когда твои правила с ними расходятся, выигрывают встроенные, а не твои. Два метода — явный чеклист критериев и декларация приоритета правил — позволяют запустить собственный регламент проверки, не теряя редкие нарушения и не давая модели подменить твои инструкции своими. Добавь «руководствуйся ТОЛЬКО этими правилами» + пропиши каждый критерий отдельной строкой — и модель перестаёт «видеть» только самое яркое нарушение и игнорировать остальное. Плюс контринтуитивный результат: «думай шаг за шагом» в задачах строгого следования правилам снижает точность, а не повышает.

Принцип работы

Модель при оценке контента всегда тянет к своим обученным суждениям — как иммунная система, которая атакует всё чужеродное тихо, в фоне. Три шага меняют приоритет. Первый: явный чеклист заставляет «смотреть» на каждый критерий отдельно — нельзя проскочить мимо редкого нарушения. Второй: фраза «ТОЛЬКО эти правила» создаёт явную иерархию — твой регламент выше дефолтных суждений. Третий: убери рассуждения вслух — в задачах строгого применения правил этот шаг тащит модель обратно к тому, чему её учили.

Почему работает

Модель обучена на огромном массиве данных с метками «безопасно/опасно». Это не просто знания — это сильные веса, которые давят в фоне при каждом ответе. При оценке чего-либо модель фокусируется на самом ярком нарушении. Остальное уходит в тень. Чем реже тип нарушения встречался в обучающих данных — дискриминация по инвалидности, специфичные оскорбления — тем выше шанс, что его пропустят. Явный чеклист убирает возможность «не заметить» — модель вынуждена ответить по каждому пункту отдельно, а не только по тому, который бросился в глаза. Отказ от рассуждений вслух убирает шаг, в котором встроенные суждения просачиваются обратно и начинают подминать твои инструкции.

Когда применять

Модерация контента → проверка постов, комментариев, отзывов по конкретному регламенту площадки, особенно когда правила расходятся с тем, что модель считает «нормальным по умолчанию». Внутренний аудит → скрининг документов, резюме, писем по критериям, которых нет в общепринятых нормах. Редакционная проверка → оценка текста сразу по нескольким критериям, где важно не пропустить ни один. НЕ подходит для задач с нюансами и контекстным анализом — там пошаговые рассуждения по-прежнему нужны.

Мини-рецепт

1. Задай роль и ограничение: укажи <роль>эксперт по оценке [тип контента], затем сразу — «Применяй ТОЛЬКО правила ниже. Не используй собственные суждения о том, что кажется нормальным или вредным.»
2. Пропиши правила явно: блок ЗАПРЕЩЕНО: [конкретное действие 1], [конкретное действие 2] и РАЗРЕШЕНО: [конкретное действие 1]. Не общими словами — формулировками из своего регламента. Чем конкретнее, тем точнее.
3. Создай чеклист: каждый критерий — отдельная строка с форматом «есть / нет + цитата из текста как обоснование». Редкие нарушения выносить отдельным пунктом — иначе модель их проглотит.
4. Убери рассуждения: заверши промпт фразой «Отвечай напрямую по чеклисту, без вводных рассуждений.» — особенно критично для моделей с режимом расширенного анализа типа o3 или DeepSeek-R1.

Примеры

[ПЛОХО] : Проверь этот комментарий на нарушение правил нашего сообщества
[ХОРОШО] : Ты — модератор инвестиционного клуба. Применяй ТОЛЬКО правила ниже, не свои суждения. ЗАПРЕЩЕНО: конкретные советы купить актив, обещания доходности, личные оскорбления участников. РАЗРЕШЕНО: критика стратегий, скептицизм по активам, обсуждение рисков. Проверь по каждому пункту: [ ] Конкретный совет купить — есть / нет + цитата [ ] Обещание доходности — есть / нет + цитата [ ] Личное оскорбление — есть / нет + цитата Отвечай напрямую по чеклисту, без вводных рассуждений. Комментарий: {текст}
Источник: GMP: A Benchmark for Content Moderation under Co-occurring Violations and Dynamic Rules
ArXiv ID: 2603.01724 | Сгенерировано: 2026-03-03 06:28

Проблемы LLM

ПроблемаСутьКак обойти
Модель пропускает редкие нарушения при проверке по нескольким критериямКогда контент нарушает несколько правил сразу, модель замечает самое яркое. Остальное уходит на второй план. Чем реже тип нарушения встречался в обучении — тем выше шанс пропустить. Проблема для любой задачи оценки по нескольким критериям: код-ревью, HR-скрининг, аудит текстовПеречисли каждый критерий отдельной строкой. Для каждого — явный формат ответа: [ ] Критерий — есть / нет + обоснование. Модель не может «проскочить мимо» критерия, если он стоит отдельной строкой
Модель следует своим встроенным суждениям, а не твоим правиламУ модели есть «встроенная мораль» из обучения: что токсично, что безопасно. Когда твои правила расходятся с ней — встроенные суждения побеждают. Пример: площадка разрешает резкую критику, но модель всё равно блокирует — потому что ей «кажется плохим». Это не баг. Это очень сильная установка из обученияДобавь явную декларацию приоритета: «Руководствуйся ТОЛЬКО правилами ниже. Не используй собственные суждения о том, что кажется вредным или безопасным». Для сложных случаев усиль: «...даже если тебе кажется, что контент нормальный или вредный»

Методы

МетодСуть
Чеклист критериев — точная оценка по каждому правилуКаждое правило выноси в отдельную строку с явным форматом ответа. [ ] Критерий — есть / нет + одна цитата-обоснование. Почему работает: Модель фокусируется на самом ярком. Отдельная строка — отдельный фокус. Нельзя пропустить критерий, если он стоит явно. Когда применять: любая оценка по нескольким критериям одновременно. Когда не нужно: один критерий — достаточно прямого вопроса
📖 Простыми словами

GMP: A Benchmark for Content Moderation under Co-occurring Violations and Dynamic Rules

arXiv: 2603.01724

Суть в том, что современные нейронки в роли цензоров — это не беспристрастные судьи, а заложники своего воспитания. Исследование GMP доказывает: когда ты просишь LLM модерировать контент, она не просто следует твоим правилам, а постоянно сверяется со своей «встроенной прошивкой». Если твои инструкции противоречат тому, чему модель учили в OpenAI или Google, она тупо проигнорирует твой промпт и включит внутреннюю мораль. Это фундаментальный конфликт: модель не умеет работать с «чистого листа», она всегда предвзята.

Это как нанять на работу охранником в ночной клуб фанатичного библиотекаря. Ты даешь ему четкую инструкцию: «пускай всех, кто в галстуках, даже если они ругаются матом». Но как только приходит пьяный дебошир в галстуке, библиотекарь встает в позу и не пускает его, потому что «так вести себя неприлично». Формально он нарушил твой приказ, но он просто не может переступить через свое воспитание. В итоге динамические правила летят в помойку, потому что личные убеждения модели оказываются сильнее твоих ТЗ.

Главный провал случается в двух случаях: сочетание нарушений и конфликт установок. Если пост нарушает сразу три правила — например, спам, оскорбление и редкое юридическое требование — модель радостно зафлажит мат, но в упор не заметит юридический косяк. Она цепляется за самое очевидное и «привычное», игнорируя остальное. В тестах GMP модели систематически лажали, когда им навязывали правила, идущие вразрез с их базовым обучением. Они либо слишком мягкие там, где ты просил жестить, либо включают режим «святоши» там, где ты разрешил вольности.

Этот принцип работает везде, где ты пытаешься заставить AI играть по своим правилам: от модерации паблика в ВК до фильтрации корпоративной почты. Тестировали на жестких текстах, но эффект доминирующей морали универсален. Если ты создаешь закрытое комьюнити со специфическим сленгом или правилами, которые кажутся нейронке «плохими», она будет саботировать твою работу. SEO-фильтры или админка форума на базе LLM — это всегда риск, что модель начнет «воспитывать» твоих пользователей вместо того, чтобы просто исполнять код.

Короче: нельзя просто выкатить промпт с правилами и надеяться на чудо. Модели страдают от когнитивного искажения, навязывая свою этику твоему бизнесу. Если твои критерии модерации хоть на йоту специфичнее стандартных «не ругайся, не обижай», готовься к тому, что 10 из 15 сложных кейсов будут обработаны неверно. Либо дообучай модель на своих данных, либо смирись с тем, что нейронка всегда будет немножко «белой и пушистой» вопреки твоим прямым указаниям.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с