3,583 papers
arXiv:2602.21496 71 25 фев. 2026 г. FREE

SemSIEdit: итеративная переработка текста вместо отказа — для контента с потенциально чувствительными инференциями

КЛЮЧЕВАЯ СУТЬ
Фильтр по ключевым словам — оборона от атаки, которой нет. LLM «просачивает» чувствительную информацию через структуру текста, а не через запрещённые слова. Религия, политика, репутационный вред — всё это выводится из контекста. «Активно участвует в жизни общины» плюс регион плюс детали биографии — и читатель уже сделал вывод. Никакого запрещённого слова нет, никакой regex не сработал. Метод SemSIEdit позволяет находить и нейтрализовывать такие места в готовом тексте — не вырезать куски, а именно переписывать. Два агента в цепочке: Оценщик находит проблемные инференции, Редактор их нейтрализует с явным запретом на удаление. Объём и смысл текста — целые.
Адаптировать под запрос

TL;DR

LLM регулярно «просачивает» чувствительную информацию, которую никакой фильтр по ключевым словам не поймает. Не явные данные — ФИО, телефон — а выведенные: религия, политические взгляды, компрометирующие суждения или «подтверждение» ложных фактов через саму структуру ответа.

Стандартный подход — «заблокировать и отказать» — разрушает полезность. Исследователи предложили иначе: пусть LLM сыграет роль редактора, который находит чувствительные места и переписывает их, сохраняя смысл и поток текста. Не вырезает — редактирует.

SEMSIEDIT — это двухагентный цикл: Оценщик находит проблемные места в черновике, Редактор их переписывает. Цикл повторяется до чистого результата. На практике это переводится в последовательность из 2-3 отдельных запросов в чате.


🔬

Схема метода

Все шаги — отдельные запросы в чате

ШАГ 1: Инициализация
  → Попроси LLM написать текст с явной инструкцией
    "избегать чувствительных инференций"
  → Получаешь: черновик

ШАГ 2: Оценка (Evaluator)
  → Подаёшь черновик + тот же вопрос/задачу
  → Просишь оценить по трём категориям:
     - Есть ли чувствительные атрибуты личности?
     - Есть ли репутационно вредные суждения?
     - Есть ли подтверждение ложных фактов?
  → Получаешь: структурированную критику с указанием
    конкретных проблемных мест

ШАГ 3: Редактирование (Editor)
  → Подаёшь черновик + критику из Шага 2
  → Просишь ПЕРЕПИСАТЬ проблемные места,
    НЕ удалять и НЕ отказывать
  → Получаешь: исправленный текст

Шаги 2→3 повторяются (обычно 1-2 раза)
до чистого результата

🚀

Пример применения

Задача: Редактор медиапроекта «Русский Forbes» готовит профайл о Сергее — фаундере агрокомпании из Краснодара. Текст написан, но нужно проверить: нет ли случайных инференций о его религиозных взглядах, политической позиции или чего-то, что могло бы повредить репутации.

Промпт — Шаг 2 (Оценщик):

Ты — редактор-аналитик по информационной безопасности.
Тебе дадут два блока: исходный вопрос/задание и черновик текста.
Оцени черновик по трём категориям:

1. ЛИЧНЫЕ АТРИБУТЫ: выводишь ли ты из текста религию,
   политические взгляды, сексуальную ориентацию или
   другие чувствительные личные характеристики героя?
   → {"ifPrivacy": "да/нет", "что именно": "..."}

2. РЕПУТАЦИОННЫЙ ВРЕД: содержит ли текст суждения,
   которые могут повредить репутации человека
   без фактических оснований?
   → {"ifHarmful": "да/нет", "что именно": "..."}

3. ЛОЖНЫЕ ФАКТЫ: подтверждает ли текст неверные
   предпосылки или ложные утверждения как достоверные?
   → {"ifMisinformation": "да/нет", "что именно": "..."}

Для каждой проблемы: процитируй конкретное место
и объясни почему оно проблематично.

ЗАДАНИЕ: {исходное_задание}
ЧЕРНОВИК: {текст_черновика}

Промпт — Шаг 3 (Редактор):

Ты — литературный редактор. Тебе дан черновик текста
и список проблемных мест из проверки.

Твоя задача: ПЕРЕПИСАТЬ каждое проблемное место так,
чтобы:
- убрать чувствительную инференцию
- сохранить смысл и полезность текста
- сохранить стиль и поток повествования

ЗАПРЕЩЕНО: удалять абзацы целиком, отказываться
от ответа, оставлять пустые места.

Выведи итоговый текст полностью с внесёнными правками.
В конце — список изменений: что и почему изменено.

ЧЕРНОВИК: {текст_черновика}
ПРОБЛЕМНЫЕ МЕСТА: {критика_из_шага_2}

Результат: Шаг 2 вернёт структурированный разбор: какие места в тексте создают чувствительные выводы и почему. Шаг 3 даст переработанный текст с сохранённым объёмом и стилем — не урезанный, а именно отредактированный. В финале будет список конкретных изменений с объяснением.


🧠

Почему это работает

LLM «протекает» смыслом, а не словами. Стандартные фильтры ищут ключевые слова — ФИО, адреса, номера. Но если в тексте написано «активно участвует в жизни общины» в контексте региона — читатель может вывести религию. Никакой regex это не поймает, потому что нет запрещённого слова.

Мозг LLM — генератор правдоподобных паттернов. Когда модель генерирует текст, она заполняет «ожидаемые» детали — даже если их нет в исходных данных. Это называют галлюцинацией уверенности: модель не говорит «я не знаю», она придумывает убедительную деталь. В тексте о человеке это может быть репутационно вредная инференция.

Роль «Редактора» меняет задачу модели. Когда просишь LLM «не писать о политике», она либо отказывает, либо вырезает куски. Когда даёшь роль редактора с конкретным указанием перефразировать, не удалять — модель использует свои языковые способности иначе. Она ищет нейтральную формулировку, а не пустоту.

Рычаги управления: - Число итераций → для коротких текстов достаточно одного цикла оценки + редактуры - Строгость Оценщика → добавь примеры проблемных формулировок в промпт Шага 2 (few-shot) - Инструкция «объясни изменения» → убери, если нужен только чистый текст без комментариев - Три категории SemSI → можешь оставить только нужные под свою задачу


📋

Шаблон промпта

Шаг 2 — Оценщик:

Ты — редактор-аналитик. Проверь черновик по трём критериям:

1. ЛИЧНЫЕ АТРИБУТЫ: выводится ли из текста религия,
   политика, сексуальная ориентация или другие чувствительные
   характеристики {кого_проверяем}?
   → {"ifPrivacy": "да/нет", "место": "цитата", "проблема": "..."}

2. РЕПУТАЦИОННЫЙ ВРЕД: есть ли суждения, которые вредят
   репутации {кого_проверяем} без фактических оснований?
   → {"ifHarmful": "да/нет", "место": "цитата", "проблема": "..."}

3. ЛОЖНЫЕ ФАКТЫ: подтверждается ли в тексте что-то
   недоказанное или заведомо неверное?
   → {"ifMisinformation": "да/нет", "место": "цитата", "проблема": "..."}

ЗАДАЧА: {что_должен_делать_текст}
ЧЕРНОВИК:
{текст}

Шаг 3 — Редактор:

Ты — литературный редактор. Переработай черновик
на основе списка проблем. Правило одно: ПЕРЕПИСЫВАЙ,
не удаляй. Каждое проблемное место замени нейтральной
формулировкой, которая сохраняет смысл.

Выведи: полный итоговый текст + список изменений.

ЧЕРНОВИК: {текст}
СПИСОК ПРОБЛЕМ: {вывод_из_шага_2}

Плейсхолдеры: - {кого_проверяем} — "героя текста", "компании", "автора" - {что_должен_делать_текст} — цель материала - {текст} — черновик целиком - {вывод_из_шага_2} — JSON-ответ из предыдущего запроса

🚀 Быстрый старт — вставь в чат:

Вот шаблон метода SemSIEdit для проверки и редактуры текстов.
Адаптируй под мою задачу: {твоя_задача}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит про текст для проверки и цель материала — потому что Оценщику нужен контекст задачи, чтобы судить о релевантности инференций. Без контекста он не знает, что считать проблемой.


⚠️

Ограничения

⚠️ Небольшие модели режут, а не редактируют: Если используешь слабую модель (или модель с ограниченным контекстом), вместо умной переработки текст просто укоротится. Эффект есть, но ценой потери информации. Для этой техники нужна сильная модель — GPT-4o, Claude Sonnet или аналог.

⚠️ Reasoning-режим повышает базовый риск: Если включить расширенное рассуждение (o1, Claude Extended Thinking) без последующей защиты, модель делает более глубокие инференции — эффект «мозаики». Paradox: тот же режим делает защиту лучше, но без защиты — хуже.

⚠️ Субъективные суждения сложнее всего: Оценщик может ошибаться на пограничных случаях — особенно когда «репутационный вред» зависит от интерпретации. Жёсткие случаи (ложные факты) ловятся лучше, чем тонкие (инференции).

⚠️ Не замена профессиональной проверке: Метод снижает риски статистически, но не гарантирует чистоту. Для юридически значимых текстов — только как первичный фильтр.


🔍

Как исследовали

Команда из Virginia Tech и ADA University взяла датасет SEMSI-BENCH — вопросы, специально сконструированные для провокации чувствительных инференций трёх типов. Тестировали 13 современных моделей: от GPT-5 и Grok до Gemma-3-4B.

Интересный момент дизайна: стандартные судьи-оценщики давали слишком много ложных срабатываний, поэтому исследователи разработали уточнённых судей с более строгими определениями. Это само по себе инсайт — оценка чувствительности требует контекста, не просто ключевых слов.

Сравнивали три режима: без защиты, с safety-промптом (разово), и полный SEMSIEDIT-цикл. Отдельно проверили промышленные решения — LlamaGuard 4 и GPT-OSS-Safeguard-20B — и обнаружили, что они практически слепы к семантической утечке (F1 = 0.01 и 0.17 соответственно). Это не сноска — это главный вывод: стандартные гарды не работают на этом классе проблем.

Самый неожиданный результат: включение режима «глубокого рассуждения» (Chain-of-Thought) у Qwen3-8B увеличивало базовую утечку на 10 процентных пунктов. Модель стала лучше «достраивать мозаику» из публичных фактов в приватные инференции. При этом тот же режим делал защиту эффективнее. Разум как оружие работает в обе стороны.


💡

Адаптации и экстраполяции

🔧 Техника: Один промпт вместо двух → для быстрой проверки коротких текстов

Если текст короткий (до 500 слов) и нужна экспресс-проверка — объедини Оценщика и Редактора в один запрос:

Ты — редактор по информационной безопасности.

Шаг 1: Проверь текст на три проблемы:
- Чувствительные личные инференции (религия, политика, здоровье)
- Репутационный вред без оснований
- Подтверждение ложных фактов

Шаг 2: Сразу переработай проблемные места.
Правило: переписывай, не удаляй. Сохраняй стиль.

Выведи: список найденных проблем → итоговый текст.

ТЕКСТ: {текст}

Теряешь итерацию, выигрываешь время. Работает для большинства текстов.


🔧 Принцип «Мозаики» → как проверять свои промпты на непреднамеренные подсказки

Исследование описывает Mosaic Effect: модель собирает чувствительный вывод из нескольких безобидных деталей. Это работает и в обратную сторону — когда ты формулируешь запрос, ты можешь непреднамеренно подсказывать модели ложный контекст.

Перед сложным запросом добавляй:

Перед ответом: проверь, не содержит ли мой вопрос
ложных предпосылок, которые ты собираешься подтвердить.
Если да — сначала укажи на них.

Это мини-версия Оценщика, направленная на входящий запрос, а не исходящий текст.


🔗

Ресурсы

Название: Beyond Refusal: Probing the Limits of Agentic Self-Correction for Semantic Sensitive Information

Авторы: Umid Suleymanov, Murat Kantarcioglu (Virginia Tech), Zaur Rajabov, Emil Mirzazada (ADA University)

Дата: Препринт, февраль 2026

Связанные работы: SELF-REFINE (Madaan et al., 2023), SemSI-Bench (Zhang et al., 2025), Constitutional AI (Bai et al., 2022)


📋 Дайджест исследования

Ключевая суть

Фильтр по ключевым словам — оборона от атаки, которой нет. LLM «просачивает» чувствительную информацию через структуру текста, а не через запрещённые слова. Религия, политика, репутационный вред — всё это выводится из контекста. «Активно участвует в жизни общины» плюс регион плюс детали биографии — и читатель уже сделал вывод. Никакого запрещённого слова нет, никакой regex не сработал. Метод SemSIEdit позволяет находить и нейтрализовывать такие места в готовом тексте — не вырезать куски, а именно переписывать. Два агента в цепочке: Оценщик находит проблемные инференции, Редактор их нейтрализует с явным запретом на удаление. Объём и смысл текста — целые.

Принцип работы

Стандартная реакция модели на «напиши, но не упоминай религию»: либо отказ, либо текст с дырами. SemSIEdit меняет задачу. Не «не пиши про религию», а «вот конкретное место — перепиши нейтрально». Модель включает языковые способности иначе. Ищет нейтральный эквивалент — а не пустоту. Процесс прямой: черновик → структурированная критика с цитатами → переработанный текст. Повтор при необходимости. На практике — два-три отдельных запроса в чате.

Почему работает

LLM — генератор правдоподобных паттернов. Пишет о человеке — заполняет «ожидаемые» детали, даже если их нет в задании. Это не баг, это природа модели. И именно поэтому текст может содержать инференцию без единого запрещённого слова. Роль «Редактора» с явным запретом на удаление заставляет модель искать нейтральный эквивалент — а не избегать тему целиком. Это принципиально другая задача. Плюс неожиданный поворот из исследования: режим расширенных рассуждений — o1, Claude Extended Thinking — без последующей защиты делает инференции глубже. Модель думает дальше и приходит к более чувствительным выводам, чем обычная. Тот же режим с защитой — лучший результат. Без защиты — хуже базового. Парадокс, который стоит держать в голове.

Когда применять

Журналистика и медиа → профайлы, интервью, репортажи о конкретных людях, особенно когда есть риск репутационного иска или герой — публичная персона. Корпоративные коммуникации → обратная связь сотрудникам, документация по персоналу, внутренние отчёты. Юридические и compliance-тексты → как первичный фильтр перед ручной проверкой. НЕ подходит для: текстов без конкретных людей; задач где важна скорость — три последовательных запроса занимают время; слабых моделей — они режут текст вместо того чтобы редактировать, и теряют смысл.

Мини-рецепт

1. Напиши черновик с инструкцией: попроси LLM создать текст и явно укажи «избегай инференций о религии, политике, личных характеристиках {человек}». Получаешь базовый черновик.
2. Запусти Оценщика: подай черновик плюс исходное задание. Попроси оценить по трём категориям — личные атрибуты (религия, политика), репутационный вред, ложные факты. Формат ответа — структурированный разбор с цитатами из текста и объяснением почему это проблема.
3. Запусти Редактора: подай черновик плюс критику из шага 2. Явно запрети удалять абзацы и отказываться. Задача — переписать проблемные места, сохранить объём и стиль. Попроси вывести итоговый текст плюс список изменений.
4. Повтори если нужно: для большинства текстов хватает одного прогона. Для объёмных или сложных — ещё один круг оценка → редактура.
5. Настрой под задачу: не обязан использовать все три категории. Для новостей — только ложные факты. Для профайлов — все три. Строгость Оценщика регулируй через примеры проблемных формулировок прямо в промпте.

Примеры

[ПЛОХО] : Напиши профайл Сергея — фаундера агрокомпании из Краснодара. Не упоминай религию и политику
[ХОРОШО] : три последовательных запроса: Шаг 1: Напиши профайл Сергея — фаундера агрокомпании из Краснодара. Избегай инференций о его религии, политических взглядах и личной жизни Шаг 2: Ты — редактор-аналитик. Проверь черновик по трём критериям: 1) выводится ли из текста религия, политика или другие личные характеристики героя? 2) есть ли суждения, вредящие репутации без фактических оснований? 3) подтверждается ли что-то недоказанное? Для каждой проблемы — процитируй место и объясни почему это проблема. ЗАДАЧА: {цель_материала} ЧЕРНОВИК: {текст} Шаг 3: Ты — литературный редактор. Перепиши проблемные места из списка ниже. Правило одно: переписывай, не удаляй. Каждое место — нейтральная формулировка с сохранением смысла. Выведи полный итоговый текст и список изменений. ЧЕРНОВИК: {текст} СПИСОК ПРОБЛЕМ: {вывод_из_шага_2}
Источник: Beyond Refusal: Probing the Limits of Agentic Self-Correction for Semantic Sensitive Information
ArXiv ID: 2602.21496 | Сгенерировано: 2026-02-27 12:35

Проблемы LLM

ПроблемаСутьКак обойти
Модель раскрывает чувствительное через смысл, не словаТы просишь написать текст о человеке. Нет запрещённых слов. Нет имён и адресов. Но из фразы «активно участвует в жизни общины» читатель выводит религию. Из «осторожен в публичных высказываниях» — политическую позицию. Фильтры по словам это не поймают. Проблема возникает в любом тексте о реальных людях: биографии, профайлы, профессиональные статьиДобавь отдельный шаг проверки. Попроси модель сыграть роль аналитика и найти места, из которых можно вывести чувствительные атрибуты. Потом — роль редактора, который эти места переписывает, не удаляет

Методы

МетодСуть
Два запроса вместо одного: оценщик + редакторШаг 1 — Оценщик. Даёшь черновик и просишь найти три типа проблем: (1) личные атрибуты, которые можно вывести из текста (религия, политика, ориентация), (2) суждения, которые вредят репутации без фактических оснований, (3) подтверждение ложных фактов. Просишь вывести в виде JSON с цитатой проблемного места и объяснением. Шаг 2 — Редактор. Даёшь черновик + вывод оценщика. Запрещаешь удалять и отказываться. Просишь переписать каждое проблемное место нейтрально, сохранив смысл. Почему работает: модель-оценщик читает текст глазами стороннего читателя — это другая задача, чем генерация. Разделение ролей даёт более точную проверку. Когда применять: любые тексты о реальных людях или организациях, где важна репутационная чистота. Ограничение: слабые модели вместо переработки просто укорачивают текст

Тезисы

ТезисКомментарий
«Перепиши» работает лучше чем «не пиши»Когда говоришь модели «избегай политических инференций» — она либо отказывает, либо вырезает куски. Когда даёшь роль редактора с задачей «переформулируй вот это место» — модель ищет нейтральный вариант, а не пустоту. Задача меняется: не запрет, а замена. Модель использует языковые возможности иначе. Применяй: в любых задачах на исправление текста — вместо «не делай X» пиши «замени X на нейтральный вариант, который сохраняет смысл»
📖 Простыми словами

Beyond Refusal: Probing the Limits of Agentic Self-Correction for Semantic Sensitive Information

arXiv: 2602.21496

Современные нейронки текут не словами, а смыслами, и это главная проблема безопасности. Обычные фильтры ищут в тексте конкретную «запрещенку» вроде мата или номеров карт, но семантическая утечка работает тоньше. Модель может не называть твою религию или политические взгляды напрямую, но так выстроить структуру ответа и подобрать эпитеты, что любой человек (или другой AI) мгновенно считает подтекст. Это фундаментальный баг архитектуры: LLM обучены связывать смыслы, поэтому они физически не могут просто «забыть» контекст, который косвенно выдает чувствительную информацию.

Это как пытаться скрыть, что ты куришь, просто не показывая сигареты. Ты можешь почистить зубы и спрятать пачку, но запах от одежды, специфический кашель и привычка постоянно выходить «подышать» выдадут тебя с потрохами. Формально улик нет, но всем всё понятно. В этом и заключается облом: стандартные системы безопасности ищут «сигарету» в тексте, а модель выдает тебя через косвенные признаки и общую тональность.

Чтобы поймать такую фигню, исследователи используют агентную самокоррекцию — это когда одна модель пишет текст, а вторая (или та же самая в другой роли) работает как дотошный цензор-аналитик. Она не просто ищет слова, а проверяет инференцию: можно ли из этого абзаца сделать вывод, который мы хотим скрыть. Если ты пишешь про бизнесмена, который «активно помогает общине в южном регионе», агент-цензор бьет тревогу, потому что это явный намек на конкретную конфессию. Работает только многослойная проверка, где AI буквально пытается «додумать» лишнее за основным текстом.

Тестировали это на сложных профилях людей, но принцип универсален для любого корпоративного софта или медиа. Если ты делаешь чат-бота для банка или пишешь статьи про фаундеров, обычный список стоп-слов — это бесполезная бутафория. Любой хитрый запрос или просто неудачный контекст заставит модель «слить» позицию компании или личные данные клиента через семантические маркеры. Сейчас это критически важно для GEO и новых поисковиков: они анализируют не ключи, а суть, и если твоя суть «протекает», репутационные риски взлетают до небес.

Короче, пора признать: старая цензура сдохла, потому что AI научился читать между строк. Если хочешь реально защитить данные, нужно внедрять циклы самопроверки на инференцию, а не надеяться на фильтры из прошлого десятилетия. Текст без запрещенных слов всё равно может быть токсичным или выдать тайну, и если ты это не контролируешь, то рано или поздно модель подставит тебя в самый неподходящий момент. Безопасность по ключевым словам — это иллюзия, будущее за анализом смысловых связей.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с