TL;DR
LLM регулярно «просачивает» чувствительную информацию, которую никакой фильтр по ключевым словам не поймает. Не явные данные — ФИО, телефон — а выведенные: религия, политические взгляды, компрометирующие суждения или «подтверждение» ложных фактов через саму структуру ответа.
Стандартный подход — «заблокировать и отказать» — разрушает полезность. Исследователи предложили иначе: пусть LLM сыграет роль редактора, который находит чувствительные места и переписывает их, сохраняя смысл и поток текста. Не вырезает — редактирует.
SEMSIEDIT — это двухагентный цикл: Оценщик находит проблемные места в черновике, Редактор их переписывает. Цикл повторяется до чистого результата. На практике это переводится в последовательность из 2-3 отдельных запросов в чате.
Схема метода
Все шаги — отдельные запросы в чате
ШАГ 1: Инициализация
→ Попроси LLM написать текст с явной инструкцией
"избегать чувствительных инференций"
→ Получаешь: черновик
ШАГ 2: Оценка (Evaluator)
→ Подаёшь черновик + тот же вопрос/задачу
→ Просишь оценить по трём категориям:
- Есть ли чувствительные атрибуты личности?
- Есть ли репутационно вредные суждения?
- Есть ли подтверждение ложных фактов?
→ Получаешь: структурированную критику с указанием
конкретных проблемных мест
ШАГ 3: Редактирование (Editor)
→ Подаёшь черновик + критику из Шага 2
→ Просишь ПЕРЕПИСАТЬ проблемные места,
НЕ удалять и НЕ отказывать
→ Получаешь: исправленный текст
Шаги 2→3 повторяются (обычно 1-2 раза)
до чистого результата
Пример применения
Задача: Редактор медиапроекта «Русский Forbes» готовит профайл о Сергее — фаундере агрокомпании из Краснодара. Текст написан, но нужно проверить: нет ли случайных инференций о его религиозных взглядах, политической позиции или чего-то, что могло бы повредить репутации.
Промпт — Шаг 2 (Оценщик):
Ты — редактор-аналитик по информационной безопасности.
Тебе дадут два блока: исходный вопрос/задание и черновик текста.
Оцени черновик по трём категориям:
1. ЛИЧНЫЕ АТРИБУТЫ: выводишь ли ты из текста религию,
политические взгляды, сексуальную ориентацию или
другие чувствительные личные характеристики героя?
→ {"ifPrivacy": "да/нет", "что именно": "..."}
2. РЕПУТАЦИОННЫЙ ВРЕД: содержит ли текст суждения,
которые могут повредить репутации человека
без фактических оснований?
→ {"ifHarmful": "да/нет", "что именно": "..."}
3. ЛОЖНЫЕ ФАКТЫ: подтверждает ли текст неверные
предпосылки или ложные утверждения как достоверные?
→ {"ifMisinformation": "да/нет", "что именно": "..."}
Для каждой проблемы: процитируй конкретное место
и объясни почему оно проблематично.
ЗАДАНИЕ: {исходное_задание}
ЧЕРНОВИК: {текст_черновика}
Промпт — Шаг 3 (Редактор):
Ты — литературный редактор. Тебе дан черновик текста
и список проблемных мест из проверки.
Твоя задача: ПЕРЕПИСАТЬ каждое проблемное место так,
чтобы:
- убрать чувствительную инференцию
- сохранить смысл и полезность текста
- сохранить стиль и поток повествования
ЗАПРЕЩЕНО: удалять абзацы целиком, отказываться
от ответа, оставлять пустые места.
Выведи итоговый текст полностью с внесёнными правками.
В конце — список изменений: что и почему изменено.
ЧЕРНОВИК: {текст_черновика}
ПРОБЛЕМНЫЕ МЕСТА: {критика_из_шага_2}
Результат: Шаг 2 вернёт структурированный разбор: какие места в тексте создают чувствительные выводы и почему. Шаг 3 даст переработанный текст с сохранённым объёмом и стилем — не урезанный, а именно отредактированный. В финале будет список конкретных изменений с объяснением.
Почему это работает
LLM «протекает» смыслом, а не словами. Стандартные фильтры ищут ключевые слова — ФИО, адреса, номера. Но если в тексте написано «активно участвует в жизни общины» в контексте региона — читатель может вывести религию. Никакой regex это не поймает, потому что нет запрещённого слова.
Мозг LLM — генератор правдоподобных паттернов. Когда модель генерирует текст, она заполняет «ожидаемые» детали — даже если их нет в исходных данных. Это называют галлюцинацией уверенности: модель не говорит «я не знаю», она придумывает убедительную деталь. В тексте о человеке это может быть репутационно вредная инференция.
Роль «Редактора» меняет задачу модели. Когда просишь LLM «не писать о политике», она либо отказывает, либо вырезает куски. Когда даёшь роль редактора с конкретным указанием перефразировать, не удалять — модель использует свои языковые способности иначе. Она ищет нейтральную формулировку, а не пустоту.
Рычаги управления: - Число итераций → для коротких текстов достаточно одного цикла оценки + редактуры - Строгость Оценщика → добавь примеры проблемных формулировок в промпт Шага 2 (few-shot) - Инструкция «объясни изменения» → убери, если нужен только чистый текст без комментариев - Три категории SemSI → можешь оставить только нужные под свою задачу
Шаблон промпта
Шаг 2 — Оценщик:
Ты — редактор-аналитик. Проверь черновик по трём критериям:
1. ЛИЧНЫЕ АТРИБУТЫ: выводится ли из текста религия,
политика, сексуальная ориентация или другие чувствительные
характеристики {кого_проверяем}?
→ {"ifPrivacy": "да/нет", "место": "цитата", "проблема": "..."}
2. РЕПУТАЦИОННЫЙ ВРЕД: есть ли суждения, которые вредят
репутации {кого_проверяем} без фактических оснований?
→ {"ifHarmful": "да/нет", "место": "цитата", "проблема": "..."}
3. ЛОЖНЫЕ ФАКТЫ: подтверждается ли в тексте что-то
недоказанное или заведомо неверное?
→ {"ifMisinformation": "да/нет", "место": "цитата", "проблема": "..."}
ЗАДАЧА: {что_должен_делать_текст}
ЧЕРНОВИК:
{текст}
Шаг 3 — Редактор:
Ты — литературный редактор. Переработай черновик
на основе списка проблем. Правило одно: ПЕРЕПИСЫВАЙ,
не удаляй. Каждое проблемное место замени нейтральной
формулировкой, которая сохраняет смысл.
Выведи: полный итоговый текст + список изменений.
ЧЕРНОВИК: {текст}
СПИСОК ПРОБЛЕМ: {вывод_из_шага_2}
Плейсхолдеры:
- {кого_проверяем} — "героя текста", "компании", "автора"
- {что_должен_делать_текст} — цель материала
- {текст} — черновик целиком
- {вывод_из_шага_2} — JSON-ответ из предыдущего запроса
🚀 Быстрый старт — вставь в чат:
Вот шаблон метода SemSIEdit для проверки и редактуры текстов.
Адаптируй под мою задачу: {твоя_задача}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит про текст для проверки и цель материала — потому что Оценщику нужен контекст задачи, чтобы судить о релевантности инференций. Без контекста он не знает, что считать проблемой.
Ограничения
⚠️ Небольшие модели режут, а не редактируют: Если используешь слабую модель (или модель с ограниченным контекстом), вместо умной переработки текст просто укоротится. Эффект есть, но ценой потери информации. Для этой техники нужна сильная модель — GPT-4o, Claude Sonnet или аналог.
⚠️ Reasoning-режим повышает базовый риск: Если включить расширенное рассуждение (o1, Claude Extended Thinking) без последующей защиты, модель делает более глубокие инференции — эффект «мозаики». Paradox: тот же режим делает защиту лучше, но без защиты — хуже.
⚠️ Субъективные суждения сложнее всего: Оценщик может ошибаться на пограничных случаях — особенно когда «репутационный вред» зависит от интерпретации. Жёсткие случаи (ложные факты) ловятся лучше, чем тонкие (инференции).
⚠️ Не замена профессиональной проверке: Метод снижает риски статистически, но не гарантирует чистоту. Для юридически значимых текстов — только как первичный фильтр.
Как исследовали
Команда из Virginia Tech и ADA University взяла датасет SEMSI-BENCH — вопросы, специально сконструированные для провокации чувствительных инференций трёх типов. Тестировали 13 современных моделей: от GPT-5 и Grok до Gemma-3-4B.
Интересный момент дизайна: стандартные судьи-оценщики давали слишком много ложных срабатываний, поэтому исследователи разработали уточнённых судей с более строгими определениями. Это само по себе инсайт — оценка чувствительности требует контекста, не просто ключевых слов.
Сравнивали три режима: без защиты, с safety-промптом (разово), и полный SEMSIEDIT-цикл. Отдельно проверили промышленные решения — LlamaGuard 4 и GPT-OSS-Safeguard-20B — и обнаружили, что они практически слепы к семантической утечке (F1 = 0.01 и 0.17 соответственно). Это не сноска — это главный вывод: стандартные гарды не работают на этом классе проблем.
Самый неожиданный результат: включение режима «глубокого рассуждения» (Chain-of-Thought) у Qwen3-8B увеличивало базовую утечку на 10 процентных пунктов. Модель стала лучше «достраивать мозаику» из публичных фактов в приватные инференции. При этом тот же режим делал защиту эффективнее. Разум как оружие работает в обе стороны.
Адаптации и экстраполяции
🔧 Техника: Один промпт вместо двух → для быстрой проверки коротких текстов
Если текст короткий (до 500 слов) и нужна экспресс-проверка — объедини Оценщика и Редактора в один запрос:
Ты — редактор по информационной безопасности.
Шаг 1: Проверь текст на три проблемы:
- Чувствительные личные инференции (религия, политика, здоровье)
- Репутационный вред без оснований
- Подтверждение ложных фактов
Шаг 2: Сразу переработай проблемные места.
Правило: переписывай, не удаляй. Сохраняй стиль.
Выведи: список найденных проблем → итоговый текст.
ТЕКСТ: {текст}
Теряешь итерацию, выигрываешь время. Работает для большинства текстов.
🔧 Принцип «Мозаики» → как проверять свои промпты на непреднамеренные подсказки
Исследование описывает Mosaic Effect: модель собирает чувствительный вывод из нескольких безобидных деталей. Это работает и в обратную сторону — когда ты формулируешь запрос, ты можешь непреднамеренно подсказывать модели ложный контекст.
Перед сложным запросом добавляй:
Перед ответом: проверь, не содержит ли мой вопрос
ложных предпосылок, которые ты собираешься подтвердить.
Если да — сначала укажи на них.
Это мини-версия Оценщика, направленная на входящий запрос, а не исходящий текст.
Ресурсы
Название: Beyond Refusal: Probing the Limits of Agentic Self-Correction for Semantic Sensitive Information
Авторы: Umid Suleymanov, Murat Kantarcioglu (Virginia Tech), Zaur Rajabov, Emil Mirzazada (ADA University)
Дата: Препринт, февраль 2026
Связанные работы: SELF-REFINE (Madaan et al., 2023), SemSI-Bench (Zhang et al., 2025), Constitutional AI (Bai et al., 2022)
