TL;DR
IBI — двухшаговая техника промптинга, где модель сначала анализирует скрытые манипулятивные намерения в тексте, а потом использует этот анализ как "прививку" при финальной проверке на достоверность. Два отдельных запроса: вначале — разобрать намерения, затем — вынести вердикт с учётом находок первого шага.
Проблема: LLM "заражается" убедительной дезинформацией так же, как и люди. Если спросить модель напрямую "это правда или нет?" — она оценивает текст как читатель, а не как критик. Хорошо написанная манипуляция звучит убедительно, и модель её пропускает.
Решение: Шаг 1 переключает модель из режима чтения в режим разбора. Когда модель явно называет манипулятивные приёмы и намерения автора, она уже не может "поверить" тексту на шаге 2 — анализ блокирует убеждающий эффект. Авторы называют это иммунитетом по аналогии с вакциной.
Схема метода
ШАГ 1 (первый запрос): Анализ намерений
Входные данные: текст + список типов манипуляций
→ Для каждого типа: Да/Нет + объяснение из текста
ШАГ 2 (второй запрос): Оценка достоверности
Входные данные: текст + ⚠️ предупреждение + анализ из шага 1
→ Вердикт: достоверно / дезинформация + обоснование
Оба шага — в обычном чате. Никакого кода. Копируешь вывод из шага 1 и вставляешь в шаг 2.
Пример применения
⚠️ Где метод работает лучше всего: длинные тексты (статьи, посты с развёрнутой аргументацией), где манипуляция строится через нарратив. Для коротких твитов в 2-3 предложения — слабее.
Задача: Вам прислали в Telegram статью на 3000 слов: "Центробанк скрывает реальную инфляцию — вот доказательства". Хотите понять — это аналитика или манипуляция перед тем, как пересылать дальше.
Промпт — Шаг 1:
Проанализируй текст ниже на наличие манипулятивных намерений.
Для каждого из пяти типов укажи:
— Присутствует: Да / Нет
— Признаки: конкретные примеры из текста (цитата или пересказ)
Типы намерений:
1. Подрыв доверия к институтам — государству, регуляторам, СМИ, экспертам
2. Изменение политических или социальных взглядов читателя
3. Разжигание антагонизма между группами — классовые, этнические, идеологические линии
4. Продвижение антинаучных или конспирологических идей
5. Дискредитация международных организаций, союзов, партнёрств
Текст:
[вставьте статью]
Промпт — Шаг 2:
⚠️ ВНИМАНИЕ: Этот текст может содержать скрытые манипулятивные намерения.
Вот анализ намерений, который был выявлен в тексте на предыдущем шаге:
[вставьте вывод из шага 1]
Исходный текст:
[вставьте статью повторно]
С учётом выявленных намерений оцени:
1. Содержит ли текст дезинформацию или вводящие в заблуждение утверждения?
2. Какие конкретные элементы указывают на намеренное манипулирование?
3. Финальный вердикт: Достоверно / Дезинформация / Требует проверки фактов
Объясни решение.
Результат:
На шаге 1 модель выдаст структурированный разбор: по каждому из пяти типов — вердикт и цитаты из текста, на которые опирается вывод. Вы увидите, что именно в тексте работает как манипуляция.
На шаге 2 модель вынесет финальный вердикт с опорой на анализ из шага 1. Ответ будет содержать конкретные приёмы ("автор использует анонимные источники", "обобщение без данных", "нагнетание угрозы") — а не просто "выглядит подозрительно".
Почему это работает
LLM читает текст как читатель — и попадает в ту же ловушку. Убедительно написанный манипулятивный текст использует реальные факты, логичные переходы и эмоциональные триггеры. Когда модель видит всё это без подготовки, она оценивает поверхностную убедительность — и пропускает манипуляцию.
Модель хорошо умеет переключать перспективу — если явно задать роль аналитика, а не читателя. Шаг 1 делает именно это: модель не читает текст, она препарирует его. После того как намерения названы и разобраны, они теряют убеждающую силу.
Рычаги управления: - Типы намерений — адаптируй под задачу. Для маркетинговых текстов замени "дискредитация организаций" на "ложная срочность" или "скрытое сравнение с конкурентами" - Уровень детализации в шаге 1 — добавь "приведи дословную цитату" для жёсткой привязки к тексту - Финальный вердикт шага 2 — расширь до шкалы от 1 до 5 вместо трёх вариантов, если нужна градация
Шаблон промпта
Шаг 1 — Анализ намерений:
Проанализируй текст на наличие манипулятивных намерений.
Для каждого типа укажи:
— Присутствует: Да / Нет
— Признаки: конкретные примеры из текста
Типы намерений:
{список_типов_намерений}
Текст:
{текст}
Шаг 2 — Иммунизированная оценка:
⚠️ ВНИМАНИЕ: Этот текст может содержать скрытые манипулятивные намерения.
Анализ намерений:
{вывод_из_шага_1}
Исходный текст:
{текст}
С учётом выявленных намерений:
1. Содержит ли текст {критерий_оценки}?
2. Какие конкретные элементы указывают на намеренное манипулирование?
3. Финальный вердикт: {варианты_вердикта}
Объясни решение.
Плейсхолдеры:
- {список_типов_намерений} — типы из оригинала или свои (для маркетинга, политики, здоровья — разные наборы)
- {критерий_оценки} — "дезинформацию", "скрытую рекламу", "манипуляцию эмоциями"
- {варианты_вердикта} — "Достоверно / Дезинформация / Требует проверки" или своя шкала
🚀 Быстрый старт — вставь в чат:
Вот шаблон метода IBI (Intent-Based Inoculation) — двухшаговая проверка текста
на манипуляцию. Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит: какой текст проверяете и какие типы манипуляций важны для вашего контекста — потому что список намерений и финальный критерий оценки — это ядро метода, и их нужно настроить под вашу задачу.
Ограничения
⚠️ Короткие тексты: Метод слабее работает с постами в 2-3 предложения — мало материала для анализа намерений на шаге 1. Лучший результат на статьях и развёрнутых постах.
⚠️ Качество шага 1 влияет на шаг 2: Если модель ошиблась в анализе намерений, это может негативно повлиять на финальный вердикт. Проблемнее всего — тексты, где манипуляция тонкая и многослойная.
⚠️ Не работает как детектор лжи: Метод обнаруживает манипулятивные намерения, не фактические ошибки. Для проверки конкретных фактов нужна отдельная верификация.
⚠️ Длинные тексты съедают контекст: Если статья большая, шаг 2 требует передавать и текст, и анализ из шага 1 — следите за лимитами контекста.
Как исследовали
Команда из Падуанского университета и Польско-японской академии сделала нетривиальную вещь: сначала создала датасет MALINT из 1600 новостных статей, где каждую размечали профессиональные фактчекеры из организаций с аккредитацией IFCN. Источники намеренно скрывали от аннотаторов, чтобы избежать предвзятости — аннотаторы видели только текст, не зная, откуда он.
Потом проверили IBI на шести разных датасетах, пяти LLM (GPT-4o Mini, GPT 4.1 Mini, Gemini 2.0 Flash, Llama 3.3 70B, Gemma 3 27B) и семи языках, включая эстонский и польский — языки с малым количеством ресурсов.比сравнивали с тремя сильными baseline-промптами: прямой инструкцией, Chain-of-Thought и методом DeF-SpeC с дедуктивным рассуждением.
Главный сюрприз: IBI не просто немного лучше — он улучшает результат в ~90% из 75 тестовых сценариев. Причём работает и на текстах, опубликованных после даты обучения модели — то есть на данных, которых модель точно не видела. Это важно: метод не полагается на "память" модели о конкретном событии, а использует структурное мышление. Для многоязычного теста прирост оказался ещё больше — в среднем 20% против baseline.
Адаптации и экстраполяции
🔧 Адаптация под маркетинг и продажи
Тот же принцип — анализ намерений перед оценкой — работает для любого убеждающего контента.
Замените типы намерений в шаге 1:
Типы намерений (для маркетинговых и коммерческих текстов):
1. Искусственная срочность — давление на немедленное решение
2. Ложный социальный эффект — "все уже купили", "10 000 довольных клиентов"
3. Скрытое сравнение — намёки на конкурентов без их прямого упоминания
4. Подмена ценности — продают эмоцию вместо реального свойства продукта
5. Страх и избегание потери — акцент на том, что потеряете, если не купите
Применение: проверяй оферы, коммерческие письма, скрипты продажников или рекламные объявления перед тем, как на них реагировать или использовать в работе.
🔧 Адаптация: персональный "красный флаг" для переговоров
Тот же двухшаговый паттерн — для анализа переговорных позиций или деловых предложений:
Шаг 1 — попросить модель выявить асимметрию: где партнёр акцентирует внимание, а где намеренно молчит.
Шаг 2 — с учётом этого анализа оценить, насколько предложение выгодно для каждой стороны.
Это та же "иммунизация" — сначала называешь приём, потом оцениваешь содержание. Назвал → нейтрализовал убеждающий эффект.
Ресурсы
Статья: MALicious INTent Dataset and Inoculating LLMs for Enhanced Disinformation Detection
Репозиторий с данными, промптами и кодом: github.com/ArkadiusDS/MALINT
Авторы: Arkadiusz Modzelewski, Witold Sosnowski, Eleni Papadopulos, Elisa Sartori, Tiziano Labruna, Giovanni Da San Martino, Adam Wierzbicki
Организации: University of Padua (Италия), Polish-Japanese Academy of Information Technology (Польша), NASK National Research Institute (Польша), Politecnico di Torino (Италия)
