3,583 papers
arXiv:2603.14525 80 15 мар. 2026 г. FREE

IBI (Intent-Based Inoculation): двухшаговый промпт, который делает LLM устойчивой к манипуляциям

КЛЮЧЕВАЯ СУТЬ
LLM читает манипулятивный текст как обычный человек — и попадается на те же крючки. Спрашиваешь напрямую 'это правда?' — модель оценивает насколько убедительно написано, а не где правда. IBI позволяет проверять тексты на манипуляцию без дообучения — двумя обычными запросами в чат. Шаг 1 переключает модель из режима читателя в режим аналитика: она явно называет манипулятивные приёмы и намерения автора по каждому пункту. После этого убеждающий эффект заблокированмодель уже не может 'поверить' тексту на шаге 2, потому что только что сама его препарировала.
Адаптировать под запрос

TL;DR

IBI — двухшаговая техника промптинга, где модель сначала анализирует скрытые манипулятивные намерения в тексте, а потом использует этот анализ как "прививку" при финальной проверке на достоверность. Два отдельных запроса: вначале — разобрать намерения, затем — вынести вердикт с учётом находок первого шага.

Проблема: LLM "заражается" убедительной дезинформацией так же, как и люди. Если спросить модель напрямую "это правда или нет?" — она оценивает текст как читатель, а не как критик. Хорошо написанная манипуляция звучит убедительно, и модель её пропускает.

Решение: Шаг 1 переключает модель из режима чтения в режим разбора. Когда модель явно называет манипулятивные приёмы и намерения автора, она уже не может "поверить" тексту на шаге 2 — анализ блокирует убеждающий эффект. Авторы называют это иммунитетом по аналогии с вакциной.


🔬

Схема метода

ШАГ 1 (первый запрос): Анализ намерений
  Входные данные: текст + список типов манипуляций
  → Для каждого типа: Да/Нет + объяснение из текста

ШАГ 2 (второй запрос): Оценка достоверности  
  Входные данные: текст + ⚠️ предупреждение + анализ из шага 1
  → Вердикт: достоверно / дезинформация + обоснование

Оба шага — в обычном чате. Никакого кода. Копируешь вывод из шага 1 и вставляешь в шаг 2.


🚀

Пример применения

⚠️ Где метод работает лучше всего: длинные тексты (статьи, посты с развёрнутой аргументацией), где манипуляция строится через нарратив. Для коротких твитов в 2-3 предложения — слабее.


Задача: Вам прислали в Telegram статью на 3000 слов: "Центробанк скрывает реальную инфляцию — вот доказательства". Хотите понять — это аналитика или манипуляция перед тем, как пересылать дальше.


Промпт — Шаг 1:

Проанализируй текст ниже на наличие манипулятивных намерений.

Для каждого из пяти типов укажи:
— Присутствует: Да / Нет
— Признаки: конкретные примеры из текста (цитата или пересказ)

Типы намерений:
1. Подрыв доверия к институтам — государству, регуляторам, СМИ, экспертам
2. Изменение политических или социальных взглядов читателя
3. Разжигание антагонизма между группами — классовые, этнические, идеологические линии
4. Продвижение антинаучных или конспирологических идей
5. Дискредитация международных организаций, союзов, партнёрств

Текст:
[вставьте статью]

Промпт — Шаг 2:

⚠️ ВНИМАНИЕ: Этот текст может содержать скрытые манипулятивные намерения.

Вот анализ намерений, который был выявлен в тексте на предыдущем шаге:
[вставьте вывод из шага 1]

Исходный текст:
[вставьте статью повторно]

С учётом выявленных намерений оцени:
1. Содержит ли текст дезинформацию или вводящие в заблуждение утверждения?
2. Какие конкретные элементы указывают на намеренное манипулирование?
3. Финальный вердикт: Достоверно / Дезинформация / Требует проверки фактов

Объясни решение.

Результат:

На шаге 1 модель выдаст структурированный разбор: по каждому из пяти типов — вердикт и цитаты из текста, на которые опирается вывод. Вы увидите, что именно в тексте работает как манипуляция.

На шаге 2 модель вынесет финальный вердикт с опорой на анализ из шага 1. Ответ будет содержать конкретные приёмы ("автор использует анонимные источники", "обобщение без данных", "нагнетание угрозы") — а не просто "выглядит подозрительно".


🧠

Почему это работает

LLM читает текст как читатель — и попадает в ту же ловушку. Убедительно написанный манипулятивный текст использует реальные факты, логичные переходы и эмоциональные триггеры. Когда модель видит всё это без подготовки, она оценивает поверхностную убедительность — и пропускает манипуляцию.

Модель хорошо умеет переключать перспективу — если явно задать роль аналитика, а не читателя. Шаг 1 делает именно это: модель не читает текст, она препарирует его. После того как намерения названы и разобраны, они теряют убеждающую силу.

Рычаги управления: - Типы намерений — адаптируй под задачу. Для маркетинговых текстов замени "дискредитация организаций" на "ложная срочность" или "скрытое сравнение с конкурентами" - Уровень детализации в шаге 1 — добавь "приведи дословную цитату" для жёсткой привязки к тексту - Финальный вердикт шага 2 — расширь до шкалы от 1 до 5 вместо трёх вариантов, если нужна градация


📋

Шаблон промпта

Шаг 1 — Анализ намерений:

Проанализируй текст на наличие манипулятивных намерений.

Для каждого типа укажи:
— Присутствует: Да / Нет  
— Признаки: конкретные примеры из текста

Типы намерений:
{список_типов_намерений}

Текст:
{текст}

Шаг 2 — Иммунизированная оценка:

⚠️ ВНИМАНИЕ: Этот текст может содержать скрытые манипулятивные намерения.

Анализ намерений:
{вывод_из_шага_1}

Исходный текст:
{текст}

С учётом выявленных намерений:
1. Содержит ли текст {критерий_оценки}?
2. Какие конкретные элементы указывают на намеренное манипулирование?
3. Финальный вердикт: {варианты_вердикта}

Объясни решение.

Плейсхолдеры: - {список_типов_намерений} — типы из оригинала или свои (для маркетинга, политики, здоровья — разные наборы) - {критерий_оценки} — "дезинформацию", "скрытую рекламу", "манипуляцию эмоциями" - {варианты_вердикта} — "Достоверно / Дезинформация / Требует проверки" или своя шкала


🚀 Быстрый старт — вставь в чат:

Вот шаблон метода IBI (Intent-Based Inoculation) — двухшаговая проверка текста 
на манипуляцию. Адаптируй под мою задачу: {твоя задача}.

Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит: какой текст проверяете и какие типы манипуляций важны для вашего контекста — потому что список намерений и финальный критерий оценки — это ядро метода, и их нужно настроить под вашу задачу.


⚠️

Ограничения

⚠️ Короткие тексты: Метод слабее работает с постами в 2-3 предложения — мало материала для анализа намерений на шаге 1. Лучший результат на статьях и развёрнутых постах.

⚠️ Качество шага 1 влияет на шаг 2: Если модель ошиблась в анализе намерений, это может негативно повлиять на финальный вердикт. Проблемнее всего — тексты, где манипуляция тонкая и многослойная.

⚠️ Не работает как детектор лжи: Метод обнаруживает манипулятивные намерения, не фактические ошибки. Для проверки конкретных фактов нужна отдельная верификация.

⚠️ Длинные тексты съедают контекст: Если статья большая, шаг 2 требует передавать и текст, и анализ из шага 1 — следите за лимитами контекста.


🔍

Как исследовали

Команда из Падуанского университета и Польско-японской академии сделала нетривиальную вещь: сначала создала датасет MALINT из 1600 новостных статей, где каждую размечали профессиональные фактчекеры из организаций с аккредитацией IFCN. Источники намеренно скрывали от аннотаторов, чтобы избежать предвзятости — аннотаторы видели только текст, не зная, откуда он.

Потом проверили IBI на шести разных датасетах, пяти LLM (GPT-4o Mini, GPT 4.1 Mini, Gemini 2.0 Flash, Llama 3.3 70B, Gemma 3 27B) и семи языках, включая эстонский и польский — языки с малым количеством ресурсов.比сравнивали с тремя сильными baseline-промптами: прямой инструкцией, Chain-of-Thought и методом DeF-SpeC с дедуктивным рассуждением.

Главный сюрприз: IBI не просто немного лучше — он улучшает результат в ~90% из 75 тестовых сценариев. Причём работает и на текстах, опубликованных после даты обучения модели — то есть на данных, которых модель точно не видела. Это важно: метод не полагается на "память" модели о конкретном событии, а использует структурное мышление. Для многоязычного теста прирост оказался ещё больше — в среднем 20% против baseline.


💡

Адаптации и экстраполяции

📌

🔧 Адаптация под маркетинг и продажи

Тот же принцип — анализ намерений перед оценкой — работает для любого убеждающего контента.

Замените типы намерений в шаге 1:

Типы намерений (для маркетинговых и коммерческих текстов):
1. Искусственная срочность — давление на немедленное решение
2. Ложный социальный эффект — "все уже купили", "10 000 довольных клиентов"
3. Скрытое сравнение — намёки на конкурентов без их прямого упоминания
4. Подмена ценности — продают эмоцию вместо реального свойства продукта
5. Страх и избегание потери — акцент на том, что потеряете, если не купите

Применение: проверяй оферы, коммерческие письма, скрипты продажников или рекламные объявления перед тем, как на них реагировать или использовать в работе.


📌

🔧 Адаптация: персональный "красный флаг" для переговоров

Тот же двухшаговый паттерн — для анализа переговорных позиций или деловых предложений:

Шаг 1 — попросить модель выявить асимметрию: где партнёр акцентирует внимание, а где намеренно молчит.

Шаг 2 — с учётом этого анализа оценить, насколько предложение выгодно для каждой стороны.

Это та же "иммунизация" — сначала называешь приём, потом оцениваешь содержание. Назвал → нейтрализовал убеждающий эффект.


🔗

Ресурсы

Статья: MALicious INTent Dataset and Inoculating LLMs for Enhanced Disinformation Detection

Репозиторий с данными, промптами и кодом: github.com/ArkadiusDS/MALINT

Авторы: Arkadiusz Modzelewski, Witold Sosnowski, Eleni Papadopulos, Elisa Sartori, Tiziano Labruna, Giovanni Da San Martino, Adam Wierzbicki

Организации: University of Padua (Италия), Polish-Japanese Academy of Information Technology (Польша), NASK National Research Institute (Польша), Politecnico di Torino (Италия)


📋 Дайджест исследования

Ключевая суть

LLM читает манипулятивный текст как обычный человек — и попадается на те же крючки. Спрашиваешь напрямую 'это правда?' — модель оценивает насколько убедительно написано, а не где правда. IBI позволяет проверять тексты на манипуляцию без дообучения — двумя обычными запросами в чат. Шаг 1 переключает модель из режима читателя в режим аналитика: она явно называет манипулятивные приёмы и намерения автора по каждому пункту. После этого убеждающий эффект заблокированмодель уже не может 'поверить' тексту на шаге 2, потому что только что сама его препарировала.

Принцип работы

Два запроса — два разных режима работы. Не один вопрос 'оцени достоверность', а разделённый процесс: Шаг 1 — не читай, а препарируй: для каждого типа манипуляций — да/нет + конкретные примеры из текста с цитатами. Шаг 2 — вынеси вердикт, но уже с анализом из шага 1 перед глазами и с явным предупреждением 'этот текст может манипулировать'. Это как попросить хирурга оценить пациента. Стандартный запрос — 'выглядит нормально?'. IBI — сначала выписать все симптомы по протоколу, потом ставить диагноз с опорой на список. Промежуточный шаг меняет всё.

Почему работает

Убедительно написанный манипулятивный текст использует реальные факты и логичные переходы. Модель в стандартном режиме смотрит насколько складно написан текст — и пропускает манипуляцию, потому что текст выглядит связно. Когда намерения названы явно на шаге 1, они теряют силу на шаге 2 — это и есть иммунитет. Модель только что разобрала как именно в тексте давят на читателя. Смена перспективы с 'читатель' на 'аналитик' блокирует убеждающий эффект раньше, чем звучит финальный вопрос о достоверности.

Когда применять

Проверка информации → конкретно для длинных текстов (статьи, посты с развёрнутой аргументацией, новостные материалы), особенно когда манипуляция строится через нарратив и эмоциональные переходы, а не через очевидную ложь. Работает не только для дезинформации: адаптируй список намерений под маркетинговые тексты ('ложная срочность', 'скрытое сравнение с конкурентами') или медицинский контент ('антинаучные утверждения', 'давление через страх'). НЕ подходит для коротких постов в 2-3 предложения — мало материала для шага 1, модели не за что зацепиться. И не заменяет проверку фактов: метод ловит манипулятивные намерения, а не фактические ошибки.

Мини-рецепт

1. Составь список намерений под свой контекст: Для новостей — подрыв доверия к регуляторам, разжигание антагонизма между группами, конспирология, дискредитация экспертов. Для рекламы — ложная срочность, скрытое сравнение, давление через страх. Хватит 4-6 пунктов.

2. Запусти шаг 1: Передай текст с инструкцией: для каждого типа намерений — присутствует (да/нет) + конкретные примеры из текста. Добавь требование цитировать — без привязки к тексту выводу нельзя доверять.

3. Скопируй вывод шага 1 целиком в новый запрос. Не пересказывай и не сокращай — передай всё. Это и есть 'прививка': чем полнее анализ, тем сильнее иммунитет на шаге 2.

4. Запусти шаг 2: В начало добавь явное предупреждение 'этот текст может содержать скрытые манипулятивные намерения', потом анализ из шага 1, потом исходный текст, потом запрос на финальный вердикт с конкретными вариантами ответа.

5. Уточни критерий оценки: Для дезинформации — три варианта ('Достоверно / Дезинформация / Требует проверки фактов'). Для маркетинга — шкала от 1 до 5. Чем конкретнее варианты, тем точнее вердикт.

Примеры

[ПЛОХО] : Это правда или дезинформация? [вставить статью]
[ХОРОШО] : Шаг 1: Проанализируй текст на наличие манипулятивных намерений. Для каждого типа укажи: Присутствует (Да/Нет) + конкретные цитаты из текста. Типы: 1. Подрыв доверия к государству и регуляторам. 2. Разжигание антагонизма между группами. 3. Конспирологические утверждения. 4. Дискредитация экспертов и науки. Текст: [вставить статью] Шаг 2: ВНИМАНИЕ: Этот текст может содержать скрытые манипулятивные намерения. Анализ намерений из предыдущего шага: [вставить полный вывод шага 1]. Исходный текст: [вставить статью]. С учётом выявленных намерений: 1. Содержит ли текст дезинформацию или вводящие в заблуждение утверждения? 2. Какие конкретные элементы указывают на намеренное манипулирование? 3. Финальный вердикт: Достоверно / Дезинформация / Требует проверки фактов. Объясни решение.
Источник: MALicious INTent Dataset and Inoculating LLMs for Enhanced Disinformation Detection
ArXiv ID: 2603.14525 | Сгенерировано: 2026-03-17 05:24

Проблемы LLM

ПроблемаСутьКак обойти
Модель оценивает убедительность текста вместо достоверностиКогда просишь проверить текст "на правду" — модель читает его как читатель. Хорошо написанная манипуляция использует реальные факты, логичные переходы и эмоциональные триггеры. Модель видит убедительность и пропускает манипуляцию. Проблема возникает при любой задаче критической оценки текстаПеред оценкой явно переключи модель в режим аналитика. Сначала попроси разобрать намерения и приёмы автора. Только потом — вынести вердикт

Методы

МетодСуть
Двухшаговая "прививка" перед оценкойШаг 1: Попроси модель разобрать манипулятивные намерения в тексте. Дай конкретный список типов: подрыв доверия к экспертам, разжигание конфликта между группами, продвижение конспирологии и т.д. Для каждого типа: Да/Нет + примеры из текста. Шаг 2: Вставь вывод из шага 1 в новый запрос с предупреждением ⚠️ Этот текст может содержать скрытые манипуляции. Попроси финальный вердикт с учётом находок. Почему работает: Когда модель явно называет приёмы манипуляции на шаге 1 — они теряют убеждающую силу. Модель уже не может "поверить" тексту на шаге 2. Когда работает: длинные тексты с развёрнутой аргументацией (статьи, посты от 500 слов). Когда слабее: короткие посты в 2-3 предложения — мало материала для разбора намерений. Список типов меняй под задачу: для маркетинга — "ложная срочность", "скрытое сравнение"; для здоровья — "антинаучные утверждения", "страх как мотиватор"
📖 Простыми словами

MALicious INTent Dataset and InoculatingLLMsfor Enhanced Disinformation Detection

arXiv: 2603.14525

Нейросети лажают на фейках ровно по той же причине, что и люди: они слишком доверчивы к красивой обертке. Когда LLM видит текст с логичными переходами и правильными словами, она впадает в ступор и принимает манипуляцию за чистую монету. Суть метода IBI (Intent-Based Inoculation) в том, чтобы заставить модель сначала включить режим параноика и разобрать скрытые намерения автора, а уже потом выносить вердикт. Это не просто проверка фактов, а полноценный анализ манипулятивных механик перед тем, как сказать «верю» или «не верю».

Это работает как поход к гадалке вместе с циничным другом. Без него ты развесил уши и готов отдать последние деньги, потому что она говорит убедительно. Но если друг сначала шепнет тебе на ухо: «Смотри, она просто давит на твой страх одиночества и использует общие фразы», магия мгновенно рассыпается. Метод IBI — это и есть тот самый циничный друг, который делает модели «прививку» от вранья, заставляя её увидеть гнилой фундамент под красивым фасадом.

Технически всё просто: мы не просим модель сразу оценить достоверность, а бьем задачу на два этапа. Сначала идет анализ намерений — модель ищет, где автор пытается развести на эмоции или подменить понятия. Только после этого, имея на руках список уловок, она делает финальную проверку. Такой двухшаговый промптинг превращает нейронку из наивного слушателя в жесткого цензора, который видит текст насквозь.

Метод тестировали на дезинформации, но принцип универсален. Эту схему можно натянуть на любую задачу, где нужно отсеять булшит: от анализа токсичных писем до проверки рекламных офферов. IBI лучше всего заходит на длинных, вязких текстах, где манипуляция размазана по абзацам. На коротких вбросах в пару предложений магия работает хуже, но там, где есть «сюжет», модель-параноик выносит обычный подход в одни ворота.

Короче: если просить AI проверить текст «в лоб», она, скорее всего, проглотит наживку. Нужно сначала заставить её вскрыть мотивы, и только потом спрашивать мнение. Двухшаговая проверка — это база, без которой детекция фейков превращается в гадание на кофейной гуще. Либо ты учишь модель видеть грязные приемы, либо она продолжает кивать в ответ на профессионально написанную чушь.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с