3,583 papers
arXiv:2505.20679 93 1 мая 2025 г. FREE

САМОСОЗНАНИЕ Интроспекция Улучшает Обнаружение Многочисленных Психических Манипуляций У Больших Языковых Моделей

КЛЮЧЕВАЯ СУТЬ
Разделение процесса на "сбор фактов" и "принятие решения" значительно повышает точность и надежность анализа сложных социальных взаимодействий по сравнению со стандартными подходами вроде Zero-shot или Chain-of-Thought.
Адаптировать под запрос
📌

1. Ключевые аспекты исследования:

Исследование показывает, что LLM плохо справляются с обнаружением скрытых манипуляций в диалогах с несколькими участниками. Авторы предлагают двухэтапный метод промптингаSELF-PERCEPT: сначала модель просят просто описать поведение, слова и несоответствия в действиях каждого участника (Этап 1: Наблюдение), а затем, на основе этого объективного отчета, сделать вывод о наличии манипуляции (Этап 2: Вывод).

Ключевой результат: Разделение процесса на "сбор фактов" и "принятие решения" значительно повышает точность и надежность анализа сложных социальных взаимодействий по сравнению со стандартными подходами вроде Zero-shot или Chain-of-Thought.

🔬

2. Объяснение всей сути метода:

Суть методаSELF-PERCEPTзаключается в имитации человеческого процесса самовосприятия, когда мы сначала наблюдаем за поведением (своим или чужим), а уже потом делаем выводы об установках или намерениях. Вместо того чтобы просить LLM решить сложную задачу анализа в один шаг ("Есть ли в этом диалоге манипуляция?"), мы разбиваем ее на две последовательные подзадачи.

  1. Этап 1: Беспристрастный Наблюдатель. На этом этапе мы даем LLM диалог и просим ее выступить в роли объективного наблюдателя. Промпт должен четко инструктировать модель:

    • Описать конкретные действия и заявления каждого участника.
    • Зафиксировать невербальные сигналы (если они есть в тексте, например, "улыбаясь", "вздохнув").
    • Отметить любые несоответствия между словами и действиями. Важно: на этом этапе мы запрещаем модели делать выводы, давать оценки или ставить "диагнозы". Ее задача — составить сухой, фактический отчет.
  2. Этап 2: Вдумчивый Аналитик. На втором этапе мы подаем модели на вход ее же собственный отчет из Этапа 1 и просим уже на его основе сделать заключение. Промпт формулируется примерно так: "Основываясь на отчете о поведении участников, который ты составил выше, ответь: присутствует ли в диалоге манипуляция и какого типа?"

Этот подход заставляет LLM сначала "заземлить" свое понимание в конкретных фактах из текста, что резко снижает вероятность "галлюцинаций", предвзятости и преждевременных выводов. Модель вынуждена строить свое финальное суждение на доказательной базе, которую она сама же и подготовила.

📌

3. Анализ практической применимости:

*Прямая применимость:Очень высокая. Любой пользователь может применить этот двухэтапный подход в обычном чате с LLM. Для этого нужно просто последовательно отправить два промпта или объединить их в один большой, структурированный промпт с четким разделением на "ЭТАП 1" и "ЭТАП 2". Метод не требует никаких специальных инструментов.

  • Концептуальная ценность: Огромная. Исследование дает пользователю ключевую идею: сложные аналитические задачи нужно декомпозировать на сбор фактов и их интерпретацию. Это помогает понять, почему LLM иногда ошибается — она пытается сделать все сразу и "срезает путь", опираясь на поверхностные маркеры. Метод SELF-PERCEPT учит пользователя "вести" модель за руку по правильному аналитическому пути.

  • Потенциал для адаптации: Максимальный. Этот паттерн универсален и легко адаптируется для любой задачи, требующей глубокого анализа текста:

    • Анализ отзывов: Этап 1: "Извлеки из отзыва все упомянутые плюсы, минусы и эмоции клиента". Этап 2: "На основе извлеченного, определи главную причину недовольства и предложи решение".
    • Юридический анализ: Этап 1: "Проанализируй этот пункт договора и выпиши обязательства каждой стороны и условия их выполнения". Этап 2: "На основе выписанных обязательств, оцени потенциальные риски для Стороны А".
    • Креативная работа: Этап 1: "Проанализируй эту сцену из сценария: выпиши цели и действия каждого персонажа". Этап 2: "Оцени, насколько убедительно выглядит конфликт и достигается ли драматическая цель сцены".

🚀

4. Практически пример применения:

Представим, что вы менеджер продукта и хотите проанализировать негативный отзыв клиента из чата поддержки.

Ты — опытный аналитик клиентского опыта. Твоя задача — проанализировать диалог между клиентом и специалистом поддержки, используя строгий двухэтапный метод.
**Контекст:**
- **Клиент:** Здравствуйте, я не могу войти в ваше банковское приложение уже второй день! Постоянно висит на экране загрузки.
- **Поддержка:** Добрый день! Пробовали перезагрузить телефон?
- **Клиент:** Конечно, пробовал! И кэш чистил, и переустанавливал. Ничего не помогает. Мне срочно нужно сделать перевод! Я из-за вас теряю время.
- **Поддержка:** Понимаю ваше расстройство. Давайте попробуем сбросить вашу сессию с нашей стороны. Подождите минуту.
- **Клиент:** Жду. (проходит 5 минут) Ну что там? Почему так долго?
- **Поддержка:** Готово. Попробуйте войти сейчас.
- **Клиент:** Заработало. Но я потратил кучу времени и нервов. Ужасный сервис.

### ЭТАП 1: ОБЪЕКТИВНОЕ НАБЛЮДЕНИЕ

Твоя первая задача — беспристрастно проанализировать диалог и составить краткий отчет. **Не делай выводов и не давай оценок**, просто зафиксируй факты.

Структурируй отчет так:
- **Проблема клиента (факты):**
- **Эмоциональное состояние клиента (цитаты и индикаторы):**
- **Действия поддержки (хронология):**
- **Ключевые точки фрустрации (события, вызвавшие негатив):**

### ЭТАП 2: ВЫВОДЫ И РЕКОМЕНДАЦИИ

Твоя вторая задача — **на основе твоего же отчета из Этапа 1**, сделать выводы.
1. **Определи коренную причину недовольства клиента.** (Это была только техническая проблема или что-то еще?)
2. **Оцени эффективность работы поддержки.**
3. **Дай одну конкретную рекомендацию**, как можно было бы улучшить клиентский опыт в подобной ситуации в будущем.

🧠

5. Почему это работает:

Этот промпт работает за счет принудительного разделения анализа на две части, что является прямой реализацией метода SELF-PERCEPT.

  • Этап 1 (Наблюдение) заставляет LLM сначала извлечь и систематизировать объективные факты из диалога: "не могу войти", "теряю время", "потратил кучу времени и нервов", "поддержка предложила перезагрузку", "ожидание 5 минут". На этом шаге модель не имеет права выносить суждение, что заземляет ее последующий анализ в реальности текста.

  • Этап 2 (Вывод) использует этот структурированный отчет как единственную "доказательную базу". Когда модель отвечает на вопрос о "коренной причине", она вынуждена опираться на собранные факты. Она с большей вероятностью придет к выводу, что недовольство вызвано не только самой технической проблемой, но и потерей времени и медленной реакцией, так как она сама же зафиксировала эти точки фрустрации на первом этапе. Это предотвращает поверхностный ответ вроде "клиент недоволен, потому что приложение не работало".


📌

6. Другой пример практического применения

Представим, что вы SMM-менеджер и хотите проанализировать текст конкурента на предмет скрытых манипулятивных техник убеждения.

Ты — эксперт по маркетинговым коммуникациям и психологии убеждения. Проанализируй рекламный пост конкурента, используя двухэтапный метод.
**Рекламный пост для анализа:**
"Устали от бесконечных диет, которые не работают? Все вокруг хвастаются результатами, а вы все еще в начале пути? Это не ваша вина! Современный ритм жизни и 'эксперты', дающие противоречивые советы, сбивают с толку. Наш курс 'Интуитивное преображение' — это не очередная диета, а революционный подход, основанный на гармонии с собой. Только сейчас, для тех, кто готов по-настоящему изменить свою жизнь, мы открыли 10 эксклюзивных мест. Успешные люди не ждут, они действуют. Присоединяйтесь к избранным!"

### ЭТАП 1: АНАЛИЗ ПОВЕДЕНИЯ И УТВЕРЖДЕНИЙ (ТЕКСТА)

Твоя первая задача — объективно разобрать текст на составляющие. **Не оценивай его эффективность**, просто опиши использованные приемы.

Составь отчет по структуре:
- **Обращение к боли читателя:** (Какие проблемы и чувства упоминаются?)
- **Позиционирование врага/проблемы:** (Кого или что текст выставляет виноватым?)
- **Описание продукта:** (Как описывается решение?)
- **Использованные триггеры и призывы:** (Какие фразы создают срочность, эксклюзивность или апеллируют к статусу?)

### ЭТАП 2: ВЫВОД О СТРАТЕГИИ УБЕЖДЕНИЯ

Основываясь **исключительно на данных из твоего отчета в Этапе 1**, ответь на вопросы:
1. **Какова основная стратегия убеждения в этом тексте?** (Например, создание доверия, игра на страхе упустить, социальное доказательство и т.д.)
2. **Выяви как минимум две потенциально манипулятивные техники**, использованные в тексте (например, "создание ложной дилеммы", "апелляция к элитарности"). Обоснуй свой вывод цитатами, которые ты зафиксировал на Этапе 1.

🧠

7. Объяснение механизма почему этот пример работает.

Этот пример работает, потому что он применяет тот же самый принцип "наблюдение -> вывод" к анализу убеждающего текста.

  • Этап 1 (Наблюдение) заставляет модель деконструировать рекламный пост на нейтральные компоненты. Вместо того чтобы сразу сказать "это манипуляция", модель должна сначала идентифицировать и выписать конкретные элементы: "Устали от диет" (боль), "Это не ваша вина" (снятие ответственности), "10 эксклюзивных мест" (триггер дефицита), "Успешные люди действуют" (апелляция к статусу). Этот процесс создает фактическую основу для анализа.

* Этап 2 (Вывод) требует от модели связать эти разрозненные факты в единую картину и дать им оценку. Опираясь на собранные на Этапе 1 "улики", модель может уверенно заключить, что используются манипулятивные техники "Playing the victim role" (перекладывание вины на внешние обстоятельства) и "Persuasion or seduction" через создание искусственного дефицита и апелляцию к элитарности ("присоединяйтесь к избранным"). Без первого этапа LLM могла бы дать общий и менее аргументированный ответ.

📌

Основные критерии оценки

  • A. Релевантность техникам промптинга: Да, исследование вводит новую именованную технику SELF-PERCEPT — двухэтапный фреймворк, который является конкретным паттерном для промптов.
  • B. Улучшение качества диалоговых ответов: Да, исследование показывает значительное улучшение в точности (Accuracy) и F1-score при решении сложной задачи анализа диалогов (детекция манипуляции).
  • C. Прямая практическая применимость: Да, метод SELF-PERCEPT может быть полностью реализован обычным пользователем в любом чат-боте без использования кода. Это чисто промптинговая стратегия.
  • D. Концептуальная ценность: Очень высокая. Метод предлагает пользователю мощную "ментальную модель" для решения сложных аналитических задач: сначала заставь LLM собрать факты, а потом на их основе сделать вывод. Это фундаментально улучшает понимание того, как декомпозировать запросы для повышения надежности.
  • E. Новая полезная практика (Кластеризация):
    • Кластер 1 (Техники формулирования): Прямое попадание. SELF-PERCEPT — это новая техника, похожая по духу на Chain-of-Thought, но с более четкой структурой "наблюдение -> вывод".
    • Кластер 7 (Надежность и стабильность): Прямое попадание. Цель метода — снизить количество ложных срабатываний и повысить надежность детекции тонких, контекстно-зависимых явлений.
  • Чек-лист практичности (+15 баллов к базовой оценке): Да, исследование дает готовые конструкции для промптов, показывает, как структурировать сложные запросы, и раскрывает неочевидные особенности поведения LLM (неспособность одновременно наблюдать и делать выводы без смещения).
📌

2 Цифровая оценка полезности

Оценка 93 обусловлена тем, что исследование предлагает не просто совет, а полноценный, переиспользуемый фреймворк (SELF-PERCEPT), который можно немедленно применить для широкого круга аналитических задач, выходящих далеко за рамки детекции манипуляций. Это одна из самых практически-ориентированных работ.

Аргументы за высокую оценку:

* Универсальность принципа: Идея "сначала наблюдение, потом вывод" применима к анализу отзывов, юридических документов, научных статей, деловой переписки и т.д.
* Прямое применение: Пользователь может скопировать логику из промптов в Приложении C и адаптировать под свою задачу за минуты.
* Концептуальный прорыв для пользователя: Работа наглядно демонстрирует, ПОЧЕМУ сложные запросы "в лоб" часто проваливаются. Она учит пользователя не просто писать промпты, а проектировать процесс взаимодействия с LLM.

Контраргументы (почему не 100):

* Узкая тема исследования: Сама тема (детекция психологических манипуляций в диалогах из реалити-шоу) довольно специфична. Неопытному пользователю может потребоваться усилие, чтобы увидеть за этим универсальный паттерн и перенести его на свои задачи.
* Требует двух шагов: Метод по своей природе требует двух отдельных запросов (или одного очень длинного и структурированного), что несколько усложняет взаимодействие по сравнению с одношаговым промптом. Это может отпугнуть самых казуальных пользователей.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с