3,583 papers
arXiv:2605.01017 71 1 мая 2026 г. FREE

Диссоциация генерации и детекции: LLM пишет психологические триггеры, которые сам не видит

КЛЮЧЕВАЯ СУТЬ
Парадокс: LLM пишет текст, который давит на читателя через сравнение. Спроси её напрямую «этот текст вызывает зависть?» — она ответит «нет». Та же модель. Тот же текст. Метод cue-explicit prompting позволяет надёжно находить скрытые психологические эффекты в текстах — не на уровне ощущения, а с конкретным фрагментом, который сработал. Фишка: вместо вопроса «вызывает ли текст эффект X» — дай рубрикатор с языковыми маркерами каждой категории. Без него модель ищет явные слова. С ним — видит архитектуру: кто в тексте активен, что описано как норма, какие косвенные сигналы статуса встроены в нарратив.
Адаптировать под запрос

TL;DR

LLM умеет создавать тексты, которые вызывают у читателя конкретные психологические реакции — например, чувство зависти или облегчения от сравнения себя с другими. Но когда ту же модель просят распознать эту же реакцию в чужом тексте — она регулярно промахивается. Пишет и чувствует «за читателя» хорошо. Видит и называет — плохо.

Главный сбой — не случайный шум, а системный: модели склонны помечать психологически заряженные посты как «нейтральные». Особенно плохо модели чувствуют тексты с нисходящим сравнением — когда автор поста представлен в худшем положении, чем читатель. Такие посты модель упорно считает нейтральными, хотя человек их читает с эмпатией и ощущением относительного превосходства.

Выход — cue-explicit промптинг: вместо того чтобы просить модель «оцени эмоциональный эффект», нужно дать ей явный список конкретных сигналов, на которые смотреть. Как рубрику для учителя, а не открытый вопрос ученику. Это одна из самых высокоэффективных правок к промпту — снижает нейтрализацию резко, почти вдвое.


🔬

Схема метода

ЗАДАЧА: LLM анализирует психологический эффект текста

❌ Без cue-explicit:
Промпт: "Определи эмоциональный тон этого поста"
Результат: модель помечает заряженный текст как "нейтральный"
            → психологический сигнал становится вычислительно невидимым

✅ С cue-explicit:
ШАГ 1: Ты формируешь рубрику — список конкретных сигналов
        (лексика стремлений / лексика ограничений / кто в роли агента и т.д.)
ШАГ 2: Передаёшь рубрику в промпт явно
ШАГ 3: Просишь модель применить рубрику к тексту
Результат: модель видит то, что иначе игнорирует

Все шаги — в одном диалоге. Никакого кода.


🚀

Пример применения

Задача: Владелец Telegram-канала о самозанятых написал несколько постов и хочет понять, какой вызовет у аудитории зависть, а какой — сочувствие. LLM без подсказок это плохо различает.

Промпт:

Ты анализируешь психологический эффект текста в социальных сетях.

Используй эту рубрику для анализа:

СИГНАЛЫ ВОСХОДЯЩЕГО СРАВНЕНИЯ (читатель чувствует себя хуже автора):
- Автор описывает достижения, путешествия, покупки, успехи
- Позитивная оценочная лексика: "наконец-то", "получилось", "лучший опыт"
- Автор — активный агент: принимает решения, действует, получает результаты
- Детали образа жизни, которые выглядят как ориентир

СИГНАЛЫ НИСХОДЯЩЕГО СРАВНЕНИЯ (читатель чувствует себя лучше автора):
- Автор описывает трудности, ограничения, конфликты
- Пассивные конструкции: "пришлось", "не получается", "опять"
- Много отрицаний, жалоб, прямой речи в конфликтных ситуациях
- Автор несвободен: давление извне, нехватка ресурсов, чужой контроль

НЕЙТРАЛЬНОЕ (сравнение не возникает):
- Описание третьих лиц, объектов, событий без личного статуса автора
- Информация, рейтинги, новости без "я" автора как мерила

Теперь проанализируй этот пост и определи:
1. Тип сравнения: ВОСХОДЯЩЕЕ / НИСХОДЯЩЕЕ / НЕЙТРАЛЬНОЕ
2. Какие конкретные сигналы из рубрики ты нашёл в тексте
3. Какую эмоцию, вероятно, испытает читатель

Текст поста:
{вставь текст}

Результат: Модель пройдётся по рубрике явно — назовёт конкретные фразы из текста, которые работают как триггеры. Ты увидишь не просто «положительный/отрицательный», а точный механизм: почему читатель захочет сравнить себя с автором и в чью пользу это сравнение пойдёт.


🧠

Почему это работает

LLM без рубрики решает задачу через самый простой путь — смотрит на общий тон текста. Позитивный? Ставит «хороший». Нейтральный по тону? Ставит «нейтральный». Но психологическое сравнение — не про тон. Пост может быть написан спокойно, без восклицаний, и при этом вызывать острую зависть. Или быть полон эмоций — но про чужих людей, не про автора. Модель без опоры путает «какой тон» с «какой эффект на читателя».

Сильная сторона LLM — следовать структурированным инструкциям. Когда ты говоришь «ищи вот это и вот это», модель перестаёт угадывать и начинает применять. Именно это делает cue-explicit промпт: превращает открытый вопрос в чеклист.

Рычаги управления в этом подходе:

  • Детализация рубрики → чем конкретнее сигналы, тем точнее анализ. Расплывчатое «позитивная лексика» работает хуже, чем «слова успеха типа "получилось", "первый раз", "наконец"»
  • Добавить пункт "Объясни почему" → модель покажет логику, не только ярлык
  • Убрать рубрику и попросить составить её самостоятельно → из примеров текстов, которые ты считаешь триггерными. Это как обучение без обучения — через несколько примеров

📋

Шаблон промпта

Ты анализируешь [ЧТО ИМЕННО АНАЛИЗИРУЕМ: психологический эффект / 
подтекст / эмоциональное воздействие] в тексте.

Используй эту рубрику:

СИГНАЛЫ {ТИП А}:
- {конкретный лингвистический сигнал 1}
- {конкретный лингвистический сигнал 2}
- {конкретный лингвистический сигнал 3}

СИГНАЛЫ {ТИП Б}:
- {конкретный лингвистический сигнал 1}
- {конкретный лингвистический сигнал 2}
- {конкретный лингвистический сигнал 3}

{НЕЙТРАЛЬНЫЙ ТИП / ОТСУТСТВИЕ СИГНАЛА}:
- {описание когда эффект отсутствует}

Проанализируй текст ниже:
1. Определи тип: {ТИП А} / {ТИП Б} / {НЕЙТРАЛЬНО}
2. Назови конкретные сигналы из текста, которые ты нашёл
3. Опиши вероятную реакцию читателя

Текст: {текст для анализа}

Плейсхолдеры: - {ЧТО АНАЛИЗИРУЕМ} — например: «эмоциональное давление», «скрытая критика», «нарратив жертвы vs агента» - {ТИП А / ТИП Б} — полярные состояния того, что ты ищешь - {конкретный лингвистический сигнал} — чем конкретнее, тем лучше. Не «позитивные слова», а «глаголы достижения + числа + конечные результаты»


🚀 Быстрый старт — вставь в чат:

Вот шаблон cue-explicit промпта для анализа психологического 
эффекта текста. Адаптируй под мою задачу: [твоя задача — 
например: "хочу понять, как мои посты в Телеграме влияют 
на самооценку читателей"]. 
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит, какой именно психологический эффект тебя интересует и есть ли примеры текстов — потому что ей нужна конкретика для сигналов в рубрике. Она возьмёт структуру шаблона и адаптирует под твой домен.


⚠️

Ограничения

⚠️ Рубрику нужно составить заранее: Cue-explicit работает хорошо — но только если ты сам понимаешь, какие сигналы ищешь. Если ты не знаешь, что именно отличает «хороший» текст от «плохого» в твоём контексте, модель не поможет. Сначала — понять самому, потом — передать в рубрику.

⚠️ Нисходящее хуже поддаётся: Даже с cue-explicit рубрикой тексты, где автор представлен в слабой/трудной позиции, модели распознают хуже, чем тексты с явными маркерами успеха. Если важна точность для «жертвенных» нарративов — добавляй больше примеров именно этого типа.

⚠️ Разные модели врут по-разному: GPT-4 склонен всё помечать нейтральным. Qwen — наоборот, видит триггеры успеха там, где их нет. Один и тот же промпт на разных моделях даст систематически разные смещения.

⚠️ Субъективный конструкт: Исследование зафиксировало: даже люди соглашаются между собой лишь в 63-68% случаев при оценке сравнительного эффекта текста. Это не баг метода — это природа явления. Не жди 100% точности ни от LLM, ни от себя.


🔍

Как исследовали

Команда из Университета образования Гонконга собрала 13 916 постов с Xiaohongshu (китайский аналог Instagram). 67 студентов листали ленту 7 дней и помечали посты: «после этого я чувствую себя хуже автора» (восходящее), «лучше автора» (нисходящее), «никак» (нейтральное). Получился почти идеально сбалансированный датасет.

Затем через него прогнали несколько режимов: обычный нулевой промпт, промпт с персоной, с примерами (few-shot) и с явной рубрикой (cue-explicit). Параллельно дообучили классические BERT-модели на тех же данных — как контрольные «честные» классификаторы.

Результат оказался неожиданно резким: дообученные BERT-модели набирали 67-68% Macro-F1, лучшие LLM (~GPT-5) — только 52%. Разрыв огромный. Причём LLM не просто ошибались — они системно «обнуляли» сигнал, называя сравнительно заряженные посты нейтральными. Это особенно удивило потому, что те же самые LLM при генерации постов с заданным сравнительным эффектом справились блестяще — участники исследования в пилоте чётко чувствовали предназначенные им эмоции от AI-контента (d=2.5 для нисходящей эмпатии — огромный эффект).

Вывод: генеративная беглость и способность к детекции — это разные навыки, которые могут существовать независимо друг от друга.


💡

Адаптации и экстраполяции

📌

Принцип за пределами социального сравнения

Диссоциация «генерирует хорошо, детектирует плохо» работает не только для сравнительных триггеров. Это общий паттерн для любых читатель-центричных эффектов текста — тех, где важно не «что написано», а «как читатель это воспринимает».

🔧 Техника: явная рубрика для любого психологического_анализа

Если тебе нужно, чтобы LLM надёжно находил в тексте что-то тонкое — никогда не оставляй это открытым вопросом. Всегда давай список конкретных сигналов.

Работает для: - Манипулятивные паттерны в тексте → рубрика: «газлайтинг-маркеры / эмоциональное давление / ложный выбор» - Токсичность в фидбэке → рубрика: «критика личности vs критика работы / требование объяснений vs предложение помощи» - Убедительность питча → рубрика: «конкретные числа / социальное доказательство / ответ на возражение»

🔧 Техника: сначала сгенерируй пример, потом составь рубрику

Если ты не знаешь, какие сигналы искать — попроси LLM сначала сгенерировать 3 примера «плохого» и 3 примера «хорошего» текста для твоей задачи. Потом попроси: «Посмотри на эти примеры и выдели, чем лингвистически отличаются хорошие от плохих». Это твоя рубрика. Потом используй её для анализа новых текстов.


🔗

Ресурсы

Название работы: Psychologically Potent, Computationally Invisible: LLMs Generate Social-Comparison Triggers They Fail to Detect

Авторы: Hua Zhao, Jiapei Gu, Michelle Mingyue Gu — Department of English Language Education & Analytics/Assessment Research Centre, The Education University of Hong Kong

Контакт: {hzhao, sybilgu, mygu}@eduhk.hk

Платформа: Xiaohongshu (RedNote / 小红书)

Ключевые отсылки: Festinger (1954) — теория социального сравнения; Salvi et al. (2025) — убедительность AI-генерированного текста; Ziems et al. (2024) — LLMs как инструменты вычислительных социальных наук


📋 Дайджест исследования

Ключевая суть

Парадокс: LLM пишет текст, который давит на читателя через сравнение. Спроси её напрямую «этот текст вызывает зависть?» — она ответит «нет». Та же модель. Тот же текст. Метод cue-explicit prompting позволяет надёжно находить скрытые психологические эффекты в текстах — не на уровне ощущения, а с конкретным фрагментом, который сработал. Фишка: вместо вопроса «вызывает ли текст эффект X» — дай рубрикатор с языковыми маркерами каждой категории. Без него модель ищет явные слова. С ним — видит архитектуру: кто в тексте активен, что описано как норма, какие косвенные сигналы статуса встроены в нарратив.

Принцип работы

Без рубрикатора LLM работает как Ctrl+F. Есть слово «зависть» — нашла. Нет — «нейтрально». Но психологически сильный контент не кричит о себе. Он работает тихо — через позицию автора и его агентность. Рубрикатор переключает режим: с поиска слов на поиск конструкции. Опиши как именно «выглядит лингвистически» каждая категория — и модель смотрит в правильную сторону. Разница как между «найди грустный текст» и «найди пассивные конструкции, чужую власть над героем, отрицание».

Почему работает

LLM обучена узнавать паттерны. Скажи ей «вот как устроена эта конструкция» — она узнаёт её в новом тексте. Без подсказки она угадывает по поверхностным признакам и проваливается. Рубрикатор — это не подсказка ответа, это инструкция «куда смотреть». Плюс: если требовать назвать конкретный маркер («укажи фрагмент, который сработал»), ответы становятся точнее. Модель не может сослаться на ощущение — ей нужно найти доказательство. Это дисциплинирует.

Когда применять

Анализ постов и статей — для редакторов и контент-менеджеров, особенно когда нужно понять как конкретный текст влияет на конкретную аудиторию. Работает и в обратную сторону: сознательно строить или убирать триггеры в своих текстах перед публикацией. НЕ подходит для очевидно эмоциональных текстов — там LLM справляется и без рубрикатора. Максимум пользы там, где эффект скрытый: нет явных слов-маркеров, но конструкция давит.

Мини-рецепт

1. Задай роль и перспективу: укажи от чьего лица оценивается текст — редактор, HR, маркетолог. Добавь профиль читателя: возраст, контекст, чего хочет.
2. Дай рубрикатор: для каждой категории — название + что это значит для читателя + конкретные языковые маркеры + реакция. Чем подробнее, тем точнее детекция.
3. Добавь правило поиска: <роль>Эффект может быть не выражен явно — смотри на агентность автора, не на явные слова. Это переключает режим с ключевых слов на архитектуру.
4. Потребуй объяснение: формат «Метка → Маркер (конкретный фрагмент) → Эффект (реакция читателя)». Без этого модель выдаёт ощущения, а не анализ.

Примеры

[ПЛОХО] : Этот пост вызывает социальное сравнение? Да или нет.
[ХОРОШО] : Ты — редактор. Оценивай с позиции читателя: молодой специалист, работает над своим проектом. Определи тип: ВВЕРХ — автор выше читателя: победы, изобилие, лёгкость. Маркеры: позитивные итоги («зашло», «закрыл», «вышли на»), нарратив достижений, образы комфорта. Читатель думает: у него лучше, чем у меня. ВНИЗ — автор ниже читателя: провалы, ограничения, усталость. Маркеры: пассивные конструкции («меня не слышат», «пришлось», «снова не вышло»), чужая власть над автором. Читатель думает: у меня лучше. НЕЙТРАЛЬНО — нет личной позиции автора: новости, чужие данные, аналитика. Правило: смотри на агентность автора и как описан его уровень жизни относительно нормы — не на явные слова. Формат: Метка → Маркер (фрагмент текста) → Эффект (реакция читателя) Пост: {текст}
Источник: Psychologically Potent, Computationally Invisible: LLMs Generate Social-Comparison Triggers They Fail to Detect
ArXiv ID: 2605.01017 | Сгенерировано: 2026-05-05 05:45

Проблемы LLM

ПроблемаСутьКак обойти
Без явных слов-маркеров модель не видит тонкие эффектыПросишь определить тональность, манипуляцию, психологическое давление — неявное. Модель ищет прямые слова: «зависть», «угроза», «успех». Не нашла — отвечает «нейтрально». Но реальные эффекты живут не в словах, а в конструкции: кто активный, кто пассивный, что подаётся как норма. Это структура, не лексика. Без подсказки модель её не видитДай рубрикатор: для каждой категории опиши конкретные языковые паттерны. Не «это текст с завистью», а «маркеры: пассивные конструкции, нарратив победы, образ изобилия». Модель переключится с поиска слов на поиск структуры

Методы

МетодСуть
Рубрикатор с маркерами — детекция тонких эффектовСтроишь промпт из трёх частей. (1) Перспектива: «читаешь глазами [профиль человека]». (2) Рубрикатор: каждая категория + конкретные языковые паттерны-сигналы. (3) Требование объяснения: «укажи маркер — какой фрагмент текста сработал». Почему работает: без рубрикатора модель проверяет ключевые слова. Рубрикатор задаёт шаблон восприятия — модель начинает искать структуру. Требование указать маркер принуждает к обоснованию, это само по себе повышает точность. Когда применять: любой тонкий эффект без явных слов-маркеров — тон, манипуляция, скрытое давление, эмоциональный подтекст. Когда не нужен: очевидно эмоциональный текст — модель справится и без рубрикатора
📖 Простыми словами

Psychologically Potent, Computationally Invisible:LLMsGenerate Social-Comparison Triggers They Fail to Detect

arXiv: 2605.01017

Нейросети превратились в гениальных манипуляторов, которые сами не понимают, что творят. Фундаментальный баг LLM в том, что они научились генерировать тончайшее психологическое давление, но при этом абсолютно слепы к нему при анализе. Модель может выдать текст, который заставит читателя чувствовать себя ничтожеством на фоне чужого успеха, но если спросить эту же модель: «Есть ли здесь социальное сравнение?», она с каменным лицом ответит «нет». Это когнитивный разрыв: машина мастерски владеет формой, но не вдупляет суть воздействия, которое эта форма оказывает на живого человека.

Это как если бы профессиональный повар идеально готовил острейшие блюда, но сам напрочь не имел вкусовых рецепторов. Он сыплет чили горстями, потому что так написано в миллионах рецептов из его базы, но когда его просят попробовать суп соседа, он искренне не понимает, почему у того слезятся глаза. Модель — это статистический попугай, который выучил, что определенные комбинации слов вызывают реакцию, но для самой нейронки это просто набор токенов, лишенный эмоционального веса.

Проблема в том, что LLM ищут триггеры «в лоб». Если в тексте нет слов зависть, статус или достижение, модель помечает его как безопасный и нейтральный. Но настоящая манипуляция работает тоньше: через косвенные сигналы статуса и описание «нормы», которая для обычного человека недосягаема. Исследование показало, что модели систематически лажают в детектировании таких штук, пропуская токсичный контент, который сами же и генерируют по запросу «сделай пост виральным».

Этот принцип универсален и касается не только психологии. Ты можешь использовать нейронку для создания агрессивного маркетинга или политических вбросов, и встроенные фильтры безопасности их не заблокируют, потому что они вычислят слова, но не считают подтекст. Это работает в рекламе, в соцсетях и даже в корпоративной переписке: модель создает структуру, которая бьет по больному, оставаясь при этом формально вежливой и «невидимой» для алгоритмов модерации.

Короче, не надейся, что AI поможет тебе отфильтровать манипулятивный контент или оценить его влияние на аудиторию. LLM — сильный генератор, но никудышный психолог. Она будет плодить тексты, вызывающие у людей депрессию и чувство неполноценности, и при этом бодро рапортовать, что контент абсолютно нейтрален. Пока мы не научим модели понимать контекст человеческих страданий, а не просто считать частоту слов, они будут оставаться психологическим оружием в руках слепого стрелка.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с