TL;DR
LLM умеет создавать тексты, которые вызывают у читателя конкретные психологические реакции — например, чувство зависти или облегчения от сравнения себя с другими. Но когда ту же модель просят распознать эту же реакцию в чужом тексте — она регулярно промахивается. Пишет и чувствует «за читателя» хорошо. Видит и называет — плохо.
Главный сбой — не случайный шум, а системный: модели склонны помечать психологически заряженные посты как «нейтральные». Особенно плохо модели чувствуют тексты с нисходящим сравнением — когда автор поста представлен в худшем положении, чем читатель. Такие посты модель упорно считает нейтральными, хотя человек их читает с эмпатией и ощущением относительного превосходства.
Выход — cue-explicit промптинг: вместо того чтобы просить модель «оцени эмоциональный эффект», нужно дать ей явный список конкретных сигналов, на которые смотреть. Как рубрику для учителя, а не открытый вопрос ученику. Это одна из самых высокоэффективных правок к промпту — снижает нейтрализацию резко, почти вдвое.
Схема метода
ЗАДАЧА: LLM анализирует психологический эффект текста
❌ Без cue-explicit:
Промпт: "Определи эмоциональный тон этого поста"
Результат: модель помечает заряженный текст как "нейтральный"
→ психологический сигнал становится вычислительно невидимым
✅ С cue-explicit:
ШАГ 1: Ты формируешь рубрику — список конкретных сигналов
(лексика стремлений / лексика ограничений / кто в роли агента и т.д.)
ШАГ 2: Передаёшь рубрику в промпт явно
ШАГ 3: Просишь модель применить рубрику к тексту
Результат: модель видит то, что иначе игнорирует
Все шаги — в одном диалоге. Никакого кода.
Пример применения
Задача: Владелец Telegram-канала о самозанятых написал несколько постов и хочет понять, какой вызовет у аудитории зависть, а какой — сочувствие. LLM без подсказок это плохо различает.
Промпт:
Ты анализируешь психологический эффект текста в социальных сетях.
Используй эту рубрику для анализа:
СИГНАЛЫ ВОСХОДЯЩЕГО СРАВНЕНИЯ (читатель чувствует себя хуже автора):
- Автор описывает достижения, путешествия, покупки, успехи
- Позитивная оценочная лексика: "наконец-то", "получилось", "лучший опыт"
- Автор — активный агент: принимает решения, действует, получает результаты
- Детали образа жизни, которые выглядят как ориентир
СИГНАЛЫ НИСХОДЯЩЕГО СРАВНЕНИЯ (читатель чувствует себя лучше автора):
- Автор описывает трудности, ограничения, конфликты
- Пассивные конструкции: "пришлось", "не получается", "опять"
- Много отрицаний, жалоб, прямой речи в конфликтных ситуациях
- Автор несвободен: давление извне, нехватка ресурсов, чужой контроль
НЕЙТРАЛЬНОЕ (сравнение не возникает):
- Описание третьих лиц, объектов, событий без личного статуса автора
- Информация, рейтинги, новости без "я" автора как мерила
Теперь проанализируй этот пост и определи:
1. Тип сравнения: ВОСХОДЯЩЕЕ / НИСХОДЯЩЕЕ / НЕЙТРАЛЬНОЕ
2. Какие конкретные сигналы из рубрики ты нашёл в тексте
3. Какую эмоцию, вероятно, испытает читатель
Текст поста:
{вставь текст}
Результат: Модель пройдётся по рубрике явно — назовёт конкретные фразы из текста, которые работают как триггеры. Ты увидишь не просто «положительный/отрицательный», а точный механизм: почему читатель захочет сравнить себя с автором и в чью пользу это сравнение пойдёт.
Почему это работает
LLM без рубрики решает задачу через самый простой путь — смотрит на общий тон текста. Позитивный? Ставит «хороший». Нейтральный по тону? Ставит «нейтральный». Но психологическое сравнение — не про тон. Пост может быть написан спокойно, без восклицаний, и при этом вызывать острую зависть. Или быть полон эмоций — но про чужих людей, не про автора. Модель без опоры путает «какой тон» с «какой эффект на читателя».
Сильная сторона LLM — следовать структурированным инструкциям. Когда ты говоришь «ищи вот это и вот это», модель перестаёт угадывать и начинает применять. Именно это делает cue-explicit промпт: превращает открытый вопрос в чеклист.
Рычаги управления в этом подходе:
- Детализация рубрики → чем конкретнее сигналы, тем точнее анализ. Расплывчатое «позитивная лексика» работает хуже, чем «слова успеха типа "получилось", "первый раз", "наконец"»
- Добавить пункт "Объясни почему" → модель покажет логику, не только ярлык
- Убрать рубрику и попросить составить её самостоятельно → из примеров текстов, которые ты считаешь триггерными. Это как обучение без обучения — через несколько примеров
Шаблон промпта
Ты анализируешь [ЧТО ИМЕННО АНАЛИЗИРУЕМ: психологический эффект /
подтекст / эмоциональное воздействие] в тексте.
Используй эту рубрику:
СИГНАЛЫ {ТИП А}:
- {конкретный лингвистический сигнал 1}
- {конкретный лингвистический сигнал 2}
- {конкретный лингвистический сигнал 3}
СИГНАЛЫ {ТИП Б}:
- {конкретный лингвистический сигнал 1}
- {конкретный лингвистический сигнал 2}
- {конкретный лингвистический сигнал 3}
{НЕЙТРАЛЬНЫЙ ТИП / ОТСУТСТВИЕ СИГНАЛА}:
- {описание когда эффект отсутствует}
Проанализируй текст ниже:
1. Определи тип: {ТИП А} / {ТИП Б} / {НЕЙТРАЛЬНО}
2. Назови конкретные сигналы из текста, которые ты нашёл
3. Опиши вероятную реакцию читателя
Текст: {текст для анализа}
Плейсхолдеры:
- {ЧТО АНАЛИЗИРУЕМ} — например: «эмоциональное давление», «скрытая критика», «нарратив жертвы vs агента»
- {ТИП А / ТИП Б} — полярные состояния того, что ты ищешь
- {конкретный лингвистический сигнал} — чем конкретнее, тем лучше. Не «позитивные слова», а «глаголы достижения + числа + конечные результаты»
🚀 Быстрый старт — вставь в чат:
Вот шаблон cue-explicit промпта для анализа психологического
эффекта текста. Адаптируй под мою задачу: [твоя задача —
например: "хочу понять, как мои посты в Телеграме влияют
на самооценку читателей"].
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит, какой именно психологический эффект тебя интересует и есть ли примеры текстов — потому что ей нужна конкретика для сигналов в рубрике. Она возьмёт структуру шаблона и адаптирует под твой домен.
Ограничения
⚠️ Рубрику нужно составить заранее: Cue-explicit работает хорошо — но только если ты сам понимаешь, какие сигналы ищешь. Если ты не знаешь, что именно отличает «хороший» текст от «плохого» в твоём контексте, модель не поможет. Сначала — понять самому, потом — передать в рубрику.
⚠️ Нисходящее хуже поддаётся: Даже с cue-explicit рубрикой тексты, где автор представлен в слабой/трудной позиции, модели распознают хуже, чем тексты с явными маркерами успеха. Если важна точность для «жертвенных» нарративов — добавляй больше примеров именно этого типа.
⚠️ Разные модели врут по-разному: GPT-4 склонен всё помечать нейтральным. Qwen — наоборот, видит триггеры успеха там, где их нет. Один и тот же промпт на разных моделях даст систематически разные смещения.
⚠️ Субъективный конструкт: Исследование зафиксировало: даже люди соглашаются между собой лишь в 63-68% случаев при оценке сравнительного эффекта текста. Это не баг метода — это природа явления. Не жди 100% точности ни от LLM, ни от себя.
Как исследовали
Команда из Университета образования Гонконга собрала 13 916 постов с Xiaohongshu (китайский аналог Instagram). 67 студентов листали ленту 7 дней и помечали посты: «после этого я чувствую себя хуже автора» (восходящее), «лучше автора» (нисходящее), «никак» (нейтральное). Получился почти идеально сбалансированный датасет.
Затем через него прогнали несколько режимов: обычный нулевой промпт, промпт с персоной, с примерами (few-shot) и с явной рубрикой (cue-explicit). Параллельно дообучили классические BERT-модели на тех же данных — как контрольные «честные» классификаторы.
Результат оказался неожиданно резким: дообученные BERT-модели набирали 67-68% Macro-F1, лучшие LLM (~GPT-5) — только 52%. Разрыв огромный. Причём LLM не просто ошибались — они системно «обнуляли» сигнал, называя сравнительно заряженные посты нейтральными. Это особенно удивило потому, что те же самые LLM при генерации постов с заданным сравнительным эффектом справились блестяще — участники исследования в пилоте чётко чувствовали предназначенные им эмоции от AI-контента (d=2.5 для нисходящей эмпатии — огромный эффект).
Вывод: генеративная беглость и способность к детекции — это разные навыки, которые могут существовать независимо друг от друга.
Адаптации и экстраполяции
Принцип за пределами социального сравнения
Диссоциация «генерирует хорошо, детектирует плохо» работает не только для сравнительных триггеров. Это общий паттерн для любых читатель-центричных эффектов текста — тех, где важно не «что написано», а «как читатель это воспринимает».
🔧 Техника: явная рубрика для любого психологического_анализа
Если тебе нужно, чтобы LLM надёжно находил в тексте что-то тонкое — никогда не оставляй это открытым вопросом. Всегда давай список конкретных сигналов.
Работает для: - Манипулятивные паттерны в тексте → рубрика: «газлайтинг-маркеры / эмоциональное давление / ложный выбор» - Токсичность в фидбэке → рубрика: «критика личности vs критика работы / требование объяснений vs предложение помощи» - Убедительность питча → рубрика: «конкретные числа / социальное доказательство / ответ на возражение»
🔧 Техника: сначала сгенерируй пример, потом составь рубрику
Если ты не знаешь, какие сигналы искать — попроси LLM сначала сгенерировать 3 примера «плохого» и 3 примера «хорошего» текста для твоей задачи. Потом попроси: «Посмотри на эти примеры и выдели, чем лингвистически отличаются хорошие от плохих». Это твоя рубрика. Потом используй её для анализа новых текстов.
Ресурсы
Название работы: Psychologically Potent, Computationally Invisible: LLMs Generate Social-Comparison Triggers They Fail to Detect
Авторы: Hua Zhao, Jiapei Gu, Michelle Mingyue Gu — Department of English Language Education & Analytics/Assessment Research Centre, The Education University of Hong Kong
Контакт: {hzhao, sybilgu, mygu}@eduhk.hk
Платформа: Xiaohongshu (RedNote / 小红书)
Ключевые отсылки: Festinger (1954) — теория социального сравнения; Salvi et al. (2025) — убедительность AI-генерированного текста; Ziems et al. (2024) — LLMs как инструменты вычислительных социальных наук
