TL;DR
Когда просишь LLM предсказать, как аудитория отреагирует на пост, продукт или анонс — она неплохо угадывает общий тон и что людям понравится, но систематически промахивается по конкретным триггерам: что именно люди будут высмеивать, на что ополчатся, что станет мемом или поводом для кризиса. Это не случайность и не вопрос качества промпта — это структурная слабость всех современных моделей.
Слабость асимметричная. LLM хорошо симулирует «звучание» толпы — эмоции, одобрение — но плохо предсказывает объекты внимания: конкретные детали, вокруг которых концентрируется хейт или хайп. Лучшая из 13 протестированных моделей покрыла лишь ~48% реальных реакций аудитории; GPT и Claude — около 30–36%. Разрыв между «угадать тон» и «угадать конкретный триггер» — до 30 пунктов внутри одной модели.
Главная практика из исследования: структурированный промпт (CoT, жёсткая схема) при работе с реакциями аудитории ухудшает результат, а не помогает. Работает двухшаговый подход — сначала сгенерировать реакции, потом отдельным запросом проверить пропущенные углы по четырём категориям.
Схема метода
Два отдельных запроса:
ШАГ 1: Генерация → LLM создаёт пул реакций аудитории (10–20 комментариев)
ШАГ 2: Рефлексия → LLM ищет пробелы по 4 категориям и добавляет пропущенное
4 категории реакций:
T1 Флэшпоинты — конкретные детали, которые "поджигают" обсуждение
T2 Эмоциональный тон — аффективная лексика толпы (злость, зависть, умиление)
T3 Позитив — что именно хвалят (с конкретикой)
T4 Критика — что именно атакуют (самая трудная категория)
Пример применения
Задача: Маркетолог бренда спортивной одежды готовит анонс коллаборации с известным рэпером. Лимитированная линейка, цены 5 000–12 000 рублей. Нужно заранее понять, что пойдёт не так — чтобы скорректировать подачу до публикации.
ШАГ 1 — промпт:
Ты — аудитория ВКонтакте и Telegram: разные люди с разным отношением к бренду.
Событие: российский бренд спортивной одежды «[название]» объявляет
коллаборацию с рэпером Скриптонитом. Лимитированная линейка:
худи, джоггеры, кепки по 5 000–12 000 рублей.
Напиши 15 реакций реальных пользователей — такими голосами, как они
на самом деле пишут. Микс: поддержка, скептицизм, ирония, хейт.
Не делай их одинаково умеренными. Без нейтральных корпоративных формулировок.
ШАГ 2 — промпт рефлексии:
Вот реакции на анонс коллаборации бренда и Скриптонита:
[вставь результат шага 1]
Теперь найди пробелы по 4 направлениям и добавь 6–8 реакций:
1. ТРИГГЕРЫ: Какие конкретные детали могут стать точкой возгорания —
что процитируют, высмеют, сделают мемом? Что может поджечь
волну хейта или стать неожиданным поводом для хайпа?
2. ЭМОЦИИ: Каких эмоциональных состояний нет в списке выше,
но они типичны для этой темы?
3. ПОЗИТИВ: Что именно будут разбирать и хвалить — не "крутой дроп",
а конкретные детали (цвет, дизайн, история, культурный смысл)?
4. КРИТИКА: Что именно будут атаковать — не "дорого",
а конкретные уязвимые точки (несоответствие аудиторий,
прошлые скандалы, состав ткани, маркетинговые клише)?
Результат:
Первый запрос даст разнообразный пул — эмоционально живой, но преимущественно про «дорого» и «огонь». Второй вытащит конкретику: несоответствие имиджа рэпера и «спортивного» позиционирования, вопросы к производству («где шьют?»), сравнение с иностранными коллабами, специфический мем-контекст вокруг артиста. Итог — карта рисков с конкретными уязвимыми точками, а не общим «могут не принять».
Почему это работает
LLM хорошо воспроизводит ожидаемое. Эмоции, общее настроение, типичные похвалы — это частые паттерны из обучающих данных. Модель уверенно генерирует «типичную реакцию» и она звучит правдоподобно.
Но флэшпоинты — нетипичные. Конкретный триггер — это деталь, которая неожиданно становится точкой концентрации толпы. Модель знает, что «люди беспокоятся об экологии», но не угадывает, что именно залп фейерверков конкретного бренда станет PR-кризисом в конкретный месяц. Такая специфика требует понимания платформенных норм, истории бренда, актуальных мемов — всего, что плохо закодировано в модели.
Рефлексия помогает, потому что меняет задачу. Первый запрос — «придумай». Второй — «найди что пропущено по конкретным категориям». Это разные режимы: в режиме ревизии и gap-filling модель находит то, что пропустила в режиме свободной генерации. Как разница между "напиши статью" и "что ты упустил в этой статье" — второй вопрос активирует другой тип ответа. Структурированный CoT этого не даёт — он заставляет модель двигаться по жёсткой схеме, которая срезает живые, нетипичные реакции.
Рычаги: - Детализация события → чем конкретнее (цифры, платформа, детали) — тем точнее флэшпоинты - Конкретная платформа в роли → «аудитория Пикабу» vs «аудитория Telegram-каналов про стиль» — разный тон критики - Повтор шага 2 → ещё один раунд рефлексии даёт ещё больше охвата - Демографические архетипы вместо «разной аудитории» → «экономный покупатель», «лоялист бренда», «циник-блогер» — острее и предсказуемее
Шаблон промпта
ШАГ 1 — Генерация:
Ты — аудитория {платформа}: разные люди с разным отношением к теме.
Событие: {описание события — что произошло, ключевые детали,
цены и конкретика если есть}
Напиши {число_комментариев} реакций реальных пользователей —
такими голосами, как они на самом деле пишут.
Разнообразь: возраст, отношение, уровень иронии.
Не делай их одинаково умеренными.
ШАГ 2 — Рефлексия:
Вот реакции на событие "{название_события}":
{результат_шага_1}
Найди пробелы по 4 направлениям и добавь {число_дополнений} новых реакций:
1. ТРИГГЕРЫ: Какие конкретные детали могут стать точкой возгорания —
что процитируют, высмеют, сделают поводом для волны?
2. ЭМОЦИИ: Каких эмоциональных состояний нет выше,
но они типичны для этой темы?
3. ПОЗИТИВ: Что именно будут разбирать и хвалить —
конкретные детали, не общие слова?
4. КРИТИКА: Что именно будут атаковать —
конкретные уязвимые точки, не общие претензии?
Плейсхолдеры:
- {платформа} — ВКонтакте, Telegram, Пикабу, Хабр, Wildberries-отзывы, YouTube-комментарии
- {описание события} — максимально конкретно: что произошло, цифры, детали
- {число_комментариев} — 10–20 для шага 1
- {число_дополнений} — 5–8 для шага 2
- {название_события} — краткий идентификатор для контекста в шаге 2
🚀 Быстрый старт — вставь в чат:
Вот шаблон двухшагового анализа реакции аудитории.
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит о платформе, деталях события и целевой аудитории — потому что именно от этого зависит точность флэшпоинтов и критических векторов. Она возьмёт паттерн из шаблона и адаптирует под кейс.
Ограничения
⚠️ Флэшпоинты всё равно будут пропущены: Двухшаговый метод улучшает охват, но не решает проблему радикально — это смягчение, не лечение. Планируй, что часть реальных триггеров останется невидимой.
⚠️ Локальный контекст — вручную: Если триггер связан с платформенными мемами, историей конкретного бренда или региональным юмором — добавляй этот контекст явно в промпт. Без подсказки модель его не достанет.
⚠️ Не используй CoT для этой задачи: «Давай думать по шагам» и жёсткие инструкции по структуре ответа при моделировании реакций — ухудшают результат у всех протестированных моделей. Оставь генерации свободу.
⚠️ Критике доверяй меньше всего: T4 (атаки, уязвимые точки) — самая труднопредсказуемая категория. Для оценки репутационных рисков перед запуском LLM — только первый черновик, не финальный ответ.
Как исследовали
Исследователи из Шанхайского университета Цзяо Тун собрали 1 553 реальных тренда из Xiaohongshu (китайский лайфстайл-UGC, 300 млн активных пользователей месяц). Для каждого тренда — реальные реакции аудитории, разложенные на 23 122 атомарных критерия с определением, примерами и правилами оценки.
Ключевое методологическое решение: вместо вопроса «насколько хорош ответ в целом?» они спрашивали «есть ли этот конкретный элемент в ответе — да или нет?». Это подняло согласие между тремя судьями-моделями с 65.8% до 92.1% — что само по себе важный принцип для оценки любых открытых ответов.
Протестировали 13 топовых моделей. Главный сюрприз: Gemini обошёл GPT-5.2 и Claude на 10–15 пунктов, хотя на технических бенчмарках разрыв куда меньше. Это показывает, что технические лидерборды не измеряют «гуманитарный» интеллект — понимание социальной динамики, платформенных норм, иронии. Отдельно проверили консьюмер-ориентированный CoT-промпт (ConsumerSCF) — результаты упали у всех 4 проверенных моделей. А двухшаговый generate-reflect пайплайн на выборке 100 тем дал небольшой, но стабильный прирост (+4.7 пункта для MiMo, +1.8 для GPT-5.2). Интересно, что 28.9% всех критериев не угадала ни одна из 13 моделей — это «слепые зоны», не зависящие от качества модели.
Адаптации и экстраполяции
💡 Адаптация для проверки контента перед публикацией:
Тот же двухшаговый подход для поста, статьи или скрипта до выхода.
ШАГ 1:
Ты — подписчики {канал/сообщество} по теме {тема}.
Прочитай этот материал и напиши 10 реальных реакций —
от поддержки до скептицизма:
{текст материала}
ШАГ 2:
Вот реакции: {результат}
Найди пробелы:
- Какие конкретные фразы или тезисы вызовут споры?
- Какие слабые места в аргументации заметят читатели?
- Где автор переоценил аудиторию?
- Что процитируют в негативном контексте?
Добавь 5 реакций на эти углы.
🔧 Техника: демографические архетипы → острее критика
Вместо абстрактной «разной аудитории» — конкретные роли:
Напиши реакции от:
- Экономного покупателя (считает каждый рубль)
- Лоялиста бренда (покупает давно, защищает)
- Циника-блогера (ищет что высмеять)
- Инсайдера индустрии (знает как делается)
- Нового пользователя (без истории с брендом)
Конкретные архетипы дают более острые и предсказуемые углы, чем общее «разная аудитория». Каждая роль несёт свою логику критики.
🔧 Техника: явный исторический контекст → точнее флэшпоинты
Модель не знает историю конкретного бренда или персоны так хорошо, как знает аудитория. Добавь вручную:
Контекст для симуляции: {бренд/персона} ранее был замечен в {скандал/ситуация}.
Часть аудитории помнит {конкретный инцидент}.
Учти это при генерации реакций.
Это один из ключевых источников пропущенных флэшпоинтов — передай контекст явно, не надейся что модель «вспомнит».
Ресурсы
Название: Can LLMs Think Like Consumers? Benchmarking Crowd-Level Reaction Reconstruction with ConsumerSimBench
Датасет: huggingface.co/datasets/wty500/ConsumerSimBench
Авторы: Tianyu Wang (wty500@sjtu.edu.cn), Jiajun Li (Noumena AI), Jianghao Lin — Shanghai Jiao Tong University
