3,583 papers
arXiv:2605.17079 74 16 мая 2026 г. FREE

Предсказание реакции аудитории: LLM угадывает тон, но пропускает конкретные «крючки»

КЛЮЧЕВАЯ СУТЬ
Парадокс: структурированный CoT («давай думать по шагам») при предсказании реакций аудитории ухудшает результат — проверено на 13 моделях подряд, без исключений. Метод двух запросов позволяет получить карту конкретных уязвимых точек до публикации — не «могут не понять», а «вот за что именно атакуют». Фишка: два режима — «придумай реакции» и «найди что пропустил по 4 категориям» — это разные типы ответа модели. GPT и Claude покрывают 30–36% реальных реакций в один запрос; лучшая из протестированных — 48%. Разрыв между угадать тон и угадать конкретный триггер достигает 30 пунктов внутри одной и той же модели.
Адаптировать под запрос

TL;DR

Когда просишь LLM предсказать, как аудитория отреагирует на пост, продукт или анонс — она неплохо угадывает общий тон и что людям понравится, но систематически промахивается по конкретным триггерам: что именно люди будут высмеивать, на что ополчатся, что станет мемом или поводом для кризиса. Это не случайность и не вопрос качества промпта — это структурная слабость всех современных моделей.

Слабость асимметричная. LLM хорошо симулирует «звучание» толпы — эмоции, одобрение — но плохо предсказывает объекты внимания: конкретные детали, вокруг которых концентрируется хейт или хайп. Лучшая из 13 протестированных моделей покрыла лишь ~48% реальных реакций аудитории; GPT и Claude — около 30–36%. Разрыв между «угадать тон» и «угадать конкретный триггер» — до 30 пунктов внутри одной модели.

Главная практика из исследования: структурированный промпт (CoT, жёсткая схема) при работе с реакциями аудитории ухудшает результат, а не помогает. Работает двухшаговый подход — сначала сгенерировать реакции, потом отдельным запросом проверить пропущенные углы по четырём категориям.


🔬

Схема метода

Два отдельных запроса:

ШАГ 1: Генерация → LLM создаёт пул реакций аудитории (10–20 комментариев)
ШАГ 2: Рефлексия → LLM ищет пробелы по 4 категориям и добавляет пропущенное

4 категории реакций:

T1 Флэшпоинты      — конкретные детали, которые "поджигают" обсуждение
T2 Эмоциональный тон — аффективная лексика толпы (злость, зависть, умиление)
T3 Позитив         — что именно хвалят (с конкретикой)
T4 Критика         — что именно атакуют (самая трудная категория)

🚀

Пример применения

Задача: Маркетолог бренда спортивной одежды готовит анонс коллаборации с известным рэпером. Лимитированная линейка, цены 5 000–12 000 рублей. Нужно заранее понять, что пойдёт не так — чтобы скорректировать подачу до публикации.

ШАГ 1 — промпт:

Ты — аудитория ВКонтакте и Telegram: разные люди с разным отношением к бренду.

Событие: российский бренд спортивной одежды «[название]» объявляет 
коллаборацию с рэпером Скриптонитом. Лимитированная линейка: 
худи, джоггеры, кепки по 5 000–12 000 рублей. 

Напиши 15 реакций реальных пользователей — такими голосами, как они 
на самом деле пишут. Микс: поддержка, скептицизм, ирония, хейт. 
Не делай их одинаково умеренными. Без нейтральных корпоративных формулировок.

ШАГ 2 — промпт рефлексии:

Вот реакции на анонс коллаборации бренда и Скриптонита:

[вставь результат шага 1]

Теперь найди пробелы по 4 направлениям и добавь 6–8 реакций:

1. ТРИГГЕРЫ: Какие конкретные детали могут стать точкой возгорания — 
   что процитируют, высмеют, сделают мемом? Что может поджечь 
   волну хейта или стать неожиданным поводом для хайпа?

2. ЭМОЦИИ: Каких эмоциональных состояний нет в списке выше, 
   но они типичны для этой темы?

3. ПОЗИТИВ: Что именно будут разбирать и хвалить — не "крутой дроп", 
   а конкретные детали (цвет, дизайн, история, культурный смысл)?

4. КРИТИКА: Что именно будут атаковать — не "дорого", 
   а конкретные уязвимые точки (несоответствие аудиторий, 
   прошлые скандалы, состав ткани, маркетинговые клише)?

Результат:

Первый запрос даст разнообразный пул — эмоционально живой, но преимущественно про «дорого» и «огонь». Второй вытащит конкретику: несоответствие имиджа рэпера и «спортивного» позиционирования, вопросы к производству («где шьют?»), сравнение с иностранными коллабами, специфический мем-контекст вокруг артиста. Итог — карта рисков с конкретными уязвимыми точками, а не общим «могут не принять».


🧠

Почему это работает

LLM хорошо воспроизводит ожидаемое. Эмоции, общее настроение, типичные похвалы — это частые паттерны из обучающих данных. Модель уверенно генерирует «типичную реакцию» и она звучит правдоподобно.

Но флэшпоинты — нетипичные. Конкретный триггер — это деталь, которая неожиданно становится точкой концентрации толпы. Модель знает, что «люди беспокоятся об экологии», но не угадывает, что именно залп фейерверков конкретного бренда станет PR-кризисом в конкретный месяц. Такая специфика требует понимания платформенных норм, истории бренда, актуальных мемов — всего, что плохо закодировано в модели.

Рефлексия помогает, потому что меняет задачу. Первый запрос — «придумай». Второй — «найди что пропущено по конкретным категориям». Это разные режимы: в режиме ревизии и gap-filling модель находит то, что пропустила в режиме свободной генерации. Как разница между "напиши статью" и "что ты упустил в этой статье" — второй вопрос активирует другой тип ответа. Структурированный CoT этого не даёт — он заставляет модель двигаться по жёсткой схеме, которая срезает живые, нетипичные реакции.

Рычаги: - Детализация события → чем конкретнее (цифры, платформа, детали) — тем точнее флэшпоинты - Конкретная платформа в роли → «аудитория Пикабу» vs «аудитория Telegram-каналов про стиль» — разный тон критики - Повтор шага 2 → ещё один раунд рефлексии даёт ещё больше охвата - Демографические архетипы вместо «разной аудитории» → «экономный покупатель», «лоялист бренда», «циник-блогер» — острее и предсказуемее


📋

Шаблон промпта

ШАГ 1 — Генерация:

Ты — аудитория {платформа}: разные люди с разным отношением к теме.

Событие: {описание события — что произошло, ключевые детали, 
цены и конкретика если есть}

Напиши {число_комментариев} реакций реальных пользователей — 
такими голосами, как они на самом деле пишут. 
Разнообразь: возраст, отношение, уровень иронии. 
Не делай их одинаково умеренными.

ШАГ 2 — Рефлексия:

Вот реакции на событие "{название_события}":

{результат_шага_1}

Найди пробелы по 4 направлениям и добавь {число_дополнений} новых реакций:

1. ТРИГГЕРЫ: Какие конкретные детали могут стать точкой возгорания — 
   что процитируют, высмеют, сделают поводом для волны?

2. ЭМОЦИИ: Каких эмоциональных состояний нет выше, 
   но они типичны для этой темы?

3. ПОЗИТИВ: Что именно будут разбирать и хвалить — 
   конкретные детали, не общие слова?

4. КРИТИКА: Что именно будут атаковать — 
   конкретные уязвимые точки, не общие претензии?

Плейсхолдеры: - {платформа} — ВКонтакте, Telegram, Пикабу, Хабр, Wildberries-отзывы, YouTube-комментарии - {описание события} — максимально конкретно: что произошло, цифры, детали - {число_комментариев} — 10–20 для шага 1 - {число_дополнений} — 5–8 для шага 2 - {название_события} — краткий идентификатор для контекста в шаге 2

🚀 Быстрый старт — вставь в чат:

Вот шаблон двухшагового анализа реакции аудитории. 
Адаптируй под мою задачу: {твоя задача}. 
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит о платформе, деталях события и целевой аудитории — потому что именно от этого зависит точность флэшпоинтов и критических векторов. Она возьмёт паттерн из шаблона и адаптирует под кейс.


⚠️

Ограничения

⚠️ Флэшпоинты всё равно будут пропущены: Двухшаговый метод улучшает охват, но не решает проблему радикально — это смягчение, не лечение. Планируй, что часть реальных триггеров останется невидимой.

⚠️ Локальный контекст — вручную: Если триггер связан с платформенными мемами, историей конкретного бренда или региональным юмором — добавляй этот контекст явно в промпт. Без подсказки модель его не достанет.

⚠️ Не используй CoT для этой задачи: «Давай думать по шагам» и жёсткие инструкции по структуре ответа при моделировании реакций — ухудшают результат у всех протестированных моделей. Оставь генерации свободу.

⚠️ Критике доверяй меньше всего: T4 (атаки, уязвимые точки) — самая труднопредсказуемая категория. Для оценки репутационных рисков перед запуском LLM — только первый черновик, не финальный ответ.


🔍

Как исследовали

Исследователи из Шанхайского университета Цзяо Тун собрали 1 553 реальных тренда из Xiaohongshu (китайский лайфстайл-UGC, 300 млн активных пользователей месяц). Для каждого тренда — реальные реакции аудитории, разложенные на 23 122 атомарных критерия с определением, примерами и правилами оценки.

Ключевое методологическое решение: вместо вопроса «насколько хорош ответ в целом?» они спрашивали «есть ли этот конкретный элемент в ответе — да или нет?». Это подняло согласие между тремя судьями-моделями с 65.8% до 92.1% — что само по себе важный принцип для оценки любых открытых ответов.

Протестировали 13 топовых моделей. Главный сюрприз: Gemini обошёл GPT-5.2 и Claude на 10–15 пунктов, хотя на технических бенчмарках разрыв куда меньше. Это показывает, что технические лидерборды не измеряют «гуманитарный» интеллект — понимание социальной динамики, платформенных норм, иронии. Отдельно проверили консьюмер-ориентированный CoT-промпт (ConsumerSCF) — результаты упали у всех 4 проверенных моделей. А двухшаговый generate-reflect пайплайн на выборке 100 тем дал небольшой, но стабильный прирост (+4.7 пункта для MiMo, +1.8 для GPT-5.2). Интересно, что 28.9% всех критериев не угадала ни одна из 13 моделей — это «слепые зоны», не зависящие от качества модели.


💡

Адаптации и экстраполяции

💡 Адаптация для проверки контента перед публикацией:

Тот же двухшаговый подход для поста, статьи или скрипта до выхода.

ШАГ 1:
Ты — подписчики {канал/сообщество} по теме {тема}.
Прочитай этот материал и напиши 10 реальных реакций — 
от поддержки до скептицизма:

{текст материала}

ШАГ 2:
Вот реакции: {результат}

Найди пробелы:
- Какие конкретные фразы или тезисы вызовут споры?
- Какие слабые места в аргументации заметят читатели?
- Где автор переоценил аудиторию?
- Что процитируют в негативном контексте?

Добавь 5 реакций на эти углы.

🔧 Техника: демографические архетипы → острее критика

Вместо абстрактной «разной аудитории» — конкретные роли:

Напиши реакции от:
- Экономного покупателя (считает каждый рубль)
- Лоялиста бренда (покупает давно, защищает)
- Циника-блогера (ищет что высмеять)
- Инсайдера индустрии (знает как делается)
- Нового пользователя (без истории с брендом)

Конкретные архетипы дают более острые и предсказуемые углы, чем общее «разная аудитория». Каждая роль несёт свою логику критики.


🔧 Техника: явный исторический контекст → точнее флэшпоинты

Модель не знает историю конкретного бренда или персоны так хорошо, как знает аудитория. Добавь вручную:

Контекст для симуляции: {бренд/персона} ранее был замечен в {скандал/ситуация}. 
Часть аудитории помнит {конкретный инцидент}. 
Учти это при генерации реакций.

Это один из ключевых источников пропущенных флэшпоинтов — передай контекст явно, не надейся что модель «вспомнит».


🔗

Ресурсы

Название: Can LLMs Think Like Consumers? Benchmarking Crowd-Level Reaction Reconstruction with ConsumerSimBench

Датасет: huggingface.co/datasets/wty500/ConsumerSimBench

Авторы: Tianyu Wang (wty500@sjtu.edu.cn), Jiajun Li (Noumena AI), Jianghao Lin — Shanghai Jiao Tong University


📋 Дайджест исследования

Ключевая суть

Парадокс: структурированный CoT («давай думать по шагам») при предсказании реакций аудитории ухудшает результат — проверено на 13 моделях подряд, без исключений. Метод двух запросов позволяет получить карту конкретных уязвимых точек до публикации — не «могут не понять», а «вот за что именно атакуют». Фишка: два режима — «придумай реакции» и «найди что пропустил по 4 категориям» — это разные типы ответа модели. GPT и Claude покрывают 30–36% реальных реакций в один запрос; лучшая из протестированных — 48%. Разрыв между угадать тон и угадать конкретный триггер достигает 30 пунктов внутри одной и той же модели.

Принцип работы

LLM отлично воспроизводит «типичное» — эмоции, общий тон, стандартный хейт. Это частые паттерны из обучения, модель знает их наизусть. Флэшпоинт — это другое. Конкретная деталь, которая неожиданно становится точкой концентрации толпы — в режиме свободной генерации модель её не угадывает. Когда переключаешь её в режим ревизии («что я пропустила?») — активируется другой тип поиска. Как разница между «напиши отзыв» и «какие минусы ты не упомянул в этом отзыве» — второй вопрос вытягивает то, что первый скрыл под слоем очевидного. CoT этого не даёт: жёсткая схема заставляет модель двигаться по рельсам типичного и срезает живые, нетипичные реакции.

Почему работает

Модель видела в обучении миллионы «средних» реакций — злость, радость, скептицизм. Она умеет их воспроизводить уверенно. Но видела мало примеров того, как конкретная деталь стала мемом или поводом для кризиса — такие случаи редкие и платформенно-специфичные. Режим поиска пробелов по 4 категориям заставляет модель искать исключения, а не типичное. Она перестаёт генерировать «среднюю реакцию» и начинает отвечать на конкретный вопрос: что упустила по триггерам, эмоциям, позитиву, критике. Дополнительно — детализация события резко улучшает точность: платформа, цифры, контекст бренда. Без конкретики модель генерирует «универсальную толпу», которой не существует.

Когда применять

Маркетинг и PR → предсказание реакции до запуска кампании, коллаборации, ценового решения, кадрового анонса — особенно когда цена ошибки высока и нужны конкретные уязвимые точки, а не общее «понравится/не понравится». Работает для любой платформы с публичными реакциями: ВКонтакте, Telegram, Пикабу, отзывы на маркетплейсах, комментарии YouTube. НЕ подходит как финальный ответ для репутационных рисков — только первый черновик: часть реальных триггеров модель всё равно пропустит, особенно связанных с платформенными мемами и локальным контекстом бренда.

Мини-рецепт

1. Конкретизируй событие: укажи платформу, цифры, детали продукта, контекст бренда — чем точнее, тем острее флэшпоинты. «Коллаборация с рэпером» хуже, чем «лимитированная линейка 5 000–12 000 рублей совместно со Скриптонитом для аудитории ВКонтакте»
2. Шаг 1 — Генерация: задай роль «ты — разная аудитория [платформы]: скептики, фанаты, ироники». Попроси 10–20 живых реакций с миксом тонов. Никаких нейтральных корпоративных формулировок — это убивает точность
3. Без CoT: не пиши «давай думать по шагам» и не задавай жёсткую схему ответа. Это документально ухудшает результат на всех моделях
4. Шаг 2 — Ревизия: вставь результат шага 1 и попроси найти пробелы по 4 категориям: триггеры (что процитируют и высмеют), эмоции (каких нет), позитив (конкретные детали), критика (конкретные уязвимые точки)
5. Добавь архетипы вместо «разной аудитории»: «экономный покупатель», «лоялист бренда», «циник-блогер» дают более острые и предсказуемые реакции, чем абстрактный «пользователь»

Примеры

[ПЛОХО] : Предскажи, как аудитория отреагирует на запуск нашего нового продукта
[ХОРОШО] : Шаг 1: Ты — аудитория ВКонтакте: скептики, фанаты, ироники, экономные покупатели. Событие: российский бренд спортивной одежды объявляет коллаборацию со Скриптонитом. Лимитированная линейка: худи, джоггеры, кепки по 5 000–12 000 рублей. Напиши 15 реакций реальными голосами — злость, восторг, сарказм, зависть. Без нейтральных формулировок, без корпоративного тона. Шаг 2: Вот реакции на анонс [вставь результат шага 1]. Найди пробелы и добавь 6 новых реакций по 4 направлениям: 1. Триггеры — что конкретно процитируют, высмеют или сделают мемом? 2. Эмоции — каких эмоциональных состояний нет в списке выше, но они типичны для этой темы? 3. Позитив — что именно будут хвалить (конкретные детали, не «крутой дроп»)? 4. Критика — конкретные уязвимые точки, не просто «дорого».
Источник: Can LLMs Think Like Consumers? Benchmarking Crowd-Level Reaction Reconstruction with ConsumerSimBench
ArXiv ID: 2605.17079 | Сгенерировано: 2026-05-19 05:43

Проблемы LLM

ПроблемаСутьКак обойти
Модель угадывает настроение, но промахивается по конкретным триггерамПросишь предсказать реакцию аудитории. Получаешь правдоподобный тон: злость, восторг, скептицизм. Но конкретные детали — что именно высмеют, что станет поводом для кризиса — модель пропускает систематически. Не потому что плохой запрос. А потому что типичные эмоции хорошо представлены в обучении, а неожиданные точки концентрации — нет. Разрыв между «угадать тон» и «угадать конкретный триггер» — до 30 пунктов у одной и той же моделиИспользуй двухшаговый подход. Сначала свободная генерация реакций. Потом отдельный запрос: "найди что пропустил по 4 категориям — триггеры, эмоции, похвалы, атаки". Второй режим вытаскивает конкретику, которую первый не выдаёт
Жёсткая структура ответа режет неожиданные вариантыДобавляешь в запрос "думай по шагам", жёсткую схему или инструкцию строго следовать формату. Ожидаешь: лучше и полнее. Получаешь: модель движется по шаблону и обрезает нетипичные реакции. Результат звучит логично, но однообразно. Всё непредсказуемое — исчезает. Проблема для любых задач где нужны неожиданные, живые или редкие вариантыДля задач с неожиданными выходами — убирай жёсткую структуру. Давай свободной генерации работать свободно. Структуру вводи только на этапе рефлексии: "посмотри что пропустил" — не "генерируй по этой схеме"

Методы

МетодСуть
Двухшаговая симуляция реакций — генерация + поиск пробеловШаг 1. Попроси сгенерировать 10–20 реакций аудитории свободно. Без схемы. Укажи платформу и детали события. Шаг 2. Отдельным запросом: "Вот реакции. Найди пробелы по 4 направлениям и добавь 6–8 новых: 1) ТРИГГЕРЫ — что именно поджигает обсуждение, 2) ЭМОЦИИ — каких состояний нет, 3) ПОЗИТИВ — что конкретно хвалят, 4) КРИТИКА — что конкретно атакуют". Почему работает: Два запроса активируют разные режимы. Первый — свободное придумывание. Второй — поиск пропущенного по конкретным углам. В режиме поиска пробелов модель находит то, что в режиме генерации пропустила. Детализация усиливает точность: чем конкретнее описание события (цены, платформа, имена), тем острее триггеры. Добавляй платформу явно: "аудитория Пикабу" и "аудитория Telegram про моду" дадут разную критику

Тезисы

ТезисКомментарий
Режим "найди пропущенное" добывает другой контент чем режим "придумай"Когда просишь модель генерировать — она строит от наиболее типичного. Когда просишь найти что упущено по конкретным категориям — она ищет от пробелов. Это разные механики. Первый запрос даёт вероятное. Второй — то, что в первом осталось за кадром. Работает для любых задач где нужна полнота покрытия. Применяй: После любой генерации добавь второй запрос: "Что я пропустил? Посмотри по этим углам: [список категорий]"
📖 Простыми словами

CanLLMsThink Like Consumers? Benchmarking Crowd-Level Reaction Reconstruction with ConsumerSimBench

arXiv: 2605.17079

Суть в том, что современные LLM — это отличные имитаторы нормы, но никудышные предсказатели хаоса. Когда ты просишь модель спрогнозировать реакцию толпы на новый продукт или пост, она выдает тебе «среднюю температуру по больнице». Модель понимает фундаментальную механику одобрения — что людям нравятся скидки и котики, — но она абсолютно слепа к тому, как интернет-сообщество умеет превращать любую мелочь в токсичный мем. Она работает на базе статистической вероятности, а человеческая реакция, особенно негативная, часто строится на иррациональных триггерах, которые нейронка считает «маловероятным шумом».

Это как пытаться предсказать исход вечеринки, спрашивая совета у отличника-ботаника. Он тебе распишет, что все будут пить чай и обсуждать литературу, потому что так написано в учебниках по этикету. Но он в упор не видит, что через час кто-то уронит торт, начнется драка из-за музыки и всё закончится полицией. Модель выдает стерильный прогноз, игнорируя тот факт, что люди — существа странные, обидчивые и обожают докапываться до контекста, который не прописан в твоем брифе.

В исследовании ConsumerSimBench это проверили на конкретных методах: модели давали вводные данные и смотрели, совпадет ли её прогноз с реальными комментариями живых людей. Выяснилось, что реконструкция реакции ломается именно на деталях. Модель может угадать, что «товар купят», но она в упор не видит повод для кризиса. Например, если бренд выпускает кроссовки с рэпером за 12 тысяч, AI скажет, что это «стильно и эксклюзивно», в то время как реальные люди в комментариях будут разносить бренд за то, что подошва похожа на батон хлеба, а цена — на издевательство над здравым смыслом.

Этот принцип универсален и применим далеко за пределами маркетинга. Будь то политический анонс, запуск фичи в приложении или пост в соцсетях — AI-ассистент всегда будет сглаживать углы. Он отлично справляется с ролью адвоката дьявола в теории, но на практике пропускает те самые 20% критических триггеров, которые в итоге топят проект. Тестировали на потребительских товарах, но это касается любого социального взаимодействия, где важен подтекст и ирония.

Короче: использовать ChatGPT как замену фокус-группе — это полный провал. Ты получишь подтверждение своих идей, потому что модель склонна поддакивать и выдавать социально одобряемый бред. Она никогда не скажет тебе: «Чувак, это выглядит как кринж», если этот кринж не очевиден на уровне словаря. Прогноз триггеров остается за людьми. Доверяй нейронке структуру и черновики, но за предсказанием того, где тебя смешают с грязью, иди к живым пользователям, иначе рискуешь получить идеальный план, который разобьется о первый же реальный комментарий.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с