3,583 papers
arXiv:2603.00059 72 10 фев. 2026 г. FREE

Conventional Wisdom Engine: LLM имитирует "среднего человека", а не реального — что с этим делать

КЛЮЧЕВАЯ СУТЬ
LLM не умеет удивляться. Она выдаёт то, что 'все ожидают' — стереотипный ответ, отполированный миллионами похожих текстов. Пять топовых моделей прошли реальное социологическое исследование и воспроизвели друг друга с пугающей точностью. Реальные испытуемые оказались выбросами на этом фоне. Метод Conventional Wisdom Audit позволяет получить карту стереотипных ожиданий аудитории — чтобы потом искать именно там, где реальность с этой картой расходится. Попроси LLM сыграть роль нескольких персонажей с инструкцией 'отметь, где воспроизводишь стереотип' — и получишь не живых пользователей, а честную карту общепринятых нарративов. Это не замена интервью. Это подготовка к ним.
Адаптировать под запрос

TL;DR

Когда просишь LLM сыграть роль пользователя, клиента или эксперта — модель выдаёт усреднённый шаблон из тренировочных данных, а не живой опыт реального человека. Пять топовых моделей воспроизвели ожидаемые ответы и друг за другом повторили одно и то же — реальные люди оказались выбросом на этом фоне.

Проблема: LLM сглаживает "шум" реальных данных. Именно этот шум — противоречия, неудобные ответы, неожиданные паттерны — и есть самое ценное в живых исследованиях. Модели буквально не умеют генерировать то, чего не ожидаешь. Они выдают то, что "логично" и "принято думать".

Полезный разворот: LLM — это карта общепринятых ожиданий. Если знаешь это, можно использовать модель намеренно: сначала попросить её сгенерировать "что все думают" — а потом в реальной работе искать именно отклонения от этой карты.


🔬

Схема метода

Это не пошаговая техника, а принцип работы с LLM в исследовательских и рабочих задачах:

ШАГ 1: Режим "карты ожиданий"
  → Попроси LLM: что будет ожидаемым/типичным ответом [аудитории]?
  → Получаешь: консенсусный взгляд, стереотипы, доминирующие нарративы

ШАГ 2: Режим "поиска отклонений"
  → Сравни LLM-ответы с реальными данными/разговорами/отзывами
  → Ищешь: где реальность расходится с "картой"

ШАГ 3: Режим "красных флагов"
  → Если LLM-персонаж и твои реальные пользователи говорят одно и то же —
    это сигнал, что ты не копал достаточно глубоко

Всё работает в рамках одного диалога в чате.


🚀

Пример применения

Задача: Маша запускает приложение для фрилансеров на Авито — трекер заказов и финансов. Перед разработкой хочет понять своего пользователя. Начинает с LLM-персон вместо реальных интервью.

Промпт:

Сыграй роль пяти разных фрилансеров с Авито — дизайнер, копирайтер,
сантехник, репетитор, фотограф.

Ответь на вопросы от лица каждого:
1. Как ты сейчас отслеживаешь заказы и деньги?
2. Что тебя больше всего раздражает в этом процессе?
3. Ты бы установил специальное приложение для этого?

Но сначала — сделай кое-что важное:
Под каждым ответом напиши: "Это ожидаемый/стереотипный ответ для такого
персонажа? Или это может быть неочевидным?" Укажи, где ты воспроизводишь
типичные нарративы, а где реально не знаешь.

Результат: Модель даст пять связных персонажей. Часть ответов будет помечена как "типичные нарративы" — именно они совпадают с тем, что все ожидают услышать от фрилансеров. Маша берёт эти ответы и идёт проверять: у реальных людей на тех же вопросах обнаружится что-то, чего LLM не предугадала. Например, сантехник окажется самым педантичным в учёте денег — но по другой причине, чем можно было бы ожидать.


🧠

Почему это работает

LLM обучена на текстах, которые уже написаны и опубликованы. Это автоматически означает: данные прошли через фильтр "достаточно типичное, чтобы кто-то это написал". Живой опыт, противоречия, неудобные истины — в интернете этого мало. Поэтому модель воспроизводит среднее по больнице.

Сильная сторона LLM — последовательная и связная генерация текста. Слабость — именно в том, что делает хорошее исследование ценным: неожиданные находки. Исследование показало: когда 80% реальных разработчиков сказали, что испытывали этические конфликты на работе — LLM дала ответ "поменьше". Когда реальные центристы оказались самой равнодушной группой — LLM этого вообще не предсказала.

Рычаг управления: добавь в промпт инструкцию "отметь, что из этого ты воспроизводишь как стереотип, а что для тебя неочевидно" — модель честнее покажет границы собственной уверенности. Это не уберёт проблему, но сделает её видимой.


📋

Шаблон промпта

Сыграй роль {количество} разных {тип аудитории}.

Ответь от лица каждого на вопросы:
{вопрос 1}
{вопрос 2}
{вопрос 3}

После каждого блока ответов добавь раздел "Честность модели":
— Какие из этих ответов — стереотипные ожидания для такого персонажа?
— Где ты воспроизводишь распространённые нарративы о {тип аудитории}?
— Какие ответы могут не совпадать с реальностью — и почему?

Цель: я хочу получить карту ожиданий, чтобы потом сравнить с реальными данными.

Что подставлять: - {количество} — 3–5 персонажей достаточно - {тип аудитории} — ваши пользователи, клиенты, коллеги, покупатели - {вопросы} — то, что вы хотите понять перед исследованием или разработкой

🚀 Быстрый старт — вставь в чат:

Вот шаблон для Conventional Wisdom Audit. Адаптируй под мою задачу:
[твоя задача — что за аудитория, что хочешь узнать].
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит, кто ваша аудитория и какие вопросы вас интересуют — потому что для работы метода критично задать правильный контекст персонажей.


⚠️

Ограничения

⚠️ Персоны ≠ люди: LLM-персонаж надёжен только для воспроизведения широко задокументированных нарративов. Нестандартные аудитории, новые рынки, малоизученные группы — модель будет угадывать по аналогии.

⚠️ Иллюзия разнообразия: Пять разных персонажей дадут похожие ответы — потому что у всех моделей схожие тренировочные данные. Реальная аудитория гетерогенна; у LLM-персон общий "родитель".

⚠️ Опасность эхо-камеры: Если строить продуктовые решения только на основе LLM-персон — риск сделать продукт для "воображаемого среднего пользователя", которого нет.

⚠️ Неожиданное не воспроизводится: Всё, что идёт вразрез с ожиданиями — именно это LLM пропустит. Если ваш бизнес держится на понимании нестандартного поведения аудитории — LLM-персоны это не дадут.


🔍

Как исследовали

Исследователи взяли реальный опрос 420 разработчиков из Кремниевой долины — 25 вопросов об этике, идеологии и рабочем опыте. Опрос занял четыре месяца. Потом они накормили те же вопросы пяти топовым LLM и попросили каждую сгенерировать 420 синтетических respondent-ответов. Весь датасет из 2100 AI-интервью был готов за один день.

Ключевая деталь дизайна: они специально выбрали вопросы, на которые не было готовых ответов в открытом доступе — чтобы исключить вариант "модель просто вытащила из интернета". Это сильный ход, потому что именно здесь обычно прячется главный изъян подобных тестов.

Результат оказался прозрачным и немного пугающим: все пять моделей кластеризовались вместе, а реальные люди стали статистическим выбросом. LLM предсказала, что разработчики умеренно обеспокоены этикой — реальные ответили, что 80% регулярно сталкиваются с этическими конфликтами и больше половины испытывали сожаление о своих проектах. LLM не предсказала, что политически нейтральные (центристы) окажутся самой равнодушной группой. LLM не воспроизвела диссонанс: разработчики демократических технологий в реальности сообщали, что их продукты подрывают те самые идеалы, ради которых создавались.

Это важный инсайт для практики: если ваш вопрос уже хорошо описан в публичных источниках — LLM будет точнее. Если вы исследуете что-то новое или специфическое — ожидайте систематического промаха.


💡

Адаптации и экстраполяции

💡 Адаптация для рефлексии перед встречей или переговорами:

Вместо симуляции "типичного пользователя" — симуляция "типичного собеседника":

Я иду на переговоры с {тип контрагента: инвестор / заказчик / партнёр}.
Тема: {тема}.

Сначала дай мне карту ожиданий:
— Что этот человек, скорее всего, думает о теме заранее?
— Какие стереотипы о {моя роль} у него, вероятно, есть?
— Какие вопросы он, скорее всего, задаст?

Потом отдельно: что из этого ты считаешь наиболее шаблонным ожиданием,
а что — потенциально неочевидным? Где я должен быть особенно готов
к сюрпризу?

Это не заменяет реальное знание о конкретном человеке — но позволяет войти в разговор с осознанной гипотезой, а не со слепым пятном.


🔧 Техника: инвертировать ожидание → найти неожиданное

LLM хорошо знает, что ожидается. Попробуй использовать это напрямую:

Дай мне список из 10 вещей, которые большинство людей ожидают
услышать от {аудитория} на тему {тема}.
Затем для каждого пункта: в каком сценарии реальность могла бы
быть противоположной?

Это превращает "машину стереотипов" в инструмент генерации гипотез для проверки — вместо замены живых данных.


🔗

Ресурсы

Статья: "Stochastic Parrots or Singing in Harmony? Testing Five Leading LLMs for their Ability to Replicate a Human Survey with Synthetic Data" — Working Draft, February 2026

Авторы: Jason Miklian, Kristian Hoelscher, John Katsos

Базовая работа: Miklian and Hoelscher (2026) — Survey of Silicon Valley software developers (420 respondents)

Ключевые отсылки из статьи: Bender et al. (2021) — термин "stochastic parrots"; Argyle et al. (2023) — "silicon samples"; Salecha et al. (2024) — social desirability bias в LLM


📋 Дайджест исследования

Ключевая суть

LLM не умеет удивляться. Она выдаёт то, что 'все ожидают' — стереотипный ответ, отполированный миллионами похожих текстов. Пять топовых моделей прошли реальное социологическое исследование и воспроизвели друг друга с пугающей точностью. Реальные испытуемые оказались выбросами на этом фоне. Метод Conventional Wisdom Audit позволяет получить карту стереотипных ожиданий аудитории — чтобы потом искать именно там, где реальность с этой картой расходится. Попроси LLM сыграть роль нескольких персонажей с инструкцией 'отметь, где воспроизводишь стереотип' — и получишь не живых пользователей, а честную карту общепринятых нарративов. Это не замена интервью. Это подготовка к ним.

Принцип работы

Стандартная ошибка: сгенерировал персон, решил что понял аудиторию, сделал продукт для несуществующего среднего пользователя. Правильно: сгенерировал персон — получил карту ожиданий — пошёл искать где реальность расходится с этой картой. Используй LLM-персон не как ответ, а как гипотезы для опровержения. Добавь в промпт: 'отметь что из этого стереотип, а что для тебя неочевидно'. Модель честнее покажет границы собственной уверенности — и ты увидишь где нужно копать.

Почему работает

LLM обучена на текстах, которые уже написаны и опубликованы. Публичный текст — это всегда фильтрованная реальность. Живые противоречия, неудобные находки, нестандартное поведение — в интернете этого мало. Модель буквально обучена на 'среднем по больнице' — поэтому и воспроизводит его с такой точностью. Из исследования: когда 80% реальных разработчиков сказали что испытывали этические конфликты на работе — LLM дала цифру заметно ниже. Когда реальные центристы оказались самой равнодушной группой — ни одна модель этого не предсказала. 'Шум' реальных данных не воспроизводится. А именно этот шум — противоречия, неудобные ответы, неожиданные паттерны — и есть самое ценное в живых исследованиях.

Когда применять

Исследования аудитории и продуктовая работа — особенно на этапе подготовки к интервью или фокус-группам, когда нужно понять какие вопросы задавать и какие гипотезы уже 'очевидны'. Полезно при старте нового направления: быстро получить карту ожиданий до выхода в поле. НЕ подходит для: замены реальных исследований, работы с нестандартными аудиториями или новыми рынками — там мало публичных данных и модель будет угадывать по аналогии. Если ваш продукт держится на понимании нестандартного поведения — LLM-персоны этого не дадут.

Мини-рецепт

1. Запусти карту ожиданий: попроси LLM сыграть 3–5 персонажей твоей аудитории и ответить на ключевые вопросы — как работают, что раздражает, что хотят
2. Добавь мета-слой: в конце каждого блока ответов — инструкция 'отметь где воспроизводишь стереотип, а где реально не знаешь'
3. Зафиксируй карту: выпиши ответы которые модель сама пометила как типичные нарративы — это твои гипотезы для проверки
4. Иди в поле: проведи хотя бы 5 реальных разговоров. Ищи не подтверждения карты, а расхождения с ней
5. Сравни: где реальные люди сказали что-то чего LLM не предугадала — там и есть настоящая находка

Примеры

[ПЛОХО] : Опиши пять типичных фрилансеров с Авито и как они ведут учёт заказов
[ХОРОШО] : Сыграй роль пяти разных фрилансеров с Авито — дизайнер, копирайтер, сантехник, репетитор, фотограф. Ответь от лица каждого: как сейчас отслеживаешь заказы и деньги? что раздражает в этом процессе? После каждого блока добавь раздел 'Честность модели': какие из этих ответов — стереотипные ожидания для такого персонажа? где воспроизводишь распространённые нарративы? где можешь ошибаться? Цель — получить карту ожиданий, чтобы потом сравнить с реальными данными.
Источник: Stochastic Parrots or Singing in Harmony? Testing Five Leading LLMs for their Ability to Replicate a Human Survey with Synthetic Data
ArXiv ID: 2603.00059 | Сгенерировано: 2026-03-09 00:33

Проблемы LLM

ПроблемаСутьКак обойти
Модель не умеет генерировать неожиданноеПросишь сыграть роль пользователя или клиента. Получаешь усреднённый шаблон. Всё логично, всё предсказуемо. Противоречий нет. Именно противоречия и нестандартные паттерны — самое ценное в реальных данных. Модель их отсекает автоматически. Работает для любой задачи где нужно понять живую аудиториюИспользуй модель как карту ожиданий, а не как замену реальных людей. Сначала генерируй "что все думают". Потом сравнивай с реальными ответами. Ищи именно расхождения

Методы

МетодСуть
Запрос на карту ожиданий — видишь где ты угадываешь, а не узнаёшьПопроси модель сыграть нескольких персонажей и ответить на твои вопросы. После каждого блока — добавь инструкцию: "Отметь: какие ответы — стереотипные ожидания? Где воспроизводишь распространённые нарративы? Где не уверена?" Модель покажет границы собственной уверенности. Почему работает: Модель не уберёт проблему усреднения. Но обозначит где она есть. Ты видишь "зону шаблона" — и знаешь где копать в реальности. Когда применять: перед интервью, перед исследованием аудитории, при проверке гипотез о пользователях. Когда не работает: нестандартные рынки, новые аудитории без истории в интернете — модель будет угадывать по аналогии
📖 Простыми словами

Stochastic Parrots or Singing in Harmony? Testing Five LeadingLLMsfor their Ability to Replicate a Human Survey with Synthetic Data

arXiv: 2603.00059

Суть в том, что когда ты просишь нейронку притвориться твоим клиентом или экспертом, она не «включает мозг», а просто выгружает усредненный статистический слепок из своих баз. Модели работают как зеркальный лабиринт: они бесконечно отражают друг друга и те типичные тексты, на которых их учили. В итоге вместо живого мнения ты получаешь рафинированный суррогат, где нет места случайности или странностям, которые и делают человека человеком.

Это как если бы ты спросил у десяти профессиональных актеров, каково это — работать на заводе, вместо того чтобы пойти и реально постоять у станка. Актеры сыграют убедительно, они читали сценарии и видели фильмы про рабочих, но они выдадут тебе набор штампов, а не запах мазута и боль в пояснице. В итоге все пять топовых моделей поют в унисон, выдавая одинаково правильные и скучные ответы, пока реальный живой человек на их фоне выглядит как статистическая аномалия.

В исследовании прогнали пять топовых LLM через опросы и сравнили их с ответами живых людей — результат оказался предсказуемо печальным. Модели продемонстрировали синтетическую гармонию: они идеально повторяют друг друга, но катастрофически мажут мимо реальности. Там, где живой человек может психануть, проигнорировать вопрос или ответить парадоксально, нейронка выдает стерильный шаблон, потому что ее учили быть «полезной и предсказуемой».

Этот принцип работает везде: от маркетинговых исследований до создания контента. Если ты пытаешься заменить глубинные интервью с реальными пользователями чатом с ChatGPT, ты строишь бизнес на галлюцинациях. Модель расскажет тебе то, что уже миллион раз написано в статьях про «успешный успех» или «боли фрилансеров», но она никогда не выдаст тот самый неудобный инсайт, который реально двигает продукт вперед.

Короче, использовать LLM для генерации синтетических данных о людях — это как пытаться узнать вкус яблока, рассматривая его пластиковый муляж. Реальные люди — это хаос, а нейронки — это порядок и среднее арифметическое. Если твоя задача требует понимания живого опыта, а не пересказа учебника, выключай чат и иди к людям, иначе рискуешь построить стратегию на советах стохастического попугая.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с