TL;DR
Когда просишь LLM сыграть роль пользователя, клиента или эксперта — модель выдаёт усреднённый шаблон из тренировочных данных, а не живой опыт реального человека. Пять топовых моделей воспроизвели ожидаемые ответы и друг за другом повторили одно и то же — реальные люди оказались выбросом на этом фоне.
Проблема: LLM сглаживает "шум" реальных данных. Именно этот шум — противоречия, неудобные ответы, неожиданные паттерны — и есть самое ценное в живых исследованиях. Модели буквально не умеют генерировать то, чего не ожидаешь. Они выдают то, что "логично" и "принято думать".
Полезный разворот: LLM — это карта общепринятых ожиданий. Если знаешь это, можно использовать модель намеренно: сначала попросить её сгенерировать "что все думают" — а потом в реальной работе искать именно отклонения от этой карты.
Схема метода
Это не пошаговая техника, а принцип работы с LLM в исследовательских и рабочих задачах:
ШАГ 1: Режим "карты ожиданий"
→ Попроси LLM: что будет ожидаемым/типичным ответом [аудитории]?
→ Получаешь: консенсусный взгляд, стереотипы, доминирующие нарративы
ШАГ 2: Режим "поиска отклонений"
→ Сравни LLM-ответы с реальными данными/разговорами/отзывами
→ Ищешь: где реальность расходится с "картой"
ШАГ 3: Режим "красных флагов"
→ Если LLM-персонаж и твои реальные пользователи говорят одно и то же —
это сигнал, что ты не копал достаточно глубоко
Всё работает в рамках одного диалога в чате.
Пример применения
Задача: Маша запускает приложение для фрилансеров на Авито — трекер заказов и финансов. Перед разработкой хочет понять своего пользователя. Начинает с LLM-персон вместо реальных интервью.
Промпт:
Сыграй роль пяти разных фрилансеров с Авито — дизайнер, копирайтер,
сантехник, репетитор, фотограф.
Ответь на вопросы от лица каждого:
1. Как ты сейчас отслеживаешь заказы и деньги?
2. Что тебя больше всего раздражает в этом процессе?
3. Ты бы установил специальное приложение для этого?
Но сначала — сделай кое-что важное:
Под каждым ответом напиши: "Это ожидаемый/стереотипный ответ для такого
персонажа? Или это может быть неочевидным?" Укажи, где ты воспроизводишь
типичные нарративы, а где реально не знаешь.
Результат: Модель даст пять связных персонажей. Часть ответов будет помечена как "типичные нарративы" — именно они совпадают с тем, что все ожидают услышать от фрилансеров. Маша берёт эти ответы и идёт проверять: у реальных людей на тех же вопросах обнаружится что-то, чего LLM не предугадала. Например, сантехник окажется самым педантичным в учёте денег — но по другой причине, чем можно было бы ожидать.
Почему это работает
LLM обучена на текстах, которые уже написаны и опубликованы. Это автоматически означает: данные прошли через фильтр "достаточно типичное, чтобы кто-то это написал". Живой опыт, противоречия, неудобные истины — в интернете этого мало. Поэтому модель воспроизводит среднее по больнице.
Сильная сторона LLM — последовательная и связная генерация текста. Слабость — именно в том, что делает хорошее исследование ценным: неожиданные находки. Исследование показало: когда 80% реальных разработчиков сказали, что испытывали этические конфликты на работе — LLM дала ответ "поменьше". Когда реальные центристы оказались самой равнодушной группой — LLM этого вообще не предсказала.
Рычаг управления: добавь в промпт инструкцию "отметь, что из этого ты воспроизводишь как стереотип, а что для тебя неочевидно" — модель честнее покажет границы собственной уверенности. Это не уберёт проблему, но сделает её видимой.
Шаблон промпта
Сыграй роль {количество} разных {тип аудитории}.
Ответь от лица каждого на вопросы:
{вопрос 1}
{вопрос 2}
{вопрос 3}
После каждого блока ответов добавь раздел "Честность модели":
— Какие из этих ответов — стереотипные ожидания для такого персонажа?
— Где ты воспроизводишь распространённые нарративы о {тип аудитории}?
— Какие ответы могут не совпадать с реальностью — и почему?
Цель: я хочу получить карту ожиданий, чтобы потом сравнить с реальными данными.
Что подставлять:
- {количество} — 3–5 персонажей достаточно
- {тип аудитории} — ваши пользователи, клиенты, коллеги, покупатели
- {вопросы} — то, что вы хотите понять перед исследованием или разработкой
🚀 Быстрый старт — вставь в чат:
Вот шаблон для Conventional Wisdom Audit. Адаптируй под мою задачу:
[твоя задача — что за аудитория, что хочешь узнать].
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит, кто ваша аудитория и какие вопросы вас интересуют — потому что для работы метода критично задать правильный контекст персонажей.
Ограничения
⚠️ Персоны ≠ люди: LLM-персонаж надёжен только для воспроизведения широко задокументированных нарративов. Нестандартные аудитории, новые рынки, малоизученные группы — модель будет угадывать по аналогии.
⚠️ Иллюзия разнообразия: Пять разных персонажей дадут похожие ответы — потому что у всех моделей схожие тренировочные данные. Реальная аудитория гетерогенна; у LLM-персон общий "родитель".
⚠️ Опасность эхо-камеры: Если строить продуктовые решения только на основе LLM-персон — риск сделать продукт для "воображаемого среднего пользователя", которого нет.
⚠️ Неожиданное не воспроизводится: Всё, что идёт вразрез с ожиданиями — именно это LLM пропустит. Если ваш бизнес держится на понимании нестандартного поведения аудитории — LLM-персоны это не дадут.
Как исследовали
Исследователи взяли реальный опрос 420 разработчиков из Кремниевой долины — 25 вопросов об этике, идеологии и рабочем опыте. Опрос занял четыре месяца. Потом они накормили те же вопросы пяти топовым LLM и попросили каждую сгенерировать 420 синтетических respondent-ответов. Весь датасет из 2100 AI-интервью был готов за один день.
Ключевая деталь дизайна: они специально выбрали вопросы, на которые не было готовых ответов в открытом доступе — чтобы исключить вариант "модель просто вытащила из интернета". Это сильный ход, потому что именно здесь обычно прячется главный изъян подобных тестов.
Результат оказался прозрачным и немного пугающим: все пять моделей кластеризовались вместе, а реальные люди стали статистическим выбросом. LLM предсказала, что разработчики умеренно обеспокоены этикой — реальные ответили, что 80% регулярно сталкиваются с этическими конфликтами и больше половины испытывали сожаление о своих проектах. LLM не предсказала, что политически нейтральные (центристы) окажутся самой равнодушной группой. LLM не воспроизвела диссонанс: разработчики демократических технологий в реальности сообщали, что их продукты подрывают те самые идеалы, ради которых создавались.
Это важный инсайт для практики: если ваш вопрос уже хорошо описан в публичных источниках — LLM будет точнее. Если вы исследуете что-то новое или специфическое — ожидайте систематического промаха.
Адаптации и экстраполяции
💡 Адаптация для рефлексии перед встречей или переговорами:
Вместо симуляции "типичного пользователя" — симуляция "типичного собеседника":
Я иду на переговоры с {тип контрагента: инвестор / заказчик / партнёр}.
Тема: {тема}.
Сначала дай мне карту ожиданий:
— Что этот человек, скорее всего, думает о теме заранее?
— Какие стереотипы о {моя роль} у него, вероятно, есть?
— Какие вопросы он, скорее всего, задаст?
Потом отдельно: что из этого ты считаешь наиболее шаблонным ожиданием,
а что — потенциально неочевидным? Где я должен быть особенно готов
к сюрпризу?
Это не заменяет реальное знание о конкретном человеке — но позволяет войти в разговор с осознанной гипотезой, а не со слепым пятном.
🔧 Техника: инвертировать ожидание → найти неожиданное
LLM хорошо знает, что ожидается. Попробуй использовать это напрямую:
Дай мне список из 10 вещей, которые большинство людей ожидают
услышать от {аудитория} на тему {тема}.
Затем для каждого пункта: в каком сценарии реальность могла бы
быть противоположной?
Это превращает "машину стереотипов" в инструмент генерации гипотез для проверки — вместо замены живых данных.
Ресурсы
Статья: "Stochastic Parrots or Singing in Harmony? Testing Five Leading LLMs for their Ability to Replicate a Human Survey with Synthetic Data" — Working Draft, February 2026
Авторы: Jason Miklian, Kristian Hoelscher, John Katsos
Базовая работа: Miklian and Hoelscher (2026) — Survey of Silicon Valley software developers (420 respondents)
Ключевые отсылки из статьи: Bender et al. (2021) — термин "stochastic parrots"; Argyle et al. (2023) — "silicon samples"; Salecha et al. (2024) — social desirability bias в LLM
