TL;DR
ChatGPT, Claude и другие ассистенты систематически «умнее» реальных людей — они дают рациональные, нормативно правильные ответы там, где живой человек ошибается, упрощает и руководствуется эвристиками. Это прямое следствие пост-тренинга: этапа обучения, который превращает базовую языковую модель в полезного ассистента.
Главная боль: когда вы просите модель «войти в роль клиента», «симулировать реакцию пользователя» или «ответить как обычный человек» — она выдаёт идеализированного рационального агента, а не живого человека с его когнитивными искажениями, непоследовательностью и предсказуемыми ошибками. При этом популярная техника добавления демографии («тебе 35 лет, ты из Москвы, менеджер среднего звена») почти не помогает имитировать конкретного человека — модель всё равно усредняет.
Чем новее модель и интенсивнее пост-тренинг — тем шире этот разрыв. Решение: явно инструктировать модель включать человеческие ошибки, эвристики и непоследовательность, а не стремиться к «правильному» ответу.
Схема находки
БАЗОВАЯ МОДЕЛЬ (до обучения на инструкциях)
→ учится предсказывать следующее слово в текстах людей
→ поведение ≈ человеческое: с ошибками, bias, вариативностью
↓ ПОСТ-ТРЕНИНГ (RLHF, instruction-tuning, reasoning)
→ оптимизируется под «правильный ответ» и «полезность»
→ вытесняет человеческие паттерны рациональным поведением
ГОТОВЫЙ АССИСТЕНТ (ChatGPT / Claude)
→ отличный помощник ✅
→ плохая имитация реального человека ❌
ДЕКОМПЕНСАЦИЯ В ПРОМПТЕ:
→ явно попросить: ошибаться, упрощать, использовать интуицию
→ НЕ добавлять демографию — это почти не помогает
→ добавлять описание когнитивного стиля и ограничений
Пример применения
Задача: Вы делаете финтех-приложение и хотите проверить, как обычный пользователь (не финансист) поймёт экран с инвестиционным портфелем. Нужно смоделировать реакцию, включая типичные непонимания и ошибки.
Промпт:
Ты — обычный пользователь, который редко занимается инвестициями.
Ты не эксперт и не стремишься им быть.
Твои поведенческие особенности:
— Принимаешь решения интуитивно, не анализируя все данные
— Боишься потерять деньги сильнее, чем радуешься прибыли
— Незнакомые термины пропускаешь или интерпретируешь неверно
— Устаёшь от сложных интерфейсов и начинаешь действовать наугад
— Можешь ошибиться, сделать нелогичный вывод, передумать на полпути
НЕ веди себя как рациональный аналитик.
НЕ стремись к «правильному» ответу — веди себя как живой человек.
Вот экран, который ты видишь первый раз:
[вставь описание экрана или скриншот]
Расскажи вслух, что ты думаешь, на что обращаешь внимание,
что непонятно, что вызывает тревогу, что хочется нажать.
Результат: Модель выдаст поток сознания с реальными когнитивными искажениями — «потеря» воспринимается острее прибыли, непонятные термины вызовут тревогу или будут проигнорированы, логика действий окажется нелинейной. Это не идеальный ответ аналитика, а эмоциональная, непоследовательная реакция реального пользователя.
Почему это работает
Пост-тренинг — это оптимизация под одобрение, а не под реализм. Когда модель обучают отвечать «правильно» и получать положительную обратную связь от людей, она постепенно выдавливает всё нечёткое, противоречивое и ошибочное. Это делает её отличным ассистентом — и плохим зеркалом человека.
LLM хорошо следует явным инструкциям о стиле поведения. Если вы не говорите «ошибайся» — модель по умолчанию стремится к точности. Но если вы явно задаёте когнитивный профиль с конкретными ограничениями — модель следует этому паттерну. Ключ не в демографии («35 лет, мужчина»), а в описании того, как человек обрабатывает информацию.
Демография — слабый сигнал для индивидуального поведения. Добавление возраста, города и профессии меняет популяционные паттерны, но не предсказывает, КАК именно этот конкретный человек будет реагировать. Нужно описывать поведенческий стиль, а не паспортные данные.
Рычаги управления:
- Когнитивные ограничения (боится сложных интерфейсов, решения по первому впечатлению) → сильнее влияют на поведение, чем мужчина, 35, Москва
- Явный запрет на рациональность (не стремись к правильному ответу) → снимает дефолтную настройку ассистента
- Конкретные эмоциональные реакции (потери пугают больше, чем радует прибыль) → активирует специфический поведенческий паттерн
- Формат «поток сознания» → снижает цензуру и позволяет зафиксировать «сырое» поведение
Шаблон промпта
Ты — {описание роли без экспертизы}.
Твои поведенческие особенности:
— {когнитивное ограничение 1: как принимаешь решения}
— {эмоциональный паттерн: что вызывает тревогу / радость}
— {типичная ошибка: как обрабатываешь незнакомое}
— {ограничение внимания: когда устаёшь или теряешься}
— {непоследовательность: можешь передумать или противоречить себе}
НЕ веди себя как эксперт или рациональный аналитик.
НЕ стремись к правильному ответу.
Веди себя как живой человек с этими ограничениями.
Задача: {что нужно сделать или на что отреагировать}
{вставь материал: текст, описание ситуации, экран, предложение}
Что подставлять:
- {описание роли} — профессиональный контекст и уровень знаний в теме задачи, без демографии
- {когнитивное ограничение} — как человек думает, а не кто он. «Решает интуитивно» лучше, чем «40 лет»
- {эмоциональный паттерн} — конкретные триггеры, не абстрактное «обычный человек»
- {задача} — что симулируем: реакцию на интерфейс, отклик на предложение, разговор с менеджером
🚀 Быстрый старт — вставь в чат:
Вот шаблон для симуляции поведения реального пользователя.
Адаптируй под мою задачу: [твоя задача — например,
"хочу проверить, как клиент воспримет наш оффер"].
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит: кого симулируем (в каком контексте, с каким опытом в теме) и что именно нужно протестировать — потому что без этого невозможно задать правильный когнитивный профиль.
Ограничения
⚠️ Симуляция ≠ реальность: Даже с правильным промптом модель симулирует паттерн поведения, а не конкретного человека. Для важных решений нужны реальные пользовательские интервью — промпт только помогает подготовиться к ним.
⚠️ Демографические данные почти бесполезны: Добавление возраста, города, образования не делает симуляцию точнее на уровне конкретного человека. Работает только описание поведенческого стиля.
⚠️ Сильнее всего расхождение в логических задачах: Если задача требует рассуждения — модель особенно сильно тянется к «правильному» ответу, даже при явном запрете. Требуйте конкретных когнитивных ошибок, не просто «думай как обычный человек».
⚠️ Эффект усиливается в новых моделях: GPT-4o, Claude 3.5+ более «умные» и одновременно менее человекоподобные. Чем мощнее ассистент — тем важнее явно прописывать ограничения.
Как исследовали
Команда из 80+ учёных 20 университетов собрала Psych-201 — базу данных из 208 тысяч участников психологических экспериментов с 25 миллионами поведенческих ответов. Это в 3,5 раза больше предыдущего аналогичного датасета. Каждый ответ сохранён с полным контекстом: инструкции, стимулы, порядок реакций — как настоящая стенограмма эксперимента.
Затем взяли три семейства открытых моделей (Qwen3, Llama3, OLMo3) и для каждой сравнили базовую версию с пост-тренированными (инструкционная, рассуждающая, визуальная). Мерили одно: насколько точно модель предсказывает, что ответит реальный человек в том же экспериментальном сценарии. Результат оказался неожиданно чистым — во всех семействах, во всех размерах, при всех типах пост-тренинга: пост-тренинг снижает соответствие человеческому поведению. Причём разрыв растёт с каждым поколением: у Qwen2 он был минимальным, у Qwen3.5 — в 8 раз больше.
Отдельно проверили персона-промптинг: добавляли к каждому эксперименту анкету участника (возраст, пол, страна, образование, клинические данные). Ожидали, что модель начнёт точнее имитировать конкретного человека. Эффект оказался практически нулевым — независимо от модели и даже в экспериментах с детьми, где возраст действительно важен. Интересно, что исследователи затем дообучили специальную модель Centaur на психологических данных — и она показала значимое улучшение. Это значит, что проблема не фундаментальная: пост-тренинг может сохранять человекоподобность, просто сейчас не оптимизируется под это.
Адаптации и экстраполяции
💡 Адаптация для UX-исследований и Customer Development:
Используй шаблон не только для тестирования интерфейсов, но и для подготовки к реальным интервью — сначала «проиграй» разговор с симулированным пользователем, выяви неожиданные возражения и слепые пятна в своём питче.
Ты — потенциальный клиент B2B SaaS-сервиса для малого бизнеса.
Твои особенности:
— Устал от «очередных стартапов», скептичен к новым инструментам
— Доверяешь рекомендациям коллег больше, чем лендингам
— Принимаешь решения о покупке медленно, согласовываешь с партнёром
— Боишься «влететь» на деньги за сервис, который придётся бросить
— Игнорируешь технические детали, фокусируеешься на боли и цене
НЕ давай вежливых ответов. Возражай, переспрашивай, сомневайся.
Я сейчас расскажу тебе о нашем сервисе — реагируй честно,
как на реальной встрече:
[вставь питч или описание продукта]
🔧 Техника: добавить «внутренний голос» → видеть скрытые сомнения
Добавь в промпт: «Отвечай вслух, но сначала покажи свою внутреннюю реакцию в [скобках]». Это даёт две дорожки: что человек говорит и что думает — разрыв между ними часто и есть главный инсайт.
[Боюсь, что это снова маркетинговая шелуха]
Звучит интересно, расскажите подробнее про интеграцию с 1С.
Ресурсы
Psych-201: A Large-Scale Dataset for Behavioral Alignment Research
Marcel Binz, Elif Akata, Abdullah Almaatouq и 70+ авторов (2025)
Helmholtz Munich, MIT, Oxford, Princeton, Stanford, MaxPlanck Institute и другие
Предыдущая работа авторов: Psych-101 и Centaur (когнитивная модель на базе LLM)
Связанные исследования упомянутые в статье: Hagendorff et al. (2023) — исчезновение когнитивных bias в ChatGPT; Shapira et al. (2026) — «alignment makes models normative, not descriptive»
