3,583 papers
arXiv:2605.06524 72 7 мая 2026 г. FREE

COGCAPTCHA30: почему AI не может притвориться человеком — и что с этим делать

КЛЮЧЕВАЯ СУТЬ
Обнаружено: LLM выдаёт правильные ответы неправильным способом. Классификатор на 30 когнитивных задачах отличает людей от AI по поведению с точностью 88% — даже когда по результатам они неотличимы (55%). Метод позволяет получать реалистичное человекоподобное поведение — для симуляции пользователей, UX-тестирования, ролевых сценариев. Фишка: описывай не что ответить, а как думать — добавь в промпт паттерны адаптации, нерешительность, реакцию на ошибку. Поведение становится реалистичным, а не просто технически правильным.
Адаптировать под запрос

TL;DR

LLM даёт правильные ответы неправильным способом. Когда AI выбирает карту в азартной задаче или кликает по капче — результат совпадает с человеческим, а процесс отличается кардинально. Человек исследует, адаптируется после неудачи, застревает на привычном выборе. LLM не делает ничего из этого — даже когда финальный ответ идеален.

Проблема называется "разрыв процесса и результата". Ты просишь модель "сыграть роль покупателя" или "проанализировать как человек" — она выдаёт технически правильный текст. Но в нём нет нерешительности, нет накопленного опыта предыдущих шагов, нет паттерна "сработало — повторю, провалилось — попробую иначе". Клиссификатор, обученный на 30 когнитивных задачах, отличает людей от AI по поведению с точностью 0.88 — даже когда по результатам они неразличимы (0.55).

Из этого следует конкретный принцип промптинга: если тебе нужно человекоподобное рассуждение — описывай не желаемый результат, а желаемый процесс. Укажи как именно должно разворачиваться мышление: исследование, адаптация, нерешительность, реакция на ошибку. Это работает для симуляции пользователей, построения персонажей, UX-тестирования и любой задачи, где "правильный ответ" — ещё не всё.


🔬

Схема метода

Это не пошаговая техника, а принцип работы с AI. Применяется в промпте как дополнительный слой инструкций.

СТАНДАРТНЫЙ ПРОМПТ (не работает для human-like behavior):
"Сыграй роль пользователя и реши задачу"
→ Результат: технически правильно, процессуально — никак

ПРОМПТ С ПРОЦЕССОМ (работает):
ШАГ 1: Описать роль/персонажа
ШАГ 2: Указать ПРОЦЕСС поведения — конкретные когнитивные паттерны
ШАГ 3: Задать саму задачу
→ Результат: поведение, которое ощущается как человеческое

Всё выполняется в одном промпте.


🚀

Пример применения

Задача: UX-исследователь в команде маркетплейса хочет, чтобы Claude сыграл типичного продавца на Wildberries, который впервые пробует новый инструмент автоматизации ценообразования. Нужно найти точки трения — где пользователь запутается, сдастся, или будет делать неоптимальные выборы.

Промпт:

Ты — Андрей, 34 года, продаёт детские игрушки на Wildberries уже 2 года. 
Средний уровень технической грамотности. Не читаешь инструкции полностью.

Сейчас ты впервые открываешь новый инструмент автоматического ценообразования. 
Перед тобой интерфейс с тремя вкладками: «Стратегии», «История», «Аналитика».

Веди себя так, как ведут реальные пользователи:
— Сначала кликни на то, что выглядит понятнее всего (не ищи оптимальный путь)
— Если что-то сработало — сделай то же снова, даже если есть лучший вариант
— Если что-то не понял — попробуй ещё раз, но по-другому (не иди сразу в инструкцию)
— Показывай нерешительность: "хм, непонятно...", "ладно, попробую вот это"
— Помни, что было на предыдущем шаге — адаптируйся к опыту

Описывай каждый свой шаг и что думаешь в этот момент.

Начни с момента, когда страница только загрузилась.

Результат: Модель будет генерировать последовательность действий с видимой нерешительностью, реакциями на "неудачи", повторяющимися попытками и адаптацией. Ты увидишь не идеальный путь пользователя, а реалистичный — с отступлениями, неправильными кликами, зависанием на непонятных элементах. Это годится для выявления UX-проблем, которые не заметны при стандартном "протестируй интерфейс".


🧠

Почему это работает

AI оптимизирует результат, а не процесс. Модель обучена предсказывать следующий токен — то есть производить текст, который выглядит правильно. У неё нет рабочей памяти с ограничениями, нет накопленной усталости, нет рефлекса "это уже не работало — попробую иначе". Поэтому без явных инструкций она ведёт себя как идеальный агент, а не как реальный человек.

Человеческое поведение — это не набор правильных ответов, а набор ограничений и правил адаптации. Исследование показало: именно там, где AI не дотягивается — стратегия win-stay/lose-shift (повтори если сработало, смени если нет), постепенное исследование вместо сразу оптимального выбора, чувствительность к потерям сильнее чем к выигрышам — это и есть "человеческие когнитивные ограничения". Они не случайные, они предсказуемые.

Когда ты описываешь процесс в промпте — ты встраиваешь эти ограничения явно. Модель следует структурированным инструкциям о как думать, а не только о что ответить. Это не делает AI человеком — но делает его поведение более реалистичным для задач, где поведение важнее точности.

Рычаги управления: - Добавь конкретный паттерн адаптации → "если что-то не понял с первого раза — попробуй ещё раз иначе, только потом ищи помощь" — делает поведение более реалистичным - Добавь "историю" персонажа → прошлый опыт с похожими инструментами меняет первые шаги - Убери явные инструкции о процессе → получишь идеального агента вместо реального пользователя - Количество шагов → ограничь ("у тебя 5 попыток") — усиливает нерешительность и осторожность


📋

Шаблон промпта

Ты — {имя_персонажа}, {возраст} лет, {краткая характеристика}.
{1-2 предложения о контексте и уровне экспертности}.

Сейчас ты {задача — что нужно сделать}.

Веди себя как реальный человек в этой ситуации:
— Начинай с того, что кажется понятнее (не ищи оптимальный путь сразу)
— Если шаг сработал — склонен повторить похожее действие
— Если шаг не сработал — попробуй иначе, но {число} раз до того как сдаться
— Показывай нерешительность и ход мыслей вслух
— Учитывай что происходило на предыдущих шагах — адаптируйся

{Задача / сценарий / что именно нужно выполнить}

Описывай каждый шаг и что думаешь в этот момент.

Что подставлять: - {имя_персонажа} — любое имя, оно делает персонажа конкретнее - {краткая характеристика} — 2-3 слова: "не любит читать инструкции", "тревожный при принятии решений", "привык к Excel" - {число} — сколько попыток до сдачи: 2-3 для нетерпеливых, 5-7 для настойчивых - {задача} — любой сценарий: навигация в интерфейсе, выбор тарифа, прохождение онбординга, принятие решения о покупке

🚀 Быстрый старт — вставь в чат:

Вот шаблон для симуляции человеческого поведения. 
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит кто персонаж, какой сценарий, какой уровень упорства и экспертности — потому что без этого паттерн поведения будет расплывчатым. Она возьмёт структуру из шаблона и настроит под твой кейс.


⚠️

Ограничения

⚠️ Модель симулирует, не копирует: Даже с явными инструкциями о процессе AI генерирует текст о поведении, не само поведение. Это полезно для прототипирования и исследований, но не заменяет настоящее UX-тестирование с живыми пользователями.

⚠️ Работает для структурированных сценариев: Чем более конкретна задача и сценарий, тем реалистичнее выйдет симуляция. Расплывчатый контекст → расплывчатое поведение.

⚠️ Процессные паттерны не переносятся автоматически: Исследование показало, что даже специально дообученная на человеческих данных модель не переносит выученные паттерны на новые задачи без дополнительной настройки. Это значит: промпт нужно адаптировать под каждый новый сценарий — универсальная инструкция "веди себя как человек" не работает.

⚠️ Не для всех задач нужен человеческий процесс: Если тебе нужен точный и оптимальный результат — убирай процессные инструкции. Они снижают качество там, где важна точность, не реалистичность.


🔗

Ресурсы

Process Matters more than Output for Distinguishing Humans from Machines Milena Rmus, Mathew D. Hardy, Thomas L. Griffiths, Mayank Agrawal Roundtable Technologies Inc., Princeton University

Смежные работы, упомянутые в статье: - Centaur (Binz et al., 2025) — языковая модель, дообученная на 10.7 млн человеческих решений из 160+ когнитивных экспериментов - Iowa Gambling Task (Bechara, 2001) — классическая задача на поведенческую экономику, win-stay/lose-shift паттерны - COGCAPTCHA30 — тестовая батарея из 30 когнитивных задач (рабочая память, принятие решений, восприятие, планирование)


📋 Дайджест исследования

Ключевая суть

Обнаружено: LLM выдаёт правильные ответы неправильным способом. Классификатор на 30 когнитивных задачах отличает людей от AI по поведению с точностью 88% — даже когда по результатам они неотличимы (55%). Метод позволяет получать реалистичное человекоподобное поведение — для симуляции пользователей, UX-тестирования, ролевых сценариев. Фишка: описывай не что ответить, а как думать — добавь в промпт паттерны адаптации, нерешительность, реакцию на ошибку. Поведение становится реалистичным, а не просто технически правильным.

Принцип работы

У людей есть паттерн: сработало — повторю, провалилось — попробую иначе. AI этого не делает по умолчанию. Модель предсказывает следующий токен — то есть производит текст, который выглядит правильно. У неё нет накопленных провалов, нет рефлекса осторожности. Поэтому без явных инструкций она ведёт себя как идеальный агент — кликает сразу в нужное, не сомневается, не застревает. Когда встраиваешь когнитивные ограничения явно — модель следует им как структурированным инструкциям. Не описал процесс → получил идеального агента. Описал → получил реалистичного человека.

Почему работает

AI оптимизирует результат, а не процесс. Человеческое поведение — это не набор правильных ответов. Это набор ограничений: нерешительность, эффект прошлых шагов, чувствительность к потерям сильнее чем к выигрышам. Эти паттерны предсказуемы. Они воспроизводимы. Когда описываешь их явно, модель встраивает ограничения — и поведение становится похожим на человеческое не случайно, а по механике. Без этих инструкций модель сразу кликает на оптимальный вариант, никогда не исследует, никогда не сомневается. Ни один живой пользователь так не делает.

Когда применять

UX-исследования → симуляция реального пользователя в интерфейсе, особенно когда нужно найти точки трения до живого тестирования. Построение персонажей → сценарии, диалоги, ролевые игры, где точный ответ — не цель. Пользовательские интервью → заранее прогнать сценарий «как это воспримет Марина, бухгалтер из Перми». НЕ подходит для задач где нужна точность: анализ данных, код, расчёты. Там паттерны нерешительности только мешают.

Мини-рецепт

1. Создай персонажа с ограничениями: имя, возраст, 2-3 черты — «не читает инструкции», «привык к Excel — всё новое пугает», «нетерпеливый, сдаётся быстро»

2. Опиши паттерн адаптации явно: «если шаг сработал — склонен повторить похожее», «если непонятно — попробуй 2-3 раза иначе до того как сдаться»

3. Добавь нерешительность вслух: «показывай ход мыслей — 'хм, непонятно...', 'ладно, попробую вот это'»

4. Задай сценарий: что именно нужно сделать — навигация в интерфейсе, выбор тарифа, прохождение первого входа в продукт

5. Попроси пошаговое описание: каждый шаг + что персонаж думает в этот момент

Примеры

[ПЛОХО] : Сыграй роль пользователя и протестируй интерфейс личного кабинета
[ХОРОШО] : Ты — Марина, 41 год, бухгалтер. Не любишь читать инструкции — сразу жмёшь кнопки. Открываешь новый сервис для подачи отчётности впервые. Веди себя как реальный человек: кликай на то что выглядит понятнее, если шаг сработал — повтори похожее, если нет — попробуй ещё 2 раза по-другому до того как сдаться. Показывай нерешительность вслух: 'хм, непонятно', 'ладно, попробую это'. Описывай каждое действие и что думаешь в этот момент. Начни с момента когда страница только загрузилась.
Источник: Process Matters more than Output for Distinguishing Humans from Machines
ArXiv ID: 2605.06524 | Сгенерировано: 2026-05-08 05:38

Проблемы LLM

ПроблемаСутьКак обойти
Без явных инструкций модель ведёт себя как идеальный агент, не как человекПросишь сыграть роль пользователя или покупателя. Получаешь технически правильное поведение. Но реальный человек колеблется, повторяет то что сработало, меняет стратегию после неудач, исследует прежде чем оптимизировать. Модель этого не делает. Не потому что плохо старается — у неё нет этих ограничений. Она оптимизирует текст который выглядит верно. Появляется в любой задаче где нужна симуляция реального поведения: UX-тест, персонаж, пользовательское исследованиеОписывай не что должен сделать персонаж, а как именно он думает. Добавь конкретные паттерны: "начинай с того что понятнее", "если сработало — повтори", "если нет — попробуй иначе до трёх раз", "показывай нерешительность вслух"

Методы

МетодСуть
Когнитивные паттерны в промпте — реалистичное поведение персонажаДобавь блок "Веди себя как реальный человек" с тремя конкретными правилами. Правило 1 — Исследование: "Начинай с того что кажется понятнее, не ищи оптимальный путь сразу". Правило 2 — Адаптация: "Если шаг сработал — склонен повторить похожее. Если нет — пробуй иначе, но {N} раз до сдачи". Правило 3 — Память: "Учитывай что было на предыдущих шагах". Подставь {N}=2-3 для нетерпеливого персонажа, {N}=5-7 для упорного. Почему работает: модель следует структурированным инструкциям о процессе так же как следует любым другим инструкциям. Когнитивные ограничения ты встраиваешь явно — она соблюдает их явно. Когда применять: симуляция пользователей, UX-тестирование, построение персонажей, ролевые сценарии. Когда не применять: нужен точный или оптимальный результат — паттерны снижают качество
📖 Простыми словами

Process Matters more than Output for Distinguishing Humans from Machines

arXiv: 2605.06524

Проблема в том, что мы привыкли судить о «человечности» нейронок по результату, но на самом деле LLM — это имитаторы финала, а не процесса. Модель выдает правильный ответ, но приходит к нему совершенно не так, как мы. У человека есть багаж: мы тупим, сомневаемся, меняем стратегию после провала или, наоборот, упрямо жмем на ту же кнопку. Нейронка же просто вычисляет наиболее вероятный следующий шаг, пропуская всю внутреннюю кухню живого сознания. В итоге мы получаем идеальную картинку, за которой стоит пустая математика, а не реальный опыт.

Это как если бы ты попросил профессионального актера сыграть пьяного хирурга. Актер может идеально изобразить дрожащие руки и заплетающийся язык, но он не чувствует ни алкоголя в крови, ни груза ответственности за пациента. Он просто копирует внешние признаки, которые видел в кино. Если хирург совершит ошибку, он впадет в ступор или начнет паниковать, а актер просто продолжит играть по сценарию, потому что его задача — чтобы зритель сказал «верю», а не чтобы пациент выжил.

Исследователи доказали это на цифрах: в азартных играх или тестах на внимательность AI выдает человеческий результат, но его «путь» лишен логики адаптации. Там, где человек после проигрыша начинает осторожничать, модель продолжает гнуть свою линию, если это статистически оправдано. Работают три ключевых отличия: отсутствие накопленной усталости, игнорирование неудачного опыта и отсутствие когнитивной инерции (когда мы застреваем на привычном). Модель не исследует среду — она ее просто обсчитывает, выдавая сухой остаток без эмоциональных и когнитивных «шумов», которые и делают нас людьми.

Этот принцип применим везде, где мы пытаемся использовать AI как замену респонденту или пользователю. Если ты тестируешь интерфейс на Claude, он не «затупит» там, где затупит реальный юзер, потому что у него нет ограничений рабочей памяти. Тестировали на играх, но принцип универсален: маркетинговые исследования, UX-тесты и симуляции поведения толпы на базе LLM — это галлюцинация адекватности. Модель ведет себя как идеальный агент, а реальный мир состоит из неидеальных людей, которые ошибаются неслучайным образом.

Короче: хватит верить AI на слово, когда он притворяется человеком. Если тебе нужно симулировать реальное поведение, придется насильно ограничивать модель — прописывать ей когнитивные искажения, память о прошлых лажах и право на тупняк. Без этого ты получишь стерильный ответ, который в реальности не выдержит столкновения с первым же живым пользователем. Процесс важнее результата, и если процесс у модели «машинный», то и грош цена её выводам о человеческой психологии.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с