3,583 papers
arXiv:2512.03568 77 3 дек. 2025 г. FREE

Synthetic Cognitive Walkthrough: двухагентный анализ многошаговых процессов

КЛЮЧЕВАЯ СУТЬ
Парадокс: LLM проходят тесты юзабилити идеально (100% завершения vs 88% у людей). Но при этом находят в 3 раза меньше реальных проблем интерфейса. Причина: модель идет по оптимальному пути, не спотыкаясь как живые люди. Метод Synthetic Cognitive Walkthrough позволяет превратить эту слабость в силу — через симуляцию двух агентов в диалоге. Один агент (исполнитель) проходит процесс пошагово с объяснениями, второй (ведущий) задает вопросы "а почему не нажал сюда?" и заставляет замечать проблемы. Инструкция "перечисли ВСЕ варианты сначала" превращает LLM из "эффективного решателя" в "думающего наблюдателя" — именно это нужно для поиска узких мест.
Адаптировать под запрос

TL;DR

Synthetic Cognitive Walkthrough — метод где два LLM-агента работают в паре: facilitator (ведущий) задаёт вопросы и направляет, evaluator (исполнитель) проходит процесс пошагово с объяснениями. Оригинально разработан для оценки юзабилити интерфейсов, но принципы применимы для анализа любых многошаговых процессов.

Исследователи обнаружили парадокс: LLM проходят задачи эффективнее людей (100% завершения vs 88%), делают меньше шагов, выбирают оптимальные пути. Но при этом находят в 3 раза меньше потенциальных проблем — потому что идут "по правильному пути", не спотыкаясь как реальные пользователи. Люди чаще пробуют разные варианты (breadth-first поиск), делают ошибки из-за забывчивости — и именно так обнаруживают узкие места.

Ключевая находка: если явно попросить LLM искать проблемы по ходу выполнения (with-context), а не просто эффективно решать задачу — модель начинает видеть те же проблемы что и люди. Контекст процесса важнее изолированного анализа: LLM лучше находит проблемы когда идёт по шагам, чем когда смотрит на отдельные элементы.


🔬

Схема метода

Двухагентная структура (выполняется в одном чате через role-play или в двух чатах):

FACILITATOR (Ведущий):
→ Даёт задачу evaluator'у
→ Просит объяснить выбор на каждом шаге
→ Задаёт уточняющие вопросы если неясно
→ Замечает зацикливания и предлагает другой путь

EVALUATOR (Исполнитель):
→ Смотрит на текущее состояние
→ Перечисляет ВСЕ возможные действия
→ Оценивает вероятность успеха каждого
→ Выбирает действие + объясняет почему
→ Отмечает что кажется непонятным/неудобным

Ключевое улучшение из исследования: Без инструкции "перечисли все варианты сначала" — LLM делает случайный выбор. С инструкцией — выбор становится обоснованным и стабильным.


🚀

Пример применения

Задача: Ты запускаешь онлайн-курс на российской платформе (GetCourse, Chatium, своя). Нужно понять где студенты застрянут при первой покупке и входе в личный кабинет. Вместо реальных тестировщиков — симулируешь двух агентов, которые проходят путь "новичка".

Промпт:

# Роли

**FACILITATOR:** Ты ведущий сессии тестирования. Задаёшь вопросы, просишь объяснения, замечаешь если evaluator зациклился.

**EVALUATOR:** Ты новый пользователь, который впервые видит эту платформу. Не знаешь где что находится. Проходишь процесс пошагово и объясняешь свои действия.

---

# Задача для EVALUATOR

**Цель:** Купить курс "Продюсирование онлайн-курсов" за 15 000₽ и войти в личный кабинет.

**Инструкции:**
1. На каждом шаге: перечисли ВСЕ действия которые можешь сделать
2. Оцени каждое: насколько вероятно что оно приведёт к цели
3. Выбери одно действие + объясни почему
4. Отметь если что-то непонятно или сбивает с толку

---

# Старт

FACILITATOR: Вот скриншот главной страницы курса [вставить скриншот]. Что будешь делать?

EVALUATOR: [начинает анализ]

FACILITATOR: [задаёт уточняющие вопросы, отмечает проблемы]

Результат:

Получишь пошаговый trace с объяснениями на каждом этапе: какие элементы заметил evaluator, почему выбрал именно это действие, что показалось непонятным. Facilitator будет задавать вопросы "А почему не нажал сюда?" — так выявляются незаметные элементы и неочевидные формулировки. В конце — список всех мест где новичок может застрять, с конкретными причинами.


🧠

Почему это работает

Слабость LLM: При прямом вопросе "найди проблемы на этом скриншоте" модель анализирует изолированно, упускает контекст пути пользователя. Она видит что кнопка есть, но не понимает почему пользователь её не нажмёт — потому что не прошла весь путь до этого момента.

Сильная сторона LLM: Модель отлично симулирует роли и структурирует мышление. Когда просишь "перечисли все варианты → оцени каждый → выбери один" — модель делает систематический анализ вместо импульсивного выбора. Facilitator role добавляет внешнюю критику — второй взгляд на решения.

Как метод использует силу: Двухагентная структура создаёт диалог между действием и рефлексией. Evaluator проходит процесс, facilitator заставляет объяснять. Требование "перечисли все варианты сначала" превращает LLM из "делателя задач" в думающего наблюдателя — именно это нужно для поиска проблем.

Рычаги управления:

  • Инструкция "перечисли все варианты" → убери если нужна скорость, не качество анализа. Но тогда выбор станет менее обоснованным.
  • Роль evaluator → замени на конкретную персону ("студент 50 лет, впервые покупает онлайн-курс") для специфичных инсайтов.
  • Частота вопросов facilitator → увеличь ("спрашивай на КАЖДОМ шаге") для глубокого анализа, уменьши для быстрого прохода.
  • Fail-safe механизм → добавь facilitator'у: "если evaluator делает одно и то же 3 раза — предложи другой путь" для выхода из циклов.

📋

Шаблон промпта

# ДВУХАГЕНТНЫЙ АНАЛИЗ ПРОЦЕССА

## Роли

**FACILITATOR (Ведущий):**
- Задаёшь вопросы и направляешь
- Просишь объяснить выбор на каждом шаге
- Замечаешь зацикливания и предлагаешь альтернативы
- Отмечаешь потенциальные проблемы

**EVALUATOR (Исполнитель):**
- Проходишь процесс пошагово
- Объясняешь своё мышление вслух
- Отмечаешь что кажется непонятным

---

## Задача для EVALUATOR

**Цель:** {описание конечной цели процесса}

**Контекст:** {кто этот человек, что знает/не знает}

**Инструкции:**
На каждом шаге:
1. Перечисли ВСЕ возможные действия
2. Оцени вероятность успеха каждого (высокая/средняя/низкая)
3. Выбери одно действие + объясни почему именно его
4. Отметь если что-то сбивает с толку или неочевидно

---

## Старт

FACILITATOR: Вот начальная точка: {описание текущего состояния / скриншот / ситуация}. Что будешь делать?

EVALUATOR: [начинает анализ по инструкциям]

Плейсхолдеры: - {описание конечной цели процесса} — что нужно достичь: "купить и оплатить курс", "найти нужную функцию", "пройти онбординг" - {кто этот человек, что знает/не знает} — персона: "новичок впервые на платформе", "опытный пользователь но в новом интерфейсе" - {описание текущего состояния} — старт: скриншот, описание ситуации, список доступных опций


🚀 Быстрый старт — вставь в чат:

Вот шаблон двухагентного анализа. Адаптируй под мою задачу: {твоя задача}. 
Задавай вопросы чтобы заполнить роли и инструкции.

[вставить шаблон выше]

LLM спросит какой процесс анализируешь, кто целевой пользователь, какие документы/скриншоты есть — потому что для работы метода нужен конкретный контекст пути пользователя. Она возьмёт структуру facilitator/evaluator из шаблона и адаптирует под твою ситуацию.


⚠️

Ограничения

⚠️ Требует визуальные материалы или детальное описание: Метод работает когда есть что анализировать — скриншоты интерфейса, описание процесса, customer journey map. Без этого evaluator будет додумывать вместо анализа реального процесса.

⚠️ LLM идёт по оптимальному пути: Без явной инструкции "ищи проблемы" модель выбирает правильные действия и пропускает места где реальный человек застрянет. Нужно специально просить замечать неочевидности.

⚠️ Не заменяет реальных пользователей: LLM не делает человеческих ошибок — забывчивости, невнимательности, неправильных ожиданий. Метод показывает логические проблемы интерфейса/процесса, но пропускает психологические.


🔍

Как исследовали

Команда из University of Washington хотела проверить: может ли LLM заменить людей в Cognitive Walkthrough — классическом методе оценки юзабилити, где тестировщики проходят интерфейс и думают вслух. Набрали 10 человек, дали им два мобильных приложения (языковое обучение и букинг путешествий) с 6 задачами в каждом. Параллельно прогнали те же задачи через GPT-4 (5 раз) и Gemini-2.5-pro (3 раза) с разработанным двухагентным промптом.

Измеряли три метрики CW: 1) сколько задач завершили, 2) насколько путь совпадает с оптимальным (через JS Divergence), 3) сколько нашли потенциальных точек отказа — мест где пользователь может застрять.

Результаты удивили: GPT-4 завершил 100% задач, Gemini 97.2%, люди только 88.2%. Модели шли оптимальными путями, делали меньше шагов. Но — люди нашли 10 проблемных мест, LLM в обычном режиме только 3. Почему? Люди "тупят" и ошибаются — именно так находят проблемы. Когда не уверены — пробуют разные кнопки (breadth-first search). Забывают инструкцию — возвращаются назад. LLM идут эффективно — и пропускают то, где споткнётся реальный пользователь.

Follow-up эксперимент: Добавили в промпт явную инструкцию "по ходу процесса отмечай что может сбить с толку пользователя". Проверили два подхода: with-context (LLM проходит весь процесс и ищет проблемы) vs without-context (даём отдельные скриншоты, просим найти проблемы). With-context сработал — LLM стал находить те же 10 проблемных мест что и люди. Without-context был нестабильным и менее точным.

Инсайт для практики: LLM не "думает как человек" автоматически — она думает как эффективный исполнитель. Но с правильным промптом она может симулировать мышление новичка. Ключ — вести её через процесс (with-context), а не показывать изолированные куски (without-context). Контекст пути важнее чем анализ отдельных элементов.


💡

Адаптации и экстраполяции

📌

🔧 Техника: Одноагентная версия для быстрого анализа

Если двухагентная структура кажется избыточной для простой задачи — можно свести к одному агенту с самопроверкой:

Ты новый пользователь проходишь процесс: {задача}.

На каждом шаге:
1. Перечисли все варианты действий
2. Оцени каждый (высокая/средняя/низкая вероятность успеха)
3. Выбери + объясни
4. Спроси сам себя: "Что здесь может сбить с толку новичка?"

Начальное состояние: {описание/скриншот}

Эффект: Быстрее, меньше токенов, но теряешь внешнюю критику facilitator'а. Подходит для простых процессов.


📌

🔧 Техника: Трёхагентная версия для глубокого анализа

Добавь третьего агента — Observer (Наблюдатель) — который смотрит на диалог facilitator/evaluator и отмечает паттерны проблем:

OBSERVER: Ты смотришь на процесс со стороны. После каждых 3-5 шагов — подводи итог:
- Какие паттерны проблем видишь?
- Где процесс ломается систематически?
- Что можно улучшить в интерфейсе/процессе?

Эффект: Получаешь не только список проблем, но и метаанализ — какие типы проблем повторяются, где фундаментальные дыры в дизайне.


📌

🔧 Техника: Breadth-first mode для поиска альтернатив

Исследование показало: люди часто используют breadth-first когда не уверены — пробуют разные варианты. Можно явно встроить это в промпт:

EVALUATOR: Когда оценка вероятности "средняя" или ниже у нескольких вариантов:
→ НЕ выбирай один сразу
→ Попроси facilitator показать результат КАЖДОГО варианта
→ Потом сравни что получилось и реши

Эффект: Больше exploration, медленнее и дороже в токенах, но находит нестандартные пути и проблемы которые не видны при оптимальной навигации.


🔗

Ресурсы

Synthetic Cognitive Walkthrough: Aligning Large Language Model Performance with Human Cognitive Walkthrough

Авторы: Ruican Zhong, David W. McDonald, Gary Hsieh — University of Washington, USA

CHI Conference on Human Factors in Computing Systems (CHI '26), April 13–17, 2026, Barcelona, Spain


📋 Дайджест исследования

Ключевая суть

Парадокс: LLM проходят тесты юзабилити идеально (100% завершения vs 88% у людей). Но при этом находят в 3 раза меньше реальных проблем интерфейса. Причина: модель идет по оптимальному пути, не спотыкаясь как живые люди. Метод Synthetic Cognitive Walkthrough позволяет превратить эту слабость в силу — через симуляцию двух агентов в диалоге. Один агент (исполнитель) проходит процесс пошагово с объяснениями, второй (ведущий) задает вопросы "а почему не нажал сюда?" и заставляет замечать проблемы. Инструкция "перечисли ВСЕ варианты сначала" превращает LLM из "эффективного решателя" в "думающего наблюдателя" — именно это нужно для поиска узких мест.

Принцип работы

Не делай: Найди проблемы на этом скриншоте — модель анализирует изолированно, без контекста пути пользователя. Она видит что кнопка есть, но не понимает почему новичок её пропустит. Делай: два агента проходят процесс в диалоге. Ведущий спрашивает "почему выбрал это действие, а не то?", исполнитель объясняет выбор и замечает неочевидности по ходу. Контекст процесса (шаг за шагом) важнее изолированного анализа — так модель видит проблемы которые незаметны при взгляде на отдельные элементы.

Почему работает

LLM при прямом вопросе идет по оптимальному пути — делает правильный выбор на каждом шаге. Это сила для решения задач, но слабость для поиска проблем. Диалог между ведущим и исполнителем создает внешнюю критику — второй взгляд на решения. Инструкция "перечисли все варианты → оцени каждый → выбери один" заставляет модель делать систематический анализ вместо импульсивного выбора. Ключевой инсайт: когда модель проходит процесс пошагово, она видит те же проблемы что и люди. Когда анализирует изолированно — пропускает контекст пути пользователя.

Когда применять

Тестирование юзабилити → когда нужно найти узкие места в интерфейсе до запуска реальных тестов, особенно если нет времени или бюджета на пользовательское тестирование. Онбординг и многошаговые процессы → где теряются новые пользователи: регистрация, первая покупка, настройка сложного продукта. НЕ подходит для психологических проблем — LLM не делает человеческих ошибок из-за забывчивости, невнимательности или неправильных ожиданий. Метод показывает логические проблемы, но пропускает эмоциональные.

Мини-рецепт

1. Настрой роли: ведущий задает вопросы и замечает зацикливания, исполнитель проходит процесс с объяснениями
2. Дай задачу исполнителю: "достичь [конкретная цель]" + контекст кто этот человек (новичок/опытный, что знает/не знает)
3. Инструкция исполнителю: на каждом шаге перечисли ВСЕ возможные действия → оцени вероятность успеха каждого → выбери одно + объясни почему
4. Ведущий спрашивает: "почему не выбрал [альтернативу]?" на каждом шаге — так выявляются незаметные элементы
5. Исполнитель отмечает: что кажется непонятным или сбивает с толку по ходу процесса

Примеры

[ПЛОХО] : Протестируй этот интерфейс покупки курса и скажи где проблемы
[ХОРОШО] : Ты ведущий тестирования. Задача исполнителя: купить курс за 15000₽ и войти в личный кабинет. Исполнитель — новичок, впервые на платформе. На каждом шаге он перечисляет ВСЕ действия, оценивает вероятность успеха (высокая/средняя/низкая), выбирает одно + объясняет почему. Ты спрашиваешь "почему не нажал сюда?" если есть неочевидные варианты. Исполнитель отмечает что сбивает с толку. Старт: вот главная страница [скриншот]. Что будешь делать?
Источник: Synthetic Cognitive Walkthrough: Aligning Large Language Model Performance with Human Cognitive Walkthrough
ArXiv ID: 2512.03568 | Сгенерировано: 2026-01-10 00:14

Проблемы LLM

ПроблемаСутьКак обойти
Модель выбирает правильно и пропускает проблемыПросишь модель пройти процесс пошагово (например, купить курс на сайте). Она идёт по оптимальному пути. Выбирает правильные кнопки. Не спотыкается. Результат: проходит быстрее человека, но находит в 3 раза меньше мест где обычный пользователь застрянет. Модель "слишком умная" чтобы делать реальные ошибкиДобавь явную инструкцию: "отмечай что может быть непонятно обычному человеку" или "ищи где новичок может ошибиться". Без этого модель решает задачу вместо поиска проблем

Методы

МетодСуть
Двухагентный анализ процесса — находи проблемы через диалогСоздай две роли в одном чате: Ведущий (facilitator) задаёт вопросы и направляет. Исполнитель (evaluator) проходит процесс пошагово. На каждом шаге исполнитель: (1) перечисляет ВСЕ возможные действия, (2) оценивает каждое, (3) выбирает одно + объясняет почему, (4) отмечает что непонятно. Ведущий задаёт уточняющие вопросы. Почему работает: Диалог между действием и рефлексией. Требование "перечисли все варианты сначала" превращает модель из решателя задач в наблюдателя — она анализирует вместо импульсивного выбора. Ведущий добавляет внешнюю критику. Синтаксис: см. шаблон в саммари. Применяй: анализ интерфейсов, customer journey, многошаговых инструкций. Не работает: для одношаговых решений, без визуальных материалов или детального описания процесса

Тезисы

ТезисКомментарий
Последовательный анализ видит проблемы которые пропустит точечныйКогда модель проходит процесс от начала до конца (шаг 1 шаг 2 шаг 3), она видит проблемы в контексте пути пользователя. При изолированном анализе ("найди проблемы на этом скриншоте") модель видит что кнопка есть, но не понимает почему пользователь её пропустит — потому что не прошла весь путь до этого момента. Контекст накапливается. Применяй: Для поиска проблем юзабилити, анализа воронок, проверки инструкций — всегда проси модель пройти процесс последовательно, не анализируй отдельные элементы изолированно
📖 Простыми словами

Synthetic Cognitive Walkthrough: двухагентный анализ многошаговых процессов

arXiv: 2512.03568

Нейросети тупят, когда их просят оценить интерфейс или процесс целиком. Если ты скинешь ChatGPT скриншот и спросишь: «Ну как тебе?», она выдаст кучу общих слов, но пропустит реальные косяки. Проблема в том, что модель видит картинку, но не проживает опыт. Метод Synthetic Cognitive Walkthrough лечит это через разделение личности: мы заставляем две LLM играть в «злого следователя» и «подопытного кролика», чтобы вытащить наружу скрытые затыки, которые обычный аудит просто не заметит.

Это как если бы ты пытался проверить маршрут по навигатору, сидя на диване. Вроде всё понятно: тут повернуть, там прямо. Но стоит выехать на дорогу, как выясняется, что левый поворот запрещен, а нужный указатель спрятан за деревом. Двухагентная структура — это когда один агент (ведущий) постоянно спрашивает: «А что ты видишь сейчас? А почему ты решил нажать именно сюда?», а второй (исполнитель) вынужден пошагово обосновывать каждое действие, имитируя логику живого человека.

Вся магия держится на двух ролях: facilitator и evaluator. Первый не дает второму схалтурить и проскочить этапы, задавая неудобные вопросы на каждом шаге. Второй — имитирует пользователя с конкретным багажом знаний. Если в обычном промпте модель просто галлюцинирует идеальный сценарий, то здесь она спотыкается о контекст пути. Выясняется, что кнопка «Купить» может быть видна, но пользователь её проигнорирует, потому что на предыдущем шаге его сбила с толку странная надпись в корзине.

Метод обкатали на интерфейсах, но принцип универсален. Его можно натравить на воронку продаж, сценарий вебинара или даже на инструкцию по сборке шкафа. Везде, где есть последовательность действий, этот тандем найдет место, где человек скажет: «Да ну нафиг» и закроет вкладку. Симуляция когнитивного пути заменяет десятки часов живых тестов, потому что два агента в связке находят логические дыры гораздо быстрее и дешевле, чем толпа реальных тестировщиков.

Короче, хватит спрашивать у нейронки мнение — заставляй её проходить путь ногами. Одиночная модель всегда будет оптимисткой и скажет, что всё ок, а связка из двух агентов быстро объяснит, почему твой продукт — это лабиринт для мазохистов. Либо ты внедряешь такие проверки на этапе проектирования, либо потом гадаешь, почему конверсия упала в ноль, хотя «дизайн же красивый».

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с