TL;DR
Synthetic Cognitive Walkthrough — метод где два LLM-агента работают в паре: facilitator (ведущий) задаёт вопросы и направляет, evaluator (исполнитель) проходит процесс пошагово с объяснениями. Оригинально разработан для оценки юзабилити интерфейсов, но принципы применимы для анализа любых многошаговых процессов.
Исследователи обнаружили парадокс: LLM проходят задачи эффективнее людей (100% завершения vs 88%), делают меньше шагов, выбирают оптимальные пути. Но при этом находят в 3 раза меньше потенциальных проблем — потому что идут "по правильному пути", не спотыкаясь как реальные пользователи. Люди чаще пробуют разные варианты (breadth-first поиск), делают ошибки из-за забывчивости — и именно так обнаруживают узкие места.
Ключевая находка: если явно попросить LLM искать проблемы по ходу выполнения (with-context), а не просто эффективно решать задачу — модель начинает видеть те же проблемы что и люди. Контекст процесса важнее изолированного анализа: LLM лучше находит проблемы когда идёт по шагам, чем когда смотрит на отдельные элементы.
Схема метода
Двухагентная структура (выполняется в одном чате через role-play или в двух чатах):
FACILITATOR (Ведущий):
→ Даёт задачу evaluator'у
→ Просит объяснить выбор на каждом шаге
→ Задаёт уточняющие вопросы если неясно
→ Замечает зацикливания и предлагает другой путь
EVALUATOR (Исполнитель):
→ Смотрит на текущее состояние
→ Перечисляет ВСЕ возможные действия
→ Оценивает вероятность успеха каждого
→ Выбирает действие + объясняет почему
→ Отмечает что кажется непонятным/неудобным
Ключевое улучшение из исследования: Без инструкции "перечисли все варианты сначала" — LLM делает случайный выбор. С инструкцией — выбор становится обоснованным и стабильным.
Пример применения
Задача: Ты запускаешь онлайн-курс на российской платформе (GetCourse, Chatium, своя). Нужно понять где студенты застрянут при первой покупке и входе в личный кабинет. Вместо реальных тестировщиков — симулируешь двух агентов, которые проходят путь "новичка".
Промпт:
# Роли
**FACILITATOR:** Ты ведущий сессии тестирования. Задаёшь вопросы, просишь объяснения, замечаешь если evaluator зациклился.
**EVALUATOR:** Ты новый пользователь, который впервые видит эту платформу. Не знаешь где что находится. Проходишь процесс пошагово и объясняешь свои действия.
---
# Задача для EVALUATOR
**Цель:** Купить курс "Продюсирование онлайн-курсов" за 15 000₽ и войти в личный кабинет.
**Инструкции:**
1. На каждом шаге: перечисли ВСЕ действия которые можешь сделать
2. Оцени каждое: насколько вероятно что оно приведёт к цели
3. Выбери одно действие + объясни почему
4. Отметь если что-то непонятно или сбивает с толку
---
# Старт
FACILITATOR: Вот скриншот главной страницы курса [вставить скриншот]. Что будешь делать?
EVALUATOR: [начинает анализ]
FACILITATOR: [задаёт уточняющие вопросы, отмечает проблемы]
Результат:
Получишь пошаговый trace с объяснениями на каждом этапе: какие элементы заметил evaluator, почему выбрал именно это действие, что показалось непонятным. Facilitator будет задавать вопросы "А почему не нажал сюда?" — так выявляются незаметные элементы и неочевидные формулировки. В конце — список всех мест где новичок может застрять, с конкретными причинами.
Почему это работает
Слабость LLM: При прямом вопросе "найди проблемы на этом скриншоте" модель анализирует изолированно, упускает контекст пути пользователя. Она видит что кнопка есть, но не понимает почему пользователь её не нажмёт — потому что не прошла весь путь до этого момента.
Сильная сторона LLM: Модель отлично симулирует роли и структурирует мышление. Когда просишь "перечисли все варианты → оцени каждый → выбери один" — модель делает систематический анализ вместо импульсивного выбора. Facilitator role добавляет внешнюю критику — второй взгляд на решения.
Как метод использует силу: Двухагентная структура создаёт диалог между действием и рефлексией. Evaluator проходит процесс, facilitator заставляет объяснять. Требование "перечисли все варианты сначала" превращает LLM из "делателя задач" в думающего наблюдателя — именно это нужно для поиска проблем.
Рычаги управления:
- Инструкция "перечисли все варианты" → убери если нужна скорость, не качество анализа. Но тогда выбор станет менее обоснованным.
- Роль evaluator → замени на конкретную персону ("студент 50 лет, впервые покупает онлайн-курс") для специфичных инсайтов.
- Частота вопросов facilitator → увеличь ("спрашивай на КАЖДОМ шаге") для глубокого анализа, уменьши для быстрого прохода.
- Fail-safe механизм → добавь facilitator'у: "если evaluator делает одно и то же 3 раза — предложи другой путь" для выхода из циклов.
Шаблон промпта
# ДВУХАГЕНТНЫЙ АНАЛИЗ ПРОЦЕССА
## Роли
**FACILITATOR (Ведущий):**
- Задаёшь вопросы и направляешь
- Просишь объяснить выбор на каждом шаге
- Замечаешь зацикливания и предлагаешь альтернативы
- Отмечаешь потенциальные проблемы
**EVALUATOR (Исполнитель):**
- Проходишь процесс пошагово
- Объясняешь своё мышление вслух
- Отмечаешь что кажется непонятным
---
## Задача для EVALUATOR
**Цель:** {описание конечной цели процесса}
**Контекст:** {кто этот человек, что знает/не знает}
**Инструкции:**
На каждом шаге:
1. Перечисли ВСЕ возможные действия
2. Оцени вероятность успеха каждого (высокая/средняя/низкая)
3. Выбери одно действие + объясни почему именно его
4. Отметь если что-то сбивает с толку или неочевидно
---
## Старт
FACILITATOR: Вот начальная точка: {описание текущего состояния / скриншот / ситуация}. Что будешь делать?
EVALUATOR: [начинает анализ по инструкциям]
Плейсхолдеры:
- {описание конечной цели процесса} — что нужно достичь: "купить и оплатить курс", "найти нужную функцию", "пройти онбординг"
- {кто этот человек, что знает/не знает} — персона: "новичок впервые на платформе", "опытный пользователь но в новом интерфейсе"
- {описание текущего состояния} — старт: скриншот, описание ситуации, список доступных опций
🚀 Быстрый старт — вставь в чат:
Вот шаблон двухагентного анализа. Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы чтобы заполнить роли и инструкции.
[вставить шаблон выше]
LLM спросит какой процесс анализируешь, кто целевой пользователь, какие документы/скриншоты есть — потому что для работы метода нужен конкретный контекст пути пользователя. Она возьмёт структуру facilitator/evaluator из шаблона и адаптирует под твою ситуацию.
Ограничения
⚠️ Требует визуальные материалы или детальное описание: Метод работает когда есть что анализировать — скриншоты интерфейса, описание процесса, customer journey map. Без этого evaluator будет додумывать вместо анализа реального процесса.
⚠️ LLM идёт по оптимальному пути: Без явной инструкции "ищи проблемы" модель выбирает правильные действия и пропускает места где реальный человек застрянет. Нужно специально просить замечать неочевидности.
⚠️ Не заменяет реальных пользователей: LLM не делает человеческих ошибок — забывчивости, невнимательности, неправильных ожиданий. Метод показывает логические проблемы интерфейса/процесса, но пропускает психологические.
Как исследовали
Команда из University of Washington хотела проверить: может ли LLM заменить людей в Cognitive Walkthrough — классическом методе оценки юзабилити, где тестировщики проходят интерфейс и думают вслух. Набрали 10 человек, дали им два мобильных приложения (языковое обучение и букинг путешествий) с 6 задачами в каждом. Параллельно прогнали те же задачи через GPT-4 (5 раз) и Gemini-2.5-pro (3 раза) с разработанным двухагентным промптом.
Измеряли три метрики CW: 1) сколько задач завершили, 2) насколько путь совпадает с оптимальным (через JS Divergence), 3) сколько нашли потенциальных точек отказа — мест где пользователь может застрять.
Результаты удивили: GPT-4 завершил 100% задач, Gemini 97.2%, люди только 88.2%. Модели шли оптимальными путями, делали меньше шагов. Но — люди нашли 10 проблемных мест, LLM в обычном режиме только 3. Почему? Люди "тупят" и ошибаются — именно так находят проблемы. Когда не уверены — пробуют разные кнопки (breadth-first search). Забывают инструкцию — возвращаются назад. LLM идут эффективно — и пропускают то, где споткнётся реальный пользователь.
Follow-up эксперимент: Добавили в промпт явную инструкцию "по ходу процесса отмечай что может сбить с толку пользователя". Проверили два подхода: with-context (LLM проходит весь процесс и ищет проблемы) vs without-context (даём отдельные скриншоты, просим найти проблемы). With-context сработал — LLM стал находить те же 10 проблемных мест что и люди. Without-context был нестабильным и менее точным.
Инсайт для практики: LLM не "думает как человек" автоматически — она думает как эффективный исполнитель. Но с правильным промптом она может симулировать мышление новичка. Ключ — вести её через процесс (with-context), а не показывать изолированные куски (without-context). Контекст пути важнее чем анализ отдельных элементов.
Адаптации и экстраполяции
🔧 Техника: Одноагентная версия для быстрого анализа
Если двухагентная структура кажется избыточной для простой задачи — можно свести к одному агенту с самопроверкой:
Ты новый пользователь проходишь процесс: {задача}.
На каждом шаге:
1. Перечисли все варианты действий
2. Оцени каждый (высокая/средняя/низкая вероятность успеха)
3. Выбери + объясни
4. Спроси сам себя: "Что здесь может сбить с толку новичка?"
Начальное состояние: {описание/скриншот}
Эффект: Быстрее, меньше токенов, но теряешь внешнюю критику facilitator'а. Подходит для простых процессов.
🔧 Техника: Трёхагентная версия для глубокого анализа
Добавь третьего агента — Observer (Наблюдатель) — который смотрит на диалог facilitator/evaluator и отмечает паттерны проблем:
OBSERVER: Ты смотришь на процесс со стороны. После каждых 3-5 шагов — подводи итог:
- Какие паттерны проблем видишь?
- Где процесс ломается систематически?
- Что можно улучшить в интерфейсе/процессе?
Эффект: Получаешь не только список проблем, но и метаанализ — какие типы проблем повторяются, где фундаментальные дыры в дизайне.
🔧 Техника: Breadth-first mode для поиска альтернатив
Исследование показало: люди часто используют breadth-first когда не уверены — пробуют разные варианты. Можно явно встроить это в промпт:
EVALUATOR: Когда оценка вероятности "средняя" или ниже у нескольких вариантов:
→ НЕ выбирай один сразу
→ Попроси facilitator показать результат КАЖДОГО варианта
→ Потом сравни что получилось и реши
Эффект: Больше exploration, медленнее и дороже в токенах, но находит нестандартные пути и проблемы которые не видны при оптимальной навигации.
Ресурсы
Synthetic Cognitive Walkthrough: Aligning Large Language Model Performance with Human Cognitive Walkthrough
Авторы: Ruican Zhong, David W. McDonald, Gary Hsieh — University of Washington, USA
CHI Conference on Human Factors in Computing Systems (CHI '26), April 13–17, 2026, Barcelona, Spain
