TL;DR
Structured Evaluation — техника оценки концепта через заранее определённый список аспектов. Исследователи применили это на игровых идеях: выделили 10 ключевых аспектов сильного концепта (геймплей, тема, цели, риски и т.д.), потом попросили LLM проверить — все ли аспекты учтены в идее.
Проблема: сырая идея — это обрывки мыслей без структуры. Когда пытаешься оценить её "в целом", получаешь либо поверхностный фидбек ("звучит интересно"), либо хаос советов без системы. LLM не знает, на что смотреть — поэтому блуждает.
Решение: дать LLM явный чеклист аспектов. Модель идёт по списку и проверяет каждый аспект: есть/нет, достаточно ли деталей, что можно добавить. Фидбек становится структурным и полным — ничего не пропадает, всё по полочкам.
Схема метода
ШАГ 1: Определи ключевые аспекты концепта
→ Список 5-10 аспектов, которые делают концепт полным
ШАГ 2: Попроси LLM оценить идею по этим аспектам
→ Для каждого аспекта: есть/нет, достаточно ли деталей, что добавить
ШАГ 3: Получи структурированный фидбек
→ Отчёт по каждому аспекту + общие рекомендации
Всё делается в одном промпте.
Пример применения
Задача: Оценить идею мобильного приложения для доставки готовой еды в Москве — конкурент Яндекс.Еды. У тебя есть начальная идея, но непонятно, что упущено.
Промпт:
Ты — эксперт по запуску digital-продуктов. Оцени эту идею мобильного приложения как основу для старта разработки.
Проверь, присутствуют ли следующие аспекты или их легко вывести из описания:
1. Целевая аудитория (кто будут пользователи)
2. Уникальное ценностное предложение (чем отличается от конкурентов)
3. Ключевые функции (что будет делать приложение)
4. Монетизация (как зарабатывать деньги)
5. Основные риски (что может пойти не так)
6. Конкурентные преимущества (почему выберут нас, а не Яндекс.Еду)
7. MVP scope (что нужно для первой версии)
8. User experience (как пользователь будет взаимодействовать)
9. Go-to-market план (как выйти на рынок)
10. Метрики успеха (как измерять, что работает)
Детали аспектов:
- **Целевая аудитория**: кто конкретно? Возраст, профессия, район города, привычки
- **УЦП**: одно предложение — почему пользователь выберет нас вместо Яндекс.Еды или Delivery Club
- **Ключевые функции**: 5-7 основных действий, которые делает пользователь в приложении
- **Монетизация**: как зарабатываем на каждом заказе, дополнительные потоки дохода
- **Риски**: что может убить проект (регуляции, конкуренты, логистика)
- **Конкурентные преимущества**: почему мы быстрее/дешевле/удобнее
- **MVP**: минимальный набор фич для запуска, что можно отложить
- **UX**: путь пользователя от открытия приложения до получения еды
- **Go-to-market**: первые 100/1000/10000 пользователей — откуда и как
- **Метрики**: какие цифры отслеживаем (retention, frequency, AOV)
Цель — проверить, учтены ли поля и аспекты, необходимые для старта разработки приложения. Добавь рекомендации в конце оценки и укажи 2-5 дополнительных деталей, которые сделают идею лучше подготовленной для старта разработки, помимо тех аспектов, которые не раскрыты в описании. Не учитывай финансовые или управленческие требования. Фокусируйся только на факторах, релевантных для ранних стадий разработки продукта. Избегай повторов и ограничь ответ 1000 словами.
Вот идея приложения:
[вставь своё описание идеи]
Результат:
Модель выдаст структурированный отчёт: по каждому аспекту — есть/нет в твоей идее, достаточно ли деталей, что добавить. В конце — общие рекомендации и конкретные недостающие детали, которые помогут довести концепт до готовности к старту разработки. Увидишь белые пятна — что ты упустил, а что уже на месте.
Почему это работает
LLM плохо оценивает "в целом". Когда спрашиваешь "хорошая ли идея?", модель даёт общие слова: "звучит интересно, но нужно больше деталей". Почему? У неё нет критериев оценки — она не знает, на что конкретно смотреть.
LLM отлично работает по чеклистам. Дай список конкретных аспектов — и модель пройдёт по каждому систематически. Это использует сильную сторону LLM: следование структуре и проверка наличия элементов. Модель не додумывает, что важно, а проверяет то, что ты указал.
Чеклист превращает хаос в систему. Вместо размытого фидбека получаешь карту пробелов: что есть, чего нет, что слабо раскрыто. Это работает, потому что ты направляешь внимание модели на конкретные точки, а не просишь придумать критерии с нуля.
Рычаги управления:
- Число аспектов (5-15) — больше аспектов = детальнее оценка, но длиннее ответ. Для быстрой проверки — 5-7 аспектов. Для глубокого анализа — 10-15.
- Детализация аспектов — добавь примеры или подвопросы для каждого аспекта, если нужен более конкретный фидбек.
- Формат вывода — попроси таблицу (аспект / есть-нет / рекомендации) для компактности или развёрнутый текст для глубины.
- Фокус на пробелы — добавь "сосредоточься на недостающих аспектах", если хочешь только критику, а не пересказ того, что уже есть.
Шаблон промпта
Ты — эксперт по {область}. Оцени эту {концепт} как основу для {цель}.
Проверь, присутствуют ли следующие аспекты или их легко вывести из описания:
1. {Аспект 1}
2. {Аспект 2}
3. {Аспект 3}
[... до 10-15 аспектов]
Детали аспектов:
- **{Аспект 1}**: {что конкретно проверять, примеры}
- **{Аспект 2}**: {что конкретно проверять, примеры}
[... для каждого аспекта]
Цель — проверить, учтены ли поля и аспекты, необходимые для {следующий этап}. Добавь рекомендации в конце оценки и укажи 2-5 дополнительных деталей, которые сделают {концепт} лучше подготовленным для {следующий этап}, помимо тех аспектов, которые не раскрыты в описании. Фокусируйся только на факторах, релевантных для ранних стадий {область}. Избегай повторов и ограничь ответ 1000 словами.
Вот {концепт}:
[текст концепта]
Как заполнить:
{область}— домен (геймдизайн, разработка приложений, контент-маркетинг, запуск курсов){концепт}— что оцениваешь (игровая идея, идея приложения, план контент-стратегии){цель}— для чего оценка (начало разработки, презентация инвесторам, запуск MVP){Аспект 1-N}— конкретные аспекты для твоей области (см. примеры ниже){следующий этап}— что будет после оценки (старт разработки, написание GDD, создание прототипа)
Примеры аспектов для разных областей:
- Геймдизайн: Player Experience, Gameplay, Theme, Unique Features, Goals/Challenges/Rewards, Story, Art Direction, Place, Purpose, Opportunities/Risks
- Приложения: Целевая аудитория, УЦП, Функции, Монетизация, Риски, Конкурентные преимущества, MVP, UX, Go-to-market, Метрики
- Контент-стратегия: Аудитория, Форматы, Каналы дистрибуции, Тональность, Контент-план, Метрики успеха, Уникальность, Ресурсы, Риски
- Онлайн-курс: Целевая аудитория, Learning outcomes, Программа, Формат подачи, Практика, Ценообразование, Продвижение, Конкуренты, Риски
Ограничения
⚠️ Garbage in, garbage out: Если аспекты выбраны неправильно — фидбек будет нерелевантным. Чеклист должен соответствовать стадии концепта и области применения.
⚠️ Поверхностность: LLM проверяет наличие аспектов, но не глубину их проработки. Если аспект упомянут поверхностно, модель может пропустить это.
⚠️ Не заменяет экспертизу: Техника помогает структурировать мышление, но не даёт профессиональных инсайтов. Оценка LLM — это чеклист, не консультация эксперта.
⚠️ Длина промпта: Детальное описание 10-15 аспектов может сделать промпт громоздким. Для простых задач лучше ограничиться 5-7 ключевыми аспектами.
Как исследовали
Исследователи взяли ChatGPT и сгенерировали 30 тестовых игровых идей разной степени проработки — от поверхностных до детальных. Это сделали, чтобы проверить, как модели реагируют на разный уровень входных данных. Потом три средние модели (LLaMA 3.1, Qwen 2.5, DeepSeek-R1) получили задание: оценить каждую идею по 10 аспектам и дать рекомендации.
Два исследователя вручную сравнили все 90 выходов (30 идей × 3 модели) по трём критериям: формат (соблюдает ли структуру), полнота (оценивает ли все аспекты), ясность (понятен ли фидбек). Удивительно: LLaMA 3.1 и Qwen 2.5 провалились — зациклились на повторах, не дошли до конца, часто игнорировали структуру. DeepSeek-R1 победила: 30 из 30 соблюла формат, 26 из 30 охватила все аспекты.
Потом лучшую модель (DeepSeek-R1) проверили на реальных людях — 10 студентов геймдизайна. Каждая команда загрузила свою игровую идею в прототип SPARC, получила фидбек, потом ответила на вопросы: насколько полезно, будешь ли использовать ещё. 80% сказали "да" — хотели бы использовать такой инструмент снова. Качество оценили выше среднего, но попросили больше глубины и возможность фокусироваться на отдельных аспектах, а не всех сразу.
Вывод: Принцип работает — LLM может давать структурированный фидбек по чеклисту. Но качество зависит от модели (многие зацикливаются) и от того, насколько детально прописаны аспекты. Главный инсайт для практики: чеклист превращает размытую оценку в систематическую. Люди это оценили, но хотят большей гибкости — оценивать не всё сразу, а по частям.
Адаптации и экстраполяции
💡 Адаптация для других доменов
Принцип structured evaluation универсален. Список из 10 аспектов для геймдизайна можно заменить на любой другой чеклист — главное, чтобы аспекты были конкретными и критичными для твоей области.
Пример 1: Оценка бизнес-идеи SaaS-продукта
Проверь, присутствуют ли следующие аспекты:
1. Проблема (какую конкретную боль решаем)
2. Решение (как решаем эту боль)
3. Целевая аудитория (кто будет платить)
4. Монетизация (модель продаж: подписка, freemium, transactional)
5. Конкуренты (кто уже на рынке, чем мы лучше)
6. Ключевые метрики (CAC, LTV, churn rate — как измерять успех)
7. MVP (минимальная версия для валидации гипотезы)
8. Go-to-market (первые 100 платящих клиентов — откуда)
9. Риски (что может убить проект)
10. Почему сейчас (timing — почему этот продукт нужен именно сейчас)
Вот идея: [твоя идея]
Пример 2: Оценка контент-стратегии для YouTube-канала
Проверь, присутствуют ли следующие аспекты:
1. Ниша (о чём канал, кто целевая аудитория)
2. Уникальность (чем отличается от других каналов в нише)
3. Формат видео (длина, стиль, структура)
4. Контент-план (темы первых 10-20 видео)
5. Частота публикаций (сколько раз в неделю/месяц)
6. Стиль и тональность (формальный/неформальный, юмор/серьёзно)
7. Визуальная айдентика (превью, цвета, шрифты)
8. Метрики успеха (CTR, retention, подписчики, просмотры)
9. Стратегия роста (как привлекать подписчиков: коллабы, SEO, соцсети)
10. Риски (выгорание, конкуренция, изменения алгоритма)
Вот стратегия: [твоя стратегия]
🔧 Техника: Фокус на пробелы → экономия токенов
Если концепт уже довольно проработан, модель может тратить токены на пересказ того, что уже есть. Добавь в промпт:
Сосредоточься на НЕДОСТАЮЩИХ аспектах. Для аспектов, которые уже раскрыты достаточно, просто отметь "✓ Раскрыто". Подробно разбирай только те аспекты, которые отсутствуют или раскрыты поверхностно.
Это даст больше полезного фидбека на тех же токенах.
