arXiv:2509.18641 86 23 сент. 2025 г. FREE

Intent Expansion: как один запрос превратить в 10+ сценариев пользователя

КЛЮЧЕВАЯ СУТЬ

Тестируешь на 'среднем пользователе' — получаешь размытую картину. Запрос 'ипотека' = 10 разных целей: калькулятор, льготы, сравнение банков. Метод Intent Expansion позволяет оценить продукт по всему спектру намерений аудитории, не усредняя. Фишка: один запрос → LLM разворачивает в 10-15 конкретных намерений через таксономии (узнать/сравнить/найти/получить). Потом оценка каждого отдельно. Результат: видно где провал для подгруппы, где работает для всех.

Адаптировать под запрос

⚡

TL;DR

Один поисковый запрос скрывает 5-10 разных целей. Человек ищет "ипотека" — кто-то хочет калькулятор, кто-то читает про льготы, кто-то сравнивает банки. Поисковики это знают, но как оценить — справляется ли система со ВСЕМИ намерениями? Обычно тестируют на одном "среднем" сценарии. Получается: система работает для кого-то одного, остальные не находят что искали.

BloomIntents решает проблему через expansion: один запрос → 10-15 конкретных намерений → оценка отдельно по каждому. LLM генерирует полный спектр возможных целей пользователя (на основе таксономий поведения), потом оценивает контент относительно КАЖДОГО намерения. Результат группируется в кластеры — видно где провал, где сильно.

Принцип применим шире поиска: любой контент/продукт можно проверить через призму множественных jobs-to-be-done. Один лендинг → 8 типов посетителей → оценка конверсии каждого. Один курс → 6 мотиваций студента → насколько закрывает каждую. Expansion вместо усреднения.

🔬

Схема метода

ШАГ 1: Expansion
Один запрос/контекст → LLM генерирует 10-15 конкретных намерений
(используя таксономии: информационный, транзакционный, навигационный и т.д.)

ШАГ 2: Evaluation 
Для каждого намерения отдельно → оценка контента по релевантности
(LLM проверяет: насколько контент решает ЭТУ конкретную цель)

ШАГ 3: Clustering
Семантически похожие намерения группируются → паттерны удовлетворённости
(видно: где сильно для всех, где провал для подгруппы)

Все шаги выполняются через промпты — код не нужен.

🚀

Пример применения

Задача: Ты запускаешь онлайн-курс по таргетированной рекламе для малого бизнеса. Нужно понять — для каких конкретно целей студентов твой курс сработает, а где будет провал.

Промпт:

Контекст: Онлайн-курс "Таргет для малого бизнеса: от 0 до первых продаж"
- 8 недель, теория + практика
- Фокус: VK Реклама и Яндекс.Директ
- Для владельцев локального бизнеса без опыта в digital

ШАГ 1 - EXPANSION:
Сгенерируй 12 конкретных намерений потенциальных студентов. 
Используй эти категории:
- Learn (освоить навык): что конкретно хотят научиться делать
- Compare (сравнить варианты): какой выбор пытаются сделать 
- Navigate (найти решение): какую конкретную проблему решают
- Transact (получить результат): какой конечный outcome ожидают

Формат: "Студент хочет [конкретное действие/результат]"

ШАГ 2 - EVALUATION:
Для каждого намерения оцени по шкале 1-5:
- Насколько программа курса закрывает это намерение?
- Приведи 1-2 конкретных аргумента (что есть ИЛИ чего не хватает)

ШАГ 3 - CLUSTERING: 
Сгруппируй намерения по паттернам удовлетворённости:
- "Сильно закрывает" (4-5 баллов)
- "Частично закрывает" (2-3 балла)
- "Не закрывает" (1 балл)

Покажи для каждой группы — какие типы студентов туда попали и почему.

Результат:

Модель выдаст структурированный анализ: список из 12 намерений (например: "научиться настраивать кампании без помощи подрядчика", "понять стоит ли вкладываться в рекламу или лучше SMM", "получить первые 10 заявок за месяц"), оценку курса по каждому намерению с аргументами, группировку с инсайтами — например, курс силён для "технически научиться", но слаб для "выбрать между таргетом и SEO" (нет сравнения каналов).

🧠

Почему это работает

LLM плохо оценивает "в среднем". Попроси оценить продукт — получишь размытое "хорошо подходит для начинающих". Не ясно для КАКИХ начинающих, с КАКИМИ целями. Модель усредняет, теряется специфика.

LLM отлично работает с конкретными сценариями. Дай роль конкретного пользователя с конкретной целью — оценка станет точной. "Студент хочет научиться настраивать кампании без подрядчика" → модель проверяет есть ли пошаговые инструкции, примеры настроек, чек-листы. Конкретная цель = конкретные критерии.

Expansion использует сильную сторону LLM — генерацию вариантов. Вместо одной усреднённой оценки, модель создаёт веер сценариев. Таксономии (Learn/Compare/Navigate/Transact) дают структуру — LLM не выдумывает хаотично, а систематически покрывает типы целей.

Рычаги управления:

Число намерений (5-20) → меньше для быстрого анализа, больше для глубокого аудита
Таксономии → замени стандартные категории на свои (для курсов: "карьерный рост", "побочный доход", "смена профессии")
Критерии оценки → добавь свои метрики (не только "закрывает цель", но и "сколько времени займёт", "нужны ли доп.ресурсы")
Группировка → измени логику кластеров (по типу пользователя, по уровню сложности, по каналу прихода)

📋

Шаблон промпта

Контекст: {описание продукта/контента/сервиса}

ШАГ 1 - EXPANSION:
Сгенерируй {число} конкретных намерений {целевой аудитории}.
Используй категории: {список таксономий/типов целей}
Формат: "{роль} хочет {конкретное действие/результат}"

ШАГ 2 - EVALUATION:
Для каждого намерения оцени по шкале 1-5:
- {критерий оценки 1}
- {критерий оценки 2}
Приведи 1-2 конкретных аргумента.

ШАГ 3 - CLUSTERING:
Сгруппируй намерения по {признак группировки}.
Покажи для каждой группы — {что показать в итоге}.

Подставь:

{описание} — твой продукт/контент со спецификой (ЧТО, ДЛЯ КОГО, КАКОЙ РЕЗУЛЬТАТ)
{число} — от 8 (быстрый анализ) до 20 (глубокий аудит)
{целевой аудитории} — кто твои пользователи (студенты курса, посетители лендинга, клиенты сервиса)
{таксономии} — типы целей (Learn/Compare/Navigate/Transact ИЛИ свои категории)
{критерий оценки} — что проверяем (релевантность, полнота, доступность, time-to-value)
{признак группировки} — по чему группируем (уровень удовлетворённости, тип пользователя, сложность задачи)

⚠️

Ограничения

⚠️ Генерация намерений зависит от контекста: Если описание продукта размытое ("курс по маркетингу"), LLM выдаст общие намерения. Дай специфику — программа, аудитория, обещанный результат.

⚠️ Оценка субъективна без данных: LLM оценивает по описанию, не по реальному поведению пользователей. Используй как hypothesis generation, проверяй гипотезы на реальных метриках.

⚠️ Кластеризация может быть грубой: Семантическая группировка в промпте не заменит специальные алгоритмы. Для точных кластеров нужны embeddings + алгоритм кластеризации (уже за пределами чата).

🔍

Как исследовали

Команда из KAIST и NAVER взяла реальные поисковые запросы и показала: один запрос скрывает до 10+ разных намерений пользователей. Создали систему BloomIntents, которая автоматически генерирует эти намерения через LLM (используя таксономии поискового поведения), затем оценивает поисковую выдачу относительно каждого намерения отдельно.

Сравнили с экспертами-оценщиками (специалисты по поисковым системам). Результат удивил: LLM достигла 72% согласованности с экспертами — выше чем у традиционных метрик типа NDCG, которые усредняют оценку. Почему так? Традиционные метрики предполагают "один правильный ответ", а expansion-подход честно признаёт: для разных намерений нужны разные результаты.

В кейс-стади (4 специалиста по поиску) показали: метод помогает находить underserved намерения — цели пользователей, которые текущая выдача не закрывает. Это actionable insight для улучшения системы: не просто "плохая релевантность", а "для пользователей типа X нужно добавить Y".

Главный инсайт для практики: оценка "в среднем" скрывает проблемы. Expansion раскрывает где система сильна, где проваливается — и для КОГО конкретно.

💡

Адаптации и экстраполяции

💡 Адаптация для контент-маркетинга:

Вместо оценки поисковой выдачи — оцени свой контент-план:

Контекст: Блог B2B SaaS компании по автоматизации склада

ШАГ 1: Сгенерируй 15 намерений, с которыми директора по логистике приходят на наш блог.
Категории: 
- Узнать решение проблемы (Learn)
- Сравнить подходы (Compare) 
- Найти кейс/пример (Navigate)
- Принять решение о покупке (Transact)

ШАГ 2: Оцени наш контент-план за Q1 (10 статей, темы: {...}) 
по каждому намерению 1-5:
- Есть ли контент под это намерение?
- Насколько глубоко закрывает потребность?

ШАГ 3: Сгруппируй намерения:
- Хорошо покрыты контентом (4-5)
- Частично покрыты (2-3)
- Пробел в контенте (0-1)

Для пробелов предложи 3 идеи статей.

Результат: видишь где пробелы в контент-стратегии по типам аудитории, получаешь готовые идеи для статей.

🔧 Техника: добавь веса → приоритизация намерений

Не все намерения одинаково важны. Добавь в ШАГ 1:

ШАГ 1 - EXPANSION + WEIGHTING:
Сгенерируй 12 намерений {аудитории}.
Для каждого намерения оцени:
- Частота: сколько % пользователей имеют это намерение (1-5)
- Impact: насколько критично закрыть это намерение для конверсии (1-5)

Посчитай Priority Score = Частота × Impact

В ШАГ 3 сортируй кластеры по суммарному Priority Score — фокусируйся на high-impact пробелах первыми.

💡 Адаптация для UX-аудита:

Проверь интерфейс на покрытие Jobs-to-be-Done:

Контекст: Мобильное приложение Авито (раздел "Недвижимость")

ШАГ 1: Сгенерируй 10 Jobs-to-be-Done пользователя, который ищет квартиру:
- Функциональные jobs (быстро найти подходящий вариант, сравнить цены)
- Эмоциональные jobs (почувствовать что выбрал правильно, избежать обмана) 
- Социальные jobs (показать семье/партнёру варианты)

ШАГ 2: Оцени текущий интерфейс 1-5 по каждому job:
- Есть ли функции для этого job?
- Насколько удобно/очевидно их использовать?

ШАГ 3: Найди UX-пробелы (jobs с оценкой 1-2).
Для каждого пробела предложи фичу/улучшение интерфейса.

🔧 Техника: expansion в несколько раундов → глубина анализа

Сначала широко, потом детально:

РАУНД 1 - MACRO EXPANSION:
Сгенерируй 5 крупных категорий намерений для {аудитория + контекст}

РАУНД 2 - MICRO EXPANSION: 
Для каждой категории из Раунда 1 → сгенерируй 3-5 конкретных намерений
(Итого: 15-25 детальных намерений)

РАУНД 3 - EVALUATION:
Оцени {продукт/контент} по каждому micro-намерению

Используй когда нужна исчерпывающая карта намерений (например, для редизайна продукта).

🔗

Ресурсы

BloomIntent: Automating Search Evaluation with LLM-Generated Fine-Grained User Intents

Yoonseok Choi, Eunhye Kim, Donghyun Park, Hyunwoo Kim, Hongchan Lee, Jin Young Kim, Juho Kim

KAIST (Korea Advanced Institute of Science and Technology), Seoul National University, NAVER Corporation

UIST '25, Busan, Republic of Korea

📋 Дайджест исследования

Ключевая суть

Принцип работы

Не оценивай 'в среднем' — разверни в конкретные сценарии. LLM плохо работает с размытыми задачами ('оцени курс для начинающих'). Но отлично с конкретными ('подходит ли студенту, который хочет настраивать таргет без подрядчика?'). Expansion использует сильную сторону LLM: сначала генерация вариантов, потом оценка каждого отдельно.

Почему работает

LLM усредняет оценки. Попроси оценить курс — получишь 'хорошо для начинающих'. Не ясно для КАКИХ начинающих, с КАКИМИ целями. Конкретный сценарий = конкретные критерии. 'Студент хочет настраивать таргет без подрядчика' → модель проверит: есть ли пошаговые инструкции? примеры настроек? чек-листы? Expansion превращает размытую оценку в систематический аудит по типам целей.

Когда применять

Тестирование продуктов/контента → когда аудитория разнородна по целям, особенно если описание звучит однородно ('для начинающих'), но реальные цели разные. Лендинг для 'новичков в маркетинге' скрывает 5 типов: карьерный рост, побочный доход, смена профессии, фриланс, свой бизнес. НЕ подходит: если пользователи действительно однородны по целям (узкий B2B-сегмент, одна конкретная боль).

Мини-рецепт

1. Разворот целей: Опиши продукт (что, для кого, результат). Попроси LLM сгенерировать 10-15 намерений через категории: Learn/Compare/Navigate/Transact. Формат ответа: 'Пользователь хочет [конкретное действие]'.

2. Оценка каждого: Для каждого намерения — оценка 1-5 по критерию 'насколько продукт закрывает эту цель?'. Обязательно попроси аргументы: что есть в продукте, чего не хватает.

3. Группировка: Раздели намерения по уровню удовлетворённости (сильно/частично/провал). Результат: видно для каких пользователей продукт работает, для каких нет и почему.

Примеры

[ПЛОХО] :

Оцени насколько мой курс по таргету подходит для начинающих предпринимателей

(Получишь размытое: 'Курс хорошо структурирован для новичков, покрывает основы')

[ХОРОШО] :

Контекст: Курс 'Таргет для малого бизнеса' — 8 недель, VK + Яндекс.Директ, для владельцев локального бизнеса без опыта.

ШАГ 1: Сгенерируй 12 конкретных намерений студентов через категории Learn/Compare/Navigate/Transact. Формат: 'Студент хочет [действие]'

ШАГ 2: Для каждого намерения оцени 1-5 — насколько курс закрывает цель? Дай аргументы.

ШАГ 3: Сгруппируй по удовлетворённости (сильно/частично/провал). Покажи какие типы студентов в каждой группе

(Результат: 12 конкретных сценариев, например 'научиться настраивать без подрядчика' — 5/5, 'выбрать между таргетом и SEO' — 2/5 (нет сравнения каналов). Ясно где провал)

Источник: BloomIntent: Automating Search Evaluation with LLM-Generated Fine-Grained User Intents

ArXiv ID: 2509.18641 | Сгенерировано: 2026-01-12 01:16

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

Выберите модель ИИ:

Ваш запрос:

0 / 2000

~0.5-2 N-токенов ~10-30с

~0.3-1 N-токенов ~5-15с

Меню