TL;DR
LLM умеет превращать расплывчатый качественный фидбек в цифры — без единой явной оценки от пользователя. Главный приём: просить модель выдавать не просто «позитивно/негативно», а сразу четыре вещи одновременно — числовой балл, категорию, уровень уверенности и объяснение почему.
Главная находка: Старые инструменты анализа тональности (словарные и трансформерные) полностью провалились на неявном фидбеке — то есть на тексте, где эмоция не написана прямо («удобно», «понял сразу», «как-то громоздко»), а следует из контекста. LLM справляется именно там, где классика буксует: читает между строк. При этом маленькая дешёвая модель GPT-4o-mini показала результат, сопоставимый с большими, — и это важно для масштабируемого применения.
Метод работает в два шага: сначала структурируешь фидбек (слово + объяснение пользователя), потом просишь модель оценить каждую запись по четырём параметрам сразу. Числовой балл даёт возможность сравнивать и считать средние, категория — быстро сортировать, уверенность — понимать, где результат надёжен, объяснение — понимать почему.
Схема метода
ШАГ 1: Структурируй фидбек
Вход: сырой текст (отзыв, комментарий, ответ на вопрос)
Формат: [слово/фраза] + [объяснение пользователя]
Один блок = одна мысль пользователя
ШАГ 2: Запрос к LLM (один промпт)
→ Числовой балл тональности (0–1 или 1–10)
→ Категория (позитивно / нейтрально / негативно)
→ Уровень уверенности (высокий / средний / низкий)
→ Объяснение: почему такая оценка
ШАГ 3: Агрегация (опционально)
→ Считаешь среднее по баллам
→ Сортируешь по категориям
→ Отдельно смотришь строки с низкой уверенностью
Все четыре параметра — в одном запросе. Отдельных итераций не нужно.
Пример применения
Задача: У тебя есть 40 отзывов пользователей нового приложения Авито Работа — короткие ответы в духе «удобно, но перегружено», «нашла за день», «не понял как загрузить резюме». Нужно понять общую картину и срочно отчитаться перед командой.
Промпт:
Ты — аналитик UX-исследований. Оцени качественный фидбек пользователя по продукту.
Фидбек:
Слово: «перегруженный»
Комментарий пользователя: «Слишком много кнопок на главном экране,
не понял куда нажимать чтобы найти вакансии по своей специальности»
Дай оценку в формате:
1. Числовой балл тональности от 0 до 1 (0 = максимально негативно, 1 = максимально позитивно)
2. Категория: позитивно / нейтрально / негативно
3. Уровень уверенности в оценке: высокий / средний / низкий
4. Краткое объяснение (2-3 предложения): почему такая оценка, что именно говорит пользователь
Отвечай строго по структуре выше.
Результат: Модель выдаст структурированный блок: балл (~0.2), категорию (негативно), уверенность (высокая) и объяснение, из которого будет ясно что именно раздражает пользователя — не просто «плохо», а «навигация непонятна». Повторяй промпт для каждого фидбека → собираешь таблицу → считаешь средний балл → видишь паттерн.
Почему это работает
Слабость LLM в лоб: Если просто спросить «оцени отзыв», модель выдаёт расплывчатый текст — и каждый раз по-разному. Сравнивать и считать нечего.
Сила LLM: Модель умеет читать между строк. Слово «громоздкий» в контексте объяснения пользователя она интерпретирует точно — лучше, чем любой словарный метод, который просто ищет «хорошие» и «плохие» слова без контекста. На неявной тональности LLM выигрывает особенно сильно.
Как метод использует это: Структурированный вывод (числа + категория + уверенность + объяснение) убирает размытость. Модель не пишет сочинение — она заполняет чёткие поля. Добавление уровня уверенности особенно важно: строки с низкой уверенностью — это сигнал, что фидбек неоднозначен или противоречив, и его стоит разобрать вручную.
Рычаги управления: - Шкала балла → измени с 0–1 на 1–10, если нужна более тонкая градация - Число категорий → добавь «очень позитивно» и «очень негативно» для более детальной сортировки - Объяснение → попроси указать конкретный аспект (навигация / скорость / дизайн), чтобы сразу получить причину - Модель → GPT-4o-mini справляется так же хорошо, как большие модели — экономь на масштабе
Шаблон промпта
Ты — аналитик {сфера_анализа}. Оцени качественный фидбек по продукту/сервису.
Фидбек:
Слово/фраза: «{слово_или_фраза}»
Комментарий: «{объяснение_пользователя}»
Дай оценку строго по структуре:
1. Балл тональности: от 0 до 1 (0 = максимально негативно, 1 = максимально позитивно)
2. Категория: позитивно / нейтрально / негативно
3. Уверенность: высокая / средняя / низкая
4. Объяснение (2-3 предложения): что говорит пользователь и почему такая оценка
Отвечай только по этой структуре, без лишнего текста.
Плейсхолдеры:
- {сфера_анализа} → UX-исследований / клиентского сервиса / маркетинга
- {слово_или_фраза} → конкретное слово или короткая фраза из фидбека
- {объяснение_пользователя} → что пользователь написал в пояснении
🚀 Быстрый старт — вставь в чат:
Вот шаблон для анализа качественного фидбека с числовым баллом,
категорией и объяснением. Адаптируй под мою задачу: [опиши свою задачу].
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит что за продукт, как выглядит фидбек и нужна ли особая шкала — потому что ей нужно понять контекст, чтобы заполнить {сфера_анализа} и подобрать адекватные категории.
Ограничения
⚠️ Неоднозначный фидбек: Когда пользователь одновременно хвалит и критикует одно и то же («удобно, но слишком медленно»), модель вынуждена усреднять — итоговый балл получается нейтральным и не отражает сложность. Авторы признают это нерешённой проблемой.
⚠️ Нужна структура на входе: Метод работает лучше, когда фидбек уже разбит на «слово + объяснение». Для длинных неструктурированных отзывов сначала нужно попросить LLM выделить ключевые темы — потом оценивать каждую.
⚠️ Масштаб вручную утомляет: Для 5–10 отзывов промпт отлично работает в чате. Для 500+ — нужна автоматизация через API. Это уже не чат-история.
⚠️ Субъективная уверенность: Уровень уверенности, который выдаёт модель, — это её самооценка, а не объективная метрика. Воспринимай как сигнал «стоит перепроверить», а не как точную меру.
Как исследовали
Команда взяла два реальных набора данных: отзывы на CARMA (система управления нашествием саранчи — да, именно так) и ZORQ (геймификация в курсах информатики). Всего 106 групп откликов — каждая группа состояла из пяти слов и объяснений, которые пользователи дали этим словам.
Каждую запись предварительно размечали живые эксперты — это стало золотым стандартом. Затем LLM оценивали те же данные без какого-либо обучения (zero-shot) и сравнивали результат с экспертами. Параллельно прогоняли те же данные через VADER (словарный метод) и Twitter-RoBERTa (классический трансформер).
Результат оказался неожиданно контрастным: LLM показали корреляцию с экспертами до 0.97 и точность категоризации до 94%, а VADER и RoBERTa вообще не дали статистически значимых результатов — они буквально не справились с задачей. Это объясняется просто: старые инструменты ищут явные маркеры тональности в тексте, а здесь их нет — человек написал «перегруженный», и без контекста непонятно, хорошо это или плохо.
Самый ценный практический вывод для экономии бюджета: GPT-4o-mini дал результат, сопоставимый с GPT-4o, при стоимости на 94% ниже. А добавление объяснений и уровней уверенности в промпт не ухудшило точность — только сделало результаты нагляднее.
Адаптации и экстраполяции
1. Аспектная оценка — вместо одного балла несколько
Если фидбек касается нескольких сторон продукта, можно попросить отдельный балл по каждому аспекту:
🔧 Добавить измерения → получить аспектный анализ
Дай оценку по трём аспектам отдельно: — Дизайн: балл 0-1 + категория — Удобство использования: балл 0-1 + категория — Скорость работы: балл 0-1 + категория Уверенность и объяснение — общие для всего фидбека.Это полезно, когда пользователь смешивает несколько тем в одном ответе и нейтральный общий балл скрывает реальные проблемы.
2. Агрегирующий анализ — обработай пачку за раз
Если у тебя 10–15 коротких отзывов и ты хочешь получить общий портрет:
Вот 12 отзывов пользователей о [продукте]. Для каждого дай: балл (0-1), категорию, уверенность, 1 предложение-объяснение. В конце — общий вывод: средний балл, главные темы похвал и главные темы критики. [список отзывов]Модель обработает пачку и сразу выдаст мета-уровень — не нужно считать вручную.
Ресурсы
Название работы: Evaluating LLM Usage for Efficient and Explainable Numerical and Classified Implicit Sentiment Analysis of Product Desirability
Авторы: Sherri Weitl-Harms (Creighton University, Омаха), John Hastings (Dakota State University, Мэдисон)
Связанные инструменты: Microsoft Product Desirability Toolkit (PDT) — Benedek & Miner, 2002
