3,583 papers
arXiv:2606.23701 70 4 июня 2026 г. FREE

Структурированная оценка качественной обратной связи: числовой балл + категория + уверенность + объяснение

КЛЮЧЕВАЯ СУТЬ
Классические инструменты анализа тональности — словарные и трансформерные — полностью провалились на неявном фидбеке: там где эмоция не написана прямо, а следует из контекста. Метод позволяет превращать размытый качественный фидбек в числа, категории и объяснения — без единой явной оценки от пользователей. Ключ: один запрос выдаёт сразу четыре параметра — числовой балл, категорию, уверенность и объяснение. Не «напиши мнение», а заполни поля. Модель перестаёт сочинять текст и начинает структурировать — результат можно сравнивать, считать средние и сортировать.
Адаптировать под запрос

TL;DR

LLM умеет превращать расплывчатый качественный фидбек в цифры — без единой явной оценки от пользователя. Главный приём: просить модель выдавать не просто «позитивно/негативно», а сразу четыре вещи одновременно — числовой балл, категорию, уровень уверенности и объяснение почему.

Главная находка: Старые инструменты анализа тональности (словарные и трансформерные) полностью провалились на неявном фидбеке — то есть на тексте, где эмоция не написана прямо («удобно», «понял сразу», «как-то громоздко»), а следует из контекста. LLM справляется именно там, где классика буксует: читает между строк. При этом маленькая дешёвая модель GPT-4o-mini показала результат, сопоставимый с большими, — и это важно для масштабируемого применения.

Метод работает в два шага: сначала структурируешь фидбек (слово + объяснение пользователя), потом просишь модель оценить каждую запись по четырём параметрам сразу. Числовой балл даёт возможность сравнивать и считать средние, категория — быстро сортировать, уверенность — понимать, где результат надёжен, объяснение — понимать почему.


🔬

Схема метода

ШАГ 1: Структурируй фидбек
  Вход: сырой текст (отзыв, комментарий, ответ на вопрос)
  Формат: [слово/фраза] + [объяснение пользователя]
  Один блок = одна мысль пользователя

ШАГ 2: Запрос к LLM (один промпт)
  → Числовой балл тональности (0–1 или 1–10)
  → Категория (позитивно / нейтрально / негативно)
  → Уровень уверенности (высокий / средний / низкий)
  → Объяснение: почему такая оценка

ШАГ 3: Агрегация (опционально)
  → Считаешь среднее по баллам
  → Сортируешь по категориям
  → Отдельно смотришь строки с низкой уверенностью

Все четыре параметра — в одном запросе. Отдельных итераций не нужно.


🚀

Пример применения

Задача: У тебя есть 40 отзывов пользователей нового приложения Авито Работа — короткие ответы в духе «удобно, но перегружено», «нашла за день», «не понял как загрузить резюме». Нужно понять общую картину и срочно отчитаться перед командой.

Промпт:

Ты — аналитик UX-исследований. Оцени качественный фидбек пользователя по продукту.

Фидбек:
Слово: «перегруженный»
Комментарий пользователя: «Слишком много кнопок на главном экране, 
не понял куда нажимать чтобы найти вакансии по своей специальности»

Дай оценку в формате:
1. Числовой балл тональности от 0 до 1 (0 = максимально негативно, 1 = максимально позитивно)
2. Категория: позитивно / нейтрально / негативно
3. Уровень уверенности в оценке: высокий / средний / низкий
4. Краткое объяснение (2-3 предложения): почему такая оценка, что именно говорит пользователь

Отвечай строго по структуре выше.

Результат: Модель выдаст структурированный блок: балл (~0.2), категорию (негативно), уверенность (высокая) и объяснение, из которого будет ясно что именно раздражает пользователя — не просто «плохо», а «навигация непонятна». Повторяй промпт для каждого фидбека → собираешь таблицу → считаешь средний балл → видишь паттерн.


🧠

Почему это работает

Слабость LLM в лоб: Если просто спросить «оцени отзыв», модель выдаёт расплывчатый текст — и каждый раз по-разному. Сравнивать и считать нечего.

Сила LLM: Модель умеет читать между строк. Слово «громоздкий» в контексте объяснения пользователя она интерпретирует точно — лучше, чем любой словарный метод, который просто ищет «хорошие» и «плохие» слова без контекста. На неявной тональности LLM выигрывает особенно сильно.

Как метод использует это: Структурированный вывод (числа + категория + уверенность + объяснение) убирает размытость. Модель не пишет сочинение — она заполняет чёткие поля. Добавление уровня уверенности особенно важно: строки с низкой уверенностью — это сигнал, что фидбек неоднозначен или противоречив, и его стоит разобрать вручную.

Рычаги управления: - Шкала балла → измени с 0–1 на 1–10, если нужна более тонкая градация - Число категорий → добавь «очень позитивно» и «очень негативно» для более детальной сортировки - Объяснение → попроси указать конкретный аспект (навигация / скорость / дизайн), чтобы сразу получить причину - Модель → GPT-4o-mini справляется так же хорошо, как большие модели — экономь на масштабе


📋

Шаблон промпта

Ты — аналитик {сфера_анализа}. Оцени качественный фидбек по продукту/сервису.

Фидбек:
Слово/фраза: «{слово_или_фраза}»
Комментарий: «{объяснение_пользователя}»

Дай оценку строго по структуре:
1. Балл тональности: от 0 до 1 (0 = максимально негативно, 1 = максимально позитивно)
2. Категория: позитивно / нейтрально / негативно
3. Уверенность: высокая / средняя / низкая
4. Объяснение (2-3 предложения): что говорит пользователь и почему такая оценка

Отвечай только по этой структуре, без лишнего текста.

Плейсхолдеры: - {сфера_анализа} → UX-исследований / клиентского сервиса / маркетинга - {слово_или_фраза} → конкретное слово или короткая фраза из фидбека - {объяснение_пользователя} → что пользователь написал в пояснении


🚀 Быстрый старт — вставь в чат:

Вот шаблон для анализа качественного фидбека с числовым баллом, 
категорией и объяснением. Адаптируй под мою задачу: [опиши свою задачу].
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит что за продукт, как выглядит фидбек и нужна ли особая шкала — потому что ей нужно понять контекст, чтобы заполнить {сфера_анализа} и подобрать адекватные категории.


⚠️

Ограничения

⚠️ Неоднозначный фидбек: Когда пользователь одновременно хвалит и критикует одно и то же («удобно, но слишком медленно»), модель вынуждена усреднять — итоговый балл получается нейтральным и не отражает сложность. Авторы признают это нерешённой проблемой.

⚠️ Нужна структура на входе: Метод работает лучше, когда фидбек уже разбит на «слово + объяснение». Для длинных неструктурированных отзывов сначала нужно попросить LLM выделить ключевые темы — потом оценивать каждую.

⚠️ Масштаб вручную утомляет: Для 5–10 отзывов промпт отлично работает в чате. Для 500+ — нужна автоматизация через API. Это уже не чат-история.

⚠️ Субъективная уверенность: Уровень уверенности, который выдаёт модель, — это её самооценка, а не объективная метрика. Воспринимай как сигнал «стоит перепроверить», а не как точную меру.


🔍

Как исследовали

Команда взяла два реальных набора данных: отзывы на CARMA (система управления нашествием саранчи — да, именно так) и ZORQ (геймификация в курсах информатики). Всего 106 групп откликов — каждая группа состояла из пяти слов и объяснений, которые пользователи дали этим словам.

Каждую запись предварительно размечали живые эксперты — это стало золотым стандартом. Затем LLM оценивали те же данные без какого-либо обучения (zero-shot) и сравнивали результат с экспертами. Параллельно прогоняли те же данные через VADER (словарный метод) и Twitter-RoBERTa (классический трансформер).

Результат оказался неожиданно контрастным: LLM показали корреляцию с экспертами до 0.97 и точность категоризации до 94%, а VADER и RoBERTa вообще не дали статистически значимых результатов — они буквально не справились с задачей. Это объясняется просто: старые инструменты ищут явные маркеры тональности в тексте, а здесь их нет — человек написал «перегруженный», и без контекста непонятно, хорошо это или плохо.

Самый ценный практический вывод для экономии бюджета: GPT-4o-mini дал результат, сопоставимый с GPT-4o, при стоимости на 94% ниже. А добавление объяснений и уровней уверенности в промпт не ухудшило точность — только сделало результаты нагляднее.


💡

Адаптации и экстраполяции

1. Аспектная оценка — вместо одного балла несколько

Если фидбек касается нескольких сторон продукта, можно попросить отдельный балл по каждому аспекту:

🔧 Добавить измерения → получить аспектный анализ

Дай оценку по трём аспектам отдельно:
— Дизайн: балл 0-1 + категория
— Удобство использования: балл 0-1 + категория  
— Скорость работы: балл 0-1 + категория
Уверенность и объяснение — общие для всего фидбека.

Это полезно, когда пользователь смешивает несколько тем в одном ответе и нейтральный общий балл скрывает реальные проблемы.

2. Агрегирующий анализ — обработай пачку за раз

Если у тебя 10–15 коротких отзывов и ты хочешь получить общий портрет:

Вот 12 отзывов пользователей о [продукте]. 
Для каждого дай: балл (0-1), категорию, уверенность, 1 предложение-объяснение.
В конце — общий вывод: средний балл, главные темы похвал и главные темы критики.

[список отзывов]

Модель обработает пачку и сразу выдаст мета-уровень — не нужно считать вручную.


🔗

Ресурсы

Название работы: Evaluating LLM Usage for Efficient and Explainable Numerical and Classified Implicit Sentiment Analysis of Product Desirability

Авторы: Sherri Weitl-Harms (Creighton University, Омаха), John Hastings (Dakota State University, Мэдисон)

Связанные инструменты: Microsoft Product Desirability Toolkit (PDT) — Benedek & Miner, 2002


📋 Дайджест исследования

Ключевая суть

Классические инструменты анализа тональности — словарные и трансформерные — полностью провалились на неявном фидбеке: там где эмоция не написана прямо, а следует из контекста. Метод позволяет превращать размытый качественный фидбек в числа, категории и объяснения — без единой явной оценки от пользователей. Ключ: один запрос выдаёт сразу четыре параметра — числовой балл, категорию, уверенность и объяснение. Не «напиши мнение», а заполни поля. Модель перестаёт сочинять текст и начинает структурировать — результат можно сравнивать, считать средние и сортировать.

Принцип работы

Логика простая: структурируй фидбек (слово или фраза + объяснение пользователя) → один промпт с четырьмя полями → получаешь сравнимые данные. Это как разница между опросом «расскажи о продукте» и анкетой с чёткими пунктами. Свободный рассказ у всех разный — анкеты можно считать. Уровень уверенности — самый недооценённый параметр метода. Строки с низкой уверенностью — сигнал что фидбек неоднозначен, противоречив или слишком краток. Именно их стоит разобрать вручную, а не тащить в среднее.

Почему работает

Классика ищет слова-маркеры. LLM читает контекст. Фраза «понял с первого раза» — ни одного «плохого» слова нет, но понятно что это хорошо. Словарный метод поставит нейтрально. LLM поставит позитивно. Неявный фидбек — это ровно та зона, где LLM обходит все предшествующие подходы. При этом GPT-4o-mini справляется так же хорошо, как крупные модели — то есть масштабировать на 500+ отзывов можно дёшево.

Когда применять

UX-исследования → анализ качественных ответов из интервью и опросов, особенно когда нужны сравнимые цифры поперёк большого массива фидбека. Продуктовая аналитика → отзывы на функции и интерфейс, где пользователи пишут косвенно — «как-то громоздко», «не понял куда нажимать». Разбор открытых вопросов после NPS → превратить «почему поставил 6» в числа и категории. НЕ подходит для: длинных неструктурированных отзывов без разбивки на темы (сначала попроси LLM выделить ключевые блоки — потом оценивай каждый); смешанного фидбека типа «удобно, но медленно» — модель усреднит в нейтральное и потеряет суть.

Мини-рецепт

1. Разбей фидбек на блоки: одна мысль пользователя = одна запись. Формат: слово или фраза + что именно сказал пользователь в пояснении.

2. Задай роль и структуру ответа: Ты — аналитик UX-исследований. Оцени фидбек по продукту. Слово: «{слово}». Комментарий: «{пояснение}». Ответ строго по структуре: 1) Балл от 0 до 1. 2) Категория: позитивно / нейтрально / негативно. 3) Уверенность: высокая / средняя / низкая. 4) Объяснение (2-3 предложения).

3. Отсортируй по уверенности: строки с низкой уверенностью отложи отдельно — это неоднозначные случаи, их не усредняй, читай вручную.

4. Считай агрегаты: средний балл по всем записям — общая картина; средний балл по категории или по теме — где конкретно проседает продукт.

Примеры

[ПЛОХО] : Оцени этот отзыв пользователя: "Удобно, но как-то всё громоздко, не сразу понял куда идти" (Модель выдаст свободный текст — у каждого отзыва разный формат, сравнивать нечего)
[ХОРОШО] : Ты — аналитик UX-исследований. Оцени качественный фидбек по продукту. Слово: «громоздкий» Комментарий пользователя: «Слишком много кнопок на главном экране, не понял куда нажимать чтобы найти нужное» Дай оценку строго по структуре: 1. Балл тональности от 0 до 1 (0 = максимально негативно, 1 = максимально позитивно) 2. Категория: позитивно / нейтрально / негативно 3. Уверенность: высокая / средняя / низкая 4. Объяснение (2-3 предложения): что говорит пользователь и почему такая оценка Отвечай только по этой структуре, без лишнего текста. (Получишь: балл ~0.15, категория — негативно, уверенность — высокая, объяснение с конкретной причиной. Повторяй для каждого блока — собираешь таблицу, считаешь средние)
Источник: Evaluating LLM Usage for Efficient and Explainable Numerical and Classified Implicit Sentiment Analysis of Product Desirability
ArXiv ID: 2606.23701 | Сгенерировано: 2026-06-28 21:15

Проблемы LLM

ПроблемаСутьКак обойти
Без структуры на выходе оценки модели нельзя сравнитьПросишь модель оценить отзыв. Получаешь разные тексты: один раз — абзац, другой — список, третий — одно слово. Ни числа, ни категории. Два ответа не сравнить. Среднее не посчитать. Работает как разовый инсайт — не работает как инструмент на масштабеЗадай жёсткую структуру выхода: поля обязательны, формат зафиксирован. Модель заполняет поля, а не пишет сочинение. Подробности — в методе ниже

Методы

МетодСуть
Четыре поля в одном запросе — сравнимая оценка фидбекаВместо «оцени отзыв» задай четыре конкретных поля: 1) число от 0 до 1 (или 0–10) — тональность, 2) категория — позитивно / нейтрально / негативно, 3) уверенность — высокая / средняя / низкая, 4) объяснение — почему такая оценка. Всё в одном запросе. Шаблон: Дай оценку строго по структуре: 1. Балл (0–1). 2. Категория. 3. Уверенность. 4. Объяснение (2–3 предложения). Без лишнего текста. Почему работает: Число — можно агрегировать. Категория — сортировать. Уверенность — флажок для ручной проверки. Объяснение — понять почему, не только что. Когда применять: Серия одинаковых оценок, нужна сводка, сравнение. Когда не работает: Один отзыв, не нужна статистика — тогда хватит объяснения

Тезисы

ТезисКомментарий
Низкая уверенность модели — сигнал для ручной проверкиКогда просишь модель оценить и указать уверенность, поле «низкая уверенность» не случайно. Это знак: фидбек противоречив («удобно, но медленно»), или неоднозначен, или модель не хватает контекста. Числовой балл в таких строках ненадёжен. Применяй: После серии оценок сначала смотришь строки с низкой уверенностью — разбираешь вручную. Высокая уверенность — доверяешь числу
📖 Простыми словами

EvaluatingLLMUsage for Efficient and Explainable Numerical and Classified Implicit Sentiment Analysis of Product Desirability

arXiv: 2606.23701

Нейросети научились вытаскивать из человеческого нытья и восторгов сухие цифры, даже если пользователь не поставил ни одной звездочки. Суть метода Implicit Sentiment Analysis в том, что LLM работает как опытный психолог: она считывает подтекст и превращает «ну, вроде норм» в конкретный балл по шкале от 1 до 10. Главная фишка здесь не в простом гадании, а в структурированном выводе, когда модель заставляют одновременно выдавать оценку, категорию и, что самое важное, объяснение своего решения.

Это как если бы ты попросил друга оценить новый бар, а он вместо «прикольно» выдал бы тебе таблицу с баллами за звук, свет и пиво, приложив чек и объяснив, почему за грязный стакан он снял ровно два пункта. Формально ты просто спросил мнение, но на выходе получил готовую аналитику, которую можно засунуть в Excel. Без этого LLM часто несет чепуху, но когда её загоняют в рамки четырехфакторного ответа, она перестает галлюцинировать и начинает работать как калькулятор смыслов.

В исследовании использовали метод многозадачного промптинга, где модель просят выдать числовой балл, классификацию, уровень уверенности и логическое обоснование. Оказалось, что когда нейронка вынуждена объяснять «почему я поставила 7 из 10», она сама себя проверяет и реже лажает в итоговой цифре. Это решает главную проблему — непредсказуемость ответов, превращая хаотичный текст в структурированные данные, которые можно сравнивать между собой.

Метод тестировали на отзывах о товарах, но принцип универсален: его можно натравить на фидбек по приложению, расшифровки звонков в поддержку или даже на комментарии в соцсетях. Вместо того чтобы нанимать армию модераторов для разметки данных, ты просто скармливаешь массив текста модели, и она делает автоматический скоринг с точностью, которая раньше была доступна только человеку. Ручная разметка умирает, потому что LLM теперь не просто читает, а понимает контекст и переводит его в метрики.

Короче: хватит использовать нейронки просто для пересказа текстов — заставляй их оцифровывать эмоции через объяснимый анализ. Если модель выдает просто цифру, это черный ящик, которому нельзя верить. Но если она раскладывает оценку на компоненты, ты получаешь прозрачный инструмент для бизнеса, который видит реальную ценность продукта там, где раньше был просто белый шум из слов. Кто научится выжимать из отзывов цифры, тот первым поймет, где у него реальный облом, а где — скрытый успех.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с