3,583 papers
arXiv:2511.22818 73 28 нояб. 2025 г. FREE

Структурированная оценка по шкале Ликерта: как избежать "semantic drift" при анализе сложного контента

КЛЮЧЕВАЯ СУТЬ
Просишь LLM 'оцени качество текста' — получаешь случайный анализ. Модель не знает что искать: грамматику? Стиль? Глубину? Выбирает что-то одно, остальное игнорирует. Результат — semantic drift: оценка по случайным параметрам, не совпадающим с твоими приоритетами. Метод структурированной оценки позволяет контролировать на ЧТО модель обращает внимание и снижает отклонение от смысла. Задай 4-6 конкретных измерений (эмпатия, структура, убедительность) + шкала Ликерта 1-5 для каждого + few-shot примеры — модель перестаёт блуждать и сканирует текст под углом заданных параметров.
Адаптировать под запрос

TL;DR

Исследователи проверили как ChatGPT, Gemini и DeepSeek справляются со сложной задачей: создать саммари психотерапевтических диалогов и оценить их по 6 измерениям (эмпатия, автономность, директивность, коллаборация, вызов мотивации, безоценочность) по шкале Ликерта 1-5. Ключевой вызов — semantic drift: когда модель генерирует текст, который постепенно отклоняется от исходного смысла и теряет важные нюансы контекста.

ChatGPT показал наименьшее отклонение от оценок экспертов — адекватно описательный, не теряет эмоциональную глубину. Gemini слишком краток, упрощает до потери смысла. DeepSeek теряет контекст на длинных промптах и галлюцинирует. Semantic drift особенно опасен для эмоционально насыщенного контента: модель может сгенерировать технически правильный текст, но потерять тон, намерения, отношения между людьми.

Борьба с drift: структурированная оценка по чётким измерениям + шкала Ликерта 1-5 (не бинарная "да/нет") + few-shot промптинг с примерами хороших и плохих саммари. Когда модель знает ПО КАКИМ параметрам её проверят, она генерирует аккуратнее и сохраняет нюансы.


📌

Схема подхода

ШАГ 1: Определить измерения оценки
→ 6 конкретных аспектов: эмпатия, автономность, директивность, коллаборация, вызов мотивации, безоценочность

ШАГ 2: Задать шкалу Ликерта 1-5 для каждого измерения
→ 1 = практически отсутствует, 3 = умеренно, 5 = ключевой драйвер

ШАГ 3: Few-shot промптинг для генерации саммари
→ Показать 1-3 примера хороших саммари с явным указанием измерений

ШАГ 4: Оценить саммари по каждому измерению
→ Модель выставляет оценки 1-5 по каждому из 6 параметров

Все шаги выполняются в обычном чате. Few-shot требует отдельного запроса для генерации саммари, затем отдельного для оценки.


🚀

Пример применения

Задача: Анализируешь эфир подкаста "Что делать?" с предпринимателем. Нужно понять: хорошо ли ведущий раскрыл гостя, не задавил ли его своими вопросами, дал ли пространство для мысли, насколько эмпатичен был разговор.

Промпт:

Прочитай транскрипт эфира подкаста и создай саммари (300-400 слов), сохраняя:
1. Эмпатию — насколько ведущий понимает чувства гостя
2. Автономность — даёт ли гость свои ответы или его направляют
3. Директивность — насколько ведущий задаёт жёсткое направление
4. Коллаборацию — работают ли вместе или интервью односторонее
5. Вызов мотивации — вытягивает ли ведущий внутренние драйверы гостя
6. Безоценочность — критикует ли ведущий или даёт пространство

После саммари оцени эфир по каждому измерению по шкале 1-5:
- 1 = практически отсутствует
- 2 = слабо выражено
- 3 = умеренно
- 4 = сильно выражено
- 5 = ключевой элемент эфира

[Вставить транскрипт]

Результат: Модель создаст саммари, фокусируясь на заданных измерениях (не уйдёт в пересказ фактов или биографию гостя). Затем выставит оценки 1-5 по каждому из 6 параметров с кратким обоснованием. Ты увидишь не просто "хороший эфир", а конкретно: эмпатия 4/5, автономность 3/5, директивность 2/5 — профиль взаимодействия.


🧠

Почему это работает

LLM плохи в абстрактных оценках типа "качество текста". Что такое качество? Грамматика? Стиль? Глубина? Эмоциональность? Модель не знает, выберет что-то одно и проигнорирует остальное. Результат — semantic drift: текст оценён по случайным параметрам, которые могут не совпадать с твоими приоритетами.

LLM хороши в структурированных задачах с чёткими критериями. Когда ты задаёшь конкретные измерения (эмпатия, автономность, директивность), модель знает ЧТО искать в тексте. Она не блуждает, а сканирует под углом заданных параметров.

Шкала Ликерта 1-5 точнее бинарной "да/нет". Эмпатия редко абсолютна — чаще "присутствует умеренно" или "сильно выражена, но не доминирует". Пятибалльная шкала даёт модели гибкость и снижает радикальные оценки.

Few-shot промптинг обучает модель паттерну. Показав 1-3 примера хороших саммари с указанием измерений, ты калибруешь модель: вот как выглядит высокая эмпатия (5/5), вот как выглядит низкая (1/5). Модель начинает различать градации.

Рычаги управления: - Число измерений — 6 оптимально для сложного контента. Уменьши до 3-4 для простых задач (экономия токенов, фокус). - Описание шкалы — дай конкретные якоря: "5 = эмпатия — ключевой драйвер разговора, ведущий перефразирует чувства гостя". Чем конкретнее, тем точнее оценка. - Few-shot примеры — для сложных задач покажи 2-3 примера; для простых хватит one-shot или даже zero-shot с чёткими определениями.


📋

Шаблон промпта

Прочитай {текст/транскрипт/диалог} и создай саммари ({число_слов} слов), сохраняя фокус на следующих измерениях:

1. {Измерение_1} — {описание, что это значит}
2. {Измерение_2} — {описание}
3. {Измерение_3} — {описание}
[добавь до 6 измерений при необходимости]

После саммари оцени {текст/транскрипт} по каждому измерению по шкале 1-5:
- 1 = практически отсутствует
- 2 = слабо выражено
- 3 = умеренно
- 4 = сильно выражено
- 5 = ключевой элемент

Для каждой оценки дай краткое (1-2 предложения) обоснование.

[Вставить контент для анализа]

Как заполнять: - {текст/транскрипт/диалог} — тип контента (статья, разговор, презентация, переписка) - {число_слов} — длина саммари (300-500 для сложного контента, 150-200 для простого) - {Измерение_1}, {Измерение_2}... — конкретные аспекты, которые важны ДЛЯ ТВОЕЙ задачи (эмпатия, убедительность, структурированность, автономность и т.д.) - {описание} — что именно ты понимаешь под этим измерением (например, "Эмпатия — насколько автор понимает чувства и позицию аудитории")


📌

Адаптации

📌

Для анализа текста клиента (продающее письмо, лендинг)

Измерения: Убедительность, эмпатия к боли клиента, ясность оффера, автономность решения (клиент выбирает сам или его толкают), директивность CTA.

Промпт:

Прочитай текст лендинга и оцени по 5 измерениям (шкала 1-5):
1. Убедительность — сила аргументов и доказательств
2. Эмпатия — понимание боли клиента
3. Ясность оффера — насколько понятно что предлагается
4. Автономность решения — клиент выбирает сам или его толкают
5. Директивность CTA — насколько жёстко призывают к действию

Дай оценку и краткое обоснование для каждого измерения.

[Вставить текст лендинга]
📌

Для анализа встречи/созвона

Измерения: Структурированность, вовлечённость участников, коллаборация, фокус на результате, эмпатия к возражениям.

Промпт:

Прочитай запись созвона и оцени (шкала 1-5):
1. Структурированность — есть ли чёткая повестка и движение по ней
2. Вовлечённость участников — все говорят или один доминирует
3. Коллаборация — работают вместе или спорят позициями
4. Фокус на результате — обсуждают действия или абстракции
5. Эмпатия к возражениям — как реагируют на сомнения

[Вставить транскрипт]

⚠️

Ограничения

⚠️ Субъективность измерений: Если измерение нечёткое (например, "качество аргументации" без конкретики), модель домыслит своё понимание — результат непредсказуем. Чем конкретнее описание измерения, тем точнее оценка.

⚠️ Отклонение от экспертов: Даже ChatGPT (лучший в исследовании) отклоняется от оценок людей-экспертов. Используй как первичный фильтр, критичные решения проверяй вручную.

⚠️ Gemini слишком краток: Для эмоционально насыщенного контента (тексты про людей, отношения, мотивацию) Gemini упрощает до потери смысла. ChatGPT надёжнее.

⚠️ DeepSeek теряет контекст на длинных промптах: Если контент больше 2000 слов, DeepSeek начинает галлюцинировать и терять нить. Разбивай на части или используй ChatGPT.

⚠️ Few-shot нужен для сложных задач: Zero-shot работает, если измерения очень конкретные и понятные. Для абстрактных оценок (эмпатия, коллаборация) покажи 1-2 примера, иначе модель интерпретирует по-своему.


🔗

Ресурсы

Mitigating Semantic Drift: Evaluating LLMs' Efficacy in Psychotherapy through MI Dialogue Summarization

Авторы: Vivek Kumar, Pushpraj Singh Rajawat, Eirini Ntoutsi

University of the Bundeswehr Munich, Barkatullah University

Датасет AnnoSUM-MI: https://github.com/vsrana-ai/AnnoSUM-MI

Фреймворк MITI (Motivational Interviewing Treatment Integrity): https://casaa.unm.edu/tools/miti.html


📋 Дайджест исследования

Ключевая суть

Просишь LLM 'оцени качество текста' — получаешь случайный анализ. Модель не знает что искать: грамматику? Стиль? Глубину? Выбирает что-то одно, остальное игнорирует. Результат — semantic drift: оценка по случайным параметрам, не совпадающим с твоими приоритетами. Метод структурированной оценки позволяет контролировать на ЧТО модель обращает внимание и снижает отклонение от смысла. Задай 4-6 конкретных измерений (эмпатия, структура, убедительность) + шкала Ликерта 1-5 для каждого + few-shot примеры — модель перестаёт блуждать и сканирует текст под углом заданных параметров.

Принцип работы

LLM плохи в абстрактных оценках, но хороши в структурированных задачах с чёткими критериями. Когда задаёшь конкретные измерения, модель знает ЧТО искать. Не 'оцени качество' (размыто), а 'оцени по 5 параметрам: эмпатия 1-5, структура 1-5, убедительность 1-5' — модель сканирует под углом заданных параметров вместо случайного выбора.

Почему работает

Чёткие измерения дают модели фокус — она не блуждает по тексту, а ищет конкретные паттерны. Шкала Ликерта 1-5 точнее бинарной да/нет — эмпатия редко абсолютна, чаще 'присутствует умеренно' (3/5) или 'сильно выражена' (5/5). Few-shot промптинг калибрует модель через примеры: вот высокая эмпатия (5/5), вот низкая (1/5) — модель начинает различать градации. ChatGPT показал наименьшее отклонение от оценок экспертов для эмоционально насыщенного контента, Gemini слишком упрощает, DeepSeek теряет контекст на длинных текстах.

Когда применять

Анализ сложного контента → конкретно для текстов с эмоциональной глубиной или субъективными параметрами (подкасты, тексты клиентов, записи встреч, презентации), особенно когда стандартная оценка 'хорошо/плохо' не даёт понимания ЧТО именно работает или нет. НЕ подходит для простых задач с бинарными ответами (есть ошибка/нет ошибки, факт верен/неверен) — там структурированная оценка избыточна.

Мини-рецепт

1. Определи измерения: Выбери 4-6 конкретных аспектов для оценки. Для подкаста: эмпатия, автономность, коллаборация, вызов мотивации. Для текста клиента: убедительность, эмпатия к боли, ясность оффера.

2. Задай шкалу Ликерта: Для каждого измерения пропиши шкалу 1-5 с якорями: 1 = практически отсутствует, 3 = умеренно выражено, 5 = ключевой элемент.

3. Добавь few-shot примеры (для сложных задач): Покажи 1-2 примера хороших оценок с обоснованием. Пример: Эмпатия 5/5 — ведущий перефразирует чувства гостя, даёт пространство для эмоций.

4. Вставь контент и запроси оценку: Оцени текст по следующим измерениям (шкала 1-5): [список измерений]. Дай оценку и краткое обоснование для каждого.

Примеры

[ПЛОХО] : Оцени качество эфира подкаста — хорошо ли ведущий раскрыл гостя?
[ХОРОШО] : Оцени эфир по 5 измерениям (шкала 1-5): 1) Эмпатия — насколько ведущий понимает чувства гостя, 2) Автономность — даёт ли гость свои ответы или его направляют, 3) Директивность — насколько жёстко задаёт направление, 4) Коллаборация — работают вместе или интервью одностороннее, 5) Вызов мотивации — вытягивает ли внутренние драйверы. Дай оценку 1-5 для каждого с кратким обоснованием.
Источник: Mitigating Semantic Drift: Evaluating LLMs' Efficacy in Psychotherapy through MI Dialogue Summarization
ArXiv ID: 2511.22818 | Сгенерировано: 2026-01-12 19:04

Концепты не выделены.

📖 Простыми словами

Суть тут в том, что психотерапия — это не просто обмен репликами, а тонкая игра смыслов, где важна не только информация, но и эмпатия. Проблема в том, что данных для обучения AI в этой сфере катастрофически мало: нанимать экспертов-психологов для разметки диалогов — это адски дорого и медленно. Исследователи решили проверить, можно ли спихнуть эту нудную работу на нейронки. Фундаментально LLM пытаются имитировать экспертную оценку по 6 параметрам (типа эмпатии и автономии), но их главная беда — семантический дрейф. Это когда модель делает резюме диалога, но по пути «вымывает» из него все живые эмоции, превращая глубокую сессию в сухой протокол.

Это как если бы ты попросил друга пересказать тебе очень эмоциональную ссору с девушкой, а он ответил: "Ну, вы обменялись мнениями о быте и разошлись по комнатам". Формально он прав, но суть потеряна полностью. В психотерапии такая потеря контекста — это полный провал, потому что без нюансов голоса и сопереживания невозможно понять, был терапевт эмпатичным или просто роботом, зачитывающим скрипт.

Что в итоге реально работает: ChatGPT с one-shot промптингом. Даешь ему один четкий пример того, как выглядит крутое резюме с разбором эмпатии, и он выдает результат с погрешностью всего в ±1 балл из 5. А вот Gemini и DeepSeek лажают: они либо сокращают всё до состояния огрызка, либо впадают в крайности, ставя или «единицы», или «пятерки». Чтобы метод взлетел, нужно использовать конкретные параметры: вызов мотивации, сотрудничество, автономия, направленность, эмпатия и безоценочность. Если в промпте нет этих якорей, нейронка начнет нести отсебятину.

Тестировали всё это на мотивационном интервьюировании, но принцип универсален. Эту же схему можно натянуть на любые сложные переговоры, продажи или клиентский сервис — везде, где важно не просто «что сказали», а «как это повлияло на человека». LLM — это не замена эксперта, а его скоростной подмастерье. Она может накидать черновую разметку для тысяч диалогов, но человек обязан пройтись сверху и поправить там, где машина «не догнала» эмоцию.

Короче: не пытайся полностью автоматизировать оценку психотерапии — получишь бесполезный цифровой шум. Используй ChatGPT для первичной сортировки, обязательно пихай в промпт один эталонный пример и не жди чудес от моделей, которые любят краткость. 6 параметров и экспертный контроль — единственный способ не превратить данные в херню. Кто научится так масштабировать экспертизу, тот и выживет в мире, где данных всегда не хватает.

Сгенерировано: 21.12.2025 17:00 | ArXiv Data Collector

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с