TL;DR
Исследователи проверили как ChatGPT, Gemini и DeepSeek справляются со сложной задачей: создать саммари психотерапевтических диалогов и оценить их по 6 измерениям (эмпатия, автономность, директивность, коллаборация, вызов мотивации, безоценочность) по шкале Ликерта 1-5. Ключевой вызов — semantic drift: когда модель генерирует текст, который постепенно отклоняется от исходного смысла и теряет важные нюансы контекста.
ChatGPT показал наименьшее отклонение от оценок экспертов — адекватно описательный, не теряет эмоциональную глубину. Gemini слишком краток, упрощает до потери смысла. DeepSeek теряет контекст на длинных промптах и галлюцинирует. Semantic drift особенно опасен для эмоционально насыщенного контента: модель может сгенерировать технически правильный текст, но потерять тон, намерения, отношения между людьми.
Борьба с drift: структурированная оценка по чётким измерениям + шкала Ликерта 1-5 (не бинарная "да/нет") + few-shot промптинг с примерами хороших и плохих саммари. Когда модель знает ПО КАКИМ параметрам её проверят, она генерирует аккуратнее и сохраняет нюансы.
Схема подхода
ШАГ 1: Определить измерения оценки
→ 6 конкретных аспектов: эмпатия, автономность, директивность, коллаборация, вызов мотивации, безоценочность
ШАГ 2: Задать шкалу Ликерта 1-5 для каждого измерения
→ 1 = практически отсутствует, 3 = умеренно, 5 = ключевой драйвер
ШАГ 3: Few-shot промптинг для генерации саммари
→ Показать 1-3 примера хороших саммари с явным указанием измерений
ШАГ 4: Оценить саммари по каждому измерению
→ Модель выставляет оценки 1-5 по каждому из 6 параметров
Все шаги выполняются в обычном чате. Few-shot требует отдельного запроса для генерации саммари, затем отдельного для оценки.
Пример применения
Задача: Анализируешь эфир подкаста "Что делать?" с предпринимателем. Нужно понять: хорошо ли ведущий раскрыл гостя, не задавил ли его своими вопросами, дал ли пространство для мысли, насколько эмпатичен был разговор.
Промпт:
Прочитай транскрипт эфира подкаста и создай саммари (300-400 слов), сохраняя:
1. Эмпатию — насколько ведущий понимает чувства гостя
2. Автономность — даёт ли гость свои ответы или его направляют
3. Директивность — насколько ведущий задаёт жёсткое направление
4. Коллаборацию — работают ли вместе или интервью односторонее
5. Вызов мотивации — вытягивает ли ведущий внутренние драйверы гостя
6. Безоценочность — критикует ли ведущий или даёт пространство
После саммари оцени эфир по каждому измерению по шкале 1-5:
- 1 = практически отсутствует
- 2 = слабо выражено
- 3 = умеренно
- 4 = сильно выражено
- 5 = ключевой элемент эфира
[Вставить транскрипт]
Результат: Модель создаст саммари, фокусируясь на заданных измерениях (не уйдёт в пересказ фактов или биографию гостя). Затем выставит оценки 1-5 по каждому из 6 параметров с кратким обоснованием. Ты увидишь не просто "хороший эфир", а конкретно: эмпатия 4/5, автономность 3/5, директивность 2/5 — профиль взаимодействия.
Почему это работает
LLM плохи в абстрактных оценках типа "качество текста". Что такое качество? Грамматика? Стиль? Глубина? Эмоциональность? Модель не знает, выберет что-то одно и проигнорирует остальное. Результат — semantic drift: текст оценён по случайным параметрам, которые могут не совпадать с твоими приоритетами.
LLM хороши в структурированных задачах с чёткими критериями. Когда ты задаёшь конкретные измерения (эмпатия, автономность, директивность), модель знает ЧТО искать в тексте. Она не блуждает, а сканирует под углом заданных параметров.
Шкала Ликерта 1-5 точнее бинарной "да/нет". Эмпатия редко абсолютна — чаще "присутствует умеренно" или "сильно выражена, но не доминирует". Пятибалльная шкала даёт модели гибкость и снижает радикальные оценки.
Few-shot промптинг обучает модель паттерну. Показав 1-3 примера хороших саммари с указанием измерений, ты калибруешь модель: вот как выглядит высокая эмпатия (5/5), вот как выглядит низкая (1/5). Модель начинает различать градации.
Рычаги управления: - Число измерений — 6 оптимально для сложного контента. Уменьши до 3-4 для простых задач (экономия токенов, фокус). - Описание шкалы — дай конкретные якоря: "5 = эмпатия — ключевой драйвер разговора, ведущий перефразирует чувства гостя". Чем конкретнее, тем точнее оценка. - Few-shot примеры — для сложных задач покажи 2-3 примера; для простых хватит one-shot или даже zero-shot с чёткими определениями.
Шаблон промпта
Прочитай {текст/транскрипт/диалог} и создай саммари ({число_слов} слов), сохраняя фокус на следующих измерениях:
1. {Измерение_1} — {описание, что это значит}
2. {Измерение_2} — {описание}
3. {Измерение_3} — {описание}
[добавь до 6 измерений при необходимости]
После саммари оцени {текст/транскрипт} по каждому измерению по шкале 1-5:
- 1 = практически отсутствует
- 2 = слабо выражено
- 3 = умеренно
- 4 = сильно выражено
- 5 = ключевой элемент
Для каждой оценки дай краткое (1-2 предложения) обоснование.
[Вставить контент для анализа]
Как заполнять:
- {текст/транскрипт/диалог} — тип контента (статья, разговор, презентация, переписка)
- {число_слов} — длина саммари (300-500 для сложного контента, 150-200 для простого)
- {Измерение_1}, {Измерение_2}... — конкретные аспекты, которые важны ДЛЯ ТВОЕЙ задачи (эмпатия, убедительность, структурированность, автономность и т.д.)
- {описание} — что именно ты понимаешь под этим измерением (например, "Эмпатия — насколько автор понимает чувства и позицию аудитории")
Адаптации
Для анализа текста клиента (продающее письмо, лендинг)
Измерения: Убедительность, эмпатия к боли клиента, ясность оффера, автономность решения (клиент выбирает сам или его толкают), директивность CTA.
Промпт:
Прочитай текст лендинга и оцени по 5 измерениям (шкала 1-5):
1. Убедительность — сила аргументов и доказательств
2. Эмпатия — понимание боли клиента
3. Ясность оффера — насколько понятно что предлагается
4. Автономность решения — клиент выбирает сам или его толкают
5. Директивность CTA — насколько жёстко призывают к действию
Дай оценку и краткое обоснование для каждого измерения.
[Вставить текст лендинга]
Для анализа встречи/созвона
Измерения: Структурированность, вовлечённость участников, коллаборация, фокус на результате, эмпатия к возражениям.
Промпт:
Прочитай запись созвона и оцени (шкала 1-5):
1. Структурированность — есть ли чёткая повестка и движение по ней
2. Вовлечённость участников — все говорят или один доминирует
3. Коллаборация — работают вместе или спорят позициями
4. Фокус на результате — обсуждают действия или абстракции
5. Эмпатия к возражениям — как реагируют на сомнения
[Вставить транскрипт]
Ограничения
⚠️ Субъективность измерений: Если измерение нечёткое (например, "качество аргументации" без конкретики), модель домыслит своё понимание — результат непредсказуем. Чем конкретнее описание измерения, тем точнее оценка.
⚠️ Отклонение от экспертов: Даже ChatGPT (лучший в исследовании) отклоняется от оценок людей-экспертов. Используй как первичный фильтр, критичные решения проверяй вручную.
⚠️ Gemini слишком краток: Для эмоционально насыщенного контента (тексты про людей, отношения, мотивацию) Gemini упрощает до потери смысла. ChatGPT надёжнее.
⚠️ DeepSeek теряет контекст на длинных промптах: Если контент больше 2000 слов, DeepSeek начинает галлюцинировать и терять нить. Разбивай на части или используй ChatGPT.
⚠️ Few-shot нужен для сложных задач: Zero-shot работает, если измерения очень конкретные и понятные. Для абстрактных оценок (эмпатия, коллаборация) покажи 1-2 примера, иначе модель интерпретирует по-своему.
Ресурсы
Mitigating Semantic Drift: Evaluating LLMs' Efficacy in Psychotherapy through MI Dialogue Summarization
Авторы: Vivek Kumar, Pushpraj Singh Rajawat, Eirini Ntoutsi
University of the Bundeswehr Munich, Barkatullah University
Датасет AnnoSUM-MI: https://github.com/vsrana-ai/AnnoSUM-MI
Фреймворк MITI (Motivational Interviewing Treatment Integrity): https://casaa.unm.edu/tools/miti.html
