TL;DR
LLM Predictive Scoring — техника, при которой языковая модель читает свободный текст (отзыв, обратную связь, комментарий) и предсказывает числовую оценку по шкале 0–10, которую человек поставил бы сам. Никаких звёзд, никаких шкал в тексте — только слова, и модель выдаёт цифру. При этом она стабильна: запусти один и тот же текст три раза — в 87% случаев получишь одинаковый ответ.
Главный инсайт исследования: люди пишут одно, а оценивают другое. Человек ставит 10 баллов и тут же объясняет: "очередь 40 минут, парковка — грабёж, еле увидел матч". Это не противоречие. Оценка — это вердикт: итоговое ощущение от всего дня, включая то, о чём человек вообще не написал. Текст — это засветившееся: что было самым ярким, обидным, неожиданным. Два разных когнитивных процесса, два разных результата с одного и того же опыта.
Расхождение между AI-оценкой и самооценкой — не ошибка, а сигнал. AI-оценка ниже → человек пережил что-то конкретно неприятное, но в целом доволен. AI-оценка совпадает → текст и ощущение указывают в одну сторону. AI-оценка выше → человек, возможно, занижает рейтинг под давлением конкретного инцидента, хотя текст его окружения положителен.
Схема метода
Всё выполняется в одном запросе к модели:
ВХОД: свободный текст (отзыв, ответ на открытый вопрос, комментарий)
ШАГ 1: Модель читает текст → предсказывает оценку 0–10 (целое число)
ШАГ 2: Модель оценивает ясность текста → Высокая / Средняя уверенность
ШАГ 3: Модель выделяет ключевое свидетельство → ≤ 15 слов
ВЫХОД: оценка + уровень уверенности + объяснение
Шаги 2 и 3 — не украшение. Уровень уверенности — главный фильтр качества. При высокой уверенности точность предсказания резко растёт, при средней — падает почти вдвое.
Пример применения
Задача: Ты — основатель небольшого онлайн-курса на Getcourse. После каждого модуля студенты заполняют форму: ставят оценку и пишут комментарий. Оценок — тысячи, читать всё невозможно. Хочешь понять: какие занятия вызывают реальные проблемы, а где просто "написали жалобу, но в целом довольны"?
Промпт:
Прочитай отзыв студента об онлайн-курсе.
Сделай три вещи:
1. Предскажи оценку, которую студент поставил бы по шкале 0–10 (целое число).
Используй ТОЛЬКО информацию из текста.
2. Укажи уверенность в оценке:
— Высокая: текст однозначен, явные эмоции или прямые оценки
— Средняя: текст смешанный, противоречивый или слишком короткий
3. В 15 словах или меньше — главное свидетельство из текста, на котором основана оценка.
Отзыв студента:
«Материал интересный, но объяснение теории слишком быстрое — не успеваю записывать.
Практические задания — огонь, сразу понятно как применять. Куратор отвечает медленно,
ждала ответа три дня. В целом продолжу обучение.»
Ответь строго в формате:
Оценка: [число]
Уверенность: [Высокая / Средняя]
Свидетельство: [не более 15 слов]
Результат:
Модель выдаст оценку (вероятно, 6–7 при самооценке студента около 8), уровень уверенности "Средняя" (текст смешанный: + практика, − скорость и куратор), и короткую выжимку главной проблемы. Теперь у тебя есть два числа: AI-прогноз и реальная оценка студента. Разрыв между ними указывает на отзывы "доволен, но с болью" — именно туда стоит смотреть в первую очередь при улучшении курса.
Почему это работает
LLM замечает то, что "торчит". Когда человек пишет текст, он описывает самое яркое, обидное, неожиданное — то, что оставило след. Припарковался за 2000 рублей? Напишет. Сел на хорошее место? Молчок — это норма. Модель читает слова и строит оценку из того, что видит. Поэтому AI-оценка — это индекс заметных событий, а не итоговый вердикт.
Самооценка работает иначе. Когда человека просят поставить балл, он не суммирует инциденты. Он использует общее ощущение — "хороший день был или нет" — как прямой ответ. Психолог Норберт Шварц назвал это "настроение как информация": люди заглядывают в своё текущее состояние, а не пересчитывают плюсы и минусы. Рутинные хорошие вещи в этот расчёт почти не попадают — они не оставляют следа.
Уровень уверенности — это метрика ясности текста, а не самооценка модели. Высокая уверенность означает: текст однозначен, один вектор. Средняя — в тексте конфликтуют сигналы. Именно поэтому уровень уверенности так предсказывает точность: не потому что модель "знает больше", а потому что ясный текст = предсказуемая оценка.
Рычаги управления промптом: - Шкала — замени 0–10 на любую другую (например, 1–5 для продуктов или NPS 0–10) - Критерии уверенности — уточни что считать "однозначным": прямые цитаты оценок, конкретные эмоции, цифры - Свидетельство — убери лимит 15 слов, если хочешь видеть развёрнутое объяснение - Домен — замени "отзыв студента" на "отзыв клиента", "обратная связь сотрудника", "комментарий в соцсетях"
Шаблон промпта
Прочитай {тип текста}: {текст}
Сделай три вещи:
1. Предскажи {что оцениваем} по шкале {диапазон} (целое число).
Используй ТОЛЬКО информацию из текста. Никаких внешних знаний.
2. Укажи уверенность:
— Высокая: текст однозначен, прямые оценки или явные эмоции
— Средняя: смешанные или противоречивые сигналы, короткий или нейтральный текст
3. В {число} словах или меньше — главное текстовое свидетельство для оценки.
Формат ответа:
Оценка: [число]
Уверенность: [Высокая / Средняя]
Свидетельство: [текст]
Что подставлять:
- {тип текста} — отзыв клиента / ответ сотрудника / комментарий пользователя / письмо
- {что оцениваем} — удовлетворённость / качество сервиса / лояльность / настроение
- {диапазон} — 0–10 / 1–5 / 1–100
- {число} — 10–20 (больше = полезнее для понимания, меньше = удобнее для скрининга)
🚀 Быстрый старт — вставь в чат:
Вот шаблон для числовой оценки текстов. Адаптируй под мою задачу: [твоя задача].
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит какой тип текстов ты анализируешь, что именно оцениваешь и какая шкала нужна — потому что от этого зависит инструкция и критерии уверенности. Она возьмёт структуру из шаблона и адаптирует под твой контекст.
Ограничения
⚠️ Систематическое занижение: Модель предсказывает примерно на 1 балл ниже самооценки. Это не баг конкретного промпта — это свойство метода (модель читает проблемы, люди оценивают вечер в целом). Если нужно сравнивать AI-оценки с реальными — учитывай поправку.
⚠️ Средний диапазон — самый сложный: Оценки 7–8 предсказываются хуже всего (ошибка почти 2 балла). Именно здесь живут "доволен, но жалуется" — люди, чей текст идёт вразрез с ощущением. Высокая и низкая зоны (9–10 и 0–2) — точнее.
⚠️ Средняя уверенность = другой инструмент: При средней уверенности точность падает с 82% до 47% в пределах ±1. Такие ответы лучше использовать не как число, а как сигнал "здесь смешанный опыт, стоит прочитать вручную".
⚠️ Текст ≠ оценка структурно: Нельзя "откалибровать" модель так, чтобы она точно воспроизводила самооценку — она измеряет другое. Это не ошибка, которую надо исправить, а разные конструкты, которые надо использовать вместе.
Как исследовали
Команда взяла ~10 000 реальных анкет болельщиков пяти клубов MLB (бейсбол, США, сезон 2025). После игры фанаты заполняли форму: сначала ставили оценку 0–10 за весь день, потом объясняли в свободной форме почему. Это дизайн-находка: человек сначала цифру, потом текст. Никакого временного разрыва, одни и те же события. И всё равно текст регулярно расходился с цифрой.
GPT-4.1 получал только текстовый ответ — без оценок, без информации о команде, о счёте матча, о погоде. Специального промпт-инжиниринга не было — намеренно, чтобы зафиксировать базовый уровень простейшего подхода. Один и тот же массив прогнали три раза независимо. Результаты почти не изменились: 87% — точное совпадение между запусками, 99.9% — расхождение не больше 1 балла. Это уровень, который в традиционной разметке между людьми-аналитиками считается исключительным.
Самый неожиданный вывод: расхождение было предсказуемым по паттерну, а не случайным. Модель не "ошибалась" хаотично — она стабильно читала одно, фанаты стабильно оценивали другое. Это и подтолкнуло авторов к концепции двух конструктов.
Адаптации и экстраполяции
1. Разрыв как фильтр приоритетов
🔧 Техника: сравни AI-оценку с самооценкой → найди "скрытые пожары"
Попроси LLM дать оценку текстов → сравни с реальными звёздами/баллами. Большой разрыв вниз (AI 5, поставил 9) = человек доволен, но написал о конкретной проблеме → это операционный сигнал. Большой разрыв вверх (AI 8, поставил 4) = человек недоволен, но написал спокойно → возможно, хроническая усталость, а не острый инцидент.
2. Без числовой шкалы — только направление
Если шкала избыточна, проси модель выдать только три категории: "позитивный опыт / смешанный / негативный" + уверенность + свидетельство. Менее точно, но быстрее интерпретировать при большом объёме.
3. Пакетный скрининг через уверенность
Шаг 1: Прогони все тексты → получи оценки + уровень уверенности
Шаг 2: Высокая уверенность → доверяй числу, используй для статистики
Шаг 3: Средняя уверенность → читай вручную или проси резюме конфликта в тексте
Так ты автоматически сегментируешь: большинство текстов обрабатывает модель, неоднозначные — ты.
Ресурсы
Статья: LLM Predictive Scoring and Validation: Inferring Experience Ratings from Unstructured Text — Andrew Hong, Jason Potteiger, Ito Zapata (Dimension Labs, April 2026)
Контакт авторов: jason@dimensionlabs.io
Ключевые ссылки из исследования: - Licht et al. (2025) — о сжатии шкалы при числовой оценке в LLM - Schwarz (1999) — о том, как формат вопроса определяет когнитивную операцию - Pangakis, Wolken & Fasching (2023) — о вариативности точности LLM-аннотации по задачам
