3,583 papers
arXiv:2604.14321 77 15 апр. 2026 г. FREE

LLM Predictive Scoring: числовая оценка текста — и почему расхождение между AI-оценкой и самооценкой это данные, а не ошибка

КЛЮЧЕВАЯ СУТЬ
Человек написал: «очередь — 40 минут, парковка — грабёж, еле увидел матч» — и поставил 10 из 10. LLM читает тот же текст и предсказывает 6. Оба правы: они измеряют разные вещи. Этот метод позволяет получать числовую оценку из любого свободного текста — без звёзд и шкал в форме — и использовать разрыв между AI-прогнозом и реальной оценкой как карту боли. Текст фиксирует самое яркое и обидное, оценка — общее ощущение дня. Там где они расходятся — человек доволен в целом, но пережил что-то конкретно неприятное — это самые ценные отзывы для улучшения продукта.
Адаптировать под запрос

TL;DR

LLM Predictive Scoring — техника, при которой языковая модель читает свободный текст (отзыв, обратную связь, комментарий) и предсказывает числовую оценку по шкале 0–10, которую человек поставил бы сам. Никаких звёзд, никаких шкал в тексте — только слова, и модель выдаёт цифру. При этом она стабильна: запусти один и тот же текст три раза — в 87% случаев получишь одинаковый ответ.

Главный инсайт исследования: люди пишут одно, а оценивают другое. Человек ставит 10 баллов и тут же объясняет: "очередь 40 минут, парковка — грабёж, еле увидел матч". Это не противоречие. Оценка — это вердикт: итоговое ощущение от всего дня, включая то, о чём человек вообще не написал. Текст — это засветившееся: что было самым ярким, обидным, неожиданным. Два разных когнитивных процесса, два разных результата с одного и того же опыта.

Расхождение между AI-оценкой и самооценкой — не ошибка, а сигнал. AI-оценка ниже → человек пережил что-то конкретно неприятное, но в целом доволен. AI-оценка совпадает → текст и ощущение указывают в одну сторону. AI-оценка выше → человек, возможно, занижает рейтинг под давлением конкретного инцидента, хотя текст его окружения положителен.


🔬

Схема метода

Всё выполняется в одном запросе к модели:

ВХОД: свободный текст (отзыв, ответ на открытый вопрос, комментарий)

ШАГ 1: Модель читает текст → предсказывает оценку 0–10 (целое число)
ШАГ 2: Модель оценивает ясность текста → Высокая / Средняя уверенность
ШАГ 3: Модель выделяет ключевое свидетельство → ≤ 15 слов

ВЫХОД: оценка + уровень уверенности + объяснение

Шаги 2 и 3 — не украшение. Уровень уверенности — главный фильтр качества. При высокой уверенности точность предсказания резко растёт, при средней — падает почти вдвое.


🚀

Пример применения

Задача: Ты — основатель небольшого онлайн-курса на Getcourse. После каждого модуля студенты заполняют форму: ставят оценку и пишут комментарий. Оценок — тысячи, читать всё невозможно. Хочешь понять: какие занятия вызывают реальные проблемы, а где просто "написали жалобу, но в целом довольны"?

Промпт:

Прочитай отзыв студента об онлайн-курсе.

Сделай три вещи:
1. Предскажи оценку, которую студент поставил бы по шкале 0–10 (целое число). 
   Используй ТОЛЬКО информацию из текста.
2. Укажи уверенность в оценке:
   — Высокая: текст однозначен, явные эмоции или прямые оценки
   — Средняя: текст смешанный, противоречивый или слишком короткий
3. В 15 словах или меньше — главное свидетельство из текста, на котором основана оценка.

Отзыв студента:
«Материал интересный, но объяснение теории слишком быстрое — не успеваю записывать. 
Практические задания — огонь, сразу понятно как применять. Куратор отвечает медленно, 
ждала ответа три дня. В целом продолжу обучение.»

Ответь строго в формате:
Оценка: [число]
Уверенность: [Высокая / Средняя]
Свидетельство: [не более 15 слов]

Результат:

Модель выдаст оценку (вероятно, 6–7 при самооценке студента около 8), уровень уверенности "Средняя" (текст смешанный: + практика, − скорость и куратор), и короткую выжимку главной проблемы. Теперь у тебя есть два числа: AI-прогноз и реальная оценка студента. Разрыв между ними указывает на отзывы "доволен, но с болью" — именно туда стоит смотреть в первую очередь при улучшении курса.


🧠

Почему это работает

LLM замечает то, что "торчит". Когда человек пишет текст, он описывает самое яркое, обидное, неожиданное — то, что оставило след. Припарковался за 2000 рублей? Напишет. Сел на хорошее место? Молчок — это норма. Модель читает слова и строит оценку из того, что видит. Поэтому AI-оценка — это индекс заметных событий, а не итоговый вердикт.

Самооценка работает иначе. Когда человека просят поставить балл, он не суммирует инциденты. Он использует общее ощущение — "хороший день был или нет" — как прямой ответ. Психолог Норберт Шварц назвал это "настроение как информация": люди заглядывают в своё текущее состояние, а не пересчитывают плюсы и минусы. Рутинные хорошие вещи в этот расчёт почти не попадают — они не оставляют следа.

Уровень уверенности — это метрика ясности текста, а не самооценка модели. Высокая уверенность означает: текст однозначен, один вектор. Средняя — в тексте конфликтуют сигналы. Именно поэтому уровень уверенности так предсказывает точность: не потому что модель "знает больше", а потому что ясный текст = предсказуемая оценка.

Рычаги управления промптом: - Шкала — замени 0–10 на любую другую (например, 1–5 для продуктов или NPS 0–10) - Критерии уверенности — уточни что считать "однозначным": прямые цитаты оценок, конкретные эмоции, цифры - Свидетельство — убери лимит 15 слов, если хочешь видеть развёрнутое объяснение - Домен — замени "отзыв студента" на "отзыв клиента", "обратная связь сотрудника", "комментарий в соцсетях"


📋

Шаблон промпта

Прочитай {тип текста}: {текст}

Сделай три вещи:

1. Предскажи {что оцениваем} по шкале {диапазон} (целое число).
   Используй ТОЛЬКО информацию из текста. Никаких внешних знаний.

2. Укажи уверенность:
   — Высокая: текст однозначен, прямые оценки или явные эмоции
   — Средняя: смешанные или противоречивые сигналы, короткий или нейтральный текст

3. В {число} словах или меньше — главное текстовое свидетельство для оценки.

Формат ответа:
Оценка: [число]
Уверенность: [Высокая / Средняя]
Свидетельство: [текст]

Что подставлять: - {тип текста} — отзыв клиента / ответ сотрудника / комментарий пользователя / письмо - {что оцениваем} — удовлетворённость / качество сервиса / лояльность / настроение - {диапазон} — 0–10 / 1–5 / 1–100 - {число} — 10–20 (больше = полезнее для понимания, меньше = удобнее для скрининга)

🚀 Быстрый старт — вставь в чат:

Вот шаблон для числовой оценки текстов. Адаптируй под мою задачу: [твоя задача].
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит какой тип текстов ты анализируешь, что именно оцениваешь и какая шкала нужна — потому что от этого зависит инструкция и критерии уверенности. Она возьмёт структуру из шаблона и адаптирует под твой контекст.


⚠️

Ограничения

⚠️ Систематическое занижение: Модель предсказывает примерно на 1 балл ниже самооценки. Это не баг конкретного промпта — это свойство метода (модель читает проблемы, люди оценивают вечер в целом). Если нужно сравнивать AI-оценки с реальными — учитывай поправку.

⚠️ Средний диапазон — самый сложный: Оценки 7–8 предсказываются хуже всего (ошибка почти 2 балла). Именно здесь живут "доволен, но жалуется" — люди, чей текст идёт вразрез с ощущением. Высокая и низкая зоны (9–10 и 0–2) — точнее.

⚠️ Средняя уверенность = другой инструмент: При средней уверенности точность падает с 82% до 47% в пределах ±1. Такие ответы лучше использовать не как число, а как сигнал "здесь смешанный опыт, стоит прочитать вручную".

⚠️ Текст ≠ оценка структурно: Нельзя "откалибровать" модель так, чтобы она точно воспроизводила самооценку — она измеряет другое. Это не ошибка, которую надо исправить, а разные конструкты, которые надо использовать вместе.


🔍

Как исследовали

Команда взяла ~10 000 реальных анкет болельщиков пяти клубов MLB (бейсбол, США, сезон 2025). После игры фанаты заполняли форму: сначала ставили оценку 0–10 за весь день, потом объясняли в свободной форме почему. Это дизайн-находка: человек сначала цифру, потом текст. Никакого временного разрыва, одни и те же события. И всё равно текст регулярно расходился с цифрой.

GPT-4.1 получал только текстовый ответ — без оценок, без информации о команде, о счёте матча, о погоде. Специального промпт-инжиниринга не было — намеренно, чтобы зафиксировать базовый уровень простейшего подхода. Один и тот же массив прогнали три раза независимо. Результаты почти не изменились: 87% — точное совпадение между запусками, 99.9% — расхождение не больше 1 балла. Это уровень, который в традиционной разметке между людьми-аналитиками считается исключительным.

Самый неожиданный вывод: расхождение было предсказуемым по паттерну, а не случайным. Модель не "ошибалась" хаотично — она стабильно читала одно, фанаты стабильно оценивали другое. Это и подтолкнуло авторов к концепции двух конструктов.


💡

Адаптации и экстраполяции

1. Разрыв как фильтр приоритетов

🔧 Техника: сравни AI-оценку с самооценкой → найди "скрытые пожары"

Попроси LLM дать оценку текстов → сравни с реальными звёздами/баллами. Большой разрыв вниз (AI 5, поставил 9) = человек доволен, но написал о конкретной проблеме → это операционный сигнал. Большой разрыв вверх (AI 8, поставил 4) = человек недоволен, но написал спокойно → возможно, хроническая усталость, а не острый инцидент.

2. Без числовой шкалы — только направление

Если шкала избыточна, проси модель выдать только три категории: "позитивный опыт / смешанный / негативный" + уверенность + свидетельство. Менее точно, но быстрее интерпретировать при большом объёме.

3. Пакетный скрининг через уверенность

Шаг 1: Прогони все тексты → получи оценки + уровень уверенности
Шаг 2: Высокая уверенность → доверяй числу, используй для статистики
Шаг 3: Средняя уверенность → читай вручную или проси резюме конфликта в тексте

Так ты автоматически сегментируешь: большинство текстов обрабатывает модель, неоднозначные — ты.


🔗

Ресурсы

Статья: LLM Predictive Scoring and Validation: Inferring Experience Ratings from Unstructured Text — Andrew Hong, Jason Potteiger, Ito Zapata (Dimension Labs, April 2026)

Контакт авторов: jason@dimensionlabs.io

Ключевые ссылки из исследования: - Licht et al. (2025) — о сжатии шкалы при числовой оценке в LLM - Schwarz (1999) — о том, как формат вопроса определяет когнитивную операцию - Pangakis, Wolken & Fasching (2023) — о вариативности точности LLM-аннотации по задачам


📋 Дайджест исследования

Ключевая суть

Человек написал: «очередь — 40 минут, парковка — грабёж, еле увидел матч» — и поставил 10 из 10. LLM читает тот же текст и предсказывает 6. Оба правы: они измеряют разные вещи. Этот метод позволяет получать числовую оценку из любого свободного текста — без звёзд и шкал в форме — и использовать разрыв между AI-прогнозом и реальной оценкой как карту боли. Текст фиксирует самое яркое и обидное, оценка — общее ощущение дня. Там где они расходятся — человек доволен в целом, но пережил что-то конкретно неприятное — это самые ценные отзывы для улучшения продукта.

Принцип работы

Один запрос, три выхода: оценка 0–10, уровень уверенности, ключевая цитата из текста в 15 слов. Уровень уверенности — не самооценка модели. Это метрика ясности самого текста: однозначный — высокая, противоречивый и смешанный — средняя. При высокой уверенности точность попадания в ±1 балл — 82%. При средней — 47%. Это два разных режима: первый даёт число, второй — сигнал «здесь смешанный опыт, читай руками».

Почему работает

Когда человек пишет отзыв — он описывает то, что «торчит»: самое обидное, неожиданное, яркое. Припарковался за 2000 рублей — напишет. Сел на хорошее место — промолчит, это норма. Модель строит оценку из слов — и получает индекс заметных событий. Когда же человека просят поставить балл — он не суммирует инциденты. Психолог Норберт Шварц назвал это «настроение как информация»: люди заглядывают в общее ощущение, а не пересчитывают плюсы и минусы. Рутинные хорошие вещи в этот расчёт почти не попадают — они не оставляют следа. Два числа из одного опыта — не дублирование, а стереоскопия. Вместе они показывают что именно мешало хорошему стать отличным.

Когда применять

Анализ отзывов клиентов, студентов, сотрудников → для скрининга тысяч свободных комментариев, особенно когда нужно быстро найти «болезненные» отзывы среди высоких оценок. Хорошо работает для форм обратной связи после курсов, услуг, мероприятий — везде где есть и свободный текст, и числовая оценка. НЕ подходит для задач, где нужна точная воспроизводимость самооценки: модель систематически занижает на ~1 балл и измеряет другое. Оценки 7–8 предсказываются хуже всего — ошибка ~2 балла. Там живут самые противоречивые отзывы: сгладить их числом не выйдет.

Мини-рецепт

1. Три вопроса в одном запросе: предскажи оценку → укажи уверенность → выдели свидетельство в 15 слов. Не разбивай на три отдельных запроса — это один процесс, и он должен идти подряд.
2. Уверенность как фильтр: высокая уверенность → используй как число. Средняя — ставь флаг «читай руками», не доверяй цифре. Это не сбой, это сигнал о смешанном опыте.
3. Смотри на разрыв: собери реальные оценки от пользователей и AI-прогнозы рядом. Где AI ниже реального — там человек пережил конкретную боль, но сгладил её в итоговом вердикте. Это приоритет для доработки.
4. Адаптируй под свой контекст: замени шкалу (0–10 → 1–5), тип текста («отзыв клиента» → «ответ сотрудника» → «комментарий в соцсетях»), и что именно оцениваешь («удовлетворённость» → «лояльность» → «настроение»).

Примеры

[ПЛОХО] : Оцени этот отзыв клиента по шкале от 1 до 10
[ХОРОШО] : Прочитай отзыв клиента. Сделай три вещи: 1. Предскажи оценку 0–10 (целое число). Используй ТОЛЬКО информацию из текста. 2. Уверенность: Высокая (текст однозначен, прямые эмоции или оценки) или Средняя (смешанные или противоречивые сигналы). 3. Главное свидетельство для оценки — 15 слов или меньше. Формат: Оценка: [число] Уверенность: [Высокая / Средняя] Свидетельство: [текст] Отзыв: «Материал интересный, но объяснение теории слишком быстрое — не успеваю записывать. Практические задания — огонь, сразу понятно как применять. Куратор отвечает медленно, ждала ответа три дня. В целом продолжу обучение.» Модель выдаст оценку (вероятно, 6–7 при реальной самооценке около 8), уровень уверенности «Средняя» (текст смешанный: плюс практика, минус скорость и куратор) и короткую выжимку главной проблемы. Разрыв между двумя числами указывает: студент в целом остаётся, но у него есть конкретная незакрытая боль — туда и смотреть при доработке курса.
Источник: LLM Predictive Scoring and Validation: Inferring Experience Ratings from Unstructured Text
ArXiv ID: 2604.14321 | Сгенерировано: 2026-04-17 05:32

Проблемы LLM

ПроблемаСутьКак обойти
Модель оценивает "что засветилось", а не общее ощущениеКогда модель читает текст, она строит оценку из самого заметного. Плохая парковка — заметна. Нормальные места — нет. Человек же оценивает весь день разом, включая то, о чём вообще не написал. Итог: модель почти всегда занижает оценку примерно на 1 балл по сравнению с тем, что человек поставил бы сам. Это не ошибка промпта — это структурное различие двух процессовСчитай расхождение данными, а не багом. AI-оценка ниже самооценки человек доволен, но пережил что-то конкретно неприятное. Ищи такие отзывы первыми при анализе проблем

Методы

МетодСуть
Три шага в одном запросе: оценка + уверенность + свидетельствоПопроси модель сделать три вещи сразу. Первое: предсказать оценку по шкале (например, 0–10). Второе: указать уверенность — Высокая (текст однозначен, явные эмоции или прямые оценки) или Средняя (смешанные сигналы, короткий или нейтральный текст). Третье: выписать главное свидетельство из текста — не более 15 слов. Формат ответа фиксируй жёстко: Оценка: [число] / Уверенность: [Высокая / Средняя] / Свидетельство: [текст]. Почему работает: уровень уверенности — это фильтр. При высокой уверенности точность предсказания высокая. При средней — почти вдвое ниже. Это не про самооценку модели, а про ясность самого текста. Когда применять: любые тексты где нужно числовое ранжирование — отзывы, ответы на открытые вопросы, комментарии. Не работает: текст из одного предложения без эмоций — уверенность всегда будет средней, точность — низкой

Тезисы

ТезисКомментарий
Уровень уверенности модели = мера ясности текста, а не самооценкаКогда в тексте один вектор — явное раздражение или явный восторг — модель говорит "Высокая". Когда сигналы конфликтуют — "Средняя". Это работает потому что ясный текст содержит однонаправленные слова. Смешанный — противоречивые. Модель, по сути, читает текст и сообщает сколько в нём шума. Применяй: при средней уверенности не используй число как оценку — используй как флаг "прочитай вручную, здесь смешанный опыт"
📖 Простыми словами

LLMPredictive Scoring and Validation: Inferring Experience Ratings from Unstructured Text

arXiv: 2604.14321

Суть LLM Predictive Scoring в том, что нейронка научилась читать между строк и превращать поток сознания в сухую цифру. Раньше нам нужны были кнопки со звездами, чтобы понять уровень недовольства, а теперь достаточно просто дать модели текст отзыва. Она анализирует не просто слова, а эмоциональный вес и контекст, выставляя оценку по шкале от 0 до 10. Самое крутое здесь — стабильность в 87% случаев: если скормить модели один и тот же вопль души трижды, она выдаст одинаковый балл, не меняя мнения под настроение.

Это как если бы ты пришел к опытному бармену и просто начал жаловаться на жизнь, а он, не перебивая, в конце выдал: "Ясно, твой день тянет на 3 из 10, держи крепкое". Бармен (или AI) не считает количество плохих слов, он чувствует общую тональность и тяжесть ситуации. Модель не гадает на кофейной гуще, она выцепляет конкретные маркеры опыта, которые человек вложил в текст, даже если сам он поленился ткнуть в нужную звездочку в приложении.

В основе метода лежит инференс на неструктурированных данных. Работает это просто: берется сырой текст, прогоняется через один четкий промпт, и на выходе получается число. Модель игнорирует воду и фокусируется на том, что реально торчит в повествовании. Если клиент пишет про «космический ценник за парковку», для AI это жирный минус, а если он молчит про чистоту в зале — значит, там всё в норме. Модель строит индекс заметных событий, превращая субъективный опыт в объективную метрику, которую можно засунуть в таблицу и анализировать.

Тестировали это на отзывах, но принцип универсален: метод идеально ложится на любую обратную связь, от фидбека сотрудников до комментариев студентов на курсах. Это спасение для бизнеса, где копятся тысячи сообщений, которые никто не читает. Вместо того чтобы нанимать армию модераторов, ты просто прогоняешь массив через предиктивный скоринг и сразу видишь, где полыхнуло, а где всё ровно. Текст превращается в данные, а данные — в управленческие решения.

Короче, хватит мучить людей анкетами с кучей шкал — они всё равно врут или тыкают наугад. Дай им выговориться, а LLM Predictive Scoring сама расставит оценки. Главный вывод: AI-оценка — это не просто угадывание, а точный замер эмоционального осадка. Кто начнет использовать этот метод сейчас, перестанет гадать, почему падают продажи, и начнет видеть реальную картину мира через слова своих клиентов.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с