3,583 papers
arXiv:2606.18054 72 16 июня 2026 г. FREE

Многомерная экспертная оценка с цитатами: LLM как структурированный рецензент с числовой шкалой

КЛЮЧЕВАЯ СУТЬ
Просишь модель «оцени текст» — получаешь убедительно звучащую воду. Не потому что модель плохая, а потому что у неё нет системы координат: она не знает что именно считать дефицитом и насколько серьёзным. Метод многомерной рубрики позволяет получить конкретный разбор с числовыми баллами и прямыми цитатами из оригинала — вместо расплывчатого «хорошая структура, но можно чётче». Роль + 5–7 измерений + шкала 0–3 + обязательные цитаты из текста = модель заполняет ячейки системы, а не угадывает что тебе важнооценка становится проверяемой: нашёл цитату в оригинале, решил согласен ли с трактовкой.
Адаптировать под запрос

TL;DR

Когда просишь LLM «оцени этот текст» — получаешь что-то расплывчатое. Эта техника работает иначе: заранее определяешь 5-7 конкретных измерений, присваиваешь каждому числовую шкалу серьёзности (0–3), требуешь обоснования с прямыми цитатами из текста и задаёшь жёсткий шаблон вывода. Плюс — несколько примеров правильных оценок прямо в промпте.

Обычный запрос «оцени презентацию» выдаёт размытое «хорошая структура, но можно чётче». Это происходит потому, что у модели нет системы координат: она не знает, что именно считать дефицитом и насколько серьёзным. Без якорей она скользит по поверхности и не может воспроизвести одинаковый результат на похожем тексте.

Решение: вместо открытого вопроса — рубрика с ролью, измерениями, шкалой, шаблоном и примерами. Модель перестаёт угадывать и начинает последовательно работать по заданной системе.


🔬

Схема метода

(Один промпт, один запрос — всё внутри)

ШАГ 1: Роль и контекст     → LLM знает кто она и зачем
ШАГ 2: Определение измерений → 5-7 конкретных аспектов с определениями
ШАГ 3: Шкала оценки         → 4 уровня: 0 (норма) → 3 (серьёзно)
ШАГ 4: Шаблон вывода        → обязательная структура: рассуждение + цитата + балл
ШАГ 5: Примеры (few-shot)   → 2-5 образцов правильной оценки прямо в промпте
ШАГ 6: [Текст для оценки]   → вставляешь свой материал

🚀

Пример применения

⚠️ Сильная зона метода: сложные тексты, где нужна многомерная экспертная оценка с доказательствами из самого текста. Слабая зона: субъективные творческие предпочтения («нравится / не нравится»).


Задача: Ты написал питч-дек для стартапа и хочешь понять, где конкретно провисает текст — до того, как показывать инвестору типа Александра Горного или нести на Demo Day Y Combinator Russia.

Промпт:

Ты — опытный венчурный аналитик, который каждый день разбирает 
питч-деки стартапов. Твоя задача — оценить текст питча по семи 
аспектам и помочь основателю понять, где конкретно проваливается 
нарратив.

Питч описывает продукт следующего стартапа: [краткое описание, 
1-2 предложения о сфере].

Оцени текст по каждому из семи аспектов:

1. Чёткость проблемы — насколько ясно сформулирована боль клиента
2. Конкретность решения — понятно ли, что именно делает продукт
3. Обоснование рынка — есть ли цифры и логика размера рынка
4. Уникальность — чем это отличается от аналогов
5. Тракшн и доказательства — есть ли подтверждение спроса
6. Команда — понятно ли почему именно эти люди справятся
7. Призыв к действию — ясно ли что хочет основатель от инвестора

Для каждого аспекта:
— поставь балл от 0 до 3, где:
  0 = норма (сделано хорошо)
  1 = слабо (есть недостатки)
  2 = серьёзная проблема (инвестор споткнётся)
  3 = критично (отталкивает)
— приведи прямую цитату из текста, которая подтверждает оценку
— объясни 1-2 предложениями почему такой балл

Используй шаблон:
---
[Название аспекта]
Цитата: «...»
Рассуждение: ...
Балл: X
---

В конце — общий вывод: топ-2 приоритета для правки.

Вот текст питча:
[ВСТАВЬ ТЕКСТ ПИТЧА]

Результат: Модель пройдёт по каждому из семи аспектов и выдаст структурированный разбор. По каждому пункту — конкретная цитата из твоего текста (не выдуманная), числовой балл и объяснение почему. В конце — два приоритета для правки. Никакой воды типа «текст в целом интересный, но...». Только конкретика с привязкой к оригиналу.


🧠

Почему это работает

LLM без системы координат скользит. Открытый вопрос «оцени» — это как попросить судью забить гол без ворот. Модель генерирует текст по паттернам «хорошей обратной связи», а не по твоим критериям. Результат звучит убедительно, но не воспроизводим и не полезен.

Модель хорошо следует жёстким шаблонам. Когда ты задаёшь роль, измерения, шкалу и шаблон вывода — ты убираешь двусмысленность. Модель не выбирает что оценивать, как формулировать и в каком порядке — всё задано. Она просто заполняет ячейки системы.

Требование цитат — защита от галлюцинаций. Когда модель обязана подкрепить каждый балл прямой цитатой из текста, она не может придумать проблему которой нет. Либо находит реальный фрагмент — либо вынуждена ставить 0. Это делает оценку проверяемой: ты всегда можешь найти цитату в оригинале и решить, согласен ли с трактовкой.

Рычаги управления промптом: - Количество аспектов (5-7 оптимально) → меньше 4 — слишком общо, больше 8 — модель начинает «размазывать» оценку - Шкала (0-3 или 1-5) → шкала 0-3 с названиями уровней работает лучше, чем просто числа - Температура few-shot примеров → чем точнее примеры в промпте, тем строже и последовательнее оценки - Финальный вывод → попроси топ-3 приоритета вместо топ-2 если текст длинный


📋

Шаблон промпта

Ты — {роль эксперта}, который оценивает {тип материала}.
Твоя задача — разобрать {объект оценки} по {число} аспектам 
и помочь {кому} понять, где конкретно {что идёт не так}.

Контекст: {1-2 предложения о материале}.

Оцени по каждому из следующих аспектов:

1. {Аспект 1} — {определение, что именно смотришь}
2. {Аспект 2} — {определение}
3. {Аспект 3} — {определение}
[... до 7 аспектов]

Для каждого аспекта используй шкалу:
  0 = норма (всё хорошо)
  1 = слабо (есть недостатки)  
  2 = серьёзная проблема (мешает цели)
  3 = критично (разрушает доверие/результат)

Обязательный шаблон вывода:
---
[Название аспекта]
Цитата: «точная цитата из текста»
Рассуждение: 1-2 предложения почему такой балл
Балл: X
---

В конце: топ-{число} приоритетов для улучшения.

{Пример хорошей оценки — опционально, но сильно улучшает результат}

Вот {тип материала} для оценки:
{текст}

Плейсхолдеры: - {роль эксперта} → венчурный аналитик / опытный редактор / hr-директор / старший маркетолог - {тип материала} → питч / резюме / рекламный текст / деловое письмо / статья - {аспекты} → 5-7 конкретных измерений под твою задачу (не общие слова, а операциональные определения) - {пример оценки} → 1-2 образца как должен выглядеть хороший разбор


🚀 Быстрый старт — вставь в чат:

Вот шаблон для структурированной оценки текста по многомерной рубрике. 
Адаптируй под мою задачу: {твоя задача — что оцениваешь и зачем}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит: какая роль эксперта нужна, какие аспекты важны именно для твоей задачи, нужны ли примеры правильных оценок — потому что без этой информации она не сможет настроить рубрику под твой контекст.


⚠️

Ограничения

⚠️ Субъективные предпочтения: Там, где нет правильного ответа («нравится / не нравится»), числовая шкала не работает. Метод для задач с объективными критериями качества.

⚠️ Без примеров (few-shot) — хуже: Если не добавить 2-3 образца правильных оценок, модель интерпретирует шкалу по-своему. Особенно заметно для «нормы» и «серьёзной проблемы» — граница между ними размывается.

⚠️ Маленькие модели теряют структуру: Слабые модели (типа небольших открытых LLM) часто нарушают шаблон вывода или упускают обязательные цитаты. На Claude и GPT-4o работает стабильно.

⚠️ Число аспектов: Больше 8 измерений — модель начинает «клонировать» оценки, присваивая похожие баллы разным аспектам, чтобы завершить задачу. Оптимум — 5-7.


🔍

Как исследовали

Исследователи взяли 459 транскрипций описаний картинки (пациенты с деменцией и здоровые люди) из двух датасетов — DementiaBank и W-ADRC. Задача: может ли LLM оценить текст по специфическим клиническим параметрам так же хорошо, как опытный логопед?

Ключевое решение: вместо общих показателей (длина предложений, частота слов) они определили 7 клинически значимых измерений, привязанных именно к этой задаче — и попросили модель оценить каждое по шкале 0-3. Сравнили четыре модели: Claude 3.5 Sonnet, GPT-4o, GPT-4o-mini и LLaMA-3.2-3B.

Что удивило: Claude значительно обошёл GPT-4o в стабильности и точности оценок, особенно для тонких клинических конструктов. Причём разрыв оказался большим — не «незначительно лучше», а системно. Когда на оценах Claude обучили линейную модель классификации — она достигла 85% точности разделения больных и здоровых. Это сопоставимо с результатами гораздо более сложных систем.

Восемь живых логопедов оценили объяснения Claude — средний балл согласия 3.99 из 5. Это говорит о том, что модель не просто выдаёт правдоподобные цифры, а её рассуждения клинически осмысленны.


💡

Адаптации и экстраполяции

1. Калибровочный пример вместо инструкции

Вместо подробных определений шкалы — добавь один живой пример оценки с «плохим» и «хорошим» текстом. Модель лучше понимает границу через контраст, чем через описание.

🔧 Добавь контрастный пример → точнее калибровка шкалы

Пример оценки 0 (норма): 
«Мы решаем проблему потери данных при переносе между 1С и amoCRM» 
→ чётко, конкретно, понятен масштаб боли

Пример оценки 2 (серьёзная проблема):
«Мы помогаем бизнесу работать эффективнее»
→ в чём проблема? кому? где боль?

2. Сравнительная оценка двух версий

Тот же шаблон — но подаёшь два текста и просишь оценить оба по одной рубрике. Получаешь не просто «что плохо», а «какая версия лучше и по каким аспектам».

🔧 Два текста в одном промпте → сравнительный анализ

Оцени по той же шкале ОБА варианта текста.
В конце добавь: по каким аспектам Вариант Б лучше Варианта А 
и стоит ли менять.

Вариант А: [текст]
Вариант Б: [текст]

🔗

Ресурсы

Статья: AI-based Cognitive-linguistic Features for Dementia Assessment in Picture Description

Авторы: Lingfeng Xu, Prad Kadambi, Samuel Goldinger, Visar Berisha, Kimberly D. Mueller, Julie Liss

Организации: Arizona State University (College of Health Solutions, School of Electrical, Computer and Energy Engineering), University of Wisconsin-Madison

Датасет: DementiaBank / Pitt Corpus — dementia.talkbank.org


📋 Дайджест исследования

Ключевая суть

Просишь модель «оцени текст» — получаешь убедительно звучащую воду. Не потому что модель плохая, а потому что у неё нет системы координат: она не знает что именно считать дефицитом и насколько серьёзным. Метод многомерной рубрики позволяет получить конкретный разбор с числовыми баллами и прямыми цитатами из оригинала — вместо расплывчатого «хорошая структура, но можно чётче». Роль + 5–7 измерений + шкала 0–3 + обязательные цитаты из текста = модель заполняет ячейки системы, а не угадывает что тебе важнооценка становится проверяемой: нашёл цитату в оригинале, решил согласен ли с трактовкой.

Принцип работы

Открытый запрос — это как попросить судью забить гол без ворот. Модель генерирует текст по паттернам «хорошей обратной связи» — не по твоим критериям. Результат звучит убедительно, но ни воспроизвести его на похожем тексте, ни проверить нельзя. Решение: убери двусмысленность заранее — задай роль (кто оценивает), измерения (что именно смотрим), шкалу (как оценивать), шаблон (в каком виде выводить) и 2–3 примера правильного разбора прямо в промпте. Модель перестаёт выбирать и начинает заполнять.

Почему работает

Требование цитат — это защита от придуманных проблем. Модель не может написать «нарратив провисает», не найдя конкретный фрагмент в тексте. Либо цитата есть — либо ставит 0. Без цитат она галлюцинирует проблемы; с цитатами — либо находит реальный фрагмент, либо вынуждена молчать. Оптимум — 5–7 измерений: меньше четырёх — слишком широко, больше восьми — модель начинает присваивать похожие баллы разным аспектам, лишь бы завершить задачу. И ещё: без примеров правильных оценок в промпте модель интерпретирует шкалу по-своему — граница между «слабо» и «серьёзная проблема» размывается.

Когда применять

Оценка текстов с объективными критериями качества: питч-деки, резюме, рекламные тексты, деловые письма, учебные работы, технические описания — особенно когда нужен воспроизводимый результат на похожих материалах или разбор перед важной встречей. НЕ подходит для субъективных предпочтений — там где нет правильного ответа («нравится / не нравится»), числовая шкала не поможет.

Мини-рецепт

1. Задай роль: Ты — опытный [венчурный аналитик / редактор / HR-директор], который каждый день разбирает [питч-деки / статьи / резюме]
2. Определи измерения: 5–7 аспектов с конкретным определением каждого — не «качество», а «чёткость проблемы — насколько ясно сформулирована боль клиента»
3. Пропиши шкалу с названиями уровней: 0 = норма (всё хорошо), 1 = слабо (есть недостатки), 2 = серьёзная проблема (мешает цели), 3 = критично (разрушает доверие) — цифры без названий работают хуже
4. Задай жёсткий шаблон вывода: Цитата → Рассуждение → Балл — в этом порядке, обязательно для каждого аспекта
5. Добавь 2–3 примера: покажи прямо в промпте как выглядит правильная оценка по одному из аспектов — это самый сильный рычаг
6. Попроси финальный вывод: топ-2–3 приоритета для правки, иначе модель остановится на разборе и не скажет что чинить первым

Примеры

[ПЛОХО] : Оцени мой питч-дек — что можно улучшить?
[ХОРОШО] : Ты — опытный венчурный аналитик, который каждый день разбирает питч-деки стартапов. Оцени текст питча по шести аспектам: чёткость проблемы, конкретность решения, обоснование рынка, уникальность, доказательства спроса, призыв к действию. Для каждого аспекта: приведи точную цитату из текста, объясни 1–2 предложениями почему такой балл, поставь балл 0–3 (0 = всё хорошо, 3 = инвестор закроет презентацию). Используй шаблон: [Аспект] / Цитата: «...» / Рассуждение: ... / Балл: X. В конце — топ-2 приоритета для правки. Вот текст питча: [текст]
Источник: AI-based Cognitive-linguistic Features for Dementia Assessment in Picture Description
ArXiv ID: 2606.18054 | Сгенерировано: 2026-06-17 05:26

Проблемы LLM

ПроблемаСутьКак обойти
Открытый запрос на оценку даёт нерепродуцируемый результатПросишь "оцени текст" — получаешь что-то вроде "хорошая структура, но можно чётче". Звучит убедительно. Но на похожем тексте завтра ответ будет другим. Модель не знает что считать проблемой и насколько серьёзной. Она генерирует текст по паттернам "хорошей обратной связи", а не по твоим критериям. Работает для любой задачи оценки: тексты, питчи, резюме, решенияНе спрашивай открыто. Задай роль + 5–7 конкретных измерений с определениями + числовую шкалу с названиями уровней (0 = норма, 3 = критично) + жёсткий шаблон вывода. Добавь 2–3 примера правильных оценок прямо в запрос

Методы

МетодСуть
Обязательная цитата в каждом блоке оценкиВ шаблон вывода добавь строку Цитата: «точная цитата из текста». Сделай её обязательной — перед баллом и рассуждением. Почему работает: модель не может придумать проблему которой нет. Либо находит реальный фрагмент — либо вынуждена ставить 0 (норма). Оценка становится проверяемой: открываешь оригинал, находишь цитату, решаешь согласен ли с трактовкой. Без этого требования модель может описать несуществующие проблемы убедительным языком. Когда не работает: очень короткие тексты (цитировать нечего), субъективные предпочтения без опоры на текст

Тезисы

ТезисКомментарий
Больше 8 измерений в одном запросе модель клонирует оценкиКогда просишь оценить по многим аспектам сразу, модель начинает присваивать похожие баллы разным пунктам. Не потому что они одинаковые — а чтобы завершить задачу. Механика: удерживать 9+ независимых критериев одновременно трудно, модель "схлопывается" к среднему. Оптимум — 5–7 измерений. Применяй: если нужно больше аспектов — разбей на два отдельных запроса
📖 Простыми словами

AI-based Cognitive-linguistic Features for Dementia Assessment in Picture Description

arXiv: 2606.18054

Суть в том, что обычный запрос к нейронке в духе «оцени этот текст» — это полная лажа. LLM в таком режиме работает как вежливый, но бесполезный стажер: она просто генерирует поток слов, который звучит как обратная связь, но не несет никакой ценности. Чтобы выжать из модели реальную экспертизу, нужно внедрить когнитивно-лингвистические метрики. Ты буквально заставляешь алгоритм перестать гадать и заставляешь его работать по жесткой шкале, где каждое слово взвешивается на аптекарских весах.

Это как если бы ты пришел к врачу и вместо «доктор, мне плохо» принес результаты анализа крови по 40 параметрам. В первом случае врач пожмет плечами и пропишет витаминки, во втором — ткнет пальцем в конкретный дефицит железа. Без четкой системы координат нейронка просто скользит по поверхности, пытаясь угадать, какой ответ тебе понравится, вместо того чтобы реально препарировать смыслы.

Что реально работает в этом методе: шкала серьезности от 0 до 3, обязательное обоснование цитатами и жесткий шаблон вывода. Ты не даешь модели пространства для маневра — она обязана найти конкретную фразу в тексте и объяснить, почему та тянет на «двойку» по твоей шкале. Если добавить в промпт несколько эталонных примеров, точность оценки взлетает до небес, потому что у модели появляется визуальный ориентир, что такое «хорошо», а что — «полный провал».

Исследование проводили на диагностике деменции через описание картинок, но этот принцип универсален. Его можно и нужно втыкать в проверку кода, аудит маркетинговых стратегий или оценку качества работы поддержки. Везде, где нужна многомерная экспертная оценка, а не просто субъективное «нравится / не нравится», этот подход превращает LLM из болталки в точный измерительный прибор. SEO-копирайтинг уходит в прошлое, на смену приходит глубокий лингвистический аудит.

Короче: завязывай задавать открытые вопросы, если хочешь получить результат, а не порцию галлюцинаций. Создавай жесткую систему координат, требуй пруфы из текста и задавай числовые веса для каждого критерия. Либо ты сам строишь для нейронки «ворота», либо она будет бесконечно пинать мяч в пустоту, выдавая тебе красивое, но бесполезное ничто. Кто освоит этот структурный подход, тот получит автоматизированную экспертизу уровня Senior-специалиста.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с