TL;DR
Когда просишь LLM «оцени этот текст» — получаешь что-то расплывчатое. Эта техника работает иначе: заранее определяешь 5-7 конкретных измерений, присваиваешь каждому числовую шкалу серьёзности (0–3), требуешь обоснования с прямыми цитатами из текста и задаёшь жёсткий шаблон вывода. Плюс — несколько примеров правильных оценок прямо в промпте.
Обычный запрос «оцени презентацию» выдаёт размытое «хорошая структура, но можно чётче». Это происходит потому, что у модели нет системы координат: она не знает, что именно считать дефицитом и насколько серьёзным. Без якорей она скользит по поверхности и не может воспроизвести одинаковый результат на похожем тексте.
Решение: вместо открытого вопроса — рубрика с ролью, измерениями, шкалой, шаблоном и примерами. Модель перестаёт угадывать и начинает последовательно работать по заданной системе.
Схема метода
(Один промпт, один запрос — всё внутри)
ШАГ 1: Роль и контекст → LLM знает кто она и зачем
ШАГ 2: Определение измерений → 5-7 конкретных аспектов с определениями
ШАГ 3: Шкала оценки → 4 уровня: 0 (норма) → 3 (серьёзно)
ШАГ 4: Шаблон вывода → обязательная структура: рассуждение + цитата + балл
ШАГ 5: Примеры (few-shot) → 2-5 образцов правильной оценки прямо в промпте
ШАГ 6: [Текст для оценки] → вставляешь свой материал
Пример применения
⚠️ Сильная зона метода: сложные тексты, где нужна многомерная экспертная оценка с доказательствами из самого текста. Слабая зона: субъективные творческие предпочтения («нравится / не нравится»).
Задача: Ты написал питч-дек для стартапа и хочешь понять, где конкретно провисает текст — до того, как показывать инвестору типа Александра Горного или нести на Demo Day Y Combinator Russia.
Промпт:
Ты — опытный венчурный аналитик, который каждый день разбирает
питч-деки стартапов. Твоя задача — оценить текст питча по семи
аспектам и помочь основателю понять, где конкретно проваливается
нарратив.
Питч описывает продукт следующего стартапа: [краткое описание,
1-2 предложения о сфере].
Оцени текст по каждому из семи аспектов:
1. Чёткость проблемы — насколько ясно сформулирована боль клиента
2. Конкретность решения — понятно ли, что именно делает продукт
3. Обоснование рынка — есть ли цифры и логика размера рынка
4. Уникальность — чем это отличается от аналогов
5. Тракшн и доказательства — есть ли подтверждение спроса
6. Команда — понятно ли почему именно эти люди справятся
7. Призыв к действию — ясно ли что хочет основатель от инвестора
Для каждого аспекта:
— поставь балл от 0 до 3, где:
0 = норма (сделано хорошо)
1 = слабо (есть недостатки)
2 = серьёзная проблема (инвестор споткнётся)
3 = критично (отталкивает)
— приведи прямую цитату из текста, которая подтверждает оценку
— объясни 1-2 предложениями почему такой балл
Используй шаблон:
---
[Название аспекта]
Цитата: «...»
Рассуждение: ...
Балл: X
---
В конце — общий вывод: топ-2 приоритета для правки.
Вот текст питча:
[ВСТАВЬ ТЕКСТ ПИТЧА]
Результат: Модель пройдёт по каждому из семи аспектов и выдаст структурированный разбор. По каждому пункту — конкретная цитата из твоего текста (не выдуманная), числовой балл и объяснение почему. В конце — два приоритета для правки. Никакой воды типа «текст в целом интересный, но...». Только конкретика с привязкой к оригиналу.
Почему это работает
LLM без системы координат скользит. Открытый вопрос «оцени» — это как попросить судью забить гол без ворот. Модель генерирует текст по паттернам «хорошей обратной связи», а не по твоим критериям. Результат звучит убедительно, но не воспроизводим и не полезен.
Модель хорошо следует жёстким шаблонам. Когда ты задаёшь роль, измерения, шкалу и шаблон вывода — ты убираешь двусмысленность. Модель не выбирает что оценивать, как формулировать и в каком порядке — всё задано. Она просто заполняет ячейки системы.
Требование цитат — защита от галлюцинаций. Когда модель обязана подкрепить каждый балл прямой цитатой из текста, она не может придумать проблему которой нет. Либо находит реальный фрагмент — либо вынуждена ставить 0. Это делает оценку проверяемой: ты всегда можешь найти цитату в оригинале и решить, согласен ли с трактовкой.
Рычаги управления промптом: - Количество аспектов (5-7 оптимально) → меньше 4 — слишком общо, больше 8 — модель начинает «размазывать» оценку - Шкала (0-3 или 1-5) → шкала 0-3 с названиями уровней работает лучше, чем просто числа - Температура few-shot примеров → чем точнее примеры в промпте, тем строже и последовательнее оценки - Финальный вывод → попроси топ-3 приоритета вместо топ-2 если текст длинный
Шаблон промпта
Ты — {роль эксперта}, который оценивает {тип материала}.
Твоя задача — разобрать {объект оценки} по {число} аспектам
и помочь {кому} понять, где конкретно {что идёт не так}.
Контекст: {1-2 предложения о материале}.
Оцени по каждому из следующих аспектов:
1. {Аспект 1} — {определение, что именно смотришь}
2. {Аспект 2} — {определение}
3. {Аспект 3} — {определение}
[... до 7 аспектов]
Для каждого аспекта используй шкалу:
0 = норма (всё хорошо)
1 = слабо (есть недостатки)
2 = серьёзная проблема (мешает цели)
3 = критично (разрушает доверие/результат)
Обязательный шаблон вывода:
---
[Название аспекта]
Цитата: «точная цитата из текста»
Рассуждение: 1-2 предложения почему такой балл
Балл: X
---
В конце: топ-{число} приоритетов для улучшения.
{Пример хорошей оценки — опционально, но сильно улучшает результат}
Вот {тип материала} для оценки:
{текст}
Плейсхолдеры:
- {роль эксперта} → венчурный аналитик / опытный редактор / hr-директор / старший маркетолог
- {тип материала} → питч / резюме / рекламный текст / деловое письмо / статья
- {аспекты} → 5-7 конкретных измерений под твою задачу (не общие слова, а операциональные определения)
- {пример оценки} → 1-2 образца как должен выглядеть хороший разбор
🚀 Быстрый старт — вставь в чат:
Вот шаблон для структурированной оценки текста по многомерной рубрике.
Адаптируй под мою задачу: {твоя задача — что оцениваешь и зачем}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит: какая роль эксперта нужна, какие аспекты важны именно для твоей задачи, нужны ли примеры правильных оценок — потому что без этой информации она не сможет настроить рубрику под твой контекст.
Ограничения
⚠️ Субъективные предпочтения: Там, где нет правильного ответа («нравится / не нравится»), числовая шкала не работает. Метод для задач с объективными критериями качества.
⚠️ Без примеров (few-shot) — хуже: Если не добавить 2-3 образца правильных оценок, модель интерпретирует шкалу по-своему. Особенно заметно для «нормы» и «серьёзной проблемы» — граница между ними размывается.
⚠️ Маленькие модели теряют структуру: Слабые модели (типа небольших открытых LLM) часто нарушают шаблон вывода или упускают обязательные цитаты. На Claude и GPT-4o работает стабильно.
⚠️ Число аспектов: Больше 8 измерений — модель начинает «клонировать» оценки, присваивая похожие баллы разным аспектам, чтобы завершить задачу. Оптимум — 5-7.
Как исследовали
Исследователи взяли 459 транскрипций описаний картинки (пациенты с деменцией и здоровые люди) из двух датасетов — DementiaBank и W-ADRC. Задача: может ли LLM оценить текст по специфическим клиническим параметрам так же хорошо, как опытный логопед?
Ключевое решение: вместо общих показателей (длина предложений, частота слов) они определили 7 клинически значимых измерений, привязанных именно к этой задаче — и попросили модель оценить каждое по шкале 0-3. Сравнили четыре модели: Claude 3.5 Sonnet, GPT-4o, GPT-4o-mini и LLaMA-3.2-3B.
Что удивило: Claude значительно обошёл GPT-4o в стабильности и точности оценок, особенно для тонких клинических конструктов. Причём разрыв оказался большим — не «незначительно лучше», а системно. Когда на оценах Claude обучили линейную модель классификации — она достигла 85% точности разделения больных и здоровых. Это сопоставимо с результатами гораздо более сложных систем.
Восемь живых логопедов оценили объяснения Claude — средний балл согласия 3.99 из 5. Это говорит о том, что модель не просто выдаёт правдоподобные цифры, а её рассуждения клинически осмысленны.
Адаптации и экстраполяции
1. Калибровочный пример вместо инструкции
Вместо подробных определений шкалы — добавь один живой пример оценки с «плохим» и «хорошим» текстом. Модель лучше понимает границу через контраст, чем через описание.
🔧 Добавь контрастный пример → точнее калибровка шкалы
Пример оценки 0 (норма): «Мы решаем проблему потери данных при переносе между 1С и amoCRM» → чётко, конкретно, понятен масштаб боли Пример оценки 2 (серьёзная проблема): «Мы помогаем бизнесу работать эффективнее» → в чём проблема? кому? где боль?
2. Сравнительная оценка двух версий
Тот же шаблон — но подаёшь два текста и просишь оценить оба по одной рубрике. Получаешь не просто «что плохо», а «какая версия лучше и по каким аспектам».
🔧 Два текста в одном промпте → сравнительный анализ
Оцени по той же шкале ОБА варианта текста. В конце добавь: по каким аспектам Вариант Б лучше Варианта А и стоит ли менять. Вариант А: [текст] Вариант Б: [текст]
Ресурсы
Статья: AI-based Cognitive-linguistic Features for Dementia Assessment in Picture Description
Авторы: Lingfeng Xu, Prad Kadambi, Samuel Goldinger, Visar Berisha, Kimberly D. Mueller, Julie Liss
Организации: Arizona State University (College of Health Solutions, School of Electrical, Computer and Energy Engineering), University of Wisconsin-Madison
Датасет: DementiaBank / Pitt Corpus — dementia.talkbank.org
