TL;DR
Когда нужно оценить текст по нескольким критериям (структура, язык, содержание, аргументация), эффективнее просить LLM оценить все аспекты в одном промпте, чем запрашивать оценку каждого критерия отдельно. Исследование Exposía показало: модели выдают более согласованные и точные оценки, когда видят все критерии одновременно.
Классический подход — оценивать по одному: сначала «оцени структуру», потом «оцени язык», потом «оцени аргументацию». Проблема: модель теряет контекст между запросами, оценки противоречат друг другу (например, ставит высокий балл за аргументацию, но низкий за содержание, хотя они связаны). Плюс это дороже по токенам и времени.
Combined prompting решает это: модель видит весь набор критериев, понимает их взаимосвязи (например, качество методологии влияет на оценку подхода), выдаёт более последовательные оценки. Один запрос вместо 5-10, выше согласованность с человеческой оценкой, дешевле.
Схема метода
ОДИН ПРОМПТ:
Оцени текст по критериям:
1. [Критерий 1] → оценка + обоснование
2. [Критерий 2] → оценка + обоснование
3. [Критерий N] → оценка + обоснование
Для каждого критерия:
- Оценка по шкале [укажи шкалу]
- Краткое обоснование
Всё выполняется в одном запросе. Модель видит все критерии, оценивает параллельно, учитывает взаимосвязи.
Пример применения
Задача: Ты написал статью для корпоративного блога про запуск нового продукта. Нужно проверить готовность к публикации по нескольким критериям: цепляет ли заголовок, понятна ли структура, убедительны ли аргументы, корректен ли язык.
Промпт:
Оцени эту статью для корпоративного блога по критериям ниже.
Для каждого критерия поставь оценку 0-2 (0=плохо, 1=норма, 2=отлично)
и дай краткое обоснование (1-2 предложения).
КРИТЕРИИ:
1. Заголовок: цепляет ли внимание, отражает ли суть
2. Структура: логичность изложения, есть ли чёткие разделы
3. Аргументация: убедительность, наличие примеров и данных
4. Язык: ясность формулировок, отсутствие канцелярита
5. Призыв к действию: понятно ли что делать читателю дальше
ТЕКСТ СТАТЬИ:
[твоя статья]
Результат:
Модель выдаст таблицу или список с оценками по каждому критерию + краткое обоснование. Например: "Заголовок 1/2 — отражает суть, но не цепляет эмоционально. Попробуй добавить цифру или вопрос." Оценки будут согласованными между собой: если язык получил 2, то и структура скорее всего не будет 0 (модель видит общую картину качества текста).
Почему это работает
Слабость LLM: Когда модель оценивает критерии по отдельности (отдельные запросы), она теряет контекст между оценками. Результат: противоречивые выводы. Пример из исследования: студенческий текст получает высокую оценку за "подход", но низкую за "методологию" — хотя они тесно связаны. При раздельной оценке модель не видит этой связи.
Сильная сторона LLM: Модель хорошо удерживает структурированный контекст внутри одного промпта. Когда все критерии перед глазами, она видит взаимосвязи: качество структуры влияет на восприятие аргументации, язык влияет на ясность призыва к действию. Модель калибрует оценки относительно друг друга.
Механика метода: Combined prompting использует эту калибровку. Перечисляя все критерии в одном промпте, ты создаёшь единое пространство оценки. Модель анализирует текст через призму всех критериев одновременно, оценки получаются более когерентными и точными.
Рычаги управления: - Шкала оценки — меняй под задачу: 0-1 для бинарной проверки (ок/не ок), 0-10 для детальной градации - Группировка критериев — объединяй связанные (форма: язык+структура; содержание: аргументация+данные) для ещё большей согласованности - Детальность обоснования — проси "1 предложение" для скорости или "развёрнутый комментарий" для глубокого разбора
Шаблон промпта
Оцени этот текст по критериям ниже. Для каждого критерия:
- Оценка: {шкала, например 0-2}
- Обоснование: краткий комментарий
КРИТЕРИИ:
1. {Критерий_1}: {описание что оценивать}
2. {Критерий_2}: {описание что оценивать}
3. {Критерий_N}: {описание что оценивать}
ТЕКСТ:
{текст_для_оценки}
Выдай результат в формате:
| Критерий | Оценка | Обоснование |
Что подставлять:
- {шкала} — диапазон оценок под твою задачу (0-1, 0-5, 0-10, или категории: слабо/норма/сильно)
- {Критерий_N} — аспект текста для оценки (заголовок, структура, аргументация, стиль, call-to-action)
- {описание} — уточни что именно проверять (например, для "Структура": логичность переходов, наличие подзаголовков)
- {текст_для_оценки} — твой текст целиком
Адаптация под задачу: - Для peer review кода — критерии: читаемость, эффективность, наличие комментариев, соответствие стандартам - Для оценки презентации — критерии: цепляющий первый слайд, логика повествования, визуальная чистота, сила финала - Для проверки коммерческого предложения — критерии: понятность оффера, убедительность выгод, отсутствие барьеров, ясность next step
Ограничения
⚠️ Domain-heavy критерии: Когда критерий требует глубокой экспертизы (например, оценка корректности методологии ML-исследования или юридическая точность договора), модель даёт менее надёжные оценки, чем на критериях формы (структура, язык). Согласованность падает на 10-15%. Для таких критериев используй LLM как первичный фильтр, окончательную оценку делай сам или с экспертом.
⚠️ Субъективные критерии: Критерии типа "креативность", "вдохновляет ли текст" — зона высокой вариативности. Даже люди не согласны между собой (в исследовании IAA по таким критериям = 0.6-0.7). LLM не хуже человека, но не жди единственно правильной оценки — используй как один из голосов.
⚠️ Противоречивые критерии: Если критерии конфликтуют (например, "краткость" vs "детальность аргументации"), модель может усреднить оценки вместо того чтобы показать trade-off. Лучше группируй противоречивые критерии в разные запросы или явно проси: "Покажи где краткость идёт в ущерб аргументации".
Ресурсы
Exposía: Academic Writing Assessment of Exposés and Peer Feedback
Датасет
Dennis Zyska, Alla Rozovskaya, Ilia Kuznetsov, Iryna Gurevych
Ubiquitous Knowledge Processing Lab (UKP Lab), Technical University of Darmstadt & Queens College CUNY
