3,583 papers
arXiv:2601.06536 74 10 янв. 2026 г. FREE

Combined Criteria Prompting: оценка текста по всем критериям сразу

КЛЮЧЕВАЯ СУТЬ
Проблема: Оцениваешь текст по 5 критериям отдельными запросами — получаешь противоречивые оценки. Структура на 8/10, но аргументация на 4/10, хотя они связаны. Метод Combined Criteria Prompting позволяет получать согласованные оценки текста по нескольким критериям одновременно. Перечисляешь все критерии в одном промпте — модель видит их взаимосвязи, калибрует оценки относительно друг друга. Одна проверка вместо пяти, оценки не противоречат.
Адаптировать под запрос

TL;DR

Когда нужно оценить текст по нескольким критериям (структура, язык, содержание, аргументация), эффективнее просить LLM оценить все аспекты в одном промпте, чем запрашивать оценку каждого критерия отдельно. Исследование Exposía показало: модели выдают более согласованные и точные оценки, когда видят все критерии одновременно.

Классический подход — оценивать по одному: сначала «оцени структуру», потом «оцени язык», потом «оцени аргументацию». Проблема: модель теряет контекст между запросами, оценки противоречат друг другу (например, ставит высокий балл за аргументацию, но низкий за содержание, хотя они связаны). Плюс это дороже по токенам и времени.

Combined prompting решает это: модель видит весь набор критериев, понимает их взаимосвязи (например, качество методологии влияет на оценку подхода), выдаёт более последовательные оценки. Один запрос вместо 5-10, выше согласованность с человеческой оценкой, дешевле.

🔬

Схема метода

ОДИН ПРОМПТ:
Оцени текст по критериям:
1. [Критерий 1] → оценка + обоснование
2. [Критерий 2] → оценка + обоснование
3. [Критерий N] → оценка + обоснование

Для каждого критерия:
- Оценка по шкале [укажи шкалу]
- Краткое обоснование

Всё выполняется в одном запросе. Модель видит все критерии, оценивает параллельно, учитывает взаимосвязи.

🚀

Пример применения

Задача: Ты написал статью для корпоративного блога про запуск нового продукта. Нужно проверить готовность к публикации по нескольким критериям: цепляет ли заголовок, понятна ли структура, убедительны ли аргументы, корректен ли язык.

Промпт:

Оцени эту статью для корпоративного блога по критериям ниже. 
Для каждого критерия поставь оценку 0-2 (0=плохо, 1=норма, 2=отлично) 
и дай краткое обоснование (1-2 предложения).

КРИТЕРИИ:
1. Заголовок: цепляет ли внимание, отражает ли суть
2. Структура: логичность изложения, есть ли чёткие разделы
3. Аргументация: убедительность, наличие примеров и данных
4. Язык: ясность формулировок, отсутствие канцелярита
5. Призыв к действию: понятно ли что делать читателю дальше

ТЕКСТ СТАТЬИ:
[твоя статья]

Результат:

Модель выдаст таблицу или список с оценками по каждому критерию + краткое обоснование. Например: "Заголовок 1/2 — отражает суть, но не цепляет эмоционально. Попробуй добавить цифру или вопрос." Оценки будут согласованными между собой: если язык получил 2, то и структура скорее всего не будет 0 (модель видит общую картину качества текста).

🧠

Почему это работает

Слабость LLM: Когда модель оценивает критерии по отдельности (отдельные запросы), она теряет контекст между оценками. Результат: противоречивые выводы. Пример из исследования: студенческий текст получает высокую оценку за "подход", но низкую за "методологию" — хотя они тесно связаны. При раздельной оценке модель не видит этой связи.

Сильная сторона LLM: Модель хорошо удерживает структурированный контекст внутри одного промпта. Когда все критерии перед глазами, она видит взаимосвязи: качество структуры влияет на восприятие аргументации, язык влияет на ясность призыва к действию. Модель калибрует оценки относительно друг друга.

Механика метода: Combined prompting использует эту калибровку. Перечисляя все критерии в одном промпте, ты создаёшь единое пространство оценки. Модель анализирует текст через призму всех критериев одновременно, оценки получаются более когерентными и точными.

Рычаги управления: - Шкала оценки — меняй под задачу: 0-1 для бинарной проверки (ок/не ок), 0-10 для детальной градации - Группировка критериев — объединяй связанные (форма: язык+структура; содержание: аргументация+данные) для ещё большей согласованности - Детальность обоснования — проси "1 предложение" для скорости или "развёрнутый комментарий" для глубокого разбора

📋

Шаблон промпта

Оцени этот текст по критериям ниже. Для каждого критерия:
- Оценка: {шкала, например 0-2}
- Обоснование: краткий комментарий

КРИТЕРИИ:
1. {Критерий_1}: {описание что оценивать}
2. {Критерий_2}: {описание что оценивать}
3. {Критерий_N}: {описание что оценивать}

ТЕКСТ:
{текст_для_оценки}

Выдай результат в формате:
| Критерий | Оценка | Обоснование |

Что подставлять: - {шкала} — диапазон оценок под твою задачу (0-1, 0-5, 0-10, или категории: слабо/норма/сильно) - {Критерий_N} — аспект текста для оценки (заголовок, структура, аргументация, стиль, call-to-action) - {описание} — уточни что именно проверять (например, для "Структура": логичность переходов, наличие подзаголовков) - {текст_для_оценки} — твой текст целиком

Адаптация под задачу: - Для peer review кода — критерии: читаемость, эффективность, наличие комментариев, соответствие стандартам - Для оценки презентации — критерии: цепляющий первый слайд, логика повествования, визуальная чистота, сила финала - Для проверки коммерческого предложения — критерии: понятность оффера, убедительность выгод, отсутствие барьеров, ясность next step

⚠️

Ограничения

⚠️ Domain-heavy критерии: Когда критерий требует глубокой экспертизы (например, оценка корректности методологии ML-исследования или юридическая точность договора), модель даёт менее надёжные оценки, чем на критериях формы (структура, язык). Согласованность падает на 10-15%. Для таких критериев используй LLM как первичный фильтр, окончательную оценку делай сам или с экспертом.

⚠️ Субъективные критерии: Критерии типа "креативность", "вдохновляет ли текст" — зона высокой вариативности. Даже люди не согласны между собой (в исследовании IAA по таким критериям = 0.6-0.7). LLM не хуже человека, но не жди единственно правильной оценки — используй как один из голосов.

⚠️ Противоречивые критерии: Если критерии конфликтуют (например, "краткость" vs "детальность аргументации"), модель может усреднить оценки вместо того чтобы показать trade-off. Лучше группируй противоречивые критерии в разные запросы или явно проси: "Покажи где краткость идёт в ущерб аргументации".

🔗

Ресурсы

Exposía: Academic Writing Assessment of Exposés and Peer Feedback

Датасет

Dennis Zyska, Alla Rozovskaya, Ilia Kuznetsov, Iryna Gurevych

Ubiquitous Knowledge Processing Lab (UKP Lab), Technical University of Darmstadt & Queens College CUNY


📋 Дайджест исследования

Ключевая суть

Проблема: Оцениваешь текст по 5 критериям отдельными запросами — получаешь противоречивые оценки. Структура на 8/10, но аргументация на 4/10, хотя они связаны. Метод Combined Criteria Prompting позволяет получать согласованные оценки текста по нескольким критериям одновременно. Перечисляешь все критерии в одном промпте — модель видит их взаимосвязи, калибрует оценки относительно друг друга. Одна проверка вместо пяти, оценки не противоречат.

Принцип работы

Не гоняй модель по одному критерию за раз. Дай ей полную картину сразу. Создай единое пространство оценки: перечисли все критерии (структура, язык, аргументация, призыв к действию) в одном промпте. Модель анализирует текст через призму всех аспектов одновременно — видит что качество структуры влияет на восприятие аргументации, язык влияет на ясность выводов. Для каждого критерия проси: оценку по шкале + краткое обоснование (1-2 предложения). Всё в одном запросе.

Почему работает

Когда модель оценивает критерии по отдельности (разные запросы), она теряет контекст между оценками. Результат: текст получает высокую оценку за "подход", но низкую за "методологию" — хотя они тесно связаны. При раздельной оценке модель не видит этой связи. Видя все критерии перед глазами, модель калибрует оценки относительно друг друга. Анализирует текст целиком, понимает взаимосвязи критериев. Если язык получил 9/10, то структура не будет 3/10 — модель видит общий уровень качества. Бонус: один запрос экономит токены и время. Вместо 5-10 отдельных проверок — одна.

Когда применять

Любая оценка текстов → конкретно для многокритериальной проверки (статьи, отчёты, коммерческие предложения, презентации), особенно когда критерии связаны между собой (структура влияет на аргументацию, язык на восприятие призыва). Работает для: peer review кода (читаемость, эффективность, комментарии, стандарты), проверки корпоративных текстов, оценки студенческих работ. НЕ подходит для критериев требующих глубокой экспертизы (юридическая точность договора, корректность ML-методологии) — там модель даёт менее надёжные оценки. Используй как первичный фильтр, окончательную оценку делай с экспертом.

Мини-рецепт

1. Перечисли критерии: Все аспекты оценки в одном промпте — Оцени текст по критериям: 1. Заголовок 2. Структура 3. Аргументация 4. Язык 5. Призыв к действию

2. Задай формат: Для каждого критерия — оценка по шкале (0-2, 0-10, или категории: слабо/норма/сильно) + краткое обоснование

3. Укажи что проверять: Для каждого критерия уточни аспект — например, для "Структура": логичность переходов, наличие подзаголовков

4. Добавь текст: Вставь текст целиком после списка критериев

5. Проси таблицу: Выдай результат: | Критерий | Оценка | Обоснование | — так удобнее сравнивать

Примеры

[ПЛОХО] : Пять отдельных запросов — Оцени структуру этой статьи, потом Оцени язык, потом Оцени аргументацию. Результат: противоречивые оценки, модель не видит связи между критериями.
[ХОРОШО] : Оцени статью по критериям. Для каждого: оценка 0-2 + обоснование. КРИТЕРИИ: 1. Заголовок (цепляет ли, отражает суть) 2. Структура (логика, разделы) 3. Аргументация (убедительность, примеры) 4. Язык (ясность, нет канцелярита) 5. Призыв к действию (понятен следующий шаг). ТЕКСТ: [твоя статья]. Формат: таблица. — модель видит все критерии, оценки согласованные.
Источник: Exposía: Academic Writing Assessment of Exposés and Peer Feedback
ArXiv ID: 2601.06536 | Сгенерировано: 2026-01-13 05:30

Проблемы LLM

ПроблемаСутьКак обойти
Потеря связи между оценками при раздельных запросахОцениваешь текст по критериям отдельными запросами: сначала "оцени структуру", потом "оцени аргументацию", потом "оцени язык". Модель теряет контекст между запросами. Результат: противоречивые оценки. Пример: ставит высокий балл за аргументацию, но низкий за содержание — хотя они связаны. Модель не видит что одно влияет на другое. Проблема для любых задач где критерии влияют друг на другаПомести все критерии в один запрос. Модель увидит взаимосвязи, оценки будут согласованными. Вместо 5 запросов "оцени X" делай 1 запрос "оцени по критериям: X, Y, Z, A, B"

Методы

МетодСуть
Combined criteria prompting — оценка по всем критериям сразуПеречисли все критерии оценки в одном промпте. Попроси модель оценить каждый + дать обоснование. Формат: Оцени текст по критериям: 1) [критерий] — оценка 0-N + обоснование, 2) [критерий].... Почему работает: Модель видит все критерии одновременно. Понимает связи: качество структуры влияет на восприятие аргументов, язык влияет на ясность выводов. Калибрует оценки относительно друг друга — получается единое согласованное пространство оценки. Когда применять: оцениваешь тексты, код, презентации, коммерческие предложения — любую работу по нескольким связанным критериям. Ограничение: На критериях требующих глубокую экспертизу (методология исследования, юридическая корректность) надёжность ниже — используй как первичный фильтр, окончательную оценку делай сам
📖 Простыми словами

Combined Criteria Prompting: оценка текста по всем критериям сразу

arXiv: 2601.06536

Суть тут в том, как LLM переваривает сложные задачи. Когда ты просишь нейронку оценить текст по куче параметров, у тебя есть два пути: либо дробить задачу на мелкие куски, либо вывалить всё разом. Исследование Exposía доказывает, что первый вариант — это путь в никуда. Модели работают не как конвейер с четкими этапами, а как целостный мозг. Если ты заставляешь её оценивать структуру отдельно от аргументации, она теряет общую картину и начинает выдавать рандомные цифры, которые противоречат друг другу.

Это как если бы ты пришел к врачу, и один специалист смотрел бы только на твой левый глаз, второй — на правую пятку, а третий — на уровень сахара, при этом им запретили бы разговаривать друг с другом. В итоге каждый выпишет свою таблетку, а ты в лучшем случае не вылечишься, в худшем — кони двинешь. Чтобы поставить диагноз, врачу нужно видеть весь организм целиком. Так и с текстом: единый контекст позволяет модели понять, как кривая структура убивает сильную аргументацию, и выставить адекватный балл.

Что реально работает: метод единого промпта. Вместо того чтобы мучить чат пятью разными запросами, ты даешь ему один четкий список критериев. Модель должна видеть взаимосвязи. В исследовании выяснили, что когда LLM оценивает всё скопом, она перестает лажать в элементарных вещах — например, больше не ставит «отлично» за общую логику и «неуд» за методологию в одном и том же тексте. Согласованность оценок вырастает в разы, потому что нейронка наконец-то понимает, что одно вытекает из другого.

Тестировали это на скучных академических работах и отзывах студентов, но принцип универсален. Это касается любого сложного контента: от постов в телегу до годовых отчетов и бизнес-планов. Если тебе нужно прогнать статью через AI-редактора, не спрашивай его сначала про ошибки, а потом про стиль. Пихай всё в один запрос: «Оцени заголовок, структуру и пользу для читателя». SEO-анализ, редактура, проверка фактов — везде, где есть больше одного критерия, раздельный подход — это полный провал.

Короче: забудь про микро-менеджмент нейронок. Чем больше ты дробишь задачу на отдельные запросы, тем больше шансов, что модель начнет галлюцинировать или противоречить сама себе. Один промпт — все критерии — это единственный способ получить адекватную обратную связь. Либо ты даешь модели видеть всю картину, либо получаешь набор бессвязных цифр, которые формально верны, но бесполезны на практике. Кто экономит промпты и время на контексте, тот в итоге переделывает работу дважды.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с