TL;DR
Структурированный промпт с правилами решения — техника, которая разбивает любую задачу оценки на компоненты и добавляет явные правила калибровки типа «если финал противоречит — ставь 1 или 2». Вместо примеров (few-shot) — структура и ограничения.
Когда просишь модель оценить что-то по шкале 1–5, она часто лепит средние значения. Всё получает 3–4, крайние оценки почти не появляются. Причина: модель не знает, что именно переводит «неплохо» в «отлично» или «провал», и усредняет. Это не баг — это то, как модель генерирует текст по паттерну без явных ориентиров.
Метод решает это в два хода. Сначала — разбивает объект оценки на части (начало/контекст, ключевой фрагмент, финал) и просит оценить каждую отдельно. Потом — добавляет жёсткие правила: при каком условии оценка не может быть выше 2, что требуется для 5. Это убирает размытость и заставляет модель занимать позицию.
Схема метода
Один промпт, три блока:
БЛОК 1: Роль
→ "Ты беспристрастный эксперт-оценщик, суди только по тексту"
БЛОК 2: Компонентная оценка (всё в одном запросе)
→ Оцени КОНТЕКСТ: поддерживает ли начало {критерий}?
→ Оцени ОСНОВНУЮ ЧАСТЬ: подтверждает ли центральный фрагмент {критерий}?
→ Оцени ФИНАЛ: это главный источник — подтверждает или опровергает?
БЛОК 3: Правила калибровки
→ Если финал явно опровергает → оценка 1 или 2
→ Если сигналы смешанные → выбирай нижнюю допустимую оценку
→ Оценка 5 только при явном подтверждении везде + нет противоречий
ВЫВОД: единая оценка 1–5 с обоснованием
Пример применения
Задача: Ты отправил питч-деку стартапа в венчурный фонд. Нужно понять, насколько убедительно в тексте представлено решение проблемы — прежде чем звонить инвестору.
Промпт:
Ты — беспристрастный эксперт по венчурным инвестициям. Оцени,
насколько убедительно питч-дека доказывает, что команда понимает
проблему клиента и предлагает работающее решение. Шкала: 1 (совсем
не убедительно) до 5 (безупречно).
Оценивай компоненты по очереди:
1. КОНТЕКСТ (слайды 1–3 о проблеме): создаёт ли описание проблемы
ощущение реальной боли? Есть ли конкретика — цифры, истории,
сегмент рынка?
2. РЕШЕНИЕ (слайды 4–6 о продукте): насколько логично решение
вытекает из проблемы? Понятно ли, почему именно этот подход,
а не очевидные альтернативы?
3. ДОКАЗАТЕЛЬСТВА (слайды 7+ — трекшн, отзывы, метрики):
это главный источник — есть ли реальные подтверждения спроса?
Клиенты? Доход? Пилоты?
Правила калибровки:
— Если раздел с доказательствами пуст или содержит только
гипотезы — оценка не выше 2.
— Если сигналы смешанные (проблема описана хорошо, но решение
размыто) — выбирай нижнюю из допустимых оценок.
— Оценка 5 только если все три компонента убедительны и
нет внутренних противоречий между ними.
Основывай суждение только на тексте питч-деки. Без домыслов.
Текст питч-деки:
[вставь текст]
Результат: Модель пройдёт по трём компонентам последовательно: даст оценку каждого с обоснованием. Финальный вывод будет чётко привязан к правилам — если доказательства слабые, оценка не уплывёт в нейтральное «3». Получишь структурированный разбор, не общие слова.
Почему это работает
LLM без ориентиров усредняет. Когда спрашиваешь «оцени это по шкале 1–5», модель генерирует текст, который статистически выглядит как «разумная оценка». Крайние значения редки — они требуют уверенности, которую модель не берёт без оснований.
Модель хорошо следует явным правилам. Если написать «при условии X — оценка не выше 2», модель соблюдает это стабильно. Это сильная сторона: способность удерживать ограничения в тексте и применять их через рассуждение.
Компонентная разбивка убирает «мусорную корзину». Когда оцениваешь всё сразу, плохой финал может «спрятаться» за хорошим началом. Отдельная оценка каждого компонента вынуждает модель зафиксировать слабое место — потом правило его поднимет. Что важно: финал (заключение, последний слайд, развязка) получает статус главного источника доказательств — это отдельная инструкция в промпте, не просто порядок вопросов.
Рычаги управления: - Веса компонентов — добавь "финал важнее всего, начало имеет меньший вес" → перераспределяешь акцент - Строгость правил — замени "выше 2" на "выше 3" → ужесточаешь стандарт - Число компонентов — не обязательно три, можно два или пять под свою задачу - Роль — "беспристрастный" vs "скептичный инвестор" → меняет тон и строгость
Шаблон промпта
Ты — беспристрастный эксперт по {область экспертизы}. Оцени,
насколько {критерий оценки} на шкале от 1 до 5.
1 = {описание минимума}
5 = {описание максимума}
Оценивай компоненты по очереди:
1. {НАЗВАНИЕ КОМПОНЕНТА 1} ({что это такое}):
{конкретный вопрос для этого компонента}?
2. {НАЗВАНИЕ КОМПОНЕНТА 2} ({что это такое}):
{конкретный вопрос для этого компонента}?
3. {НАЗВАНИЕ КОМПОНЕНТА 3} ({что это такое}) —
это главный источник доказательств:
{конкретный вопрос для этого компонента}?
Правила калибровки:
— Если {компонент 3} явно {противоречит критерию} — оценка не выше 2.
— Если сигналы смешанные или неоднозначные — выбирай нижнюю
из допустимых оценок.
— Оценка 5 только при явном подтверждении во всех трёх компонентах
и отсутствии противоречий.
Основывай суждение только на предоставленном тексте, без домыслов.
{Объект оценки}:
{вставь текст/описание}
Что подставлять:
- {область экспертизы} — венчурные инвестиции, контент-маркетинг, HR, копирайтинг
- {критерий оценки} — убедительность питча, качество аргументации, ясность текста
- Три компонента — начало/контекст, ключевая часть, финал/доказательства
- Правила — настраивай под свою шкалу строгости
🚀 Быстрый старт — вставь в чат:
Вот шаблон Structured Prompting with Decision Rules.
Адаптируй под мою задачу: [опиши задачу].
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит какой объект оцениваешь, по каким компонентам его логично разбить, и какой критерий финала самый важный — потому что структура метода держится именно на этих трёх вещах. Она возьмёт паттерн из шаблона и адаптирует под задачу.
Ограничения
⚠️ Субъективные критерии: Метод хуже калибруется, когда нет чёткого «правильного» ответа — например, «оцени оригинальность идеи». Правила работают, когда критерий можно сформулировать как проверяемый факт.
⚠️ Конфликт компонентов: Если начало сильно праймит одно, а финал говорит другое — модель иногда перевешивает в пользу первого. Особенно при очень ярком, насыщенном контексте в начале. Это системная проблема: добавь явное правило «финал имеет приоритет над контекстом».
⚠️ Дискретизация: Модель выдаёт целые числа (1, 2, 3...), а реальные оценки часто лежат между ними (2.7, 4.3). Для тонкой градации добавь разрешение использовать .5 шаги.
⚠️ Масштаб модели важен: Маленькие модели (условно — бесплатные или слабые) с этим промптом справляются значительно хуже. Метод раскрывается на сильных моделях.
Как исследовали
Команда взяла датасет AmbiStory — 3800 коротких английских рассказов с намеренно двусмысленными словами (например, ring может быть и «кольцо», и «звонок»). Задача: предсказать, насколько люди считают правдоподобным конкретное значение слова в этом рассказе — по шкале 1–5. Каждый рассказ оценивали минимум пять человек, итоговая метка — среднее.
Исследователи прогнали три подхода: простые векторные сходства, тонкую настройку модели (fine-tuning) и промптинг GPT. Интересная деталь дизайна: они специально выбирали few-shot примеры с нулевым разбросом оценщиков — то есть самые однозначные случаи, чтобы не «путать» модель спорными примерами.
Главный сюрприз: GPT-4o со структурированным промптом обошёл дообученные модели, хотя те специально оптимизировались под задачу. И ещё один: GPT-4o обошёл GPT-5.2 при одинаковом промпте — новее не значит лучше для конкретной задачи с чётко заданной структурой. Это прямо говорит: инвестируй в промпт, не в версию модели.
Адаптации и экстраполяции
🔧 Техника: Инвертировать приоритет компонентов → переключить акцент анализа
В оригинале финал — главный источник доказательств. Для других задач это не всегда так. Пример: оцениваешь CV кандидата — там «финал» (последнее место работы) часто менее важен, чем общий трек (средний компонент). Просто переназначь приоритет в инструкции: "Опыт работы — главный источник доказательств, образование и хобби имеют меньший вес."
🔧 Техника: Добавить явное правило для граничных оценок → убрать «магнит» средних значений
Если задача требует чаще использовать крайние оценки (экспертный review, жёсткий отбор), добавь: "Оценка 3 допустима только если компоненты действительно равнозначно смешаны. Не используй 3 как 'дефолт'."
Комбинация с методом ролевых дебатов: Если нужна оценка с нескольких точек зрения — запусти P2-структуру дважды от разных ролей:
Запрос 1 (тот же промпт): Роль — скептичный инвестор Александр.
[Применяешь P2-структуру]
Запрос 2 (тот же промпт): Роль — оптимистичный ментор Мария.
[Применяешь P2-структуру]
Запрос 3: "Обе оценки перед тобой. Найди расхождения.
Дай финальную оценку с учётом обеих позиций."
Это не из статьи — но принцип компонентной оценки + правила одинаково хорошо работают в мультиагентном режиме.
Ресурсы
NCL-UoR at SemEval-2026 Task 5: Embedding-Based Methods, Fine-Tuning, and LLMs for Word Sense Plausibility Rating Код: github.com/tongwu17/SemEval-2026-Task5 Датасет: AmbiStory (Gehring & Roth, 2025) Авторы: Tong Wu (Independent Researcher), Thanet Markchom (University of Reading), Huizhi Liang (Newcastle University)
