3,583 papers
arXiv:2603.08256 74 9 мар. 2026 г. FREE

Structured Prompting with Decision Rules: как получить калиброванную оценку от LLM через явные правила

КЛЮЧЕВАЯ СУТЬ
Попросишь LLM оценить текст — получишь «3» или «4». Почти всегда. Модель не уклоняется специально: она генерирует статистически «безопасный» ответ без ориентиров — и середина шкалы выглядит разумнее крайностей. Метод Structured Prompting with Decision Rules позволяет получать реальный разброс оценок — 1, 2, 4, 5 — там где раньше была каша из нейтральных «троек». Работает через два хода: разбиваешь объект на компоненты (контекст, основа, финал) и добавляешь жёсткие правила — «если финал противоречит критерию, оценка не выше 2». Модель больше не может схлопнуться в нейтральное: правила создают твёрдые границы, которые она соблюдает.
Адаптировать под запрос

TL;DR

Структурированный промпт с правилами решения — техника, которая разбивает любую задачу оценки на компоненты и добавляет явные правила калибровки типа «если финал противоречит — ставь 1 или 2». Вместо примеров (few-shot) — структура и ограничения.

Когда просишь модель оценить что-то по шкале 1–5, она часто лепит средние значения. Всё получает 3–4, крайние оценки почти не появляются. Причина: модель не знает, что именно переводит «неплохо» в «отлично» или «провал», и усредняет. Это не баг — это то, как модель генерирует текст по паттерну без явных ориентиров.

Метод решает это в два хода. Сначала — разбивает объект оценки на части (начало/контекст, ключевой фрагмент, финал) и просит оценить каждую отдельно. Потом — добавляет жёсткие правила: при каком условии оценка не может быть выше 2, что требуется для 5. Это убирает размытость и заставляет модель занимать позицию.


🔬

Схема метода

Один промпт, три блока:

БЛОК 1: Роль
  → "Ты беспристрастный эксперт-оценщик, суди только по тексту"

БЛОК 2: Компонентная оценка (всё в одном запросе)
  → Оцени КОНТЕКСТ: поддерживает ли начало {критерий}?
  → Оцени ОСНОВНУЮ ЧАСТЬ: подтверждает ли центральный фрагмент {критерий}?
  → Оцени ФИНАЛ: это главный источник — подтверждает или опровергает?

БЛОК 3: Правила калибровки
  → Если финал явно опровергает → оценка 1 или 2
  → Если сигналы смешанные → выбирай нижнюю допустимую оценку
  → Оценка 5 только при явном подтверждении везде + нет противоречий

ВЫВОД: единая оценка 1–5 с обоснованием

🚀

Пример применения

Задача: Ты отправил питч-деку стартапа в венчурный фонд. Нужно понять, насколько убедительно в тексте представлено решение проблемы — прежде чем звонить инвестору.

Промпт:

Ты — беспристрастный эксперт по венчурным инвестициям. Оцени, 
насколько убедительно питч-дека доказывает, что команда понимает 
проблему клиента и предлагает работающее решение. Шкала: 1 (совсем 
не убедительно) до 5 (безупречно).

Оценивай компоненты по очереди:

1. КОНТЕКСТ (слайды 1–3 о проблеме): создаёт ли описание проблемы 
ощущение реальной боли? Есть ли конкретика — цифры, истории, 
сегмент рынка?

2. РЕШЕНИЕ (слайды 4–6 о продукте): насколько логично решение 
вытекает из проблемы? Понятно ли, почему именно этот подход, 
а не очевидные альтернативы?

3. ДОКАЗАТЕЛЬСТВА (слайды 7+ — трекшн, отзывы, метрики): 
это главный источник — есть ли реальные подтверждения спроса? 
Клиенты? Доход? Пилоты?

Правила калибровки:
— Если раздел с доказательствами пуст или содержит только 
  гипотезы — оценка не выше 2.
— Если сигналы смешанные (проблема описана хорошо, но решение 
  размыто) — выбирай нижнюю из допустимых оценок.
— Оценка 5 только если все три компонента убедительны и 
  нет внутренних противоречий между ними.

Основывай суждение только на тексте питч-деки. Без домыслов.

Текст питч-деки:
[вставь текст]

Результат: Модель пройдёт по трём компонентам последовательно: даст оценку каждого с обоснованием. Финальный вывод будет чётко привязан к правилам — если доказательства слабые, оценка не уплывёт в нейтральное «3». Получишь структурированный разбор, не общие слова.


🧠

Почему это работает

LLM без ориентиров усредняет. Когда спрашиваешь «оцени это по шкале 1–5», модель генерирует текст, который статистически выглядит как «разумная оценка». Крайние значения редки — они требуют уверенности, которую модель не берёт без оснований.

Модель хорошо следует явным правилам. Если написать «при условии X — оценка не выше 2», модель соблюдает это стабильно. Это сильная сторона: способность удерживать ограничения в тексте и применять их через рассуждение.

Компонентная разбивка убирает «мусорную корзину». Когда оцениваешь всё сразу, плохой финал может «спрятаться» за хорошим началом. Отдельная оценка каждого компонента вынуждает модель зафиксировать слабое место — потом правило его поднимет. Что важно: финал (заключение, последний слайд, развязка) получает статус главного источника доказательств — это отдельная инструкция в промпте, не просто порядок вопросов.

Рычаги управления: - Веса компонентов — добавь "финал важнее всего, начало имеет меньший вес" → перераспределяешь акцент - Строгость правил — замени "выше 2" на "выше 3" → ужесточаешь стандарт - Число компонентов — не обязательно три, можно два или пять под свою задачу - Роль — "беспристрастный" vs "скептичный инвестор" → меняет тон и строгость


📋

Шаблон промпта

Ты — беспристрастный эксперт по {область экспертизы}. Оцени, 
насколько {критерий оценки} на шкале от 1 до 5.

1 = {описание минимума}
5 = {описание максимума}

Оценивай компоненты по очереди:

1. {НАЗВАНИЕ КОМПОНЕНТА 1} ({что это такое}): 
   {конкретный вопрос для этого компонента}?

2. {НАЗВАНИЕ КОМПОНЕНТА 2} ({что это такое}): 
   {конкретный вопрос для этого компонента}?

3. {НАЗВАНИЕ КОМПОНЕНТА 3} ({что это такое}) — 
   это главный источник доказательств: 
   {конкретный вопрос для этого компонента}?

Правила калибровки:
— Если {компонент 3} явно {противоречит критерию} — оценка не выше 2.
— Если сигналы смешанные или неоднозначные — выбирай нижнюю 
  из допустимых оценок.
— Оценка 5 только при явном подтверждении во всех трёх компонентах 
  и отсутствии противоречий.

Основывай суждение только на предоставленном тексте, без домыслов.

{Объект оценки}:
{вставь текст/описание}

Что подставлять: - {область экспертизы} — венчурные инвестиции, контент-маркетинг, HR, копирайтинг - {критерий оценки} — убедительность питча, качество аргументации, ясность текста - Три компонента — начало/контекст, ключевая часть, финал/доказательства - Правила — настраивай под свою шкалу строгости


🚀 Быстрый старт — вставь в чат:

Вот шаблон Structured Prompting with Decision Rules. 
Адаптируй под мою задачу: [опиши задачу].
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит какой объект оцениваешь, по каким компонентам его логично разбить, и какой критерий финала самый важный — потому что структура метода держится именно на этих трёх вещах. Она возьмёт паттерн из шаблона и адаптирует под задачу.


⚠️

Ограничения

⚠️ Субъективные критерии: Метод хуже калибруется, когда нет чёткого «правильного» ответа — например, «оцени оригинальность идеи». Правила работают, когда критерий можно сформулировать как проверяемый факт.

⚠️ Конфликт компонентов: Если начало сильно праймит одно, а финал говорит другое — модель иногда перевешивает в пользу первого. Особенно при очень ярком, насыщенном контексте в начале. Это системная проблема: добавь явное правило «финал имеет приоритет над контекстом».

⚠️ Дискретизация: Модель выдаёт целые числа (1, 2, 3...), а реальные оценки часто лежат между ними (2.7, 4.3). Для тонкой градации добавь разрешение использовать .5 шаги.

⚠️ Масштаб модели важен: Маленькие модели (условно — бесплатные или слабые) с этим промптом справляются значительно хуже. Метод раскрывается на сильных моделях.


🔍

Как исследовали

Команда взяла датасет AmbiStory — 3800 коротких английских рассказов с намеренно двусмысленными словами (например, ring может быть и «кольцо», и «звонок»). Задача: предсказать, насколько люди считают правдоподобным конкретное значение слова в этом рассказе — по шкале 1–5. Каждый рассказ оценивали минимум пять человек, итоговая метка — среднее.

Исследователи прогнали три подхода: простые векторные сходства, тонкую настройку модели (fine-tuning) и промптинг GPT. Интересная деталь дизайна: они специально выбирали few-shot примеры с нулевым разбросом оценщиков — то есть самые однозначные случаи, чтобы не «путать» модель спорными примерами.

Главный сюрприз: GPT-4o со структурированным промптом обошёл дообученные модели, хотя те специально оптимизировались под задачу. И ещё один: GPT-4o обошёл GPT-5.2 при одинаковом промпте — новее не значит лучше для конкретной задачи с чётко заданной структурой. Это прямо говорит: инвестируй в промпт, не в версию модели.


💡

Адаптации и экстраполяции

🔧 Техника: Инвертировать приоритет компонентов → переключить акцент анализа

В оригинале финал — главный источник доказательств. Для других задач это не всегда так. Пример: оцениваешь CV кандидата — там «финал» (последнее место работы) часто менее важен, чем общий трек (средний компонент). Просто переназначь приоритет в инструкции: "Опыт работы — главный источник доказательств, образование и хобби имеют меньший вес."

🔧 Техника: Добавить явное правило для граничных оценок → убрать «магнит» средних значений

Если задача требует чаще использовать крайние оценки (экспертный review, жёсткий отбор), добавь: "Оценка 3 допустима только если компоненты действительно равнозначно смешаны. Не используй 3 как 'дефолт'."

Комбинация с методом ролевых дебатов: Если нужна оценка с нескольких точек зрения — запусти P2-структуру дважды от разных ролей:

Запрос 1 (тот же промпт): Роль — скептичный инвестор Александр.
  [Применяешь P2-структуру]

Запрос 2 (тот же промпт): Роль — оптимистичный ментор Мария.
  [Применяешь P2-структуру]

Запрос 3: "Обе оценки перед тобой. Найди расхождения. 
  Дай финальную оценку с учётом обеих позиций."

Это не из статьи — но принцип компонентной оценки + правила одинаково хорошо работают в мультиагентном режиме.


🔗

Ресурсы

NCL-UoR at SemEval-2026 Task 5: Embedding-Based Methods, Fine-Tuning, and LLMs for Word Sense Plausibility Rating Код: github.com/tongwu17/SemEval-2026-Task5 Датасет: AmbiStory (Gehring & Roth, 2025) Авторы: Tong Wu (Independent Researcher), Thanet Markchom (University of Reading), Huizhi Liang (Newcastle University)


📋 Дайджест исследования

Ключевая суть

Попросишь LLM оценить текст — получишь «3» или «4». Почти всегда. Модель не уклоняется специально: она генерирует статистически «безопасный» ответ без ориентиров — и середина шкалы выглядит разумнее крайностей. Метод Structured Prompting with Decision Rules позволяет получать реальный разброс оценок — 1, 2, 4, 5 — там где раньше была каша из нейтральных «троек». Работает через два хода: разбиваешь объект на компоненты (контекст, основа, финал) и добавляешь жёсткие правила — «если финал противоречит критерию, оценка не выше 2». Модель больше не может схлопнуться в нейтральное: правила создают твёрдые границы, которые она соблюдает.

Принцип работы

Без ориентиров модель усредняет. С явными правилами — вынуждена занять позицию. Прикол: компонентная разбивка не даёт слабой части спрятаться за сильной. Плохой финал оценивается отдельно — и тогда правило «финал противоречит → не выше 2» срабатывает точно, а не тонет в общем впечатлении. Три компонента — контекст, основная часть, финал — оцениваются по очереди в одном промпте. Финал получает особый статус: «это главный источник доказательств» — отдельная инструкция, не просто порядок вопросов. Потом правила сводят всё к итоговой цифре.

Почему работает

LLM хорошо держит явные ограничения в тексте. Напишешь «при условии X — не выше 2» — модель применяет это стабильно. Это сильная сторона архитектуры: правила обрабатываются как часть контекста и давят на генерацию следующего токена. Ключевой момент: разбивка убирает «эффект усреднения по набору». Слабый финал уже не тонет в хорошем начале — он всплывает как отдельная оценка с привязкой к правилу. Без компонентной разбивки даже с правилами модель может «не заметить» слабый элемент — потому что тот растворился в общем впечатлении. Разбивка — не для красоты, а чтобы слабое место стало видимым.

Когда применять

Любые задачи оценки, где критерий можно сформулировать как проверяемый факт: питч-деки, статьи и лонгриды, резюме кандидатов, коммерческие предложения, маркетинговые тексты. Особенно хорошо — когда финал или заключение несёт основной вес (вывод, аргументация, призыв к действию). НЕ подходит для чисто субъективных критериев типа «оцени оригинальность идеи» — правила работают только когда критерий привязан к чему-то конкретному в тексте, что можно найти или не найти.

Мини-рецепт

1. Сформулируй критерий как проверяемый факт: не «насколько хорошо написано», а «насколько убедительно доказывает X».
2. Раздели объект на три части — контекст/начало, основная часть, финал/доказательства.
3. Финалу дай особый статус прямой инструкцией: «это главный источник доказательств».
4. Добавь три правила: условие для оценки не выше 2 (финал противоречит), поведение при смешанных сигналах (бери нижнюю), условие для 5 (все компоненты убедительны, нет противоречий).
5. Задай роль «беспристрастного эксперта» — снижает тягу к мягким оценкам.
6. Попроси дать обоснование по каждому компоненту — сразу видно, применила ли модель правило или обошла его.

Примеры

[ПЛОХО] : Оцени мой питч по шкале 1-5 и скажи что можно улучшить. Вот текст: [текст]
[ХОРОШО] : Ты — беспристрастный эксперт по инвестициям. Оцени, насколько убедительно питч доказывает, что команда понимает проблему клиента и предлагает работающее решение. Шкала: 1 = совсем не убедительно, 5 = безупречно. Оценивай компоненты по очереди: 1. ОПИСАНИЕ ПРОБЛЕМЫ (слайды 1–3): есть ли конкретика — цифры, сегмент, настоящая боль клиента? 2. РЕШЕНИЕ (слайды 4–6): логично ли вытекает из проблемы? Ясно ли, почему именно этот подход? 3. ДОКАЗАТЕЛЬСТВА (слайды 7+) — это главный источник: есть ли реальные клиенты, выручка, пилоты? Правила: — Если раздел с доказательствами пуст или содержит только гипотезы — оценка не выше 2. — Если сигналы смешанные — выбирай нижнюю из допустимых оценок. — Оценка 5 только если все три компонента убедительны и нет внутренних противоречий. Основание — только на тексте. Текст: [вставь текст] Модель пройдёт по трём компонентам, зафиксирует каждый отдельно и не уйдёт в нейтральное «3» если доказательства слабые — правило не даст.
Источник: NCL-UoR at SemEval-2026 Task 5: Embedding-Based Methods, Fine-Tuning, and LLMs for Word Sense Plausibility Rating
ArXiv ID: 2603.08256 | Сгенерировано: 2026-03-10 06:25

Проблемы LLM

ПроблемаСутьКак обойти
Модель избегает крайних оценок на шкалахПросишь оценить по шкале 1–5. Получаешь 3 или 4. Почти всегда. Единица и пятёрка почти не появляются. Модель генерирует "статистически разумный" ответ — а крайние значения статистически редки. Без явных ориентиров модель не знает что переводит "неплохо" в "провал" или "идеально". Это универсально: оценка текста, питча, аргумента, резюме — везде одинаковоДобавь явные условия для крайних оценок прямо в запрос. Пиши не просто "оцени от 1 до 5", а "оценка 1–2 если финал противоречит, оценка 5 только если все компоненты подтверждают и нет противоречий". Условие "не выше X при Y" модель соблюдает стабильно

Методы

МетодСуть
Разбивка + правила — калиброванная оценка по шкалеОдин запрос, три блока. Блок 1 — роль: "беспристрастный эксперт, суди только по тексту". Блок 2 — разбивка объекта: попроси оценить начало, ключевую часть и финал отдельно. Финалу дай статус главного источника: "это основное доказательство". Блок 3 — правила: Если финал противоречит не выше 2. Если сигналы смешанные выбирай нижнюю оценку. Оценка 5 только если все три компонента подтверждают. Почему работает. Разбивка не даёт слабому финалу спрятаться за сильным началом. Правила убирают размытость — модель видит условие и занимает позицию. Рычаги настройки: меняй строгость правил (не выше 2 не выше 3), число компонентов (два, пять — любое), вес компонентов (финал важнее начала). Ограничения: на слабых моделях работает хуже. Плохо калибруется для субъективных критериев без проверяемых фактов ("оцени оригинальность")
📖 Простыми словами

NCL-UoR at SemEval-2026 Task 5: Embedding-Based Methods, Fine-Tuning, andLLMsfor Word Sense Plausibility Rating

arXiv: 2603.08256

Суть в том, что современные нейронки при оценке чего-либо ведут себя как неуверенные отличники: они боятся ставить крайние баллы и всегда стремятся к «троечке» или «четверочке». Это происходит потому, что LLM работают на статистических вероятностях, а средние значения в данных встречаются чаще всего. Чтобы заставить модель реально различать нюансы смысла, исследователи из NCL-UoR предложили структурированный промпт с правилами калибровки, который буквально за руку ведет модель через логические фильтры, не давая ей скатиться в усреднение.

Это как если бы ты пришел к врачу и спросил: «Насколько мне плохо?». Обычный врач пожмет плечами и скажет: «Ну, бывает и хуже». Метод из статьи — это жесткий медицинский протокол: сначала проверь температуру, потом давление, если оба в норме, но болит бок — ставь «двойку», если есть жар — «пятерку». Вместо того чтобы надеяться на интуицию модели, ей дают алгоритм отсечения, где финальный балл жестко привязан к конкретным признакам, а не к «ощущениям» нейросети.

В основе лежат три кита: структура задачи, компоненты оценки и правила калибровки. Вместо того чтобы просто показывать примеры (техника few-shot), которые часто только путают модель, авторы внедрили явные ограничения. Например, если в тексте есть логическое противоречие, модель обязана ставить 1 или 2, даже если остальной текст выглядит красиво. Это превращает оценку из гадания на кофейной гуще в строгую инспекцию, где каждый балл обоснован набором выполненных или нарушенных правил.

Хотя метод тестировали на лингвистических задачах, принцип универсален. Его можно и нужно втыкать в любую автоматизацию: от оценки питч-деков стартапов до проверки качества ответов техподдержки. Если тебе нужно, чтобы AI не просто выдавал «норм», а реально находил слабые места в аргументации или проверял текст на соответствие гайдлайнам, структурированная калибровка — единственный способ получить адекватный результат. SEO-копирайтинг и пустые тексты этот метод вскрывает на раз-два, потому что они не проходят через сито жестких критериев.

Короче: хватит просить нейронку «оценить текст» — она выдаст тебе вежливую фигню. Нужно внедрять структурированные правила и калибровку, которые заставляют модель работать как беспристрастный судья, а не как лояльный копирайтер. 10 из 10 по шкале полезности, если хочешь, чтобы AI перестал лажать в аналитике и начал выдавать цифры, на которые реально можно опереться в бизнесе. Кто не научит свои промпты калибровке, тот так и будет получать среднюю температуру по больнице.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с