3,583 papers
arXiv:2512.19620 68 22 дек. 2025 г. FREE

Hint Strategy: явные критерии оценки улучшают работу GPT как судьи

КЛЮЧЕВАЯ СУТЬ
Hint Strategy — добавление в промпт явных критериев оценки, когда просишь GPT оценить качество текста. Вместо "оцени релевантность резюме" пишешь "оцени релевантность, обрати внимание на: сложность слов, предсказуемость текста, разнообразие лексики, близость к исходному тексту".
Адаптировать под запрос

TL;DR

Hint Strategy — добавление в промпт явных критериев оценки, когда просишь GPT оценить качество текста. Вместо "оцени релевантность резюме" пишешь "оцени релевантность, обрати внимание на: сложность слов, предсказуемость текста, разнообразие лексики, близость к исходному тексту".

Исследователи изучали, какие характеристики текста влияют на оценки людей и GPT при проверке качества суммаризаций (резюме длинных текстов). Оказалось, что GPT и люди оценивают по-разному: GPT сильно полагается на статистические паттерны — энтропию, перплексность (насколько текст предсказуем), разнообразие слов. Люди тоже учитывают эти факторы, но для разных критериев важны разные вещи. Например, для релевантности (насколько резюме отражает исходный текст) важна сложность отдельных слов, а для связности (coherence) — характеристики предложений целиком.

Когда в промпт добавили подсказку о том, какие метрики важны для людей, корреляция между оценками GPT и людей выросла. Не драматически (с 0.41 до 0.42 по Пирсону для релевантности), но стабильно для всех моделей. GPT стала оценивать чуть ближе к тому, как оценивают люди.


🔬

Схема метода

СТАНДАРТНЫЙ ПРОМПТ:
Запрос → "Оцени текст по [критерию]" → GPT даёт оценку

HINT STRATEGY:
Запрос → "Оцени текст по [критерию]" 
       + "Обрати внимание на: [список конкретных метрик]"
       → GPT даёт оценку с учётом подсказок

Выполняется в одном промпте.


🚀

Пример применения

Задача: Ты готовишь питч-дек для инвесторов про новый сервис доставки. Написал executive summary на страницу. Хочешь проверить, насколько он отражает главное из полного бизнес-плана на 15 страниц.

Промпт:

Оцени насколько это резюме релевантно исходному бизнес-плану по шкале 1-5.

Обрати внимание на:
- Сложность и доступность формулировок (инвестор должен понять с первого раза)
- Предсказуемость и логичность изложения 
- Разнообразие используемых терминов (не должно быть повторов)
- Насколько близко резюме к ключевым пунктам плана

Исходный бизнес-план:
[вставить полный текст]

Резюме для питч-дека:
[вставить executive summary]

Результат:

GPT выдаст оценку от 1 до 5 с объяснением — какие аспекты сильные, какие слабые. Покажет конкретно: где формулировки слишком сложные, где логика проседает, какие ключевые пункты плана не попали в резюме.


🧠

Почему это работает

Слабость GPT: Когда просишь "оцени качество", GPT опирается на внутренние статистические паттерны — энтропию, перплексность, частотность слов. Это работает, но не всегда совпадает с тем, что важно человеку. GPT может посчитать текст "хорошим" потому что он предсказуем, а человеку важна конкретика или эмоциональность.

Сильная сторона GPT: Модель отлично следует явным инструкциям. Если сказать "обрати внимание на X, Y, Z" — она сместит фокус с дефолтных статистических метрик на заданные критерии.

Как метод использует это: Hint Strategy делает критерии оценки явными вместо неявных. Ты не надеешься что GPT угадает "правильную" шкалу оценки, а задаёшь её сам. По сути, это способ выровнять внутреннюю механику GPT с твоими ожиданиями.

Рычаги управления:

  • Список метрик — меняй под задачу: для креативного текста важно разнообразие, для инструкции — простота и предсказуемость
  • Формулировки критериев — "предсказуемость изложения" vs "логичность аргументов" — разные слова направят GPT на разные аспекты
  • Количество критериев — 3-5 оптимально, больше 7 — GPT может запутаться в приоритетах

📋

Шаблон промпта

Оцени {текст} по критерию {критерий оценки} по шкале {1-5 / 1-10 / низкий-средний-высокий}.

Обрати внимание на:
- {критерий_1}
- {критерий_2}
- {критерий_3}
- {критерий_4}

{Исходный текст для контекста (если нужен)}:
[текст]

{Текст для оценки}:
[текст]

Что подставлять:

  • {текст} — что оцениваем: резюме, статью, описание товара, email
  • {критерий оценки} — релевантность, связность, убедительность, читабельность
  • {критерий_1-4} — конкретные аспекты, важные для ЭТОГО критерия:
    • Для релевантности: сложность слов, близость к исходнику, полнота ключевых пунктов
    • Для связности: логика переходов, структура предложений, единство стиля
    • Для убедительности: конкретика, аргументы, эмоциональный тон

⚠️

Ограничения

⚠️ Эффект небольшой: Корреляция с человеческими оценками выросла на 1-5%, не на 50%. Это улучшение, но не революция.

⚠️ Нужно знать правильные метрики: Подсказки работают, только если ты понимаешь ЧТО важно для твоей задачи. Если дашь неправильные критерии — получишь неправильную оценку.

⚠️ Субъективные критерии проблематичны: Метод лучше работает для измеримых вещей (сложность слов, длина предложений), хуже для абстрактных (креативность, эмоциональность).

⚠️ Не заменяет человека: GPT с подсказками оценивает ближе к людям, но не идентично. Для финальной проверки текстов, где цена ошибки высока (юридические документы, медицинские тексты, публичные заявления) — нужна человеческая проверка.


🔍

Как исследовали

Команда из Dalhousie University взяла датасет SummEval — 100 новостных статей с сгенерированными резюме, каждое оценено людьми по релевантности и связности. Сначала попросили разные версии GPT (GPT-4-0613, GPT-4o-mini, GPT-4.1-nano, GPT-4.1-mini) оценить те же резюме по тем же критериям, используя chain-of-thought промптинг. Посчитали корреляцию между оценками GPT и людей — получилось 0.41 для релевантности, 0.21 для связности (по Пирсону). Не очень высоко.

Параллельно посчитали 9 метрик читабельности (Flesch Reading Ease, Gunning Fog, количество сложных слов и т.д.) и 4 метрики из теории информации (энтропия, перплексность, Gini-индекс разнообразия, косинусная близость к исходнику). Измерили корреляцию каждой метрики с оценками людей и GPT.

Самое интересное: и для людей, и для GPT максимальную корреляцию показала conditional perplexity — насколько текст резюме предсказуем с учётом исходной статьи. Это значит оба судьи (человек и GPT) учитывают "насколько логично резюме следует из исходника". Но паттерны отличаются: - Для релевантности люди больше смотрят на отдельные слова (сложность, количество) - Для связности люди больше смотрят на предложения целиком (индекс Ганнинга, автоматическая читабельность) - GPT использует похожие метрики для обоих критериев, не различает так сильно

Потом добавили в промпт секцию "Hint" со списком топ-метрик, которые важны для людей (для релевантности: энтропия, перплексность, Gini, количество слогов, сложных слов, близость к исходнику; для связности: перплексность, Flesch-Kincaid, Gunning Fog, автоматическая читабельность). Корреляция выросла на 1-5 процентных пунктов для всех моделей. Самый сильный эффект у GPT-4.1-nano (с 0.35 до 0.40 для связности). Это подтвердило гипотезу: явные критерии сдвигают GPT к человеческой логике оценки.

Логика выводов: GPT — вероятностная модель, она изначально опирается на статистические паттерны. Когда мы говорим "оцени связность" без уточнений, GPT применяет свои внутренние веса. Когда добавляем "обрати внимание на длину предложений, индекс Ганнинга" — мы перенаправляем её внимание на те аспекты, которые важны людям для этого конкретного критерия. Это не магия, а управление приоритетами модели.


📌

Адаптации

📌

🔧 Техника: Попросить GPT самой назвать критерии

Вместо того чтобы самому придумывать метрики, можешь сначала спросить у GPT:

Я хочу оценить качество резюме бизнес-плана по релевантности.
На какие конкретные аспекты текста стоит обратить внимание?
Дай список из 4-5 измеримых критериев.

GPT выдаст список (например: полнота ключевых пунктов, точность цифр, соответствие структуре исходника, отсутствие лишнего). Потом используешь этот список в промпте оценки. Так ты получаешь адаптированные критерии под свою специфику, а не универсальные.

📌

🔧 Техника: Комбинация с few-shot примерами

Если нужна более точная калибровка, добавь примеры оценок:

Оцени текст по связности от 1 до 5.

Обрати внимание на:
- Логичность переходов между абзацами
- Единство стиля
- Длину и сложность предложений

Примеры оценок:

Текст А: "Продукт решает проблему X. Это важно. Мы используем технологию Y."
Оценка: 2/5 — переходы резкие, предложения обрывистые.

Текст Б: "Продукт решает проблему X благодаря технологии Y, которая позволяет..."
Оценка: 4/5 — плавные переходы, логичная связь.

Теперь оцени:
[твой текст]

Это комбинирует hint strategy с few-shot learning — GPT видит как именно применять критерии.


🔗

Ресурсы

Exploring the features used for summary evaluation by Human and GPT (Preprint, 2025) Исследование опубликовано командой из Faculty of Computer Science, Dalhousie University (Канада) и Vector Institute for Artificial Intelligence.

Авторы: Zahra Sadeghi, Evangelos Milios, Frank Rudzicz

Датасет: SummEval — стандартный бенчмарк для оценки суммаризаций с человеческими аннотациями (Fabbri et al., 2021)

Упоминаются связанные работы: - G-Eval (Liu et al., 2023) — использование GPT-4 с chain-of-thought для оценки NLG - BARTScore (Yuan et al.) — метрика на основе вероятностей pre-trained BART модели - BERTScore (Zhang et al., 2020) — косинусная близость BERT-эмбеддингов


📖 Простыми словами

Hint Strategy: явные критерии оценки улучшают работу GPT как судьи

arXiv: 2512.19620

Суть в том, что когда ты просишь нейронку оценить текст фразой «ну как тебе?», она включает режим ленивого калькулятора. GPT не чувствует стиль или пользу так, как ты, она просто считает статистические паттерны: насколько слова предсказуемы, часто ли они встречаются и не слишком ли высокая там энтропия. В итоге получается когнитивный разрыв: модель ставит высший балл тексту, который читается как инструкция к освежителю воздуха, просто потому что он «правильно» сконструирован, пока ты плюешься от скуки.

Это как нанять дегустатора вин, который вместо того, чтобы пробовать напиток, измеряет в нем уровень сахара и плотность приборами. Формально цифры в норме, но пить это невозможно. Чтобы AI перестал вести себя как бездушный прибор и начал оценивать текст по-человечески, ему нужна Hint Strategy — четкий список параметров, на которые нужно смотреть, иначе он выберет самый серый и безопасный вариант.

Работает это просто: ты перестаешь давать абстрактные команды и вливаешь в промпт конкретные критерии. Вместо «проверь резюме» ты диктуешь: «смотри на сложность слов, лексическое разнообразие и близость к исходному смыслу». Когда у модели есть такие «подсказки», она перестает гадать по своей внутренней статистике и начинает имитировать человеческий фокус внимания. В исследовании это помогло вытащить оценку из болота рандома и приблизить её к тому, что реально думают люди.

Принцип универсален: будь то описание товара, сценарий для рилса или бизнес-план, GPT без четких рамок всегда будет тяготеть к усредненной фигне. Если ты готовишь питч для инвесторов и хочешь честный фидбек, заставь модель проверять не «качество», а конкретную плотность смыслов и отсутствие воды. Без этого «хинта» нейронка похвалит тебя просто за то, что ты расставил запятые, и ты уйдешь на встречу с полной уверенностью, что твой текст — золото, хотя на деле это пустой шум.

Короче, GPT — это мощный инструмент, который по умолчанию настроен на минимальное сопротивление. Если не давать ей жесткие критерии оценки через Hint Strategy, она будет подсовывать тебе галлюцинации о том, что текст хорош, просто потому что он похож на миллион других текстов из интернета. Хочешь адекватный результат — диктуй правила игры, иначе получишь оценку, которая не стоит и ломаного гроша.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с