TL;DR
Hint Strategy — добавление в промпт явных критериев оценки, когда просишь GPT оценить качество текста. Вместо "оцени релевантность резюме" пишешь "оцени релевантность, обрати внимание на: сложность слов, предсказуемость текста, разнообразие лексики, близость к исходному тексту".
Исследователи изучали, какие характеристики текста влияют на оценки людей и GPT при проверке качества суммаризаций (резюме длинных текстов). Оказалось, что GPT и люди оценивают по-разному: GPT сильно полагается на статистические паттерны — энтропию, перплексность (насколько текст предсказуем), разнообразие слов. Люди тоже учитывают эти факторы, но для разных критериев важны разные вещи. Например, для релевантности (насколько резюме отражает исходный текст) важна сложность отдельных слов, а для связности (coherence) — характеристики предложений целиком.
Когда в промпт добавили подсказку о том, какие метрики важны для людей, корреляция между оценками GPT и людей выросла. Не драматически (с 0.41 до 0.42 по Пирсону для релевантности), но стабильно для всех моделей. GPT стала оценивать чуть ближе к тому, как оценивают люди.
Схема метода
СТАНДАРТНЫЙ ПРОМПТ:
Запрос → "Оцени текст по [критерию]" → GPT даёт оценку
HINT STRATEGY:
Запрос → "Оцени текст по [критерию]"
+ "Обрати внимание на: [список конкретных метрик]"
→ GPT даёт оценку с учётом подсказок
Выполняется в одном промпте.
Пример применения
Задача: Ты готовишь питч-дек для инвесторов про новый сервис доставки. Написал executive summary на страницу. Хочешь проверить, насколько он отражает главное из полного бизнес-плана на 15 страниц.
Промпт:
Оцени насколько это резюме релевантно исходному бизнес-плану по шкале 1-5.
Обрати внимание на:
- Сложность и доступность формулировок (инвестор должен понять с первого раза)
- Предсказуемость и логичность изложения
- Разнообразие используемых терминов (не должно быть повторов)
- Насколько близко резюме к ключевым пунктам плана
Исходный бизнес-план:
[вставить полный текст]
Резюме для питч-дека:
[вставить executive summary]
Результат:
GPT выдаст оценку от 1 до 5 с объяснением — какие аспекты сильные, какие слабые. Покажет конкретно: где формулировки слишком сложные, где логика проседает, какие ключевые пункты плана не попали в резюме.
Почему это работает
Слабость GPT: Когда просишь "оцени качество", GPT опирается на внутренние статистические паттерны — энтропию, перплексность, частотность слов. Это работает, но не всегда совпадает с тем, что важно человеку. GPT может посчитать текст "хорошим" потому что он предсказуем, а человеку важна конкретика или эмоциональность.
Сильная сторона GPT: Модель отлично следует явным инструкциям. Если сказать "обрати внимание на X, Y, Z" — она сместит фокус с дефолтных статистических метрик на заданные критерии.
Как метод использует это: Hint Strategy делает критерии оценки явными вместо неявных. Ты не надеешься что GPT угадает "правильную" шкалу оценки, а задаёшь её сам. По сути, это способ выровнять внутреннюю механику GPT с твоими ожиданиями.
Рычаги управления:
- Список метрик — меняй под задачу: для креативного текста важно разнообразие, для инструкции — простота и предсказуемость
- Формулировки критериев — "предсказуемость изложения" vs "логичность аргументов" — разные слова направят GPT на разные аспекты
- Количество критериев — 3-5 оптимально, больше 7 — GPT может запутаться в приоритетах
Шаблон промпта
Оцени {текст} по критерию {критерий оценки} по шкале {1-5 / 1-10 / низкий-средний-высокий}.
Обрати внимание на:
- {критерий_1}
- {критерий_2}
- {критерий_3}
- {критерий_4}
{Исходный текст для контекста (если нужен)}:
[текст]
{Текст для оценки}:
[текст]
Что подставлять:
{текст}— что оцениваем: резюме, статью, описание товара, email{критерий оценки}— релевантность, связность, убедительность, читабельность{критерий_1-4}— конкретные аспекты, важные для ЭТОГО критерия:- Для релевантности: сложность слов, близость к исходнику, полнота ключевых пунктов
- Для связности: логика переходов, структура предложений, единство стиля
- Для убедительности: конкретика, аргументы, эмоциональный тон
Ограничения
⚠️ Эффект небольшой: Корреляция с человеческими оценками выросла на 1-5%, не на 50%. Это улучшение, но не революция.
⚠️ Нужно знать правильные метрики: Подсказки работают, только если ты понимаешь ЧТО важно для твоей задачи. Если дашь неправильные критерии — получишь неправильную оценку.
⚠️ Субъективные критерии проблематичны: Метод лучше работает для измеримых вещей (сложность слов, длина предложений), хуже для абстрактных (креативность, эмоциональность).
⚠️ Не заменяет человека: GPT с подсказками оценивает ближе к людям, но не идентично. Для финальной проверки текстов, где цена ошибки высока (юридические документы, медицинские тексты, публичные заявления) — нужна человеческая проверка.
Как исследовали
Команда из Dalhousie University взяла датасет SummEval — 100 новостных статей с сгенерированными резюме, каждое оценено людьми по релевантности и связности. Сначала попросили разные версии GPT (GPT-4-0613, GPT-4o-mini, GPT-4.1-nano, GPT-4.1-mini) оценить те же резюме по тем же критериям, используя chain-of-thought промптинг. Посчитали корреляцию между оценками GPT и людей — получилось 0.41 для релевантности, 0.21 для связности (по Пирсону). Не очень высоко.
Параллельно посчитали 9 метрик читабельности (Flesch Reading Ease, Gunning Fog, количество сложных слов и т.д.) и 4 метрики из теории информации (энтропия, перплексность, Gini-индекс разнообразия, косинусная близость к исходнику). Измерили корреляцию каждой метрики с оценками людей и GPT.
Самое интересное: и для людей, и для GPT максимальную корреляцию показала conditional perplexity — насколько текст резюме предсказуем с учётом исходной статьи. Это значит оба судьи (человек и GPT) учитывают "насколько логично резюме следует из исходника". Но паттерны отличаются: - Для релевантности люди больше смотрят на отдельные слова (сложность, количество) - Для связности люди больше смотрят на предложения целиком (индекс Ганнинга, автоматическая читабельность) - GPT использует похожие метрики для обоих критериев, не различает так сильно
Потом добавили в промпт секцию "Hint" со списком топ-метрик, которые важны для людей (для релевантности: энтропия, перплексность, Gini, количество слогов, сложных слов, близость к исходнику; для связности: перплексность, Flesch-Kincaid, Gunning Fog, автоматическая читабельность). Корреляция выросла на 1-5 процентных пунктов для всех моделей. Самый сильный эффект у GPT-4.1-nano (с 0.35 до 0.40 для связности). Это подтвердило гипотезу: явные критерии сдвигают GPT к человеческой логике оценки.
Логика выводов: GPT — вероятностная модель, она изначально опирается на статистические паттерны. Когда мы говорим "оцени связность" без уточнений, GPT применяет свои внутренние веса. Когда добавляем "обрати внимание на длину предложений, индекс Ганнинга" — мы перенаправляем её внимание на те аспекты, которые важны людям для этого конкретного критерия. Это не магия, а управление приоритетами модели.
Адаптации
🔧 Техника: Попросить GPT самой назвать критерии
Вместо того чтобы самому придумывать метрики, можешь сначала спросить у GPT:
Я хочу оценить качество резюме бизнес-плана по релевантности.
На какие конкретные аспекты текста стоит обратить внимание?
Дай список из 4-5 измеримых критериев.
GPT выдаст список (например: полнота ключевых пунктов, точность цифр, соответствие структуре исходника, отсутствие лишнего). Потом используешь этот список в промпте оценки. Так ты получаешь адаптированные критерии под свою специфику, а не универсальные.
🔧 Техника: Комбинация с few-shot примерами
Если нужна более точная калибровка, добавь примеры оценок:
Оцени текст по связности от 1 до 5.
Обрати внимание на:
- Логичность переходов между абзацами
- Единство стиля
- Длину и сложность предложений
Примеры оценок:
Текст А: "Продукт решает проблему X. Это важно. Мы используем технологию Y."
Оценка: 2/5 — переходы резкие, предложения обрывистые.
Текст Б: "Продукт решает проблему X благодаря технологии Y, которая позволяет..."
Оценка: 4/5 — плавные переходы, логичная связь.
Теперь оцени:
[твой текст]
Это комбинирует hint strategy с few-shot learning — GPT видит как именно применять критерии.
Ресурсы
Exploring the features used for summary evaluation by Human and GPT (Preprint, 2025) Исследование опубликовано командой из Faculty of Computer Science, Dalhousie University (Канада) и Vector Institute for Artificial Intelligence.
Авторы: Zahra Sadeghi, Evangelos Milios, Frank Rudzicz
Датасет: SummEval — стандартный бенчмарк для оценки суммаризаций с человеческими аннотациями (Fabbri et al., 2021)
Упоминаются связанные работы: - G-Eval (Liu et al., 2023) — использование GPT-4 с chain-of-thought для оценки NLG - BARTScore (Yuan et al.) — метрика на основе вероятностей pre-trained BART модели - BERTScore (Zhang et al., 2020) — косинусная близость BERT-эмбеддингов
