TL;DR
Calibrated Surprise — принцип, который переформулирует задачу для GPT/Claude с «сделай творчески» на «удовлетвори все ограничения И удиви». Механика: каждое решение оценивается по двум осям одновременно — точность (ограничения выполнены?) × неожиданность (это не очевидный ответ?). Только пересечение обоих даёт высокий балл.
LLM по умолчанию выдаёт точные, но предсказуемые ответы. Если попросить «напиши слоган для кофейни», модель выдаст что-то вроде «Пробуди в себе лучшее» — технически верно, но скучно. Причина: модель оптимизирует под «не ошибиться», а не под «удивить». Без явного сигнала требовать неожиданности — она его не получает.
QUIET решает это через каскадные ограничения: сначала устанавливаются ключевые творческие решения с явными условиями, каждое последующее решение должно согласовываться с предыдущими и быть неожиданным в рамках этих условий. Бумага предлагает формулу оценки: score = satisfy(ограничения) × (1 + surprise) — ноль, если ограничения нарушены; низкий балл, если выполнены, но скучно; высокий — если выполнены И неожиданно.
Схема метода
ШАГ 1: Задай явные ограничения
→ список условий, которые ДОЛЖНЫ быть выполнены
ШАГ 2: Потребуй неожиданность в рамках ограничений
→ "удивительно, но логично"
ШАГ 3: Попроси модель оценить каждый вариант по двум осям
→ ограничения выполнены? (да/нет) × насколько неожиданно? (1-10)
ШАГ 4: Каскад — каждое решение фиксируется и ограничивает следующее
→ "с учётом того, что ты выбрал X в шаге 1, теперь реши Y"
Все шаги можно выполнить в одном длинном промпте или последовательно в диалоге.
Пример применения
Задача: Придумать позиционирование для нового формата Telegram-канала. Ограничения заданы заказчиком: про деньги и инвестиции, автор — не финансист, а предприниматель, аудитория — люди 28-40 которые устали от «купи акции», нельзя использовать слова «портфель», «диверсификация», «пассивный доход».
Промпт:
Придумай 5 вариантов позиционирования для Telegram-канала.
Жёсткие ограничения — все варианты ОБЯЗАНЫ их выполнять:
- Про деньги и инвестиции, но взгляд предпринимателя, не аналитика
- Аудитория: 28–40 лет, устали от банального финансового контента
- Запрещённые слова: «портфель», «диверсификация», «пассивный доход», «финансовая свобода»
- Должна быть одна чёткая идея, не список обещаний
После каждого варианта оцени его по двум осям:
1. Ограничения: выполнены все? (да / частично / нет — и что нарушено)
2. Неожиданность: насколько это непохоже на то, что уже есть? (1-10, где 10 — "такого ещё не видел")
Оставь только варианты, где ограничения выполнены полностью И неожиданность ≥ 7.
Для финалистов объясни: почему это работает именно в этой нише.
Результат: Модель выдаст 5 вариантов с явной разбивкой по двум осям. Часть отсеется на проверке ограничений — это ценно: видно где модель «соскальзывает» в шаблон. Финальные варианты будут с обоснованием почему они неожиданны именно для этой аудитории. Вы получаете не просто список идей, а отфильтрованный список с внятной аргументацией.
Почему это работает
LLM — это машина предсказания следующего токена. Когда задача открытая («будь креативным»), модель тяготеет к статистически центральным ответам — тем, что встречались чаще всего в обучающих данных. Это и есть «точно, но скучно». Стандартный запрос не даёт сигнала, что центральный ответ — плохой ответ.
Модель хорошо умеет логически рассуждать по заданным критериям. Если явно сказать: «проверь каждый вариант по этим двум осям» — она применяет это как последовательный фильтр. Не потому что «думает», а потому что инструкция создаёт структуру текста, которой она следует при генерации.
Принцип satisfy × surprise использует эту сильную сторону: превращает субъективное «сделай интереснее» в объективный чеклист с двумя шагами. Сначала проверяем логику (ограничения), потом оцениваем отклонение от очевидного (неожиданность). Двойная фильтрация отсекает два класса провалов — нарушение условий и банальность — которые при обычном запросе обычно смешиваются в один неотличимый «нормальный ответ».
Рычаги управления:
- Число ограничений → больше ограничений = ýже пространство решений = интереснее финальный вывод (если модель справляется)
- Порог неожиданности → поставь ≥ 8 вместо ≥ 7 — получишь меньше вариантов, но острее
- Каскад → зафиксируй решение шага 1 перед шагом 2: «с учётом того, что мы выбрали X...» — это фиксирует вектор и заставляет следующее решение быть последовательным
- Явная формула в промпте → попроси написать satisfy: да, surprise: 8/10 структурированно — проще сканировать
Шаблон промпта
Придумай {число} вариантов {тип контента}.
Жёсткие ограничения — все варианты ОБЯЗАНЫ их выполнять:
- {ограничение 1}
- {ограничение 2}
- {ограничение 3}
[добавь столько, сколько нужно]
После каждого варианта оцени по двум осям:
1. Ограничения: выполнены все? (да / частично / нет — укажи что нарушено)
2. Неожиданность: насколько это отличается от очевидного ответа? (1-10)
Оставь только варианты, где:
— ограничения: ДА (все выполнены)
— неожиданность: ≥ {порог, например 7}
Для каждого финалиста объясни в 1-2 предложениях: почему это работает именно для {аудитория / контекст}.
Что подставлять:
- {тип контента} — слоган, заголовок, идея для поста, питч, концепция продукта
- {ограничения} — конкретные условия заказчика, запрещённые слова, обязательные элементы, тональность
- {порог} — 7 для баланса количества и качества, 8-9 если нужно совсем нестандартное
- {аудитория / контекст} — кто читатель, какая ниша, что уже существует на рынке
Каскадный вариант — для сложных творческих задач (сценарий, серия постов, бренд):
ШАГ 1.
Реши {первое ключевое творческое решение} при этих ограничениях: {список}.
Оцени каждый вариант: ограничения (да/нет) × неожиданность (1-10).
Выбери лучший вариант и зафикси его — он становится условием следующего шага.
ШАГ 2.
С учётом того, что мы выбрали "{вставь решение из шага 1}",
теперь реши {второе решение}. Те же правила оценки.
🚀 Быстрый старт — вставь в чат:
Вот шаблон для творческих задач с двойной фильтрацией.
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит какие ограничения жёсткие, что считать «очевидным ответом» в этом контексте и какой порог неожиданности — потому что без этого она не может настроить фильтр под твою задачу. Она возьмёт структуру шаблона и наполнит конкретикой под твой кейс.
Ограничения
⚠️ Простые задачи: Для коротких запросов с минимальными ограничениями метод избыточен — двойная оценка замедляет, не улучшает. Работает там, где есть реальный творческий выбор с несколькими конкурирующими решениями.
⚠️ Субъективность «неожиданности»: Оценка удивления зависит от того, что именно модель считает «очевидным» в этом домене. Уточни контекст («очевидный ответ для рынка Telegram-каналов 2024 года») — иначе шкала плавает.
⚠️ Drift судьи: Исследование обнаружило, что даже разные LLM-судьи расходятся в оценке «неожиданности» систематически — не из-за шкалы, а из-за разных внутренних эталонов. Если используешь модель для самооценки, результат зависит от конкретной модели.
⚠️ Каскад требует дисциплины: Если не фиксировать решения после каждого шага явно, модель может «пересмотреть» ранние выборы — каскад разрушается. Всегда паствляй выбранное решение буквально в следующий запрос.
Ресурсы
QUIET: A Multi-Blank Cascaded Story Cloze Benchmark for LLM Creative Generation Capability Bo Zou, Chao Xu — 2026 Связанная работа: Zou & Xu (2026a) «Calibrated Surprise» — теоретическая основа метода Сравниваемые бенчмарки: Story Cloze Test (Mostafazadeh et al., 2016), HellaSwag (Zellers et al., 2019)
