3,583 papers
arXiv:2605.25955 73 25 мая 2026 г. FREE

QUIET: оценивай творчество как пересечение точности и неожиданности

КЛЮЧЕВАЯ СУТЬ
«Напиши творчески» — самый бесполезный запрос. Модель выдаёт правильно и скучно не потому что не умеет удивлять, а потому что ей никто не сказал: очевидный, предсказуемый ответ — это провал. Принцип Calibrated Surprise позволяет явно разделить два требования и проверять их раздельно — ограничения выполнены И ответ неожиданный. Формула проста: ноль, если ограничения нарушены; низкий балл, если выполнены но скучно; высокий — только если выполнены И неожиданно. Двойной фильтр отсекает сразу два класса провалов — нарушение условий и банальность — которые при обычном запросе сливаются в один неотличимый «нормальный результат».
Адаптировать под запрос

TL;DR

Calibrated Surprise — принцип, который переформулирует задачу для GPT/Claude с «сделай творчески» на «удовлетвори все ограничения И удиви». Механика: каждое решение оценивается по двум осям одновременно — точность (ограничения выполнены?) × неожиданность (это не очевидный ответ?). Только пересечение обоих даёт высокий балл.

LLM по умолчанию выдаёт точные, но предсказуемые ответы. Если попросить «напиши слоган для кофейни», модель выдаст что-то вроде «Пробуди в себе лучшее» — технически верно, но скучно. Причина: модель оптимизирует под «не ошибиться», а не под «удивить». Без явного сигнала требовать неожиданности — она его не получает.

QUIET решает это через каскадные ограничения: сначала устанавливаются ключевые творческие решения с явными условиями, каждое последующее решение должно согласовываться с предыдущими и быть неожиданным в рамках этих условий. Бумага предлагает формулу оценки: score = satisfy(ограничения) × (1 + surprise) — ноль, если ограничения нарушены; низкий балл, если выполнены, но скучно; высокий — если выполнены И неожиданно.


🔬

Схема метода

ШАГ 1: Задай явные ограничения
        → список условий, которые ДОЛЖНЫ быть выполнены

ШАГ 2: Потребуй неожиданность в рамках ограничений
        → "удивительно, но логично"

ШАГ 3: Попроси модель оценить каждый вариант по двум осям
        → ограничения выполнены? (да/нет) × насколько неожиданно? (1-10)

ШАГ 4: Каскад — каждое решение фиксируется и ограничивает следующее
        → "с учётом того, что ты выбрал X в шаге 1, теперь реши Y"

Все шаги можно выполнить в одном длинном промпте или последовательно в диалоге.

🚀

Пример применения

Задача: Придумать позиционирование для нового формата Telegram-канала. Ограничения заданы заказчиком: про деньги и инвестиции, автор — не финансист, а предприниматель, аудитория — люди 28-40 которые устали от «купи акции», нельзя использовать слова «портфель», «диверсификация», «пассивный доход».

Промпт:

Придумай 5 вариантов позиционирования для Telegram-канала.

Жёсткие ограничения — все варианты ОБЯЗАНЫ их выполнять:
- Про деньги и инвестиции, но взгляд предпринимателя, не аналитика
- Аудитория: 28–40 лет, устали от банального финансового контента
- Запрещённые слова: «портфель», «диверсификация», «пассивный доход», «финансовая свобода»
- Должна быть одна чёткая идея, не список обещаний

После каждого варианта оцени его по двум осям:
1. Ограничения: выполнены все? (да / частично / нет — и что нарушено)
2. Неожиданность: насколько это непохоже на то, что уже есть? (1-10, где 10 — "такого ещё не видел")

Оставь только варианты, где ограничения выполнены полностью И неожиданность ≥ 7.
Для финалистов объясни: почему это работает именно в этой нише.

Результат: Модель выдаст 5 вариантов с явной разбивкой по двум осям. Часть отсеется на проверке ограничений — это ценно: видно где модель «соскальзывает» в шаблон. Финальные варианты будут с обоснованием почему они неожиданны именно для этой аудитории. Вы получаете не просто список идей, а отфильтрованный список с внятной аргументацией.


🧠

Почему это работает

LLM — это машина предсказания следующего токена. Когда задача открытая («будь креативным»), модель тяготеет к статистически центральным ответам — тем, что встречались чаще всего в обучающих данных. Это и есть «точно, но скучно». Стандартный запрос не даёт сигнала, что центральный ответ — плохой ответ.

Модель хорошо умеет логически рассуждать по заданным критериям. Если явно сказать: «проверь каждый вариант по этим двум осям» — она применяет это как последовательный фильтр. Не потому что «думает», а потому что инструкция создаёт структуру текста, которой она следует при генерации.

Принцип satisfy × surprise использует эту сильную сторону: превращает субъективное «сделай интереснее» в объективный чеклист с двумя шагами. Сначала проверяем логику (ограничения), потом оцениваем отклонение от очевидного (неожиданность). Двойная фильтрация отсекает два класса провалов — нарушение условий и банальность — которые при обычном запросе обычно смешиваются в один неотличимый «нормальный ответ».

Рычаги управления: - Число ограничений → больше ограничений = ýже пространство решений = интереснее финальный вывод (если модель справляется) - Порог неожиданности → поставь ≥ 8 вместо ≥ 7 — получишь меньше вариантов, но острее - Каскад → зафиксируй решение шага 1 перед шагом 2: «с учётом того, что мы выбрали X...» — это фиксирует вектор и заставляет следующее решение быть последовательным - Явная формула в промпте → попроси написать satisfy: да, surprise: 8/10 структурированно — проще сканировать


📋

Шаблон промпта

Придумай {число} вариантов {тип контента}.

Жёсткие ограничения — все варианты ОБЯЗАНЫ их выполнять:
- {ограничение 1}
- {ограничение 2}
- {ограничение 3}
[добавь столько, сколько нужно]

После каждого варианта оцени по двум осям:
1. Ограничения: выполнены все? (да / частично / нет — укажи что нарушено)
2. Неожиданность: насколько это отличается от очевидного ответа? (1-10)

Оставь только варианты, где:
— ограничения: ДА (все выполнены)
— неожиданность: ≥ {порог, например 7}

Для каждого финалиста объясни в 1-2 предложениях: почему это работает именно для {аудитория / контекст}.

Что подставлять: - {тип контента} — слоган, заголовок, идея для поста, питч, концепция продукта - {ограничения} — конкретные условия заказчика, запрещённые слова, обязательные элементы, тональность - {порог} — 7 для баланса количества и качества, 8-9 если нужно совсем нестандартное - {аудитория / контекст} — кто читатель, какая ниша, что уже существует на рынке

Каскадный вариант — для сложных творческих задач (сценарий, серия постов, бренд):

ШАГ 1.
Реши {первое ключевое творческое решение} при этих ограничениях: {список}.
Оцени каждый вариант: ограничения (да/нет) × неожиданность (1-10).
Выбери лучший вариант и зафикси его — он становится условием следующего шага.

ШАГ 2.
С учётом того, что мы выбрали "{вставь решение из шага 1}",
теперь реши {второе решение}. Те же правила оценки.

🚀 Быстрый старт — вставь в чат:

Вот шаблон для творческих задач с двойной фильтрацией. 
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит какие ограничения жёсткие, что считать «очевидным ответом» в этом контексте и какой порог неожиданности — потому что без этого она не может настроить фильтр под твою задачу. Она возьмёт структуру шаблона и наполнит конкретикой под твой кейс.


⚠️

Ограничения

⚠️ Простые задачи: Для коротких запросов с минимальными ограничениями метод избыточен — двойная оценка замедляет, не улучшает. Работает там, где есть реальный творческий выбор с несколькими конкурирующими решениями.

⚠️ Субъективность «неожиданности»: Оценка удивления зависит от того, что именно модель считает «очевидным» в этом домене. Уточни контекст («очевидный ответ для рынка Telegram-каналов 2024 года») — иначе шкала плавает.

⚠️ Drift судьи: Исследование обнаружило, что даже разные LLM-судьи расходятся в оценке «неожиданности» систематически — не из-за шкалы, а из-за разных внутренних эталонов. Если используешь модель для самооценки, результат зависит от конкретной модели.

⚠️ Каскад требует дисциплины: Если не фиксировать решения после каждого шага явно, модель может «пересмотреть» ранние выборы — каскад разрушается. Всегда паствляй выбранное решение буквально в следующий запрос.


🔗

Ресурсы

QUIET: A Multi-Blank Cascaded Story Cloze Benchmark for LLM Creative Generation Capability Bo Zou, Chao Xu — 2026 Связанная работа: Zou & Xu (2026a) «Calibrated Surprise» — теоретическая основа метода Сравниваемые бенчмарки: Story Cloze Test (Mostafazadeh et al., 2016), HellaSwag (Zellers et al., 2019)


📋 Дайджест исследования

Ключевая суть

«Напиши творчески» — самый бесполезный запрос. Модель выдаёт правильно и скучно не потому что не умеет удивлять, а потому что ей никто не сказал: очевидный, предсказуемый ответ — это провал. Принцип Calibrated Surprise позволяет явно разделить два требования и проверять их раздельно — ограничения выполнены И ответ неожиданный. Формула проста: ноль, если ограничения нарушены; низкий балл, если выполнены но скучно; высокий — только если выполнены И неожиданно. Двойной фильтр отсекает сразу два класса провалов — нарушение условий и банальность — которые при обычном запросе сливаются в один неотличимый «нормальный результат».

Принцип работы

Стандартный запрос не разделяет два требования. Модель пытается выполнить их одновременно — и проваливает оба. Раздели «правильно» и «неожиданно» в явные оси оценки — это разные фильтры, а не один. Работает так: сначала задаёшь список жёстких ограничений — условия, которые нарушать нельзя. Потом явно просишь оценить каждый вариант по двум шкалам: ограничения выполнены (да / частично / нет) и неожиданность (1-10). Оставляешь только то, где оба условия выполнены. Для сложных задач добавляй каскад: фиксируй решение первого шага буквально в следующем запросе — «с учётом того, что мы выбрали X, теперь реши Y». Каждое последующее решение согласуется с предыдущим и при этом должно удивлять в рамках уже заданного вектора.

Почему работает

Модель — машина предсказания следующего слова. При открытом задании она тяготеет к статистически центральным ответам — тем, что встречались в обучающих данных чаще всего. Это и есть «точно, но скучно». Запрос «будь креативным» не даёт сигнала, что центральный ответ плохой — модель его просто не получает. Модель хорошо работает с явными критериями. Скажи «проверь каждый вариант по этим двум осям» — она применит это как последовательный фильтр при генерации текста. Два явных критерия с числовой шкалой превращают расплывчатое «сделай интереснее» в конкретный чеклист с двумя шагами. Субъективное становится проверяемым.

Когда применять

Любая творческая задача с реальным пространством для выбора: слоганы, питчи, заголовки, концепции, контент-планы, идеи для серии постов — особенно когда у заказчика есть жёсткие условия И нужно выйти за рамки очевидного в этой нише. Сильнее всего работает там, где ограничений много и они конкретные: запрещённые слова, обязательные элементы, тональность, аудитория. Чем уже загон — тем интереснее то, что из него выходит. НЕ подходит для простых запросов без реального творческого выбора: если задача одна и ответ очевиден, двойная оценка только замедляет.

Мини-рецепт

1. Задай жёсткие ограничения списком: конкретные условия, запрещённые слова, обязательные элементы. Чем точнее — тем лучше фильтр.
2. Добавь двойную оценку: после каждого варианта — ограничения выполнены (да / частично / нет, укажи что нарушено) и неожиданность (1-10, где 10 — «такого ещё не видел в этой нише»).
3. Поставь порог: оставить только варианты, где ограничения полностью выполнены И неожиданность 7 или выше. Хочешь острее — поставь 8-9.
4. Попроси обосновать финалистов: почему это работает именно для этой аудитории, именно в этом контексте. Не ради красоты — это помогает выбрать между двумя сильными вариантами.
5. Для сложных задач — каскад: зафиксируй решение первого шага буквально в тексте следующего запроса. Без этого модель пересмотрит ранние выборы и каскад разрушится.

Примеры

[ПЛОХО] : Придумай 5 слоганов для кофейни, сделай творчески
[ХОРОШО] : Придумай 5 слоганов для кофейни. Жёсткие ограничения — все варианты обязаны их выполнять: - Аудитория: люди 25-35 лет, работают из кофеен, устали от «уютных мест» - Запрещённые слова: уют, аромат, вкус, момент, наслаждение - Одна чёткая идея, без перечисления обещаний - Не длиннее 7 слов После каждого варианта оцени: 1. Ограничения: выполнены все? (да / частично / нет — что нарушено) 2. Неожиданность: насколько это непохоже на то, что уже есть? (1-10) Оставь только варианты, где ограничения выполнены полностью И неожиданность 7 или выше. Для каждого финалиста объясни в одном предложении: почему это работает именно для этой аудитории. Что получишь: не список из пяти одинаково «правильных» слоганов, а отфильтрованный список с явным объяснением где модель соскользнула в шаблон, а где нет. Это ценнее самих вариантов.
Источник: QUIET: A Multi-Blank Cascaded Story Cloze Benchmark for LLM Creative Generation Capability
ArXiv ID: 2605.25955 | Сгенерировано: 2026-05-26 07:27

Проблемы LLM

ПроблемаСутьКак обойти
На творческих задачах модель выдаёт точные, но предсказуемые ответыПопросишь "напиши слоган" — получишь технически верный, но банальный результат. Происходит всегда, когда задача открытая. Модель оптимизирует под "не ошибиться", а не под "удивить". Сигнала требовать неожиданности нет — она его и не получаетРаздели требования явно на два слоя: что обязано выполняться (жёсткие условия) и что обязано удивлять (оценка отклонения от очевидного). Проверяй каждый вариант по обоим слоям отдельно

Методы

МетодСуть
Двойной фильтр для творческих запросовДобавь в запрос два явных критерия оценки. Первый: ограничения выполнены? (да / частично / нет — что нарушено). Второй: насколько это неожиданно? (1–10, где 10 — "такого ещё не видел"). Правило отбора: оставить только варианты, где ограничения выполнены полностью И неожиданность 7. Синтаксис: После каждого варианта оцени по двум осям: 1. Ограничения: да / частично / нет. 2. Неожиданность: 1-10. Оставь только варианты, где ограничения — ДА и неожиданность 7. Почему работает: два класса провалов — нарушение условий и банальность — при обычном запросе сливаются в один "нормальный ответ". Явные оси разделяют их. Модель применяет это как последовательный фильтр. Каскад для многошаговых задач: зафикси решение первого шага буквально в следующем запросе: С учётом того, что мы выбрали X, теперь реши Y. Это не даёт модели пересмотреть ранние выборы. Когда работает: несколько вариантов для сравнения, есть проверяемые условия заказчика. Не работает: одиночный ответ без альтернатив, задача без явных ограничений

Тезисы

ТезисКомментарий
Больше ограничений — интереснее результатНа первый взгляд наоборот: ограничения сужают. Но именно это и работает. Когда пространство вариантов узкое, модель не может взять статистически центральный ответ — он не проходит по условиям. Вынуждена искать решение на краях. Чем жёстче условия (запрещённые слова, обязательные элементы, тональность) — тем дальше финальный ответ от шаблонного. Применяй: добавляй конкретные запреты, а не только разрешения. "Нельзя использовать слова X, Y, Z" работает сильнее чем "пиши оригинально"
📖 Простыми словами

QUIET: A Multi-Blank Cascaded Story Cloze Benchmark forLLMCreative Generation Capability

arXiv: 2605.25955

Суть в том, что современные нейронки — это патологические конформисты. Когда ты просишь ChatGPT «придумать что-то креативное», она лезет в середину своей базы данных и выдает самый усредненный, безопасный и скучный вариант. Это происходит потому, что LLM обучены предсказывать наиболее вероятное следующее слово. Метод QUIET и концепция Calibrated Surprise ломают эту логику: они заставляют модель не просто угадывать ответ, а балансировать на грани между жесткими рамками и полной дичью. Это превращает нейронку из унылого клерка в адекватного креативщика, который понимает, что банальность — это провал.

Это как если бы ты попросил повара приготовить «что-нибудь необычное», и он принес тебе макароны с вареньем. Вроде необычно, но есть невозможно. Calibrated Surprise работает иначе: это как заставить повара приготовить шедевр, используя только топор, три морковки и старый ботинок. Ограничения (те самые «бланки» в тесте QUIET) не дают модели уйти в шизофазию, а требование «удивить» выталкивает её из зоны комфорта. В итоге получается не просто странно, а уместно и круто.

В основе метода лежит многоэтапное заполнение пропусков. Модели не дают писать полотно текста, а заставляют вставлять куски в уже существующий контекст, соблюдая кучу условий. Чтобы пройти тест, нейронка должна выдать высокий балл по двум осям: точность (все условия соблюдены) и неожиданность (ответ не является самым очевидным). Если ты пишешь про инвестиции, но тебе запретили слова «портфель» и «доход», модель вынуждена искать обходные пути. Именно в этих муках и рождается реальный креатив, а не очередная порция нейросетевой жвачки.

Хотя метод обкатывали на сторителлинге, принцип универсален. Его можно и нужно внедрять в любой маркетинг, нейминг или разработку стратегий. Если твой промпт звучит как «напиши пост для блога», ты получишь мусор. Если ты используешь механику QUIET — задаешь жесткие негативные ограничения и требуешь калиброванного удивления — модель начинает работать как профессиональный копирайтер. Это работает везде, где нужно выделиться из толпы, будь то описание товара на маркетплейсе или сценарий для рилса. SEO-копирайтинг сдох, теперь рулит умение заставить AI прыгнуть выше головы.

Короче: хватит ждать от нейронок магии по умолчанию. Без жестких рамок они всегда будут выдавать «среднюю температуру по больнице». Хочешь крутой результат — используй метод ограничений. Запрещай клише, выставляй барьеры и требуй неочевидных связей. Только когда модель зажата в угол твоими условиями, она начинает выдавать что-то, что не стыдно показать людям. Либо ты учишься калибровать сюрпризы, либо продолжаешь тонуть в океане одинакового контента.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с