TL;DR
Японская игра Oogiri (大喜利) — это импровизационная игра, где нужно дать остроумный ответ на промпт. Исследователи собрали 908 промптов с ~96 ответами на каждый (всего 82,536 пар) и ~172 независимыми оценками на промпт, чтобы понять что делает ответ смешным.
Главная находка: смешные ответы имеют измеримые характеристики. Они короче (14 vs 16 символов), чаще используют смену перспективы (эффект 0.50), двусмысленность (0.42), разрешение несоответствия (0.36) — когда создаёшь противоречие с промптом и элегантно его разрешаешь. Меньше новых слов (0.80 vs 0.93 доля новой лексики) — смешное не уходит далеко от темы промпта.
На основе этих инсайтов исследователи создали бенчмарк Oogiri-Master и показали: GPT-4o приближается к человеческой точности, а добавление конкретных критериев оценки юмора в промпт (insight-augmented prompting) улучшает результаты моделей на 2-5%.
Что нашли: принципы смешного контента
Исследователи измерили десятки лингвистических характеристик и нашли конкретные паттерны смешных ответов:
Сильные факторы (средний и малый эффект):
Смена перспективы (perspective shift) — самый сильный фактор (Cohen's d = 0.50). Смешной ответ смотрит на промпт с неожиданной стороны, меняет угол зрения или фрейминг.
Двусмысленность (ambiguity exploitation) — использование многозначности слов или структуры (d = 0.42).
Разрешение несоответствия (incongruity resolution) — создаётся противоречие с промптом, затем элегантно разрешается через переосмысление (d = 0.36).
Концептуальный скачок (associative distance) — умеренный и естественный прыжок в ассоциациях (d = 0.33).
Безобидное нарушение (benign violation) — отклонение от норм, но безопасное и приемлемое (d = 0.27).
Базовые характеристики:
Короче = смешнее: 14 vs 16 символов в среднем (d = -0.28)
Меньше новых слов: смешные ответы используют 80% новой лексики vs 93% в несмешных (d = -0.21) — не уходят далеко от темы
Подходящее разнообразие: меньше уникальных символов (13.24 vs 15.32, d = -0.30) — фокус на точных словах, не на разнообразии
Что НЕ работает:
Семантическая дистанция, противоречие (NLI), surprisal, PMI — статистически значимы, но эффект слабый (d < 0.2). Юмор не в том, чтобы максимально далеко уйти от промпта.
Пример применения
⚠️ Метод работает для: Креативного контента, где нужна остроумная реакция — подписи к фото, короткие реплики, слоганы, мемы.
Задача: Придумать смешную подпись для поста твоего проекта в соцсетях. Промпт: фото команды на стендапе в 9 утра, все с кофе и сонными лицами.
Промпт:
Напиши 5 вариантов смешной подписи к фото команды на утреннем стендапе.
Используй эти техники:
- Смена перспективы: посмотри на ситуацию с неожиданной стороны
- Двусмысленность: используй многозначность слов
- Разрешение несоответствия: создай противоречие и разреши его
- Краткость: 10-15 слов максимум
- Не уходи далеко от темы стендапа и утра
Фото: команда из 6 человек стоит с кофе, все сонные, 9:00
Результат:
Модель выдаст 5 вариантов подписей, каждая ~10-15 слов. В вариантах будет видна работа техник: смена перспективы (например, "stand-up" как жанр комедии vs рабочая встреча), двусмысленность (кофе = топливо / энергия), короткие формулировки с неожиданным twist в конце.
Почему это работает
LLM генерирует текст по паттернам, но понятие "смешно" — размытое. Без конкретных критериев модель опирается на частотные паттерны из обучающих данных, где "юмор" смешан со всем подряд.
Исследование показало измеримые характеристики юмора — perspective shift, ambiguity, brevity, incongruity resolution. Это превращает размытое "сделай смешно" в конкретный чеклист.
Insight-augmented prompting работает так: вместо "напиши смешно" даёшь модели критерии оценки юмора — смена перспективы, двусмысленность, краткость. Модель использует эти сигналы как направляющие, фокусируя генерацию на паттернах, которые коррелируют со смешным контентом у людей.
Рычаги управления:
- Список техник → убери слабые (metaphor use, d=0.24), оставь сильные (perspective shift, ambiguity) — фокус на том, что работает
- Лимит длины → "10-15 слов" vs "краткость" — точнее контроль
- "Не уходи далеко от темы" → убери = более сюрреалистичный юмор, оставь = привязка к контексту
- Число вариантов → больше вариантов = выше шанс найти смешной, но дороже
Шаблон промпта
Напиши {число} вариантов {тип_контента} для {контекст}.
Используй эти техники создания смешного контента:
- Смена перспективы: посмотри на ситуацию с неожиданной стороны
- Двусмысленность: используй многозначность слов
- Разрешение несоответствия: создай противоречие и элегантно разреши его
- Концептуальный скачок: сделай умеренный прыжок в ассоциациях
- Безобидное нарушение: отклонись от норм, но оставайся приемлемым
Ограничения:
- Краткость: {лимит_слов} слов максимум
- Не уходи далеко от темы {основная_тема}
- {дополнительные_ограничения}
Плейсхолдеры:
- {число} — сколько вариантов (3-10)
- {тип_контента} — подпись к фото, слоган, реплика, мем-текст
- {контекст} — описание ситуации/фото/темы
- {лимит_слов} — 10-20 слов обычно
- {основная_тема} — ключевая тема, от которой не уходить
- {дополнительные_ограничения} — tone of voice, целевая аудитория, запреты
Ограничения
⚠️ Культурная специфика: Исследование на японском Oogiri — некоторые паттерны юмора культурно зависимы. Принципы работают, но конкретные приёмы (игра слов, отсылки) требуют адаптации под аудиторию.
⚠️ Субъективность юмора: ~172 независимых оценщика на промпт дают статистику, но юмор остаётся субъективным. То, что работает в среднем, может не работать для конкретной аудитории.
⚠️ Не для длинного контента: Исследование показало, что смешные ответы короче (14 vs 16 символов). Принципы работают для коротких форматов — подписи, слоганы, реплики. Для длинных текстов (статьи, сценарии) нужна адаптация.
⚠️ Узкая применимость: Техники для создания юмористического контента. Для большинства задач (анализ, написание документов, код) это не релевантно.
Как исследовали
Команда собрала данные с японской платформы Oogiri Sogo — там люди присылают остроумные ответы на промпты, а другие голосуют за смешные. Ключевое отличие от других платформ: голосующие не видят чужих оценок во время голосования — это снижает эффект толпы и даёт более честную оценку.
Из 2,165 промптов отфильтровали 908 с минимум 100 голосами на промпт (чтобы снизить случайность при малой выборке). Итого: 82,536 пар промпт-ответ, в среднем 96 ответов на промпт и 172 независимых голоса. Это в 7 раз больше японских Oogiri-данных, чем в Oogiri-GO (предыдущий датасет), и в 12 раз больше ответов на промпт (96 vs 8).
Квантитативный анализ: Для каждого промпта взяли топ-3 ответа по голосам (~8.5 голосов) как "смешные" и bottom-3 (0 голосов) как "несмешные". Измерили десятки лингвистических характеристик — от длины до LLM-скоринга 8 аспектов юмора (perspective shift, ambiguity, etc.). Сравнили с помощью t-теста и Cohen's d (размер эффекта).
Почему результаты получились такими: Perspective shift (d=0.50) и ambiguity (d=0.42) показали средний эффект — это согласуется с теорией юмора (incongruity theory): смешное возникает из нарушения ожиданий. Смена перспективы и двусмысленность — конкретные способы нарушить ожидания. Удивительно: семантическая дистанция и surprisal показали слабый эффект (d<0.2) — оказалось, что юмор не в том, чтобы уйти максимально далеко от промпта, а в умеренном и естественном скачке (associative distance, d=0.33).
Бенчмарк: Создали 5 задач — 4 множественного выбора (выбери самый смешной из 2/3/4 вариантов) и 1 бинарную классификацию (смешно / не смешно). Протестировали LLM от GPT-4o до DeepSeek-R1. Добавление insight-augmented промптов (с критериями из анализа) улучшило результаты на 2-5% — это прямое доказательство, что понимание компонентов юмора помогает моделям.
Адаптации и экстраполяции
🔧 Техника: Адаптивное использование критериев → экономия токенов
Вместо того чтобы всегда давать полный список техник, попроси модель использовать техники только когда не уверена:
Напиши смешную подпись для {контекст}.
Если чувствуешь, что вариант недостаточно смешной, используй:
- Смену перспективы
- Двусмысленность
- Разрешение несоответствия
Макс. 15 слов.
Модель сама решает, нужны ли дополнительные техники. Для очевидных случаев это экономит токены и уменьшает "переусложнение" простых ситуаций.
🔧 Техника: Оценка чужого контента → критерий качества
Используй критерии юмора для оценки уже существующего контента:
Оцени по шкале 1-5 каждую подпись по критериям:
- Смена перспективы (взгляд с неожиданной стороны)
- Двусмысленность (игра слов, многозначность)
- Краткость (короче = лучше)
- Концептуальный скачок (умеренный прыжок в ассоциациях)
Подписи:
1. {вариант_1}
2. {вариант_2}
3. {вариант_3}
Выведи таблицу с оценками и объясни выбор.
Это помогает выбрать лучший вариант из нескольких или понять, почему один работает, а другой нет.
🔧 Техника: Обратный промпт → понимание механики
Попроси модель объяснить, какие техники использовались в смешном тексте:
Вот смешная подпись: "{текст}"
Разбери её по техникам создания юмора:
- Есть ли смена перспективы? Как?
- Использована ли двусмысленность? Где?
- Какое несоответствие создаётся и как разрешается?
- Какой концептуальный скачок?
Это обучает тебя видеть паттерны в успешном контенте и адаптировать их под свои задачи.
Ресурсы
Oogiri-Master: Benchmarking Humor Understanding via Oogiri — Soichiro Murakami, Hidetaka Kamigaito, Hiroya Takamura, Manabu Okumura (CyberAgent, Nara Institute of Science and Technology, Institute of Science Tokyo)
Датасет и бенчмарк будут доступны под лицензией CC BY-NC-SA 4.0.
