3,583 papers
arXiv:2512.21494 76 25 дек. 2025 г. FREE

Oogiri-Master: что делает контент смешным — принципы юмора для LLM

КЛЮЧЕВАЯ СУТЬ
Парадокс: «Смешно» кажется субъективным, но японские исследователи измерили юмор через 82,536 пар промпт-ответ в игре Oogiri и нашли конкретные паттерны. Метод позволяет генерировать смешной контент не через размытое "будь остроумным", а через чеклист из 5 измеримых техник — смена перспективы (эффект 0.50), двусмысленность (0.42), разрешение несоответствия (0.36). Смешные ответы короче (14 vs 16 символов) и используют меньше новых слов (80% vs 93%) — не уходят далеко от темы промпта. Добавление этих критериев в промпт (insight-augmented prompting) улучшает результаты моделей на 2-5%.
Адаптировать под запрос

TL;DR

Японская игра Oogiri (大喜利) — это импровизационная игра, где нужно дать остроумный ответ на промпт. Исследователи собрали 908 промптов с ~96 ответами на каждый (всего 82,536 пар) и ~172 независимыми оценками на промпт, чтобы понять что делает ответ смешным.

Главная находка: смешные ответы имеют измеримые характеристики. Они короче (14 vs 16 символов), чаще используют смену перспективы (эффект 0.50), двусмысленность (0.42), разрешение несоответствия (0.36) — когда создаёшь противоречие с промптом и элегантно его разрешаешь. Меньше новых слов (0.80 vs 0.93 доля новой лексики) — смешное не уходит далеко от темы промпта.

На основе этих инсайтов исследователи создали бенчмарк Oogiri-Master и показали: GPT-4o приближается к человеческой точности, а добавление конкретных критериев оценки юмора в промпт (insight-augmented prompting) улучшает результаты моделей на 2-5%.


📌

Что нашли: принципы смешного контента

Исследователи измерили десятки лингвистических характеристик и нашли конкретные паттерны смешных ответов:

📌

Сильные факторы (средний и малый эффект):

Смена перспективы (perspective shift) — самый сильный фактор (Cohen's d = 0.50). Смешной ответ смотрит на промпт с неожиданной стороны, меняет угол зрения или фрейминг.

Двусмысленность (ambiguity exploitation) — использование многозначности слов или структуры (d = 0.42).

Разрешение несоответствия (incongruity resolution) — создаётся противоречие с промптом, затем элегантно разрешается через переосмысление (d = 0.36).

Концептуальный скачок (associative distance) — умеренный и естественный прыжок в ассоциациях (d = 0.33).

Безобидное нарушение (benign violation) — отклонение от норм, но безопасное и приемлемое (d = 0.27).

📌

Базовые характеристики:

Короче = смешнее: 14 vs 16 символов в среднем (d = -0.28)

Меньше новых слов: смешные ответы используют 80% новой лексики vs 93% в несмешных (d = -0.21) — не уходят далеко от темы

Подходящее разнообразие: меньше уникальных символов (13.24 vs 15.32, d = -0.30) — фокус на точных словах, не на разнообразии

📌

Что НЕ работает:

Семантическая дистанция, противоречие (NLI), surprisal, PMI — статистически значимы, но эффект слабый (d < 0.2). Юмор не в том, чтобы максимально далеко уйти от промпта.


🚀

Пример применения

⚠️ Метод работает для: Креативного контента, где нужна остроумная реакция — подписи к фото, короткие реплики, слоганы, мемы.

Задача: Придумать смешную подпись для поста твоего проекта в соцсетях. Промпт: фото команды на стендапе в 9 утра, все с кофе и сонными лицами.

Промпт:

Напиши 5 вариантов смешной подписи к фото команды на утреннем стендапе.

Используй эти техники:
- Смена перспективы: посмотри на ситуацию с неожиданной стороны
- Двусмысленность: используй многозначность слов
- Разрешение несоответствия: создай противоречие и разреши его
- Краткость: 10-15 слов максимум
- Не уходи далеко от темы стендапа и утра

Фото: команда из 6 человек стоит с кофе, все сонные, 9:00

Результат:

Модель выдаст 5 вариантов подписей, каждая ~10-15 слов. В вариантах будет видна работа техник: смена перспективы (например, "stand-up" как жанр комедии vs рабочая встреча), двусмысленность (кофе = топливо / энергия), короткие формулировки с неожиданным twist в конце.


🧠

Почему это работает

LLM генерирует текст по паттернам, но понятие "смешно" — размытое. Без конкретных критериев модель опирается на частотные паттерны из обучающих данных, где "юмор" смешан со всем подряд.

Исследование показало измеримые характеристики юмора — perspective shift, ambiguity, brevity, incongruity resolution. Это превращает размытое "сделай смешно" в конкретный чеклист.

Insight-augmented prompting работает так: вместо "напиши смешно" даёшь модели критерии оценки юмора — смена перспективы, двусмысленность, краткость. Модель использует эти сигналы как направляющие, фокусируя генерацию на паттернах, которые коррелируют со смешным контентом у людей.

Рычаги управления:

  • Список техник → убери слабые (metaphor use, d=0.24), оставь сильные (perspective shift, ambiguity) — фокус на том, что работает
  • Лимит длины → "10-15 слов" vs "краткость" — точнее контроль
  • "Не уходи далеко от темы" → убери = более сюрреалистичный юмор, оставь = привязка к контексту
  • Число вариантов → больше вариантов = выше шанс найти смешной, но дороже

📋

Шаблон промпта

Напиши {число} вариантов {тип_контента} для {контекст}.

Используй эти техники создания смешного контента:
- Смена перспективы: посмотри на ситуацию с неожиданной стороны
- Двусмысленность: используй многозначность слов
- Разрешение несоответствия: создай противоречие и элегантно разреши его
- Концептуальный скачок: сделай умеренный прыжок в ассоциациях
- Безобидное нарушение: отклонись от норм, но оставайся приемлемым

Ограничения:
- Краткость: {лимит_слов} слов максимум
- Не уходи далеко от темы {основная_тема}
- {дополнительные_ограничения}

Плейсхолдеры: - {число} — сколько вариантов (3-10) - {тип_контента} — подпись к фото, слоган, реплика, мем-текст - {контекст} — описание ситуации/фото/темы - {лимит_слов} — 10-20 слов обычно - {основная_тема} — ключевая тема, от которой не уходить - {дополнительные_ограничения} — tone of voice, целевая аудитория, запреты


⚠️

Ограничения

⚠️ Культурная специфика: Исследование на японском Oogiri — некоторые паттерны юмора культурно зависимы. Принципы работают, но конкретные приёмы (игра слов, отсылки) требуют адаптации под аудиторию.

⚠️ Субъективность юмора: ~172 независимых оценщика на промпт дают статистику, но юмор остаётся субъективным. То, что работает в среднем, может не работать для конкретной аудитории.

⚠️ Не для длинного контента: Исследование показало, что смешные ответы короче (14 vs 16 символов). Принципы работают для коротких форматов — подписи, слоганы, реплики. Для длинных текстов (статьи, сценарии) нужна адаптация.

⚠️ Узкая применимость: Техники для создания юмористического контента. Для большинства задач (анализ, написание документов, код) это не релевантно.


🔍

Как исследовали

Команда собрала данные с японской платформы Oogiri Sogo — там люди присылают остроумные ответы на промпты, а другие голосуют за смешные. Ключевое отличие от других платформ: голосующие не видят чужих оценок во время голосования — это снижает эффект толпы и даёт более честную оценку.

Из 2,165 промптов отфильтровали 908 с минимум 100 голосами на промпт (чтобы снизить случайность при малой выборке). Итого: 82,536 пар промпт-ответ, в среднем 96 ответов на промпт и 172 независимых голоса. Это в 7 раз больше японских Oogiri-данных, чем в Oogiri-GO (предыдущий датасет), и в 12 раз больше ответов на промпт (96 vs 8).

Квантитативный анализ: Для каждого промпта взяли топ-3 ответа по голосам (~8.5 голосов) как "смешные" и bottom-3 (0 голосов) как "несмешные". Измерили десятки лингвистических характеристик — от длины до LLM-скоринга 8 аспектов юмора (perspective shift, ambiguity, etc.). Сравнили с помощью t-теста и Cohen's d (размер эффекта).

Почему результаты получились такими: Perspective shift (d=0.50) и ambiguity (d=0.42) показали средний эффект — это согласуется с теорией юмора (incongruity theory): смешное возникает из нарушения ожиданий. Смена перспективы и двусмысленность — конкретные способы нарушить ожидания. Удивительно: семантическая дистанция и surprisal показали слабый эффект (d<0.2) — оказалось, что юмор не в том, чтобы уйти максимально далеко от промпта, а в умеренном и естественном скачке (associative distance, d=0.33).

Бенчмарк: Создали 5 задач — 4 множественного выбора (выбери самый смешной из 2/3/4 вариантов) и 1 бинарную классификацию (смешно / не смешно). Протестировали LLM от GPT-4o до DeepSeek-R1. Добавление insight-augmented промптов (с критериями из анализа) улучшило результаты на 2-5% — это прямое доказательство, что понимание компонентов юмора помогает моделям.


💡

Адаптации и экстраполяции

📌

🔧 Техника: Адаптивное использование критериев → экономия токенов

Вместо того чтобы всегда давать полный список техник, попроси модель использовать техники только когда не уверена:

Напиши смешную подпись для {контекст}.

Если чувствуешь, что вариант недостаточно смешной, используй:
- Смену перспективы
- Двусмысленность
- Разрешение несоответствия

Макс. 15 слов.

Модель сама решает, нужны ли дополнительные техники. Для очевидных случаев это экономит токены и уменьшает "переусложнение" простых ситуаций.


📌

🔧 Техника: Оценка чужого контента → критерий качества

Используй критерии юмора для оценки уже существующего контента:

Оцени по шкале 1-5 каждую подпись по критериям:
- Смена перспективы (взгляд с неожиданной стороны)
- Двусмысленность (игра слов, многозначность)
- Краткость (короче = лучше)
- Концептуальный скачок (умеренный прыжок в ассоциациях)

Подписи:
1. {вариант_1}
2. {вариант_2}
3. {вариант_3}

Выведи таблицу с оценками и объясни выбор.

Это помогает выбрать лучший вариант из нескольких или понять, почему один работает, а другой нет.


📋

🔧 Техника: Обратный промпт → понимание механики

Попроси модель объяснить, какие техники использовались в смешном тексте:

Вот смешная подпись: "{текст}"

Разбери её по техникам создания юмора:
- Есть ли смена перспективы? Как?
- Использована ли двусмысленность? Где?
- Какое несоответствие создаётся и как разрешается?
- Какой концептуальный скачок?

Это обучает тебя видеть паттерны в успешном контенте и адаптировать их под свои задачи.


🔗

Ресурсы

Oogiri-Master: Benchmarking Humor Understanding via Oogiri — Soichiro Murakami, Hidetaka Kamigaito, Hiroya Takamura, Manabu Okumura (CyberAgent, Nara Institute of Science and Technology, Institute of Science Tokyo)

Датасет и бенчмарк будут доступны под лицензией CC BY-NC-SA 4.0.


📋 Дайджест исследования

Ключевая суть

Парадокс: «Смешно» кажется субъективным, но японские исследователи измерили юмор через 82,536 пар промпт-ответ в игре Oogiri и нашли конкретные паттерны. Метод позволяет генерировать смешной контент не через размытое "будь остроумным", а через чеклист из 5 измеримых техник — смена перспективы (эффект 0.50), двусмысленность (0.42), разрешение несоответствия (0.36). Смешные ответы короче (14 vs 16 символов) и используют меньше новых слов (80% vs 93%) — не уходят далеко от темы промпта. Добавление этих критериев в промпт (insight-augmented prompting) улучшает результаты моделей на 2-5%.

Принцип работы

Вместо размытого "сделай смешно" даёшь модели конкретный чеклист техник юмора: смена перспективы (посмотри на ситуацию с неожиданной стороны), двусмысленность (используй многозначность слов), разрешение несоответствия (создай противоречие и элегантно разреши его). Плюс жёсткие ограничения — краткость (10-15 слов), не уходить далеко от темы. Чеклист превращает субъективное "смешно" в набор направляющих для генерации. Модель перестаёт блуждать в пространстве всего возможного юмора и фокусируется на паттернах, которые статистически коррелируют со смешным у людей.

Почему работает

LLM генерирует текст по паттернам из обучающих данных, но "смешно" — размытое понятие, смешанное со всем подряд в корпусе. Без конкретных критериев модель опирается на частотные паттерны, где юмор может быть любым. Исследование превратило субъективное "смешно" в измеримые характеристики — perspective shift (d=0.50), ambiguity (d=0.42), incongruity resolution (d=0.36). Когда даёшь модели эти критерии, они работают как фильтр внимания: модель фокусируется на генерации текста с высокой вероятностью этих паттернов. Это не магия — это сужение пространства поиска с размытого "всё смешное" до конкретных "техник, которые работают у 172 оценщиков".

Когда применять

Короткий креативный контент → конкретно для подписей к фото в соцсетях, слоганов, коротких реплик, мем-текстов, особенно когда нужна остроумная реакция на ситуацию или визуал. НЕ подходит для: длинного контента (статьи, сценарии) — исследование показало, что смешные ответы короче (14 символов). Культурная специфика: исследование на японском Oogiri, некоторые приёмы требуют адаптации под аудиторию.

Мини-рецепт

1. Задай тип контента и контекст: Напиши 5 вариантов смешной подписи к фото команды на утреннем стендапе (все сонные, с кофе, 9:00)
2. Добавь чеклист сильных техник: "Используй: смену перспективы (посмотри с неожиданной стороны), двусмысленность (многозначность слов), разрешение несоответствия (создай противоречие и разреши его)"
3. Установи жёсткие ограничения: "Краткость: 10-15 слов максимум. Не уходи далеко от темы стендапа и утра"
4. Генерируй несколько вариантов: 5-10 штук — выше шанс найти смешной, выбираешь лучший

Примеры

[ПЛОХО] : Напиши смешную подпись к фото нашей команды на утреннем стендапе
[ХОРОШО] : Напиши 5 вариантов смешной подписи к фото команды на утреннем стендапе. Используй эти техники: смена перспективы (посмотри на ситуацию с неожиданной стороны), двусмысленность (многозначность слов), разрешение несоответствия (создай противоречие и разреши его). Ограничения: 10-15 слов максимум, не уходи далеко от темы стендапа и утра. Фото: команда из 6 человек стоит с кофе, все сонные, 9:00
Источник: Oogiri-Master: Benchmarking Humor Understanding via Oogiri
ArXiv ID: 2512.21494 | Сгенерировано: 2026-01-08 22:23
📖 Простыми словами

Oogiri-Master: что делает контент смешным — принципы юмора для LLM

arXiv: 2512.21494

Суть в том, что юмор для нейросетей до сих пор остается «черным ящиком», потому что они привыкли предсказывать следующее слово, а не строить сложные логические кульбиты. Исследователи взяли японскую игру Oogiri, где нужно выдать максимально неожиданный и острый ответ на странный вопрос, и превратили её в жесткий бенчмарк. Проблема в том, что обычные LLM обучаются на гигантских массивах данных, где юмор размыт среди новостей и инструкций, поэтому на выходе мы часто получаем либо кринж, либо плоские шутки уровня детского сада.

Это как если бы ты пытался научить робота танцевать танго, просто показывая ему записи того, как люди ходят в магазин. Вроде движения похожи, но искры нет. Чтобы модель реально «врубилась» в иронию, ей мало просто видеть много текста — ей нужна структурированная обратная связь от тысяч людей, которые говорят: «вот это разрыв, а это — полная фигня». Без такой калибровки AI остается тем самым душным знакомым, который пересказывает анекдоты из 90-х и не понимает, почему никто не смеется.

Что реально работает в этом подходе: многослойная разметка (82 тысячи пар «вопрос-ответ»), независимая оценка (по 172 мнения на каждый чих) и выделение паттернов абсурда. Исследование доказывает, что юмор — это не магия, а умение модели находить неочевидные связи между далекими друг от друга понятиями. Если в данных прописано, что ответ должен быть коротким, резким и бить в неожиданную точку, модель начинает выдавать креативный контент, который не отличить от человеческого.

Тестировали всё это на специфической японской игре, но принцип универсален для любого креатива: от подписей к мемам до рекламных слоганов и сценариев. Если ты хочешь, чтобы AI перестал быть картонным, его нужно прогонять через такие стресс-тесты на остроумие. Это работает везде, где сухой пересказ фактов проигрывает живому, цепляющему тексту, потому что GEO и поиск будущего будут отдавать приоритет контенту, который вызывает реакцию, а не просто занимает место на экране.

Короче: юмор — это высшая форма интеллекта, и теперь у нас есть линейка, чтобы его измерить. Хватит ждать от нейросетей «чего-нибудь смешного» по умолчанию — их нужно дообучать на специфических датасетах с человеческим фидбеком. Либо ты используешь модели, которые прошли через Oogiri-Master, либо твой контент так и останется унылым набором букв, который пролистывают не глядя. Кто первым научит AI шутить впопад, тот и заберет внимание аудитории, уставшей от стерильных текстов.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с