3,583 papers
arXiv:2606.29672 74 29 июня 2026 г. FREE

LLM как судья визуальной креативности: модели оценивают оригинальность изображений без обучения

КЛЮЧЕВАЯ СУТЬ
Парадокс: попроси LLM оценить оригинальность изображения — она кивнёт и оценит красоту. Полированный AI-арт получит завышенный балл, а карандашный набросок с нестандартной идеей — заниженный. Даже если прямо написать обратное. Этот метод позволяет ранжировать изображения по оригинальности без экспертов и примеров — загрузил картинку, отправил промпт, получил балл, который умеренно совпадает с оценкой живого человека. Фишка: два обязательных элемента промпта — «используй ВСЮ шкалу, включая крайние значения» и «оценивай идею, не исполнение» — без них модель жмётся к 3-4 и штрафует черновики автоматически.
Адаптировать под запрос

TL;DR

Мультимодальные LLM (те, что видят картинки) умеренно точно совпадают с человеческими оценками креативности — без дообучения, примеров и размеченных данных. Дай модели изображение и простой промпт со шкалой 1–5 — и она выдаст оценку, которая коррелирует с тем, что поставил бы живой эксперт.

Главная находка: модели жульничают, даже когда им запрещают. Попроси оценить оригинальность — всё равно будут смотреть на визуальную качество. Полированную AI-картинку завысят, грубый карандашный набросок занизят. Это не баг промпта — это глубинная привычка модели, воспитанная на миллионах изображений с интернета, где «красиво» = «нравится». Явная инструкция "оценивай идею, не исполнение" лишь частично это корректирует.

Есть контринтуитивный вывод для тех, кто устанавливает LLM-судей: цепочка рассуждений (chain-of-thought) не повышает точность оценки. Если нужен надёжный балл — просто попроси балл. Если нужно понять почему модель так решила — тогда включай рассуждения. Это разные задачи, и смешивать их не стоит.


🔬

Схема метода

ШАГ 1: Загружаешь изображение в чат (Claude, GPT-4o, Gemini)
ШАГ 2: Отправляешь промпт с инструкцией оценить по шкале 1–5
         → Модель выдаёт одно число

ВАРИАНТ А: Только оценка — быстро, более стабильно
ВАРИАНТ Б: Оценка + рассуждения — медленнее, понятнее, но не точнее

Оба варианта выполняются в одном запросе.

🚀

Пример применения

Задача: Ты SMM-менеджер небольшого мерч-бренда. Дизайнер прислал 8 вариантов принтов на футболки — надо быстро отобрать самые оригинальные, а не просто красивые. Времени обсуждать с командой нет.

Промпт (для оценки одного изображения):

Ты оцениваешь креативность этого изображения.

Поставь оценку по шкале от 1 до 5:
1 = совсем без оригинальности
2 = чуть выше обычного
3 = средняя оригинальность
4 = заметно оригинально
5 = очень оригинально

Важно: используй ВСЮ шкалу от 1 до 5, включая крайние значения.
Оценивай ОРИГИНАЛЬНОСТЬ ИДЕИ, не художественное качество исполнения.

Дай только одно число от 1 до 5.

Результат: Модель выдаст одно число. Прогони все 8 вариантов последовательно — получишь ранжирование. Для спорных вариантов можно добавить «объясни за 2 предложения» — увидишь, за что именно модель ставит высокую оценку: за неожиданную идею или за красивую картинку.


🧠

Почему это работает

Модель жмётся к середине. LLM редко ставит единицы. Тренировка на данных с обратной связью (RLHF) учит модель быть «приятной» — это смещает оценки вверх. Поэтому в промпте явно написано "используй ВСЮ шкалу" — это не украшение, это попытка вытащить модель из зоны комфорта.

Эстетика перебивает оригинальность. Модель видела десятки миллиардов изображений, где человеческие реакции (лайки, расшаривания) коррелировали с качеством исполнения. Этот паттерн сидит глубоко. Именно поэтому полированная AI-картинка получает завышенную оценку, а грубый карандашный набросок — заниженную, даже при прямой инструкции обратного. Это важно знать: если оцениваешь наброски или черновики, результат будет систематически занижен.

Рассуждения — рентген, не улучшение. Когда модель думает вслух, она проходит четыре стадии: что вижу → оригинальность → качество → обоснование оценки. Это полезно для понимания, но не меняет итоговый балл. Парадокс: текст рассуждений настолько информативен, что другая LLM может угадать финальную оценку, прочитав только рассуждения без самого изображения. Значит, рассуждения — это честный отчёт о процессе, а не украшение.

Рычаги: - Инструкция про крайние значения → убери, если хочешь менее экстремальные оценки - "Оригинальность, не качество" → сделай акцент сильнее, если работаешь с черновиками - Попроси рассуждения → добавь "объясни в 2-3 предложениях" — увидишь на что модель смотрит - Несколько моделей → разные модели дают разный результат; Gemini лучше справляется с набросками, GPT Mini хуже


📋

Шаблон промпта

Базовый (только балл):

Оцени визуальную креативность этого {тип_изображения}.

Шкала:
1 = совсем не оригинально
2 = чуть выше среднего
3 = средняя оригинальность
4 = заметно оригинально
5 = очень оригинально

Используй ВСЮ шкалу от 1 до 5, не бойся крайних значений.
Оценивай ОРИГИНАЛЬНОСТЬ ИДЕИ, а не качество исполнения.

Дай только одно число от 1 до 5.

С объяснением:

Оцени визуальную креативность этого {тип_изображения}.

Шкала:
1 = совсем не оригинально
2 = чуть выше среднего
3 = средняя оригинальность
4 = заметно оригинально
5 = очень оригинально

Используй ВСЮ шкалу от 1 до 5.
Оценивай ОРИГИНАЛЬНОСТЬ ИДЕИ — насколько неожиданно, необычно, нестандартно.
НЕ оценивай художественное качество, полированность, технику исполнения.
{контекст — например: "Это черновой набросок, не финальный арт."}

Сначала дай число от 1 до 5.
Потом объясни в 2 предложениях: что именно сделало изображение оригинальным (или нет).

Плейсхолдеры: - {тип_изображения} — логотипа, принта, иллюстрации, концепт-арта, скетча - {контекст} — уточнение про этап работы или требования (убери, если не нужно)


🚀 Быстрый старт — вставь в чат:

Вот шаблон для оценки визуальной креативности. 
Адаптируй под мою задачу: {твоя задача — например, "оценить концепты логотипа для кофейни"}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит про тип изображений и контекст работы — потому что от этого зависит насколько жёстко формулировать запрет на оценку качества. Черновой набросок требует более явного предупреждения, чем готовый арт.


⚠️

Ограничения

⚠️ Систематическое завышение для полированных изображений: AI-генерация, профессиональный арт, детализированные работы — модели ставят выше, чем стоит. Если сравниваешь AI-арт с набросками — результаты несопоставимы.

⚠️ Систематическое занижение для грубых набросков: Карандашные рисунки, черновики, схематичные иллюстрации — модели штрафуют за "бедность" картинки, даже если идея блестящая. Учитывай это при работе с черновиками.

⚠️ Галлюцинации на неоднозначных рисунках: Если нарисовано нечётко — модель "видит" что-то конкретное и оценивает это, а не реальный замысел. При очень схематичных изображениях оценки ненадёжны.

⚠️ Цепочка рассуждений не улучшает точность: Добавление "думай вслух" делает оценку прозрачнее, но не точнее. Не жди, что reasoning mode даст более правильный балл.

⚠️ Разные модели — разная надёжность: На грубых набросках результаты сильно расходятся между моделями. Gemini стабильнее. GPT Mini заметно хуже на эскизах.


🔍

Как исследовали

Команда Гарварда и Penn State взяла 2 492 изображения: 992 картинки, сгенеренных через DALL-E 3 по коротким человеческим описаниям, и 1 500 карандашных набросков обычных людей (задание: дорисуй незавершённую фигуру во что-нибудь). Оба датасета уже имели человеческие оценки — от 50+ независимых рейтеров на набросках.

Шесть текущих мультимодальных моделей получили каждое изображение и простой промпт: оцени по шкале 1–5. Никаких примеров, никакого обучения — чистый zero-shot. Потом сравнили оценки с человеческими.

Интересная деталь: чтобы отделить «это оригинально» от «это сложно нарисовано», исследователи измерили плотность рёбер (сколько деталей в картинке на уровне пикселей). И обнаружили ловушку: часть совпадения между человеком и моделью — это не общее понимание оригинальности, а просто общая реакция на сложность. После поправки на этот фактор оценки некоторых моделей просели сильнее других.

В Study 2 включили режим "думай вслух" для трёх моделей и разобрали 562 053 предложения рассуждений — классифицировали каждое: воспринимает картинку, оценивает оригинальность, оценивает качество, или обосновывает балл. Выяснилось: если дать другой LLM только текст рассуждений (без картинки), она предсказывает финальный балл достаточно точно. Это доказывает, что рассуждения — честный отчёт о процессе, а не постфактум-оправдание.


📄

Оригинал из исследования

Промпт для AI-сгенерированных изображений (оригинальный английский):

You are evaluating the creativity of AI-generated images. Rate the creativity on a 
scale of 1 to 5, where 1 is very uncreative and 5 is very creative. Use the ENTIRE 
1 to 5 scale. Provide only a single number as your rating.

Промпт для рукотворных набросков:

You are evaluating the creativity of drawings created by various people in research 
studies (not necessarily artists). Rate the creativity on a scale of 1–5, where 1 is 
not at all creative and 5 is very creative. Use the ENTIRE 1 to 5 scale for the 
rating. Don't hesitate to use extreme values when appropriate. Focus on the 
originality of the idea, not the artistic quality. The drawing was created using a 
starting image of an incomplete shape, which was incorporated into the drawings. 
Provide only a single number between 1 and 5 as your rating, where: 
1 = Not at all creative; 2 = Slightly creative; 3 = Moderately creative; 
4 = Very creative; 5 = Extremely creative.

Контекст: Исследователи использовали именно эти промпты для всех шести моделей без изменений. Второй промпт богаче первого — и это не случайно: наброски требуют явного снятия акцента с качества исполнения.


💡

Адаптации и экстраполяции

📌

💡 Адаптация: сравнительный ранжир вместо абсолютного балла

Одиночный балл сложно интерпретировать. Лучше — оценить несколько вариантов сразу и получить ранжирование.

Я покажу тебе {число} изображений по очереди. 
После каждого ставь оценку оригинальности от 1 до 5.

Шкала: 1 — банально, 5 — очень неожиданная идея.
Оценивай оригинальность идеи, не исполнение.

Изображение 1: [загружаешь]
Изображение 2: [загружаешь]
...

В конце — отсортируй по убыванию оригинальности.
📌

🔧 Техника: явная декомпозиция по 4 измерениям → более управляемая оценка

Исследование показало, что модель внутри себя оценивает четыре вещи: что вижу → оригинальность → качество → обоснование. Если вынести это явно в промпт, качество объяснения растёт:

Оцени это изображение по трём критериям:

1. ЧТО ВИЖУ: опиши что изображено (1 предложение)
2. ОРИГИНАЛЬНОСТЬ (1-5): насколько идея неожиданная и нестандартная
3. КАЧЕСТВО (1-5): насколько хорошо исполнено визуально

Итоговая оценка: поставь финальный балл оригинальности (1-5), 
ориентируясь на п.2, а не на п.3.

Это помогает когда нужно не просто балл, а понять — завысила ли модель оценку за красоту.

📌

🔧 Техника: явный "антибиас" для черновиков

Если оцениваешь наброски или черновики — добавь явное снятие бонуса за визуальную сложность:

...Это черновой рисунок, намеренно упрощённый.
Визуальная бедность = не минус. 
Оценивай только, насколько ИДЕЯ неожиданна.

🔗

Ресурсы

Статья: How LLMs See Creativity: Zero-Shot Scoring of Visual Creativity with Interpretable Reasoning — William Orwig, Roger E. Beaty (2026)

Авторы: William Orwig (Harvard University, Department of Psychology), Roger E. Beaty (Pennsylvania State University, Department of Psychology)

Открытый инструмент для оценки изображений: https://review-visual-eval-scoring.hf.space


📋 Дайджест исследования

Ключевая суть

Парадокс: попроси LLM оценить оригинальность изображения — она кивнёт и оценит красоту. Полированный AI-арт получит завышенный балл, а карандашный набросок с нестандартной идеей — заниженный. Даже если прямо написать обратное. Этот метод позволяет ранжировать изображения по оригинальности без экспертов и примеров — загрузил картинку, отправил промпт, получил балл, который умеренно совпадает с оценкой живого человека. Фишка: два обязательных элемента промпта — «используй ВСЮ шкалу, включая крайние значения» и «оценивай идею, не исполнение» — без них модель жмётся к 3-4 и штрафует черновики автоматически.

Принцип работы

Модель обучалась на десятках миллиардов изображений из интернета, где «нравится» почти всегда значило «красиво». Лайки, расшаривания, положительные реакции — всё это прилеплено к эстетически качественным работам. Этот паттерн сидит так глубоко, что явная инструкция его лишь ослабляет, но не убирает. Рассуждения вслух — это рентген, а не улучшение. Когда просишь модель думать вслух перед оценкой, она честно описывает процесс: что вижу → насколько оригинально → насколько качественно → обосновываю балл. Но итоговая цифра от этого точнее не становится. Рассуждения полезны, чтобы понять за что модель поставила 4, а не 2 — но не для того, чтобы получить более правильный балл.

Почему работает

LLM после обучения с обратной связью от людей (RLHF) становятся «приятными» — они избегают крайних оценок, потому что тренировка учила не обижать. Поэтому без явного указания модель редко ставит 1 или 5 — всё сползает в 3-4. Прямая инструкция «используй всю шкалу» буквально вытаскивает модель из зоны комфорта — и оценки становятся более разнообразными и информативными. Проблема с эстетикой решается только частично: закладывать в промпт контекст типа «это черновой набросок, не финальный арт» — обязательно, если работаешь с неполированными материалами. Без этого результаты систематически занижены для всего, что не выглядит как готовый продукт.

Когда применять

Дизайн и креативная работа → особенно для быстрого отбора из нескольких вариантов, когда нужно выбрать самое нестандартное, а не самое красивое. Работает для принтов, концепт-артов, логотипов, иллюстраций, мерча. Особенно полезно, когда нет времени или бюджета на экспертное обсуждение. НЕ подходит для сравнения AI-арта с черновиками в одном списке — результаты несопоставимы из-за систематического перекоса к качеству исполнения.

Мини-рецепт

1. Загрузи изображение в чат с мультимодальной моделью (Claude, GPT-4o, Gemini).
2. Отправь базовый промпт: Оцени визуальную креативность этого [тип изображения]. Шкала: 1 = совсем не оригинально, 2 = чуть выше среднего, 3 = средняя оригинальность, 4 = заметно оригинально, 5 = очень оригинально. Используй ВСЮ шкалу от 1 до 5 — не бойся крайних значений. Оценивай ОРИГИНАЛЬНОСТЬ ИДЕИ, а не качество исполнения. Дай только одно число от 1 до 5.
3. Если работаешь с черновиками или набросками — добавь явный контекст: Это черновой набросок, не финальный арт. Без этого балл будет занижен.
4. Хочешь понять за что именно поставлен балл — добавь: Потом объясни в 2 предложениях: что именно сделало изображение оригинальным или нет. Это покажет смотрит ли модель на идею или всё-таки на красоту.
5. Для важных решений прогони одно изображение через две-три модели. Gemini стабильнее на черновиках, GPT Mini заметно хуже на эскизах — расхождение между моделями само по себе сигнал, что оценка ненадёжна.

Примеры

[ПЛОХО] : Оцени насколько оригинально это изображение
[ХОРОШО] : Оцени визуальную креативность этого принта на футболку. Шкала от 1 до 5, где 1 = банально, 5 = очень оригинально. Используй ВСЮ шкалу, включая 1 и 5. Оценивай ОРИГИНАЛЬНОСТЬ ИДЕИ — насколько неожиданно и нестандартно, а не насколько красиво нарисовано. Это черновой набросок. Дай только одно число. Разница критическая: первый вариант не задаёт шкалу — модель придумает свою. Не говорит оценивать идею, а не красоту — будет оценивать красоту. Не предупреждает что это набросок — занизит за «бедность» картинки. Второй вариант закрывает все три дыры одновременно.
Источник: HowLLMsSee Creativity: Zero-Shot Scoring of Visual Creativity with Interpretable Reasoning
ArXiv ID: 2606.29672 | Сгенерировано: 2026-06-30 05:28

Проблемы LLM

ПроблемаСутьКак обойти
Модель подменяет нужный критерий похожимПросишь оценить одно измерение — например, оригинальность идеи. Модель молча оценивает другое — визуальную красоту или качество исполнения. Инструкция "не смотри на качество" лишь частично помогает. Это не баг промпта. Это глубокий паттерн: модель обучена на данных где "красиво" и "нравится" шли рядом. Паттерн сидит глубоко. Проявляется в любых задачах-судьях: оценка текста по ясности, идеи по новизне, решения по простотеНазывай нужный критерий прямо и явно. Запрещай похожий критерий отдельной фразой. Добавь контекст: "это черновик, не финальный вариант". Попроси объяснить за 2 предложения — увидишь на что модель реально смотрит
Модель избегает крайних оценокПросишь оценить по шкале 1–5 или 1–10. Получаешь кучу 3-4 или 7-8 — всё в середине. Единицы и пятёрки почти нет. Сравнивать варианты сложно: всё "средне оригинально". Причина: обучение с обратной связью от людей (RLHF) учит модель быть приятной. Крайние оценки воспринимаются как "агрессивные". Срабатывает на любых задачах выставления балловДобавь явную инструкцию про крайние значения: "используй ВСЮ шкалу, не бойся ставить 1 и 5". Или запроси распределение баллов: "распредели 100 очков между 8 вариантами" — ограниченный ресурс заставит выбирать

Методы

МетодСуть
Двойная изоляция критерия — что оценивай и что запрещеноЗадача: получить оценку по конкретному измерению, а не по соседнему похожему. Два шага в промпте: Шаг 1 — назови нужный критерий явно и с определением. Оценивай ОРИГИНАЛЬНОСТЬ ИДЕИ — насколько неожиданно и нестандартно. Шаг 2 — запрети похожий критерий отдельной строкой. НЕ оценивай художественное качество, полированность, технику. Опционально: добавь контекст о стадии работы. Это черновой эскиз, не финальный арт. Почему работает: Одного запрета на "не то" мало — модель возвращается к привычному паттерну. Нужен явный альтернативный критерий чтобы было куда "прикрепить" оценку. Когда применять: любая задача-судья где два измерения коррелируют (ясность vs краткость, смелость идеи vs техническая сложность, новизна vs польза). Ограничение: смягчает проблему, не устраняет — особенно когда критерии сильно связаны

Тезисы

ТезисКомментарий
Цепочка рассуждений делает оценку прозрачной, но не точнееКогда модель думает вслух перед итоговым баллом — сам балл не становится точнее. Рассуждения описывают процесс честно: что увидела, как взвесила, почему решила. Но итоговая цифра та же что без рассуждений. Это важно: многие добавляют "думай вслух" в надежде улучшить качество оценки — это не работает. Применяй: Нужен надёжный балл — просто проси балл. Нужно понять на что модель смотрит — проси рассуждения. Это разные задачи. Не смешивай
📖 Простыми словами

HowLLMsSee Creativity: Zero-Shot Scoring of Visual Creativity with Interpretable Reasoning

arXiv: 2606.29672

Мультимодальные нейронки теперь не просто распознают котиков на фото, они начали лезть в святое — оценивать визуальную креативность. Суть в том, что современные модели вроде GPT-4V научились сопоставлять картинку с абстрактными понятиями без всяких подсказок и примеров. Это работает на базе нулевого обучения: ты просто скармливаешь модели изображение и просишь оценить его оригинальность по шкале от 1 до 5. Оказывается, внутренние веса модели уже содержат достаточно данных о культуре и искусстве, чтобы ее вердикт совпал с мнением живого эксперта.

Это как если бы ты привел случайного прохожего в галерею современного искусства и он, не имея диплома искусствоведа, безошибочно ткнул пальцем в самый дерзкий экспонат. Формально он любитель, но насмотренность позволяет ему отличить шедевр от мазни. Нейронка делает то же самое: она не «чувствует» прекрасное, она математически вычисляет, насколько этот визуал отклоняется от статистической нормы того, что она видела в интернете.

Чтобы эта магия сработала, исследователи используют интерпретируемое рассуждение. Модель сначала просят проговорить вслух, что именно она видит и почему это необычно, а уже потом ставить оценку. Выяснилось, что критически важно заставлять AI использовать всю шкалу, иначе из-за вежливости и цензурных фильтров она начинает ставить всем «четверки». Это как добрый препод, который боится обидеть студента и ставит зачет просто за явку — если его не встряхнуть, объективности не добьешься.

Применять это можно везде, где нужно отфильтровать гору визуального мусора: от отбора принтов для футболок до оценки рекламных баннеров. Тестировали метод на специфических тестах креативности, но принцип универсален для любого дизайна. Если тебе нужно быстро понять, какой из десяти логотипов реально свежий, а какой — унылая копипаста, нейронка справится с этим быстрее и дешевле фокус-группы. SEO для смыслов уходит в прошлое, наступает эра автоматической оценки эстетики.

Главный вывод: AI уже достаточно «насмотрен», чтобы работать фильтром первого уровня для творческих задач. Не нужно строить сложные пайплайны или нанимать армию разметчиков — достаточно одного грамотного промпта с требованием обосновать оценку. Креативность перестала быть магией и превратилась в измеримый параметр, который можно делегировать машине. Кто начнет использовать это для пре-модерации контента сейчас, сэкономит недели на обсуждениях в духе «мне кажется, это недостаточно сочно».

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с