TL;DR
Мультимодальные LLM (те, что видят картинки) умеренно точно совпадают с человеческими оценками креативности — без дообучения, примеров и размеченных данных. Дай модели изображение и простой промпт со шкалой 1–5 — и она выдаст оценку, которая коррелирует с тем, что поставил бы живой эксперт.
Главная находка: модели жульничают, даже когда им запрещают. Попроси оценить оригинальность — всё равно будут смотреть на визуальную качество. Полированную AI-картинку завысят, грубый карандашный набросок занизят. Это не баг промпта — это глубинная привычка модели, воспитанная на миллионах изображений с интернета, где «красиво» = «нравится». Явная инструкция "оценивай идею, не исполнение" лишь частично это корректирует.
Есть контринтуитивный вывод для тех, кто устанавливает LLM-судей: цепочка рассуждений (chain-of-thought) не повышает точность оценки. Если нужен надёжный балл — просто попроси балл. Если нужно понять почему модель так решила — тогда включай рассуждения. Это разные задачи, и смешивать их не стоит.
Схема метода
ШАГ 1: Загружаешь изображение в чат (Claude, GPT-4o, Gemini)
ШАГ 2: Отправляешь промпт с инструкцией оценить по шкале 1–5
→ Модель выдаёт одно число
ВАРИАНТ А: Только оценка — быстро, более стабильно
ВАРИАНТ Б: Оценка + рассуждения — медленнее, понятнее, но не точнее
Оба варианта выполняются в одном запросе.
Пример применения
Задача: Ты SMM-менеджер небольшого мерч-бренда. Дизайнер прислал 8 вариантов принтов на футболки — надо быстро отобрать самые оригинальные, а не просто красивые. Времени обсуждать с командой нет.
Промпт (для оценки одного изображения):
Ты оцениваешь креативность этого изображения.
Поставь оценку по шкале от 1 до 5:
1 = совсем без оригинальности
2 = чуть выше обычного
3 = средняя оригинальность
4 = заметно оригинально
5 = очень оригинально
Важно: используй ВСЮ шкалу от 1 до 5, включая крайние значения.
Оценивай ОРИГИНАЛЬНОСТЬ ИДЕИ, не художественное качество исполнения.
Дай только одно число от 1 до 5.
Результат: Модель выдаст одно число. Прогони все 8 вариантов последовательно — получишь ранжирование. Для спорных вариантов можно добавить «объясни за 2 предложения» — увидишь, за что именно модель ставит высокую оценку: за неожиданную идею или за красивую картинку.
Почему это работает
Модель жмётся к середине. LLM редко ставит единицы. Тренировка на данных с обратной связью (RLHF) учит модель быть «приятной» — это смещает оценки вверх. Поэтому в промпте явно написано "используй ВСЮ шкалу" — это не украшение, это попытка вытащить модель из зоны комфорта.
Эстетика перебивает оригинальность. Модель видела десятки миллиардов изображений, где человеческие реакции (лайки, расшаривания) коррелировали с качеством исполнения. Этот паттерн сидит глубоко. Именно поэтому полированная AI-картинка получает завышенную оценку, а грубый карандашный набросок — заниженную, даже при прямой инструкции обратного. Это важно знать: если оцениваешь наброски или черновики, результат будет систематически занижен.
Рассуждения — рентген, не улучшение. Когда модель думает вслух, она проходит четыре стадии: что вижу → оригинальность → качество → обоснование оценки. Это полезно для понимания, но не меняет итоговый балл. Парадокс: текст рассуждений настолько информативен, что другая LLM может угадать финальную оценку, прочитав только рассуждения без самого изображения. Значит, рассуждения — это честный отчёт о процессе, а не украшение.
Рычаги: - Инструкция про крайние значения → убери, если хочешь менее экстремальные оценки - "Оригинальность, не качество" → сделай акцент сильнее, если работаешь с черновиками - Попроси рассуждения → добавь "объясни в 2-3 предложениях" — увидишь на что модель смотрит - Несколько моделей → разные модели дают разный результат; Gemini лучше справляется с набросками, GPT Mini хуже
Шаблон промпта
Базовый (только балл):
Оцени визуальную креативность этого {тип_изображения}.
Шкала:
1 = совсем не оригинально
2 = чуть выше среднего
3 = средняя оригинальность
4 = заметно оригинально
5 = очень оригинально
Используй ВСЮ шкалу от 1 до 5, не бойся крайних значений.
Оценивай ОРИГИНАЛЬНОСТЬ ИДЕИ, а не качество исполнения.
Дай только одно число от 1 до 5.
С объяснением:
Оцени визуальную креативность этого {тип_изображения}.
Шкала:
1 = совсем не оригинально
2 = чуть выше среднего
3 = средняя оригинальность
4 = заметно оригинально
5 = очень оригинально
Используй ВСЮ шкалу от 1 до 5.
Оценивай ОРИГИНАЛЬНОСТЬ ИДЕИ — насколько неожиданно, необычно, нестандартно.
НЕ оценивай художественное качество, полированность, технику исполнения.
{контекст — например: "Это черновой набросок, не финальный арт."}
Сначала дай число от 1 до 5.
Потом объясни в 2 предложениях: что именно сделало изображение оригинальным (или нет).
Плейсхолдеры:
- {тип_изображения} — логотипа, принта, иллюстрации, концепт-арта, скетча
- {контекст} — уточнение про этап работы или требования (убери, если не нужно)
🚀 Быстрый старт — вставь в чат:
Вот шаблон для оценки визуальной креативности.
Адаптируй под мою задачу: {твоя задача — например, "оценить концепты логотипа для кофейни"}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит про тип изображений и контекст работы — потому что от этого зависит насколько жёстко формулировать запрет на оценку качества. Черновой набросок требует более явного предупреждения, чем готовый арт.
Ограничения
⚠️ Систематическое завышение для полированных изображений: AI-генерация, профессиональный арт, детализированные работы — модели ставят выше, чем стоит. Если сравниваешь AI-арт с набросками — результаты несопоставимы.
⚠️ Систематическое занижение для грубых набросков: Карандашные рисунки, черновики, схематичные иллюстрации — модели штрафуют за "бедность" картинки, даже если идея блестящая. Учитывай это при работе с черновиками.
⚠️ Галлюцинации на неоднозначных рисунках: Если нарисовано нечётко — модель "видит" что-то конкретное и оценивает это, а не реальный замысел. При очень схематичных изображениях оценки ненадёжны.
⚠️ Цепочка рассуждений не улучшает точность: Добавление "думай вслух" делает оценку прозрачнее, но не точнее. Не жди, что reasoning mode даст более правильный балл.
⚠️ Разные модели — разная надёжность: На грубых набросках результаты сильно расходятся между моделями. Gemini стабильнее. GPT Mini заметно хуже на эскизах.
Как исследовали
Команда Гарварда и Penn State взяла 2 492 изображения: 992 картинки, сгенеренных через DALL-E 3 по коротким человеческим описаниям, и 1 500 карандашных набросков обычных людей (задание: дорисуй незавершённую фигуру во что-нибудь). Оба датасета уже имели человеческие оценки — от 50+ независимых рейтеров на набросках.
Шесть текущих мультимодальных моделей получили каждое изображение и простой промпт: оцени по шкале 1–5. Никаких примеров, никакого обучения — чистый zero-shot. Потом сравнили оценки с человеческими.
Интересная деталь: чтобы отделить «это оригинально» от «это сложно нарисовано», исследователи измерили плотность рёбер (сколько деталей в картинке на уровне пикселей). И обнаружили ловушку: часть совпадения между человеком и моделью — это не общее понимание оригинальности, а просто общая реакция на сложность. После поправки на этот фактор оценки некоторых моделей просели сильнее других.
В Study 2 включили режим "думай вслух" для трёх моделей и разобрали 562 053 предложения рассуждений — классифицировали каждое: воспринимает картинку, оценивает оригинальность, оценивает качество, или обосновывает балл. Выяснилось: если дать другой LLM только текст рассуждений (без картинки), она предсказывает финальный балл достаточно точно. Это доказывает, что рассуждения — честный отчёт о процессе, а не постфактум-оправдание.
Оригинал из исследования
Промпт для AI-сгенерированных изображений (оригинальный английский):
You are evaluating the creativity of AI-generated images. Rate the creativity on a
scale of 1 to 5, where 1 is very uncreative and 5 is very creative. Use the ENTIRE
1 to 5 scale. Provide only a single number as your rating.
Промпт для рукотворных набросков:
You are evaluating the creativity of drawings created by various people in research
studies (not necessarily artists). Rate the creativity on a scale of 1–5, where 1 is
not at all creative and 5 is very creative. Use the ENTIRE 1 to 5 scale for the
rating. Don't hesitate to use extreme values when appropriate. Focus on the
originality of the idea, not the artistic quality. The drawing was created using a
starting image of an incomplete shape, which was incorporated into the drawings.
Provide only a single number between 1 and 5 as your rating, where:
1 = Not at all creative; 2 = Slightly creative; 3 = Moderately creative;
4 = Very creative; 5 = Extremely creative.
Контекст: Исследователи использовали именно эти промпты для всех шести моделей без изменений. Второй промпт богаче первого — и это не случайно: наброски требуют явного снятия акцента с качества исполнения.
Адаптации и экстраполяции
💡 Адаптация: сравнительный ранжир вместо абсолютного балла
Одиночный балл сложно интерпретировать. Лучше — оценить несколько вариантов сразу и получить ранжирование.
Я покажу тебе {число} изображений по очереди.
После каждого ставь оценку оригинальности от 1 до 5.
Шкала: 1 — банально, 5 — очень неожиданная идея.
Оценивай оригинальность идеи, не исполнение.
Изображение 1: [загружаешь]
Изображение 2: [загружаешь]
...
В конце — отсортируй по убыванию оригинальности.
🔧 Техника: явная декомпозиция по 4 измерениям → более управляемая оценка
Исследование показало, что модель внутри себя оценивает четыре вещи: что вижу → оригинальность → качество → обоснование. Если вынести это явно в промпт, качество объяснения растёт:
Оцени это изображение по трём критериям:
1. ЧТО ВИЖУ: опиши что изображено (1 предложение)
2. ОРИГИНАЛЬНОСТЬ (1-5): насколько идея неожиданная и нестандартная
3. КАЧЕСТВО (1-5): насколько хорошо исполнено визуально
Итоговая оценка: поставь финальный балл оригинальности (1-5),
ориентируясь на п.2, а не на п.3.
Это помогает когда нужно не просто балл, а понять — завысила ли модель оценку за красоту.
🔧 Техника: явный "антибиас" для черновиков
Если оцениваешь наброски или черновики — добавь явное снятие бонуса за визуальную сложность:
...Это черновой рисунок, намеренно упрощённый.
Визуальная бедность = не минус.
Оценивай только, насколько ИДЕЯ неожиданна.
Ресурсы
Статья: How LLMs See Creativity: Zero-Shot Scoring of Visual Creativity with Interpretable Reasoning — William Orwig, Roger E. Beaty (2026)
Авторы: William Orwig (Harvard University, Department of Psychology), Roger E. Beaty (Pennsylvania State University, Department of Psychology)
Открытый инструмент для оценки изображений: https://review-visual-eval-scoring.hf.space
