TL;DR
MLLM-as-a-Judge — фреймворк оценки отредактированных изображений через мультимодальную LLM (GPT-4V, Claude), которая выставляет оценки по 12 конкретным факторам вместо одной общей оценки. Вы загружаете оригинал и результат редактирования, модель проверяет: сохранились ли нетронутые области, реалистичен ли масштаб добавленных объектов, совпадает ли освещение, выполнена ли инструкция полностью. По каждому из 12 факторов — балл от 1 до 7 и объяснение.
Традиционные метрики (PSNR, SSIM, LPIPS) измеряют только попиксельное сходство с эталоном. Они ставят высокий балл изображению, где добавили кошку нереалистичного размера с неправильными тенями, но пиксели "похожи". Или занижают оценку качественному редактированию, где изменили освещение сцены, но пиксели отличаются от эталона. Метрики не понимают смысл: выполнена ли инструкция, сохранён ли фон, выглядит ли результат правдоподобно.
Фреймворк делит оценку на 3 категории: сохранение исходного изображения (3 фактора — нетронутые области, общая стилистика, идентичность объектов), качество редактирования (6 факторов — масштаб, пространственные связи, текстура, качество, свет, плавность переходов), следование инструкции (3 фактора — соответствие, полнота, правдоподобность). Вместо загадочной цифры "73.2" вы видите: масштаб 2/7 (кот размером с собаку), освещение 3/7 (тени не с той стороны), инструкция 7/7 (кот добавлен как просили).
Схема метода
ОДНОШАГОВАЯ ОЦЕНКА (один запрос к vision-модели):
ВХОД: Оригинальное изображение + Отредактированное изображение + Инструкция редактирования
ОЦЕНКА ПО 12 ФАКТОРАМ:
Категория 1 — Сохранение исходного (Image Preservation):
→ Нетронутые области (1-7 баллов + обоснование)
→ Общая стилистика (1-7 баллов + обоснование)
→ Идентичность объектов (1-7 баллов + обоснование)
Категория 2 — Качество редактирования (Edit Quality):
→ Масштаб (1-7 баллов + обоснование)
→ Пространственные связи (1-7 баллов + обоснование)
→ Текстура и детали (1-7 баллов + обоснование)
→ Качество изображения (1-7 баллов + обоснование)
→ Цвет и освещение (1-7 баллов + обоснование)
→ Плавность переходов (1-7 баллов + обоснование)
Категория 3 — Следование инструкции (Instruction Fidelity):
→ Соответствие инструкции (1-7 баллов + обоснование)
→ Полнота выполнения (1-7 баллов + обоснование)
→ Правдоподобность (1-7 баллов + обоснование)
ВЫХОД: Таблица с 12 оценками и текстовыми объяснениями для каждого фактора
Пример применения
⚠️ Сильная зона метода: Оценка сложного редактирования, где важны детали (масштаб, освещение, сохранение стиля). НЕ для простых кропов или базовых фильтров.
Задача: Ты заказал дизайнеру оформление карточки товара для Ozon. Дал фото кофемашины на белом фоне, попросил: "Добавь на задний план уютную кухню в скандинавском стиле, сохрани кофемашину без изменений". Получил результат — проверяешь перед публикацией.
Промпт:
Оцени качество редактирования изображения по 12 факторам. Для каждого фактора дай оценку от 1 до 7 и объяснение.
ОРИГИНАЛ: [загружаешь фото кофемашины на белом фоне]
РЕЗУЛЬТАТ: [загружаешь отредактированное изображение]
ИНСТРУКЦИЯ: "Добавь на задний план уютную кухню в скандинавском стиле, сохрани кофемашину без изменений"
12 ФАКТОРОВ ДЛЯ ОЦЕНКИ:
СОХРАНЕНИЕ ИСХОДНОГО ИЗОБРАЖЕНИЯ:
1. Нетронутые области (Unchanged Regions): Кофемашина осталась без изменений?
2. Общая стилистика (Global Consistency): Стиль, композиция, цветовая палитра сохранены?
3. Идентичность объектов (Identity Preservation): Кофемашина сохранила форму, цвет, детали?
КАЧЕСТВО РЕДАКТИРОВАНИЯ:
4. Масштаб (Scale Realism): Пропорции кухни реалистичны относительно кофемашины?
5. Пространственные связи (Spatial Relationship): Кофемашина корректно расположена в пространстве кухни?
6. Текстура и детали (Texture and Detail): Текстуры фона соответствуют детализации кофемашины?
7. Качество изображения (Image Quality): Нет артефактов, размытия, искажений?
8. Цвет и освещение (Color and Lighting): Освещение кухни совпадает с освещением на кофемашине?
9. Плавность переходов (Seamlessness): Граница между кофемашиной и фоном выглядит естественно?
СЛЕДОВАНИЕ ИНСТРУКЦИИ:
10. Соответствие (Alignment): Кухня в скандинавском стиле, как просили?
11. Полнота (Completeness): Все элементы инструкции выполнены (уютная кухня + неизменная кофемашина)?
12. Правдоподобность (Plausibility): Результат выглядит как настоящее фото товара в интерьере?
Формат ответа: таблица с факторами, оценками и обоснованиями.
Результат:
Модель выдаст таблицу из 12 строк: название фактора, балл (1-7), текстовое объяснение. Например: "Освещение — 3/7: на кофемашине свет сверху-справа, на кухонных полках — слева, тени не совпадают". Или "Масштаб — 7/7: размеры столешницы, полок, посуды на заднем плане реалистичны для расстояния от камеры". Видишь конкретно: что исправить дизайнеру, а что уже хорошо. Не загадочное "качество 82%", а 12 понятных критериев с обоснованиями.
Почему это работает
Слабость LLM: Без структуры модель даёт расплывчатые оценки вроде "хорошо" или "неплохо, но есть проблемы". Сложно понять что именно не так, нельзя сравнивать разные результаты по одним критериям.
Сильная сторона MLLM: Мультимодальные модели видят изображения и понимают смысл. Они различают: где масштаб объекта нереален, где освещение не совпадает, где инструкция выполнена наполовину. ChatGPT или Claude с vision отличат "кот добавлен" от "кот добавлен в правильном месте с правильными тенями".
Как метод использует это: 12 факторов — это явная структура мышления для модели. Вместо "оцени редактирование" (модель не знает на что смотреть) даём чек-лист: проверь масштаб, проверь освещение, проверь границы. Модель последовательно оценивает каждый аспект, не пропускает важное. Получаем не интуитивное "мне нравится/не нравится", а диагностику: что сломано, что работает.
Рычаги управления:
- Набор факторов — убери факторы, неважные для твоей задачи (например, "идентичность объектов" если редактируешь пейзаж без людей), добавь свои (например, "соответствие бренд-буку" для корпоративных материалов)
- Шкала оценки — вместо 1-7 используй 1-10 для более тонкой градации, или упрости до 1-5 для быстрой оценки
- Формат вывода — попроси не таблицу, а список с объяснениями, или наоборот — только баллы без текста для пакетной обработки
- Акценты — укажи "особое внимание на освещение и масштаб" если эти аспекты критичны для твоей задачи
Шаблон промпта
Оцени качество редактирования изображения по 12 факторам. Для каждого фактора дай оценку от 1 (плохо) до 7 (отлично) и краткое объяснение.
ОРИГИНАЛЬНОЕ ИЗОБРАЖЕНИЕ: [загрузи]
ОТРЕДАКТИРОВАННОЕ ИЗОБРАЖЕНИЕ: [загрузи]
ИНСТРУКЦИЯ РЕДАКТИРОВАНИЯ: {инструкция_редактирования}
12 ФАКТОРОВ ДЛЯ ОЦЕНКИ:
**СОХРАНЕНИЕ ИСХОДНОГО ИЗОБРАЖЕНИЯ:**
1. **Нетронутые области** (Unchanged Regions)
Вопрос: Части изображения, которые не должны были измениться, остались без изменений?
2. **Общая стилистика** (Global Consistency)
Вопрос: Общий вид (стиль, композиция, цветовая палитра) сохранён вне зоны редактирования?
3. **Идентичность объектов** (Identity Preservation)
Вопрос: Люди, животные, объекты сохранили свою идентичность и узнаваемые черты?
**КАЧЕСТВО РЕДАКТИРОВАНИЯ:**
4. **Масштаб** (Scale Realism)
Вопрос: Размер отредактированного объекта реалистичен относительно других объектов в сцене?
5. **Пространственные связи** (Spatial Relationship)
Вопрос: Пространственные отношения между объектами и перспектива корректны?
6. **Текстура и детали** (Texture and Detail)
Вопрос: Текстура и детализация в зоне редактирования соответствуют окружению?
7. **Качество изображения** (Image Quality)
Вопрос: В изображении нет шума, размытия, неестественных искажений?
8. **Цвет и освещение** (Color and Lighting)
Вопрос: Цвета, тени, освещение в зоне редактирования совпадают с остальным изображением?
9. **Плавность переходов** (Seamlessness)
Вопрос: Граница между отредактированной и нетронутой зоной выглядит естественно?
**СЛЕДОВАНИЕ ИНСТРУКЦИИ:**
10. **Соответствие** (Alignment)
Вопрос: Результат соответствует конкретным правкам, указанным в инструкции?
11. **Полнота** (Completeness)
Вопрос: Все аспекты инструкции выполнены полностью, а не частично?
12. **Правдоподобность** (Plausibility)
Вопрос: Результат выглядит реалистично и правдоподобно в контексте реального мира?
ФОРМАТ ОТВЕТА: Таблица с колонками [Фактор | Оценка (1-7) | Объяснение]
Что подставлять:
- {инструкция_редактирования} — текст инструкции, по которой редактировали изображение (например: "Замени небо на закатное", "Добавь человека справа", "Убери провода с фотографии")
🚀 Быстрый старт — вставь в чат с GPT-4V или Claude:
Вот шаблон оценки редактирования изображений по 12 факторам.
Адаптируй под мою задачу: я хочу оценить {твоя задача}.
Задавай вопросы, чтобы уточнить какие факторы важнее для моей ситуации.
[вставить шаблон выше]
Модель спросит про специфику твоей задачи (коммерческая фотография, личный проект, технические требования) и предложит скорректированный чек-лист — например, добавит "соответствие бренд-буку" для корпоративных материалов или уберёт "идентичность объектов" для пейзажей.
Ограничения
⚠️ Требует мультимодальную модель: Метод работает только с LLM, которые понимают изображения (GPT-4V, Claude 3, Gemini Pro Vision). Текстовые модели не подходят.
⚠️ Субъективность остаётся: Модель может оценить "правдоподобность" иначе чем ты — особенно для креативных, стилизованных правок. Оценки по факторам "масштаб" и "освещение" более объективны, чем "общая стилистика".
⚠️ Не заменяет человеческий глаз для финала: Для критичных материалов (реклама, публикация) используй как первичный фильтр, финальную проверку делай сам. Модель может пропустить нюансы, важные для твоей аудитории.
⚠️ Работает для инструкций на естественном языке: Если редактирование техническое (точная цветокоррекция, удаление по маске пикселей), метод менее полезен — там нужны метрики вроде PSNR.
Ресурсы
Human-Aligned MLLM Judges for Fine-Grained Image Editing Evaluation: A Benchmark, Framework, and Analysis
Runzhou Liu, Hailey Weingord, Sejal Mittal, Prakhar Dungarwal, Anusha Nandula, Bo Ni, Samyadeep Basu, Hongjie Chen, Nesreen K. Ahmed, Li Li, Jiayi Zhang, Koustava Goswami, Subhojyoti Mukherjee, Branislav Kveton, Puneet Mathur, Franck Dernoncourt, Yue Zhao, Yu Wang, Ryan A. Rossi, Zhengzhong Tu, Hongru Du
University of Virginia, Columbia University, Vanderbilt University, Adobe Research, Dolby Laboratories, Cisco Research, University of Southern California, University of Wisconsin-Madison, University of Oregon, Texas A&M University
