3,583 papers
arXiv:2602.13028 76 13 фев. 2026 г. FREE

MLLM-as-a-Judge: 12 факторов для оценки редактирования изображений

КЛЮЧЕВАЯ СУТЬ
Традиционные метрики редактирования изображений дают загадочные цифры вроде "SSIM: 0.847" или "качество 73.2%". Непонятно что исправить: проблема в освещении, масштабе или границах объекта? Метод MLLM-as-a-Judge позволяет получить понятную диагностику каждого аспекта редактирования через мультимодальную LLM (GPT-4V, Claude с vision). Фишка: разложить общую оценку на 12 конкретных факторов – сохранение фона, масштаб объектов, совпадение освещения, выполнение инструкции и ещё 8 критериев. По каждому фактору модель ставит оценку от 1 до 7 и объясняет почему. Вместо "качество 82%" видишь: масштаб 2/7 (кот размером с собаку), освещение 3/7 (тени не с той стороны), инструкция 7/7 (кот добавлен как просили).
Адаптировать под запрос

TL;DR

MLLM-as-a-Judge — фреймворк оценки отредактированных изображений через мультимодальную LLM (GPT-4V, Claude), которая выставляет оценки по 12 конкретным факторам вместо одной общей оценки. Вы загружаете оригинал и результат редактирования, модель проверяет: сохранились ли нетронутые области, реалистичен ли масштаб добавленных объектов, совпадает ли освещение, выполнена ли инструкция полностью. По каждому из 12 факторов — балл от 1 до 7 и объяснение.

Традиционные метрики (PSNR, SSIM, LPIPS) измеряют только попиксельное сходство с эталоном. Они ставят высокий балл изображению, где добавили кошку нереалистичного размера с неправильными тенями, но пиксели "похожи". Или занижают оценку качественному редактированию, где изменили освещение сцены, но пиксели отличаются от эталона. Метрики не понимают смысл: выполнена ли инструкция, сохранён ли фон, выглядит ли результат правдоподобно.

Фреймворк делит оценку на 3 категории: сохранение исходного изображения (3 фактора — нетронутые области, общая стилистика, идентичность объектов), качество редактирования (6 факторов — масштаб, пространственные связи, текстура, качество, свет, плавность переходов), следование инструкции (3 фактора — соответствие, полнота, правдоподобность). Вместо загадочной цифры "73.2" вы видите: масштаб 2/7 (кот размером с собаку), освещение 3/7 (тени не с той стороны), инструкция 7/7 (кот добавлен как просили).


🔬

Схема метода

ОДНОШАГОВАЯ ОЦЕНКА (один запрос к vision-модели):

ВХОД: Оригинальное изображение + Отредактированное изображение + Инструкция редактирования

ОЦЕНКА ПО 12 ФАКТОРАМ:

Категория 1 — Сохранение исходного (Image Preservation):
  → Нетронутые области (1-7 баллов + обоснование)
  → Общая стилистика (1-7 баллов + обоснование)  
  → Идентичность объектов (1-7 баллов + обоснование)

Категория 2 — Качество редактирования (Edit Quality):
  → Масштаб (1-7 баллов + обоснование)
  → Пространственные связи (1-7 баллов + обоснование)
  → Текстура и детали (1-7 баллов + обоснование)
  → Качество изображения (1-7 баллов + обоснование)
  → Цвет и освещение (1-7 баллов + обоснование)
  → Плавность переходов (1-7 баллов + обоснование)

Категория 3 — Следование инструкции (Instruction Fidelity):
  → Соответствие инструкции (1-7 баллов + обоснование)
  → Полнота выполнения (1-7 баллов + обоснование)
  → Правдоподобность (1-7 баллов + обоснование)

ВЫХОД: Таблица с 12 оценками и текстовыми объяснениями для каждого фактора

🚀

Пример применения

⚠️ Сильная зона метода: Оценка сложного редактирования, где важны детали (масштаб, освещение, сохранение стиля). НЕ для простых кропов или базовых фильтров.

Задача: Ты заказал дизайнеру оформление карточки товара для Ozon. Дал фото кофемашины на белом фоне, попросил: "Добавь на задний план уютную кухню в скандинавском стиле, сохрани кофемашину без изменений". Получил результат — проверяешь перед публикацией.

Промпт:

Оцени качество редактирования изображения по 12 факторам. Для каждого фактора дай оценку от 1 до 7 и объяснение.

ОРИГИНАЛ: [загружаешь фото кофемашины на белом фоне]
РЕЗУЛЬТАТ: [загружаешь отредактированное изображение]
ИНСТРУКЦИЯ: "Добавь на задний план уютную кухню в скандинавском стиле, сохрани кофемашину без изменений"

12 ФАКТОРОВ ДЛЯ ОЦЕНКИ:

СОХРАНЕНИЕ ИСХОДНОГО ИЗОБРАЖЕНИЯ:
1. Нетронутые области (Unchanged Regions): Кофемашина осталась без изменений?
2. Общая стилистика (Global Consistency): Стиль, композиция, цветовая палитра сохранены?
3. Идентичность объектов (Identity Preservation): Кофемашина сохранила форму, цвет, детали?

КАЧЕСТВО РЕДАКТИРОВАНИЯ:
4. Масштаб (Scale Realism): Пропорции кухни реалистичны относительно кофемашины?
5. Пространственные связи (Spatial Relationship): Кофемашина корректно расположена в пространстве кухни?
6. Текстура и детали (Texture and Detail): Текстуры фона соответствуют детализации кофемашины?
7. Качество изображения (Image Quality): Нет артефактов, размытия, искажений?
8. Цвет и освещение (Color and Lighting): Освещение кухни совпадает с освещением на кофемашине?
9. Плавность переходов (Seamlessness): Граница между кофемашиной и фоном выглядит естественно?

СЛЕДОВАНИЕ ИНСТРУКЦИИ:
10. Соответствие (Alignment): Кухня в скандинавском стиле, как просили?
11. Полнота (Completeness): Все элементы инструкции выполнены (уютная кухня + неизменная кофемашина)?
12. Правдоподобность (Plausibility): Результат выглядит как настоящее фото товара в интерьере?

Формат ответа: таблица с факторами, оценками и обоснованиями.

Результат:

Модель выдаст таблицу из 12 строк: название фактора, балл (1-7), текстовое объяснение. Например: "Освещение — 3/7: на кофемашине свет сверху-справа, на кухонных полках — слева, тени не совпадают". Или "Масштаб — 7/7: размеры столешницы, полок, посуды на заднем плане реалистичны для расстояния от камеры". Видишь конкретно: что исправить дизайнеру, а что уже хорошо. Не загадочное "качество 82%", а 12 понятных критериев с обоснованиями.


🧠

Почему это работает

Слабость LLM: Без структуры модель даёт расплывчатые оценки вроде "хорошо" или "неплохо, но есть проблемы". Сложно понять что именно не так, нельзя сравнивать разные результаты по одним критериям.

Сильная сторона MLLM: Мультимодальные модели видят изображения и понимают смысл. Они различают: где масштаб объекта нереален, где освещение не совпадает, где инструкция выполнена наполовину. ChatGPT или Claude с vision отличат "кот добавлен" от "кот добавлен в правильном месте с правильными тенями".

Как метод использует это: 12 факторов — это явная структура мышления для модели. Вместо "оцени редактирование" (модель не знает на что смотреть) даём чек-лист: проверь масштаб, проверь освещение, проверь границы. Модель последовательно оценивает каждый аспект, не пропускает важное. Получаем не интуитивное "мне нравится/не нравится", а диагностику: что сломано, что работает.

Рычаги управления:

  • Набор факторов — убери факторы, неважные для твоей задачи (например, "идентичность объектов" если редактируешь пейзаж без людей), добавь свои (например, "соответствие бренд-буку" для корпоративных материалов)
  • Шкала оценки — вместо 1-7 используй 1-10 для более тонкой градации, или упрости до 1-5 для быстрой оценки
  • Формат вывода — попроси не таблицу, а список с объяснениями, или наоборот — только баллы без текста для пакетной обработки
  • Акценты — укажи "особое внимание на освещение и масштаб" если эти аспекты критичны для твоей задачи

📋

Шаблон промпта

Оцени качество редактирования изображения по 12 факторам. Для каждого фактора дай оценку от 1 (плохо) до 7 (отлично) и краткое объяснение.

ОРИГИНАЛЬНОЕ ИЗОБРАЖЕНИЕ: [загрузи]
ОТРЕДАКТИРОВАННОЕ ИЗОБРАЖЕНИЕ: [загрузи]
ИНСТРУКЦИЯ РЕДАКТИРОВАНИЯ: {инструкция_редактирования}

12 ФАКТОРОВ ДЛЯ ОЦЕНКИ:

**СОХРАНЕНИЕ ИСХОДНОГО ИЗОБРАЖЕНИЯ:**

1. **Нетронутые области** (Unchanged Regions)
   Вопрос: Части изображения, которые не должны были измениться, остались без изменений?

2. **Общая стилистика** (Global Consistency)  
   Вопрос: Общий вид (стиль, композиция, цветовая палитра) сохранён вне зоны редактирования?

3. **Идентичность объектов** (Identity Preservation)
   Вопрос: Люди, животные, объекты сохранили свою идентичность и узнаваемые черты?

**КАЧЕСТВО РЕДАКТИРОВАНИЯ:**

4. **Масштаб** (Scale Realism)
   Вопрос: Размер отредактированного объекта реалистичен относительно других объектов в сцене?

5. **Пространственные связи** (Spatial Relationship)
   Вопрос: Пространственные отношения между объектами и перспектива корректны?

6. **Текстура и детали** (Texture and Detail)
   Вопрос: Текстура и детализация в зоне редактирования соответствуют окружению?

7. **Качество изображения** (Image Quality)
   Вопрос: В изображении нет шума, размытия, неестественных искажений?

8. **Цвет и освещение** (Color and Lighting)
   Вопрос: Цвета, тени, освещение в зоне редактирования совпадают с остальным изображением?

9. **Плавность переходов** (Seamlessness)
   Вопрос: Граница между отредактированной и нетронутой зоной выглядит естественно?

**СЛЕДОВАНИЕ ИНСТРУКЦИИ:**

10. **Соответствие** (Alignment)
    Вопрос: Результат соответствует конкретным правкам, указанным в инструкции?

11. **Полнота** (Completeness)
    Вопрос: Все аспекты инструкции выполнены полностью, а не частично?

12. **Правдоподобность** (Plausibility)
    Вопрос: Результат выглядит реалистично и правдоподобно в контексте реального мира?

ФОРМАТ ОТВЕТА: Таблица с колонками [Фактор | Оценка (1-7) | Объяснение]

Что подставлять: - {инструкция_редактирования} — текст инструкции, по которой редактировали изображение (например: "Замени небо на закатное", "Добавь человека справа", "Убери провода с фотографии")

🚀 Быстрый старт — вставь в чат с GPT-4V или Claude:

Вот шаблон оценки редактирования изображений по 12 факторам. 
Адаптируй под мою задачу: я хочу оценить {твоя задача}. 
Задавай вопросы, чтобы уточнить какие факторы важнее для моей ситуации.

[вставить шаблон выше]

Модель спросит про специфику твоей задачи (коммерческая фотография, личный проект, технические требования) и предложит скорректированный чек-лист — например, добавит "соответствие бренд-буку" для корпоративных материалов или уберёт "идентичность объектов" для пейзажей.


⚠️

Ограничения

⚠️ Требует мультимодальную модель: Метод работает только с LLM, которые понимают изображения (GPT-4V, Claude 3, Gemini Pro Vision). Текстовые модели не подходят.

⚠️ Субъективность остаётся: Модель может оценить "правдоподобность" иначе чем ты — особенно для креативных, стилизованных правок. Оценки по факторам "масштаб" и "освещение" более объективны, чем "общая стилистика".

⚠️ Не заменяет человеческий глаз для финала: Для критичных материалов (реклама, публикация) используй как первичный фильтр, финальную проверку делай сам. Модель может пропустить нюансы, важные для твоей аудитории.

⚠️ Работает для инструкций на естественном языке: Если редактирование техническое (точная цветокоррекция, удаление по маске пикселей), метод менее полезен — там нужны метрики вроде PSNR.


🔗

Ресурсы

Human-Aligned MLLM Judges for Fine-Grained Image Editing Evaluation: A Benchmark, Framework, and Analysis

Runzhou Liu, Hailey Weingord, Sejal Mittal, Prakhar Dungarwal, Anusha Nandula, Bo Ni, Samyadeep Basu, Hongjie Chen, Nesreen K. Ahmed, Li Li, Jiayi Zhang, Koustava Goswami, Subhojyoti Mukherjee, Branislav Kveton, Puneet Mathur, Franck Dernoncourt, Yue Zhao, Yu Wang, Ryan A. Rossi, Zhengzhong Tu, Hongru Du

University of Virginia, Columbia University, Vanderbilt University, Adobe Research, Dolby Laboratories, Cisco Research, University of Southern California, University of Wisconsin-Madison, University of Oregon, Texas A&M University


📋 Дайджест исследования

Ключевая суть

Традиционные метрики редактирования изображений дают загадочные цифры вроде "SSIM: 0.847" или "качество 73.2%". Непонятно что исправить: проблема в освещении, масштабе или границах объекта? Метод MLLM-as-a-Judge позволяет получить понятную диагностику каждого аспекта редактирования через мультимодальную LLM (GPT-4V, Claude с vision). Фишка: разложить общую оценку на 12 конкретных факторов – сохранение фона, масштаб объектов, совпадение освещения, выполнение инструкции и ещё 8 критериев. По каждому фактору модель ставит оценку от 1 до 7 и объясняет почему. Вместо "качество 82%" видишь: масштаб 2/7 (кот размером с собаку), освещение 3/7 (тени не с той стороны), инструкция 7/7 (кот добавлен как просили).

Принцип работы

Загружаешь в чат с vision-моделью оригинальное изображение, отредактированную версию и инструкцию редактирования. Даёшь модели чек-лист из 12 факторов, разбитых на 3 категории: сохранение исходного (нетронутые области, общая стилистика, идентичность объектов) → качество правки (масштаб, пространственные связи, текстура, отсутствие артефактов, освещение, плавность переходов) → следование инструкции (соответствие, полнота, правдоподобность). Модель последовательно проверяет каждый аспект, для каждого фактора выдаёт оценку 1-7 и текстовое объяснение. Получаешь таблицу из 12 строк: "Освещение — 3/7: на кофемашине свет сверху-справа, на кухонных полках — слева, тени не совпадают". Видишь конкретно что исправить дизайнеру, а что уже хорошо.

Почему работает

Без структуры модель даёт расплывчатые оценки вроде "хорошо" или "неплохо, но есть проблемы" – сложно понять что именно не так, нельзя сравнивать разные результаты. 12 факторов работают как явная структура мышления для модели. Вместо "оцени редактирование" (модель не знает на что смотреть) даёшь конкретный чек-лист: проверь масштаб, проверь освещение, проверь границы. MLLM видит изображения и понимает смысл – отличит где масштаб объекта нереален, где тени с неправильной стороны, где инструкция выполнена наполовину. Традиционные метрики типа PSNR измеряют только попиксельное сходство с эталоном: поставят высокий балл кошке нереалистичного размера с кривыми тенями (пиксели "похожи"), и занизят оценку качественной правке с изменённым освещением (пиксели отличаются). Метрики не понимают выполнена ли инструкция, сохранён ли фон, выглядит ли результат правдоподобно.

Когда применять

Оценка сложного редактирования изображений → конкретно для проверки работ подрядчиков (дизайнеры, фоторедакторы), контроля качества перед публикацией (карточки товаров, рекламные креативы, соцсети), особенно когда важны детали вроде масштаба объектов, совпадения освещения, сохранения исходного стиля. НЕ подходит для простых операций (кроп, базовые фильтры) или технической цветокоррекции – там нужны классические метрики.

Мини-рецепт

1. Загрузи в чат с vision-моделью (GPT-4V, Claude 3, Gemini Pro Vision) оригинальное изображение и отредактированную версию
2. Укажи инструкцию редактирования: например Добавь на задний план уютную кухню в скандинавском стиле, сохрани кофемашину без изменений
3. Дай список из 12 факторов (см. шаблон ниже) – разбиты на 3 категории: сохранение исходного (3 фактора), качество правки (6 факторов), следование инструкции (3 фактора)
4. Попроси для каждого фактора: оценку от 1 (плохо) до 7 (отлично) + краткое объяснение почему такая оценка
5. Получи таблицу с конкретными проблемами: "Масштаб 2/7: размеры столешницы нереалистичны для расстояния от камеры" или "Освещение 7/7: тени на всех объектах совпадают по направлению"

Примеры

[ПЛОХО] : Оцени качество этого редактирования – модель даст общую расплывчатую оценку "выглядит неплохо, но освещение странное", непонятно что конкретно исправить
[ХОРОШО] : Оцени по 12 факторам. ОРИГИНАЛ: [фото кофемашины на белом]. РЕЗУЛЬТАТ: [с кухней на фоне]. ИНСТРУКЦИЯ: добавь кухню, сохрани кофемашину. ФАКТОРЫ: 1) Нетронутые области – кофемашина осталась без изменений? 2) Масштаб – пропорции кухни реалистичны? 3) Освещение – свет на кофемашине совпадает со светом на кухне? [ещё 9 факторов]. Дай оценку 1-7 + объяснение для каждого – получишь таблицу с конкретикой: где 7/7 (всё отлично), где 3/7 (тени не с той стороны, нужно исправить)
Источник: Human-Aligned MLLM Judges for Fine-Grained Image Editing Evaluation: A Benchmark, Framework, and Analysis
ArXiv ID: 2602.13028 | Сгенерировано: 2026-02-16 15:35

Концепты не выделены.

📖 Простыми словами

Human-Aligned MLLM Judges for Fine-Grained Image Editing Evaluation: A Benchmark, Framework, and Analysis

arXiv: 2602.13028

Суть в том, что мы наконец-то перестаем оценивать работу нейросетей-художников на глазок. Раньше как было: модель отредактировала фотку, а человек или другая нейронка выдает вердикт в духе «ну, вроде норм». Это субъективная чушь, которая не дает понимания, где именно косяк. Новый подход MLLM-as-a-Judge превращает оценку в жесткий технический аудит. Мультимодальная модель (типа GPT-4V) теперь работает как дотошный инспектор: она не просто смотрит на картинку, а раскладывает изменения на 12 конкретных факторов, выставляя баллы от 1 до 7 за каждый чих.

Это как если бы ты заказал ремонт на кухне, а принимать работу пришел не ты с фразой «красиво получилось», а профессиональный прораб с лазерным уровнем и списком ГОСТов. Прораб не скажет «нормально», он ткнет пальцем и заявит: освещение не совпадает на 3 балла, масштаб объектов завален, а вот здесь вы задели стену, которую просили не трогать. Формально ремонт сделан, но по факту — куча мелких косяков, которые обычный глаз пропустит, а системный подход вскроет сразу.

Вместо одного мутного запроса система использует одношаговую детальную оценку. Модель проверяет всё: от сохранения исходных зон, которые нельзя было менять, до того, насколько реалистично вписался новый объект в плане теней и текстур. Если ты просил добавить «тихий блендер» на стол, а модель влепила туда агрегат размером с холодильник, который еще и светится в темноте вопреки логике — MLLM-as-a-Judge влепит ей низкий балл за нарушение пропорций и световой баланс. Это не просто «плохо», это конкретный диагноз с объяснением причин.

Тестировали это на сложных правках изображений, но принцип универсален. Эту логику можно натянуть на любую задачу, где результат работы AI слишком сложен для простой оценки «да/нет». Будь то генерация видео, сложный код или дизайн интерьера — нам больше не нужны расплывчатые эпитеты. Мы переходим в эру, где качество измеряется цифрами, а не ощущениями. Субъективность умирает, метрики рождаются, и это единственный способ заставить нейронки реально прогрессировать, а не просто плодить красивый мусор.

Короче: хватит оценивать генерации по принципу «нравится — не нравится». Нужно внедрять многофакторный скоринг, где каждый аспект — от теней до композиции — имеет свой вес. Без такой линейки мы так и будем гадать, почему одна модель кажется лучше другой, хотя обе лажают в деталях. 12 критериев и жесткая шкала — это единственный путь к предсказуемому результату. Кто не научится так проверять свои модели, тот будет вечно ловить галлюцинации в пикселях и удивляться, почему картинки выглядят криво.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с