TL;DR
Когда просишь AI улучшить фото — он часто меняет то, что не просили: добавляет объекты, перекрашивает, искажает лица. Это не баг конкретного инструмента — это системная особенность генеративных моделей. Исследователи обнаружили, что одна добавка к промпту — явное требование сохранить оригинальную структуру — сокращает количество таких незапрошенных изменений в четыре раза.
Главная находка: без фразы про сохранение оригинала модель в среднем вносит два грубых искажения на промпт: вставляет несуществующие объекты, раскрашивает чёрно-белые снимки, меняет форму предметов. Добавишь явное требование сохранить содержимое — число падает до 0.5. Это потому что генеративная модель по умолчанию настроена на «сделать красиво», а не «восстановить точно». Без ограничений она следует своей логике улучшения — и перерисовывает то, что ей кажется лучше.
Метод работает в два шага, оба — в одном промпте. Шаг 1 — описание задачи (убрать шум, размытие, артефакты). Шаг 2 — явный запрет на изменение структуры: сохрани оригинальное содержимое, не меняй идентичность людей, не добавляй то чего не было. Оптимальный размер: 26–30 слов — не длиннее и не короче.
Схема метода
Один промпт, два блока:
БЛОК 1: Задача восстановления (что улучшить)
→ убрать шум / размытие / артефакты / улучшить чёткость и цвета
БЛОК 2: Ограничение (fidelity constraint)
→ сохрани оригинальное содержимое, структуру сцены, идентичность людей
[Опционально]: Специфика для людей на фото
→ улучши черты лица, не меняя облик человека
Оба блока — в одном запросе к AI.
Пример применения
Задача: У тебя есть старое семейное фото с советского плёночного аппарата: пятна, зернистость, лёгкое размытие. Хочешь восстановить — но не хочешь, чтобы AI превратил дедушку в незнакомца или добавил несуществующий фон.
Промпт:
Восстанови это изображение: убери зернистость, плёночные артефакты и размытие,
улучши чёткость и естественные цвета. Сохрани оригинальное содержимое
и структуру сцены без изменений. Если на фото есть люди — улучши
чёткость лиц, не меняя их облик и идентичность.
Результат: Модель выдаст восстановленное фото с чищенной зернистостью и лучшей детализацией. Ключевое отличие от промпта без fidelity-части — лица останутся теми же людьми, фон не появится из воздуха, чёрно-белое не превратится в цветное, если этого не было в оригинале. Галлюцинации не исчезнут полностью, но их станет значительно меньше.
Почему это работает
Генеративная модель обучена на огромном количестве изображений с задачей «сделать качественно». У неё нет встроенного понятия «вот оригинал — не отходи от него». По умолчанию она генерирует то, что выглядит хорошо по её меркам — а это не всегда то, что было на входе.
Это противоречие между перцептивным качеством (выглядит красиво) и точностью восстановления (совпадает с оригиналом). Без ограничен — модель выбирает красоту. Именно поэтому промпты без fidelity-инструкции набирают высокие баллы по субъективному восприятию, но низкие — по объективному совпадению с оригиналом.
Добавив явную инструкцию «сохрани оригинальное содержимое» — ты создаёшь ограничение в пространстве генерации. Модель видит конфликт между «улучши» и «не меняй структуру» и балансирует ближе к оригиналу. Фраза про идентичность людей работает как дополнительный якорь: модели сложнее «решить», что она знает лицо лучше тебя.
Рычаги управления: - Убрать fidelity-блок → больше свободы модели, выше перцептивное качество, выше риск галлюцинаций. Используй если оригинал настолько плох, что верность ему неважна - Усилить fidelity-блок словами «строго», «без каких-либо изменений содержимого» → ещё консервативнее, но может ограничить качество улучшения - Убрать блок про людей → если на фото нет людей, он не нужен и только добавляет шум
Шаблон промпта
Восстанови изображение: убери {тип_дефекта} и улучши {что_улучшить}.
Сохрани оригинальное содержимое и структуру сцены без изменений.
{если_есть_люди: Если на фото есть люди — улучши чёткость лиц,
не меняя их облик и идентичность.}
Что подставлять:
- {тип_дефекта} → зернистость, размытие, артефакты сжатия, пятна, царапины, плёночный шум
- {что_улучшить} → чёткость и цвета / детализацию / контраст и резкость
- {если_есть_люди} → включи блок если на фото портреты или люди в кадре
Ограничения
⚠️ Fidelity-якорь не гарантия: Явные инструкции сохранить оригинал сокращают галлюцинации, но не устраняют их полностью. На сложных входах (сильное повреждение, мелкие лица, плотные толпы) нежелательные изменения всё равно появляются.
⚠️ Нестабильность на сложных задачах: Если фото сильно повреждено или содержит мелкие детали (маленькие лица, рукописный текст) — повторный запрос с тем же промптом может дать заметно другой результат: сдвиг цвета, изменение структуры. Для таких случаев стоит сделать 2-3 попытки и выбрать лучший результат.
⚠️ Субъективное качество ниже: Промпты с fidelity-ограничением дают более точные восстановления, но визуально они могут казаться менее впечатляющими, чем версии без ограничений. Если задача — «сделать покрасивее любой ценой» — убери fidelity-блок.
⚠️ Специфика инструмента: Исследование проводилось на конкретной модели для редактирования изображений. Принцип универсален, но точный эффект зависит от того, какой AI-инструмент используешь.
Как исследовали
Исследователи взяли анонимизированную высокопрофильную модель для редактирования изображений (в статье — «Nano Banana 2», судя по контексту это один из ведущих инструментов 2024–2025 года) и прогнали через неё 35 тестовых изображений с 13 типами сцен и 7 типами повреждений — от расфокуса и плёночного зерна до материалов с видеокамер наблюдения.
12 вариантов промпта тестировали по двум осям: длина (26–47 слов) и наличие fidelity-инструкций. Сравнивали с четырьмя специализированными моделями восстановления изображений. Измеряли и объективное совпадение с оригиналом (PSNR, SSIM), и субъективное восприятие (три no-reference метрики).
Самый показательный результат: без fidelity-инструкций каждый промпт в среднем генерировал два грубых искажения — вставленные объекты, перекраска, изменение формы. С fidelity-инструкциями — 0.5 на промпт, то есть в большинстве случаев всё чисто. Любопытно: промпты без ограничений получали более высокие оценки за красоту — модель рисовала "улучшенную реальность", которая выглядела лучше оригинала, но им не была. Это классический конфликт между «нравится людям» и «соответствует факту».
Адаптации и экстраполяции
🔧 Принцип fidelity-якоря за пределами фото
Тот же механизм работает в текстовых задачах. Когда просишь AI переписать, улучшить или адаптировать текст — он тоже склонен «улучшать» по своим критериям, а не сохранять оригинал.
Аналог fidelity-промпта для текста:
Отредактируй этот текст: исправь ошибки и улучши читаемость.
Сохрани все факты, цифры, структуру аргументов и тон автора без изменений.
Не добавляй новых мыслей — только работай с тем, что уже есть.
Это не из исследования — это логичное применение того же принципа: явное ограничение на изменение содержимого снижает "творческую самодеятельность" модели.
🔧 Три попытки на сложном входе → выбор лучшего
Исследование показало: на сложных изображениях модель нестабильна — разные запуски дают разные результаты. Это не только про фото.
Применение: Если задача сложная и результат критичен — сделай 2-3 запроса с одним промптом и выбери лучший. Это особенно работает для: восстановления текста, генерации структурированного вывода, анализа неоднозначных данных.
Ресурсы
Can NanoBanana2 Replace Traditional Image Restoration Models? An Evaluation of Its Performance on Image Restoration Tasks GitHub с результатами: https://github.com/yxyuanxiao/NanoBanana2TestOnIR
Авторы: Weixiong Sun (Shenzhen University of Advanced Technology), Xiang Yin (Fudan University), Chao Dong (Shenzhen Institutes of Advanced Technology, Chinese Academy of Sciences)
