3,583 papers
arXiv:2604.03061 72 3 апр. 2026 г. FREE

Fidelity-Constrained Prompting: явное требование сохранить оригинал сокращает галлюцинации AI при обработке фото

КЛЮЧЕВАЯ СУТЬ
Просишь убрать зернистость — получаешь нового человека на месте дедушки, несуществующий фон и внезапно цветное фото вместо чёрно-белого. Это не баг конкретного инструмента — генеративная модель обучена делать 'красиво', а не 'точно как было'. Метод Fidelity-промпта позволяет восстанавливать фото без незапрошенных правок — число грубых искажений падает с двух на фото до половины. Добавь второй блок в промпт с явным запретом менять структуру сцены — модель видит конфликт между 'улучши' и 'не тронь содержимое' и выбирает точность вместо творческой самодеятельности.
Адаптировать под запрос

TL;DR

Когда просишь AI улучшить фото — он часто меняет то, что не просили: добавляет объекты, перекрашивает, искажает лица. Это не баг конкретного инструмента — это системная особенность генеративных моделей. Исследователи обнаружили, что одна добавка к промпту — явное требование сохранить оригинальную структуру — сокращает количество таких незапрошенных изменений в четыре раза.

Главная находка: без фразы про сохранение оригинала модель в среднем вносит два грубых искажения на промпт: вставляет несуществующие объекты, раскрашивает чёрно-белые снимки, меняет форму предметов. Добавишь явное требование сохранить содержимое — число падает до 0.5. Это потому что генеративная модель по умолчанию настроена на «сделать красиво», а не «восстановить точно». Без ограничений она следует своей логике улучшения — и перерисовывает то, что ей кажется лучше.

Метод работает в два шага, оба — в одном промпте. Шаг 1 — описание задачи (убрать шум, размытие, артефакты). Шаг 2 — явный запрет на изменение структуры: сохрани оригинальное содержимое, не меняй идентичность людей, не добавляй то чего не было. Оптимальный размер: 26–30 слов — не длиннее и не короче.


🔬

Схема метода

Один промпт, два блока:

БЛОК 1: Задача восстановления (что улучшить)
→ убрать шум / размытие / артефакты / улучшить чёткость и цвета

БЛОК 2: Ограничение (fidelity constraint)
→ сохрани оригинальное содержимое, структуру сцены, идентичность людей

[Опционально]: Специфика для людей на фото
→ улучши черты лица, не меняя облик человека

Оба блока — в одном запросе к AI.


🚀

Пример применения

Задача: У тебя есть старое семейное фото с советского плёночного аппарата: пятна, зернистость, лёгкое размытие. Хочешь восстановить — но не хочешь, чтобы AI превратил дедушку в незнакомца или добавил несуществующий фон.

Промпт:

Восстанови это изображение: убери зернистость, плёночные артефакты и размытие, 
улучши чёткость и естественные цвета. Сохрани оригинальное содержимое 
и структуру сцены без изменений. Если на фото есть люди — улучши 
чёткость лиц, не меняя их облик и идентичность.

Результат: Модель выдаст восстановленное фото с чищенной зернистостью и лучшей детализацией. Ключевое отличие от промпта без fidelity-части — лица останутся теми же людьми, фон не появится из воздуха, чёрно-белое не превратится в цветное, если этого не было в оригинале. Галлюцинации не исчезнут полностью, но их станет значительно меньше.


🧠

Почему это работает

Генеративная модель обучена на огромном количестве изображений с задачей «сделать качественно». У неё нет встроенного понятия «вот оригинал — не отходи от него». По умолчанию она генерирует то, что выглядит хорошо по её меркам — а это не всегда то, что было на входе.

Это противоречие между перцептивным качеством (выглядит красиво) и точностью восстановления (совпадает с оригиналом). Без ограничен — модель выбирает красоту. Именно поэтому промпты без fidelity-инструкции набирают высокие баллы по субъективному восприятию, но низкие — по объективному совпадению с оригиналом.

Добавив явную инструкцию «сохрани оригинальное содержимое» — ты создаёшь ограничение в пространстве генерации. Модель видит конфликт между «улучши» и «не меняй структуру» и балансирует ближе к оригиналу. Фраза про идентичность людей работает как дополнительный якорь: модели сложнее «решить», что она знает лицо лучше тебя.

Рычаги управления: - Убрать fidelity-блок → больше свободы модели, выше перцептивное качество, выше риск галлюцинаций. Используй если оригинал настолько плох, что верность ему неважна - Усилить fidelity-блок словами «строго», «без каких-либо изменений содержимого» → ещё консервативнее, но может ограничить качество улучшения - Убрать блок про людей → если на фото нет людей, он не нужен и только добавляет шум


📋

Шаблон промпта

Восстанови изображение: убери {тип_дефекта} и улучши {что_улучшить}. 
Сохрани оригинальное содержимое и структуру сцены без изменений. 
{если_есть_люди: Если на фото есть люди — улучши чёткость лиц, 
не меняя их облик и идентичность.}

Что подставлять: - {тип_дефекта} → зернистость, размытие, артефакты сжатия, пятна, царапины, плёночный шум - {что_улучшить} → чёткость и цвета / детализацию / контраст и резкость - {если_есть_люди} → включи блок если на фото портреты или люди в кадре


⚠️

Ограничения

⚠️ Fidelity-якорь не гарантия: Явные инструкции сохранить оригинал сокращают галлюцинации, но не устраняют их полностью. На сложных входах (сильное повреждение, мелкие лица, плотные толпы) нежелательные изменения всё равно появляются.

⚠️ Нестабильность на сложных задачах: Если фото сильно повреждено или содержит мелкие детали (маленькие лица, рукописный текст) — повторный запрос с тем же промптом может дать заметно другой результат: сдвиг цвета, изменение структуры. Для таких случаев стоит сделать 2-3 попытки и выбрать лучший результат.

⚠️ Субъективное качество ниже: Промпты с fidelity-ограничением дают более точные восстановления, но визуально они могут казаться менее впечатляющими, чем версии без ограничений. Если задача — «сделать покрасивее любой ценой» — убери fidelity-блок.

⚠️ Специфика инструмента: Исследование проводилось на конкретной модели для редактирования изображений. Принцип универсален, но точный эффект зависит от того, какой AI-инструмент используешь.


🔍

Как исследовали

Исследователи взяли анонимизированную высокопрофильную модель для редактирования изображений (в статье — «Nano Banana 2», судя по контексту это один из ведущих инструментов 2024–2025 года) и прогнали через неё 35 тестовых изображений с 13 типами сцен и 7 типами повреждений — от расфокуса и плёночного зерна до материалов с видеокамер наблюдения.

12 вариантов промпта тестировали по двум осям: длина (26–47 слов) и наличие fidelity-инструкций. Сравнивали с четырьмя специализированными моделями восстановления изображений. Измеряли и объективное совпадение с оригиналом (PSNR, SSIM), и субъективное восприятие (три no-reference метрики).

Самый показательный результат: без fidelity-инструкций каждый промпт в среднем генерировал два грубых искажения — вставленные объекты, перекраска, изменение формы. С fidelity-инструкциями — 0.5 на промпт, то есть в большинстве случаев всё чисто. Любопытно: промпты без ограничений получали более высокие оценки за красоту — модель рисовала "улучшенную реальность", которая выглядела лучше оригинала, но им не была. Это классический конфликт между «нравится людям» и «соответствует факту».


💡

Адаптации и экстраполяции

📌

🔧 Принцип fidelity-якоря за пределами фото

Тот же механизм работает в текстовых задачах. Когда просишь AI переписать, улучшить или адаптировать текст — он тоже склонен «улучшать» по своим критериям, а не сохранять оригинал.

Аналог fidelity-промпта для текста:

Отредактируй этот текст: исправь ошибки и улучши читаемость.
Сохрани все факты, цифры, структуру аргументов и тон автора без изменений.
Не добавляй новых мыслей — только работай с тем, что уже есть.

Это не из исследования — это логичное применение того же принципа: явное ограничение на изменение содержимого снижает "творческую самодеятельность" модели.

📌

🔧 Три попытки на сложном входе → выбор лучшего

Исследование показало: на сложных изображениях модель нестабильна — разные запуски дают разные результаты. Это не только про фото.

Применение: Если задача сложная и результат критичен — сделай 2-3 запроса с одним промптом и выбери лучший. Это особенно работает для: восстановления текста, генерации структурированного вывода, анализа неоднозначных данных.


🔗

Ресурсы

Can NanoBanana2 Replace Traditional Image Restoration Models? An Evaluation of Its Performance on Image Restoration Tasks GitHub с результатами: https://github.com/yxyuanxiao/NanoBanana2TestOnIR

Авторы: Weixiong Sun (Shenzhen University of Advanced Technology), Xiang Yin (Fudan University), Chao Dong (Shenzhen Institutes of Advanced Technology, Chinese Academy of Sciences)


📋 Дайджест исследования

Ключевая суть

Просишь убрать зернистость — получаешь нового человека на месте дедушки, несуществующий фон и внезапно цветное фото вместо чёрно-белого. Это не баг конкретного инструмента — генеративная модель обучена делать 'красиво', а не 'точно как было'. Метод Fidelity-промпта позволяет восстанавливать фото без незапрошенных правок — число грубых искажений падает с двух на фото до половины. Добавь второй блок в промпт с явным запретом менять структуру сцены — модель видит конфликт между 'улучши' и 'не тронь содержимое' и выбирает точность вместо творческой самодеятельности.

Принцип работы

Стандартный запрос — один блок: 'убери шум, улучши качество'. Модель интерпретирует это свободно и делает что считает нужным. Метод делит промпт на два жёстких блока: что улучшить и что нельзя трогать. Блок 1 — задача: убрать зернистость, размытие, артефакты сжатия. Блок 2 — ограничение верности: сохрани оригинальное содержимое, не меняй структуру сцены, не добавляй то чего не было. Если на фото люди — третья строчка: улучши чёткость лиц, не меняя их облик. Всё в одном запросе, 26–30 слов — не длиннее и не короче.

Почему работает

У модели нет встроенного понятия 'вот оригинал — не отходи от него'. Она обучена на миллионах изображений с одной целью — результат должен выглядеть хорошо по её меркам. Без ограничений генерирует то что красиво, а не то что было на входе. Явный запрет создаёт внутренний конфликт в промпте: 'улучши' против 'не меняй структуру'. Модель вынуждена балансировать — и сдвигается в сторону точности. Именно поэтому промпты без ограничения набирают высокие баллы в опросах 'нравится визуально', но проваливаются по объективному совпадению с оригиналом. Это разные задачи — и модель без подсказки выбирает первую.

Когда применять

Восстановление старых фото → семейные архивы, советские плёночные снимки, сканы с царапинами — особенно когда важна узнаваемость людей. Работа с документами → сканы с артефактами, размытый текст — когда подмена содержимого недопустима. Портретная ретушь → улучшение детализации лица без изменения внешности. НЕ подходит если оригинал настолько повреждён, что верность ему неважна — тогда fidelity-блок только мешает улучшению.

Мини-рецепт

1. Опиши задачу конкретно: что именно хочешь улучшить — зернистость, размытие, артефакты сжатия, царапины, блёклые цвета. Без обобщений вроде 'сделай лучше'.
2. Добавь ограничение верности — обязательно: 'Сохрани оригинальное содержимое и структуру сцены без изменений'. Это второй блок, без него метод не работает.
3. Есть люди на фото — добавь якорь: 'Если на фото есть люди — улучши чёткость лиц, не меняя их облик и идентичность'. Без этой строчки модель чаще всего именно лица и переделывает первыми.
4. Держись в диапазоне 26–30 слов суммарно. Длиннее — акцент на ограничении размывается. Короче — не хватает деталей задачи.

Примеры

[ПЛОХО] : Восстанови старое фото, убери дефекты и улучши качество
[ХОРОШО] : Восстанови изображение: убери зернистость и плёночные артефакты, улучши чёткость и естественные цвета. Сохрани оригинальное содержимое и структуру сцены без изменений. Если на фото есть люди — улучши чёткость лиц, не меняя их облик и идентичность.
Источник: Can NanoBanana2 Replace Traditional Image Restoration Models? An Evaluation of Its Performance on Image Restoration Tasks
ArXiv ID: 2604.03061 | Сгенерировано: 2026-04-06 04:25

Проблемы LLM

ПроблемаСутьКак обойти
Генеративная модель меняет то, о чём не просилиПросишь улучшить изображение или текст. Модель меняет то, что ты не трогал: добавляет объекты, перекрашивает, меняет лица, вставляет информацию. Ты просил убрать дефекты. Она решила «улучшить» по-своему. Это не баг инструмента — модель обучена делать красиво, а не точно. Без явного ограничения она всегда жертвует точностью ради «качества»Добавь второй блок в запрос — явный запрет на изменение структуры. «Сохрани оригинальное содержимое. Не добавляй то, чего не было». Для людей: «не меняй облик и идентичность». Это создаёт ограничение. Модель балансирует ближе к оригиналу

Методы

МетодСуть
Два блока в одном запросе — задача и ограничениеРаздели запрос на два блока. Блок 1 — что сделать: убери {дефект}, улучши {качество}. Блок 2 — что не трогать: сохрани оригинальное содержимое и структуру, не добавляй то, чего не было. Если есть люди: улучши лица, не меняя облик и идентичность. Оба блока — в одном запросе. Почему работает: модель видит конфликт между «улучши» и «не меняй структуру». Этот конфликт сдвигает генерацию ближе к оригиналу. Без второго блока конфликта нет — модель свободно «улучшает». Работает для любой трансформации где важно сохранить содержимое: фото, текст, код, документ. Не работает если оригинал настолько плох, что верность ему неважна — тогда второй блок только мешает
📖 Простыми словами

Can NanoBanana2 Replace Traditional Image RestorationModels? An Evaluation of Its Performance on Image Restoration Tasks

arXiv: 2604.03061

Суть проблемы в том, что современные нейронки при реставрации фото ведут себя как слишком инициативные художники. Когда ты просишь AI убрать шум или подтянуть резкость, он не просто чинит пиксели, а начинает «додумывать» реальность от себя. Для модели генерация нового — это естественное состояние, а сохранение оригинала — досадное ограничение. В итоге вместо восстановленного дедушки ты получаешь глянцевого красавчика, который на него едва похож, потому что нейронка решила, что так будет красивее.

Это похоже на то, как если бы ты отдал старый семейный автомобиль в покраску, а мастер не только обновил цвет, но и самовольно заменил руль на спортивный, а сиденья — на кожу леопарда. Вроде стало новее, но это уже не твоя машина. Мастер просто привык делать «дорого-богато» и искренне не понимает, почему ты недоволен. Ему нужно четко бить по рукам, чтобы он не лез туда, куда его не просили.

Исследователи выяснили, что усмирить этот хаос помогает метод структурного закрепления. Работает это просто: в промпт добавляется жесткий блок команд, который буквально запрещает модели менять геометрию и ключевые черты лица. Оказалось, что одна такая текстовая «надстройка» снижает количество галлюцинаций и левых правок в 4 раза. Вместо того чтобы перерисовывать фото с нуля, AI начинает использовать свои мощности только как умный ластик и кисть, работая строго в границах исходника.

Хотя тест проводили на модели NanoBanana2, этот принцип — универсальная таблетка для любого генеративного софта. Будь то восстановление старых пленок, улучшение медицинских снимков или просто апскейл картинок для сайта — везде работает одно и то же правило. Если не задать жесткие рамки структуры, нейронка превратит реставрацию в свободное творчество, и на выходе получится качественная, но абсолютно чужая картинка.

Короче, забудь про короткие промпты в духе "сделай красиво". Чтобы получить адекватный результат, нужно использовать двухблочную структуру: сначала говоришь, что исправить, а вторым блоком — что категорически нельзя трогать. Контроль структуры важнее качества генерации, иначе ты получишь не восстановление данных, а красивую ложь. Кто научится правильно «заземлять» фантазию нейросети, тот и получит честный апскейл без спецэффектов.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с