3,583 papers
arXiv:2602.18903 75 21 фев. 2026 г. FREE

SCHEMA: семиблочная структура промпта для управляемой генерации изображений

КЛЮЧЕВАЯ СУТЬ
Парадокс: "никаких заваленных вертикалей" работает лучше, чем "добавь прямые вертикали" — 94% против 91%. Небольшая разница, но устойчивая: моделям проще вырезать нежелательное из пространства вариантов, чем точно попасть в нужную точку. SCHEMA строит управление изображением вокруг этой асимметрии — блок PROHIBITIONS здесь главный, а не вспомогательный. Семь структурированных блоков вместо случайного описания: субъект, стиль, свет, фон, композиция, требования и запреты. Первая генерация — рабочая без правок.
Адаптировать под запрос

TL;DR

SCHEMA — это методология, которая заменяет случайные описания в промпте на семь чётких блоков-меток. Каждый блок отвечает за свою переменную: субъект, стиль, освещение, фон, композицию, обязательные элементы и — главное — запреты. Не "красивый интерьер", а HEX: #F5F0E8, 5600K, NO specular reflections.

Главная находка звучит контрринтуитивно: запреты работают лучше, чем требования. Когда просишь "добавь прямые вертикали" — модель выполняет примерно в 91% случаев. Когда говоришь "никаких заваленных вертикалей" — в 94%. Разница небольшая, но закономерная: модели проще вырезать нежелательное, чем точно воспроизвести желаемое. Это верно не только для изображений, но и для любых генеративных задач.

SCHEMA решает ещё одну проблему — дрейф при итерациях. Если переспрашиваешь модель и уточняешь ("сделай светлее", "убери стул"), результат плывёт. Каждая правка тянет изображение в сторону от оригинала. Метод отвечает на это философией единственного запроса: лучше потратить 15 минут на один точный промпт, чем итерировать десять раз.


🔬

Схема метода

Все шаги — в одном промпте. Три уровня сложности:

BASE (< 1 мин) — свободный текст → разведка дефолтных настроек модели

MEDIO (~ 5 мин) — 7 обязательных блоков → рабочий черновик

AVANZATO (> 15 мин) — 7 core + 5 опциональных блоков → финальный
                       продакшн-файл с числовыми спецификациями

Семь блоков MEDIO:

SUBJECT:      Что именно на изображении (материал, размер, состояние)
STYLE:        Тип съёмки / эстетика / референс (Editorial, Product, etc.)
LIGHTING:     Схема света + угол + температура в Кельвинах
BACKGROUND:   Окружение, глубина резкости, материалы поверхностей
COMPOSITION:  Тип кадра, угол съёмки, точка фокуса
MANDATORY:    3-10 конкретных и проверяемых обязательных элементов
PROHIBITIONS: 3-10 конкретных артефактов и дефектов, которых быть не должно

🚀

Пример применения

Задача: Карточка товара для Wildberries — кожаный кошелёк ручной работы, премиум-сегмент. Нужно фото для главного изображения в листинге.

Промпт:

SUBJECT: Men's bifold wallet, full-grain vegetable-tanned leather, 
dark cognac color HEX #8B4513, hand-stitched edges, 
slightly worn patina, closed position

STYLE: Commercial product photography, premium lifestyle editorial, 
clean minimalist aesthetic

LIGHTING: Soft directional studio light from upper left at 45°, 
3200K warm tone, subtle shadow on right side, 
no harsh reflections

BACKGROUND: Light warm grey textured concrete surface HEX #D6D0C8, 
shallow depth of field, background slightly out of focus

COMPOSITION: 3/4 overhead angle, wallet centered, 
slight rotation 15° clockwise, macro detail visible

MANDATORY:
- Leather texture clearly visible with grain detail
- Hand-stitching visible on edges
- Single clean drop shadow under product
- No props or additional objects
- 4:5 portrait aspect ratio

PROHIBITIONS:
- NO specular hotspots on leather surface
- NO blown highlights
- NO visible background seams or gradients
- NO lens distortion
- NO AI-generated artifacts on stitching
- NO overly saturated colors

Результат: Промпт работает в ChatGPT (DALL-E), Midjourney или любом другом генераторе. Блок MANDATORY задаёт что должно быть, блок PROHIBITIONS отсекает типичные артефакты. Результат — технически контролируемый кадр без случайных "фантазий" модели. Первая генерация с высокой вероятностью будет рабочей, без правок.


🧠

Почему это работает

LLM и диффузионные модели плохо работают с размытыми желаниями. "Красивый свет", "профессионально", "качественно" — это не инструкции, это ожидания. Модель заполняет их своими дефолтами. Иногда угадывает, чаще нет.

Модели хорошо работают с ограничениями. Это математически проще: вырезать нежелательное из пространства вариантов легче, чем точно попасть в нужную точку этого пространства. Блок PROHIBITIONS использует эту асимметрию напрямую. Поэтому список запретов — это не "что убрать", это основной инструмент контроля.

Рычаги управления промптом: - Kelvin-значения вместо "тёплый свет" → точная температура - HEX-коды вместо "бежевый фон" → точный цвет - Количество PROHIBITIONS → больше запретов = меньше случайности - Уровень (BASE/MEDIO/AVANZATO) → выбирай по задаче: разведка, черновик или финал


📋

Шаблон промпта

SUBJECT: {что изображено — материал, размер, цвет, состояние}

STYLE: {тип изображения — editorial/commercial/product/storyboard} + 
       {эстетический референс или бренд}

LIGHTING: {схема освещения}, {угол падения света}, {температура в Кельвинах}K

BACKGROUND: {описание окружения}, {материал поверхности}, 
            {глубина резкости}

COMPOSITION: {тип кадра — macro/wide/portrait}, {угол съёмки}, 
             {точка фокуса}

MANDATORY:
- {проверяемый элемент 1}
- {проверяемый элемент 2}
- {проверяемый элемент 3}
[добавь до 10 позиций]

PROHIBITIONS:
- NO {конкретный дефект или артефакт 1}
- NO {конкретный дефект или артефакт 2}
- NO {конкретный дефект или артефакт 3}
[добавь до 10 позиций]

Плейсхолдеры: - {что изображено} — конкретно: не "телефон", а "iPhone 15 Pro, натуральный титан, матовая поверхность, без царапин" - {температура в Кельвинах} — 2700K (свеча) → 3200K (лампа) → 5600K (дневной свет) → 7000K (пасмурно) - {проверяемый элемент} — только то, что можно объективно увидеть на картинке


🚀 Быстрый старт — вставь в чат:

Вот шаблон SCHEMA для генерации изображений. 
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить все блоки правильно.

[вставить шаблон выше]

LLM спросит про тип изображения, референсы, ключевые технические требования и типичные проблемы в этом домене — потому что без этого невозможно заполнить блоки MANDATORY и PROHIBITIONS правильно.


📄

Оригинал из исследования

MEDIO Level — Real Estate Interior:

SUBJECT: Modern Italian-style living room, open floor plan, 
approx. 40 sqm. Main furnishings: white Carrara marble coffee table, 
low-profile cream linen sofa (3-seater), 
minimal brushed brass floor lamp (right side), 
large abstract canvas painting (muted earth tones) — left wall only

STYLE: Architectural interior photography, luxury real estate editorial, 
Dezeen Magazine quality

LIGHTING: Golden hour indirect natural light entering from floor-to-ceiling 
windows (left side), no direct sunbeam, 
color temperature 3800K, secondary ambient fill from ceiling recessed lights (5%)

BACKGROUND: Engineered light oak herringbone parquet floor, 
right wall in raw concrete microcement HEX #C8BFB0, 
back wall open to minimalist kitchen glimpse (unfocused)

COMPOSITION: Wide-angle interior shot at 1.2m height (seated eye level), 
24mm focal length equivalent, slight upward tilt 5°, 
rule of thirds applied — sofa occupying left two-thirds

MANDATORY:
- Perfectly straight vertical lines (walls, lamp pole, window frames)
- Marble texture clearly visible on coffee table surface
- Single art piece on left wall only — no other wall decorations
- Visible natural light gradient on floor from windows
- Reflection of room in marble table surface (soft, not specular)

PROHIBITIONS:
- NO visible television or screen of any type
- NO specular hotspot on marble surface
- NO lens distortion or barrel effect
- NO visible people or human presence (including reflections)
- NO oversaturation of warm tones — maintain neutral white balance accuracy
- NO visible electrical cables or plugs

Контекст: Автор показывает полный MEDIO-промпт для продакшн-съёмки интерьера недвижимости. Это типичная задача из реальной практики — изображение для листинга.


⚠️

Ограничения

⚠️ Специфика модели: Исследование проводилось исключительно на Gemini 3 Pro Image. Принципы переносятся на DALL-E, Midjourney, Flux — но поведение модели при тех же промптах будет разным.

⚠️ Единственный автор: Исследование проводил один практик без независимой академической рецензии. Валидация — 40 участников воркшопа, не слепое контролируемое испытание.

⚠️ Итерации запрещены: Если нужно уточнять результат через диалог — SCHEMA не поможет. Метод работает только в режиме "один точный запрос". Для итеративного уточнения нужны другие подходы.

⚠️ Subjective domains: Для задач без объективно проверяемых критериев (концептуальное искусство, абстракция, "настроение") структура MANDATORY/PROHIBITIONS работает хуже — нечего измерять.


🔍

Как исследовали

Лука Каззанига — практикующий фотограф и продюсер визуального контента — шесть месяцев (сентябрь 2025 — февраль 2026) документировал свою работу с Gemini 3 Pro Image в реальных коммерческих проектах: недвижимость, реклама, editorial. Итог: 621 структурированный промпт, 850 верифицированных API-запросов через Replicate, около 4800 сгенерированных изображений.

Ключевой эксперимент — сравнение пакетной согласованности: одна и та же задача с одинаковыми параметрами генерировалась несколько раз через структурированный SCHEMA-промпт и через неструктурированный свободный текст. Структурированные промпты давали существенно более однородный результат между генерациями — это критично для промышленного продакшна, где нужен предсказуемый выход.

Неожиданная находка: чем конкретнее запрет, тем выше его соблюдение. Исследователь ожидал, что сложность требования будет симметрична для позитивных и негативных инструкций. Оказалось нет: модель исключает нежелательное надёжнее, чем воспроизводит желаемое. Это подтверждается и теоретически — диффузионные модели применяют исключения через фильтры в латентном пространстве, что вычислительно проще, чем точное воспроизведение.

Отдельный корпус — около 300 публично верифицируемых инфографик и визуальных диаграмм. Для задач с текстом и пространственным расположением элементов SCHEMA показала >95% соответствия с первой генерации — исторически одна из самых сложных задач для диффузионных моделей.


💡

Адаптации и экстраполяции

📌

💡 Адаптация для текстовых задач в ChatGPT/Claude

Принцип Constraint-Over-Elaboration работает и в тексте. Запреты точнее ограничивают результат, чем требования.

🔧 Техника: добавь блок PROHIBITIONS в любой текстовый промпт

Напиши пресс-релиз о запуске нашего приложения для учёта финансов.

MANDATORY:
- Упомяни интеграцию со Сбером и Тинькофф
- Укажи, что приложение работает на iOS и Android
- Добавь цитату CEO

PROHIBITIONS:
- NO клише "революционный" и "инновационный"
- NO пассивный залог
- NO упоминания конкурентов
- NO фраз про "уникальное предложение" без конкретики
- NO абзацев длиннее 3 предложений

Блок PROHIBITIONS сокращает пространство возможных ответов сильнее, чем описание желаемого. Работает для копирайтинга, деловых писем, аналитики — везде где есть типичные нежелательные паттерны.


🔧 Техника: BASE-уровень как диагностика

Прежде чем формулировать детальный промпт — попроси модель показать свои дефолты:

Сгенерируй [тип изображения/текста] про [тему].
Никаких ограничений, только твои дефолтные предположения.

Посмотри что получилось. Теперь ты знаешь с чем именно бороться в блоке PROHIBITIONS — не гадаешь, а видишь реальные дефолты этой модели.


🔗

Ресурсы

SCHEMA Method v1.0 — депонирована 11 декабря 2025, ProtectMyWork.com, Reference: 19316111225S089

Zenodo: doi:10.5281/zenodo.18721380

Автор: Luca Cazzaniga — Independent Researcher, AI-Assisted Visual Production (luca@lucacazzaniga.com)

Связанные работы: - Liu & Chilton (2021) — Design Guidelines for Prompt Engineering Text-to-Image Generative Models (CHI 2022) - Lee & Park (2025) — A Structured Prompt Framework for AI-Generated Biophilic Architectural Spaces, Journal of Building Engineering - Ho & Salimans (2022) — Classifier-Free Diffusion Guidance


📋 Дайджест исследования

Ключевая суть

Парадокс: "никаких заваленных вертикалей" работает лучше, чем "добавь прямые вертикали" — 94% против 91%. Небольшая разница, но устойчивая: моделям проще вырезать нежелательное из пространства вариантов, чем точно попасть в нужную точку. SCHEMA строит управление изображением вокруг этой асимметрии — блок PROHIBITIONS здесь главный, а не вспомогательный. Семь структурированных блоков вместо случайного описания: субъект, стиль, свет, фон, композиция, требования и запреты. Первая генерация — рабочая без правок.

Принцип работы

"Красивый свет" — это ожидание. Модель заполняет его своими дефолтами. Иногда угадывает, чаще нет. "3200K, под углом 45° слева" — это инструкция. Модель не угадывает "тёплый" — она читает конкретное число. Числа (Кельвины, HEX-коды) убирают субъективные прилагательные из промпта — и модель перестаёт фантазировать. Три уровня глубины под разные задачи: BASE — свободный текст за минуту (разведка дефолтов), MEDIO — семь обязательных блоков за пять минут (рабочий черновик), AVANZATO — двенадцать блоков с числовыми характеристиками за пятнадцать минут (финальный файл).

Почему работает

Пространство возможных изображений огромно. Попасть через описание желаемого в нужную точку — сложно. Отсечь нежелательные зоны через запреты — проще. Это математическая асимметрия, не интуиция. Чем длиннее блок PROHIBITIONS, тем меньше пространство для "фантазий" модели — и тем выше шанс что первая генерация попадёт куда нужно. Второй враг — дрейф при правках: каждое "сделай светлее" или "убери стул" тянет результат в сторону от оригинала. SCHEMA отвечает на это философией единственного запроса: лучше потратить пятнадцать минут на точный промпт, чем итерировать десять раз.

Когда применять

Карточки товаров и предметная съёмка — для листингов на маркетплейсах и каталогов, особенно когда нужна воспроизводимость: один стиль для пятидесяти позиций подряд. Подходит для любого генератора — ChatGPT с DALL-E, Midjourney, Stable Diffusion, Gemini. НЕ подходит для быстрого эскиза или исследования возможностей модели — там достаточно уровня BASE, полная структура будет избыточной.

Мини-рецепт

1. Опиши субъект точно: не "кошелёк", а "мужской бумажник, кожа полного зерна, тёмный коньяк HEX #8B4513, ручная строчка по краям, без царапин"
2. Укажи стиль съёмки: editorial/commercial/product — и эстетический референс или бренд
3. Задай свет цифрами: схема освещения + угол падения + температура в Кельвинах. Шкала: 2700K — свеча, 3200K — лампа, 5600K — дневной свет, 7000K — пасмурно
4. Опиши фон технически: материал поверхности + HEX цвета фона + глубина резкости
5. Зафиксируй композицию: тип кадра (macro/wide/portrait) + угол съёмки + точка фокуса
6. Блок MANDATORY: 3-10 проверяемых элементов. Только то, что можно объективно увидеть на картинке — не "качественно", а "зернистость кожи видна в деталях"
7. Блок PROHIBITIONS — главный: 3-10 конкретных дефектов с NO перед каждым. Чем длиннее список, тем меньше случайности. Не "без артефактов", а "NO specular hotspots, NO lens distortion, NO AI artifacts on stitching"

Примеры

[ПЛОХО] : Сфотографируй кожаный кошелёк красиво, профессиональный свет, чистый фон
[ХОРОШО] : SUBJECT: Men's bifold wallet, full-grain leather, dark cognac HEX #8B4513, hand-stitched edges, closed position STYLE: Commercial product photography, clean minimalist LIGHTING: Soft light from upper left 45°, 3200K, subtle shadow right side BACKGROUND: Light warm grey concrete HEX #D6D0C8, shallow depth of field COMPOSITION: 3/4 overhead angle, 15° clockwise rotation, macro detail visible MANDATORY: - Leather grain clearly visible - Hand-stitching visible on edges - 4:5 portrait aspect ratio PROHIBITIONS: - NO specular hotspots on leather - NO blown highlights - NO lens distortion - NO AI artifacts on stitching - NO overly saturated colors
Источник: SCHEMA for Gemini 3 Pro Image: A Structured Methodology for Controlled AI Image Generation on Google's Native Multimodal Model
ArXiv ID: 2602.18903 | Сгенерировано: 2026-02-24 05:28

Проблемы LLM

ПроблемаСутьКак обойти
Каждое уточнение уводит результат в сторонуПросишь "сделай светлее" — модель становится светлее, но теряет другие детали. Следующая правка тянет ещё дальше. После пяти итераций результат не похож на исходную задачу. Проблема универсальна: текст, код, изображения — везде каждая правка меняет контекст и сдвигает всё остальноеВложи 15 минут в один точный запрос вместо десяти правок. Используй именованные блоки с конкретными значениями. Сначала определи ЧТО НЕЛЬЗЯ — это стабилизирует результат лучше, чем список требований

Методы

МетодСуть
Блок запретов как основной рычаг контроляВ запросе выдели отдельный блок PROHIBITIONS: — список конкретных артефактов и дефектов. Пиши: NO {конкретный дефект}. Не "хорошее освещение", а NO harsh shadows. Не "без ошибок", а NO misaligned elements. Почему работает: вырезать нежелательное из пространства вариантов математически проще, чем попасть точно в нужное. Запрет сужает зону. Требование заставляет угадывать. Когда применять: любая генерация где есть типичные артефакты и дефекты — изображения, код, тексты по шаблону. Когда не работает: творческие задачи без чёткого критерия "правильно/неправильно"

Тезисы

ТезисКомментарий
Запреты точнее требований при генерацииСкажи модели "добавь ровные вертикали" — выполнит примерно в 91% случаев. Скажи "никаких заваленных вертикалей" — в 94%. Разница небольшая, но стабильная. Механика: требование задаёт точку в огромном пространстве вариантов — модель должна угадать. Запрет отсекает зону — модели нужно просто не туда идти. Это проще. Применяй: добавь блок запретов в любой точный запрос. Сначала пиши что НЕЛЬЗЯ — потом что нужно
📖 Простыми словами

SCHEMA forGemini3 Pro Image: A Structured Methodology for Controlled AI Image Generation on Google's Native MultimodalModel

arXiv: 2602.18903

Нейросети для генерации картинок — это не художники с тонкой душевной организацией, а исполнительные, но туповатые работяги. Когда ты пишешь им «сделай красиво», они лезут в свои средние по больнице настройки и выдают рандомную фигню. Метод SCHEMA ломает эту привычку: он превращает хаотичный поток мыслей в структурированный чертеж. Вместо того чтобы надеяться на интуицию модели, ты жестко задаешь параметры через семь блоков-меток, не оставляя ИИ шанса на самодеятельность.

Это как собирать мебель из IKEA по инструкции против попытки собрать её «по памяти» после бутылки вина. В первом случае у тебя четкий алгоритм и предсказуемый шкаф, во втором — лишние детали и кривая тумбочка. SCHEMA — это та самая инструкция, где каждый винтик (свет, композиция, запреты) прописан заранее. Ты не просишь «уютную комнату», ты диктуешь цветовую температуру 5600K и конкретный HEX-код, чтобы на выходе получить именно то, что задумал, а не то, что нейронке показалось симпатичным.

Внутри метода работают конкретные рычаги: субъект, стиль, освещение, фон, композиция, обязательные элементы и критически важный блок Negative Constraints. Последний — это буквально список того, чего не должно быть в кадре, например, NO specular reflections. Если тебе нужно фото кошелька для маркетплейса, ты не пишешь «премиально», ты задаешь макросъемку, мягкий боковой свет и отсутствие лишних теней. Это превращает генерацию из лотереи в инженерную задачу с гарантированным результатом.

Хотя исследование проводили на Gemini 1.5 Pro, этот подход — универсальный скелет для любой серьезной модели, будь то Midjourney или Stable Diffusion. Принцип работает везде, где нужно выжать из нейронки коммерческое качество вместо любительских картинок. Это переход от «поиграться с промптами» к промышленному дизайну контента, где результат на 100% повторяем и контролируем. SEO для картинок уходит в прошлое, на смену приходит жесткая структура данных.

Короче: завязывай с эпитетами и надейся на авось — начни говорить с нейросетью на языке параметров. SCHEMA доказывает, что контроль над картинкой стоит на семи столпах, и если ты их игнорируешь, то получаешь визуальный шум вместо продукта. Либо ты диктуешь условия через структурированные блоки, либо нейронка кормит тебя своими галлюцинациями. Кто освоит этот «чертежный» подход, тот перестанет тратить часы на перегенерации и начнет выдавать результат с первой попытки.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с