TL;DR
SCHEMA — это методология, которая заменяет случайные описания в промпте на семь чётких блоков-меток. Каждый блок отвечает за свою переменную: субъект, стиль, освещение, фон, композицию, обязательные элементы и — главное — запреты. Не "красивый интерьер", а HEX: #F5F0E8, 5600K, NO specular reflections.
Главная находка звучит контрринтуитивно: запреты работают лучше, чем требования. Когда просишь "добавь прямые вертикали" — модель выполняет примерно в 91% случаев. Когда говоришь "никаких заваленных вертикалей" — в 94%. Разница небольшая, но закономерная: модели проще вырезать нежелательное, чем точно воспроизвести желаемое. Это верно не только для изображений, но и для любых генеративных задач.
SCHEMA решает ещё одну проблему — дрейф при итерациях. Если переспрашиваешь модель и уточняешь ("сделай светлее", "убери стул"), результат плывёт. Каждая правка тянет изображение в сторону от оригинала. Метод отвечает на это философией единственного запроса: лучше потратить 15 минут на один точный промпт, чем итерировать десять раз.
Схема метода
Все шаги — в одном промпте. Три уровня сложности:
BASE (< 1 мин) — свободный текст → разведка дефолтных настроек модели
MEDIO (~ 5 мин) — 7 обязательных блоков → рабочий черновик
AVANZATO (> 15 мин) — 7 core + 5 опциональных блоков → финальный
продакшн-файл с числовыми спецификациями
Семь блоков MEDIO:
SUBJECT: Что именно на изображении (материал, размер, состояние)
STYLE: Тип съёмки / эстетика / референс (Editorial, Product, etc.)
LIGHTING: Схема света + угол + температура в Кельвинах
BACKGROUND: Окружение, глубина резкости, материалы поверхностей
COMPOSITION: Тип кадра, угол съёмки, точка фокуса
MANDATORY: 3-10 конкретных и проверяемых обязательных элементов
PROHIBITIONS: 3-10 конкретных артефактов и дефектов, которых быть не должно
Пример применения
Задача: Карточка товара для Wildberries — кожаный кошелёк ручной работы, премиум-сегмент. Нужно фото для главного изображения в листинге.
Промпт:
SUBJECT: Men's bifold wallet, full-grain vegetable-tanned leather,
dark cognac color HEX #8B4513, hand-stitched edges,
slightly worn patina, closed position
STYLE: Commercial product photography, premium lifestyle editorial,
clean minimalist aesthetic
LIGHTING: Soft directional studio light from upper left at 45°,
3200K warm tone, subtle shadow on right side,
no harsh reflections
BACKGROUND: Light warm grey textured concrete surface HEX #D6D0C8,
shallow depth of field, background slightly out of focus
COMPOSITION: 3/4 overhead angle, wallet centered,
slight rotation 15° clockwise, macro detail visible
MANDATORY:
- Leather texture clearly visible with grain detail
- Hand-stitching visible on edges
- Single clean drop shadow under product
- No props or additional objects
- 4:5 portrait aspect ratio
PROHIBITIONS:
- NO specular hotspots on leather surface
- NO blown highlights
- NO visible background seams or gradients
- NO lens distortion
- NO AI-generated artifacts on stitching
- NO overly saturated colors
Результат:
Промпт работает в ChatGPT (DALL-E), Midjourney или любом другом генераторе. Блок MANDATORY задаёт что должно быть, блок PROHIBITIONS отсекает типичные артефакты. Результат — технически контролируемый кадр без случайных "фантазий" модели. Первая генерация с высокой вероятностью будет рабочей, без правок.
Почему это работает
LLM и диффузионные модели плохо работают с размытыми желаниями. "Красивый свет", "профессионально", "качественно" — это не инструкции, это ожидания. Модель заполняет их своими дефолтами. Иногда угадывает, чаще нет.
Модели хорошо работают с ограничениями. Это математически проще: вырезать нежелательное из пространства вариантов легче, чем точно попасть в нужную точку этого пространства. Блок PROHIBITIONS использует эту асимметрию напрямую. Поэтому список запретов — это не "что убрать", это основной инструмент контроля.
Рычаги управления промптом: - Kelvin-значения вместо "тёплый свет" → точная температура - HEX-коды вместо "бежевый фон" → точный цвет - Количество PROHIBITIONS → больше запретов = меньше случайности - Уровень (BASE/MEDIO/AVANZATO) → выбирай по задаче: разведка, черновик или финал
Шаблон промпта
SUBJECT: {что изображено — материал, размер, цвет, состояние}
STYLE: {тип изображения — editorial/commercial/product/storyboard} +
{эстетический референс или бренд}
LIGHTING: {схема освещения}, {угол падения света}, {температура в Кельвинах}K
BACKGROUND: {описание окружения}, {материал поверхности},
{глубина резкости}
COMPOSITION: {тип кадра — macro/wide/portrait}, {угол съёмки},
{точка фокуса}
MANDATORY:
- {проверяемый элемент 1}
- {проверяемый элемент 2}
- {проверяемый элемент 3}
[добавь до 10 позиций]
PROHIBITIONS:
- NO {конкретный дефект или артефакт 1}
- NO {конкретный дефект или артефакт 2}
- NO {конкретный дефект или артефакт 3}
[добавь до 10 позиций]
Плейсхолдеры:
- {что изображено} — конкретно: не "телефон", а "iPhone 15 Pro, натуральный титан, матовая поверхность, без царапин"
- {температура в Кельвинах} — 2700K (свеча) → 3200K (лампа) → 5600K (дневной свет) → 7000K (пасмурно)
- {проверяемый элемент} — только то, что можно объективно увидеть на картинке
🚀 Быстрый старт — вставь в чат:
Вот шаблон SCHEMA для генерации изображений.
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить все блоки правильно.
[вставить шаблон выше]
LLM спросит про тип изображения, референсы, ключевые технические требования и типичные проблемы в этом домене — потому что без этого невозможно заполнить блоки MANDATORY и PROHIBITIONS правильно.
Оригинал из исследования
MEDIO Level — Real Estate Interior:
SUBJECT: Modern Italian-style living room, open floor plan,
approx. 40 sqm. Main furnishings: white Carrara marble coffee table,
low-profile cream linen sofa (3-seater),
minimal brushed brass floor lamp (right side),
large abstract canvas painting (muted earth tones) — left wall only
STYLE: Architectural interior photography, luxury real estate editorial,
Dezeen Magazine quality
LIGHTING: Golden hour indirect natural light entering from floor-to-ceiling
windows (left side), no direct sunbeam,
color temperature 3800K, secondary ambient fill from ceiling recessed lights (5%)
BACKGROUND: Engineered light oak herringbone parquet floor,
right wall in raw concrete microcement HEX #C8BFB0,
back wall open to minimalist kitchen glimpse (unfocused)
COMPOSITION: Wide-angle interior shot at 1.2m height (seated eye level),
24mm focal length equivalent, slight upward tilt 5°,
rule of thirds applied — sofa occupying left two-thirds
MANDATORY:
- Perfectly straight vertical lines (walls, lamp pole, window frames)
- Marble texture clearly visible on coffee table surface
- Single art piece on left wall only — no other wall decorations
- Visible natural light gradient on floor from windows
- Reflection of room in marble table surface (soft, not specular)
PROHIBITIONS:
- NO visible television or screen of any type
- NO specular hotspot on marble surface
- NO lens distortion or barrel effect
- NO visible people or human presence (including reflections)
- NO oversaturation of warm tones — maintain neutral white balance accuracy
- NO visible electrical cables or plugs
Контекст: Автор показывает полный MEDIO-промпт для продакшн-съёмки интерьера недвижимости. Это типичная задача из реальной практики — изображение для листинга.
Ограничения
⚠️ Специфика модели: Исследование проводилось исключительно на Gemini 3 Pro Image. Принципы переносятся на DALL-E, Midjourney, Flux — но поведение модели при тех же промптах будет разным.
⚠️ Единственный автор: Исследование проводил один практик без независимой академической рецензии. Валидация — 40 участников воркшопа, не слепое контролируемое испытание.
⚠️ Итерации запрещены: Если нужно уточнять результат через диалог — SCHEMA не поможет. Метод работает только в режиме "один точный запрос". Для итеративного уточнения нужны другие подходы.
⚠️ Subjective domains: Для задач без объективно проверяемых критериев (концептуальное искусство, абстракция, "настроение") структура MANDATORY/PROHIBITIONS работает хуже — нечего измерять.
Как исследовали
Лука Каззанига — практикующий фотограф и продюсер визуального контента — шесть месяцев (сентябрь 2025 — февраль 2026) документировал свою работу с Gemini 3 Pro Image в реальных коммерческих проектах: недвижимость, реклама, editorial. Итог: 621 структурированный промпт, 850 верифицированных API-запросов через Replicate, около 4800 сгенерированных изображений.
Ключевой эксперимент — сравнение пакетной согласованности: одна и та же задача с одинаковыми параметрами генерировалась несколько раз через структурированный SCHEMA-промпт и через неструктурированный свободный текст. Структурированные промпты давали существенно более однородный результат между генерациями — это критично для промышленного продакшна, где нужен предсказуемый выход.
Неожиданная находка: чем конкретнее запрет, тем выше его соблюдение. Исследователь ожидал, что сложность требования будет симметрична для позитивных и негативных инструкций. Оказалось нет: модель исключает нежелательное надёжнее, чем воспроизводит желаемое. Это подтверждается и теоретически — диффузионные модели применяют исключения через фильтры в латентном пространстве, что вычислительно проще, чем точное воспроизведение.
Отдельный корпус — около 300 публично верифицируемых инфографик и визуальных диаграмм. Для задач с текстом и пространственным расположением элементов SCHEMA показала >95% соответствия с первой генерации — исторически одна из самых сложных задач для диффузионных моделей.
Адаптации и экстраполяции
💡 Адаптация для текстовых задач в ChatGPT/Claude
Принцип Constraint-Over-Elaboration работает и в тексте. Запреты точнее ограничивают результат, чем требования.
🔧 Техника: добавь блок PROHIBITIONS в любой текстовый промпт
Напиши пресс-релиз о запуске нашего приложения для учёта финансов.
MANDATORY:
- Упомяни интеграцию со Сбером и Тинькофф
- Укажи, что приложение работает на iOS и Android
- Добавь цитату CEO
PROHIBITIONS:
- NO клише "революционный" и "инновационный"
- NO пассивный залог
- NO упоминания конкурентов
- NO фраз про "уникальное предложение" без конкретики
- NO абзацев длиннее 3 предложений
Блок PROHIBITIONS сокращает пространство возможных ответов сильнее, чем описание желаемого. Работает для копирайтинга, деловых писем, аналитики — везде где есть типичные нежелательные паттерны.
🔧 Техника: BASE-уровень как диагностика
Прежде чем формулировать детальный промпт — попроси модель показать свои дефолты:
Сгенерируй [тип изображения/текста] про [тему].
Никаких ограничений, только твои дефолтные предположения.
Посмотри что получилось. Теперь ты знаешь с чем именно бороться в блоке PROHIBITIONS — не гадаешь, а видишь реальные дефолты этой модели.
Ресурсы
SCHEMA Method v1.0 — депонирована 11 декабря 2025, ProtectMyWork.com, Reference: 19316111225S089
Zenodo: doi:10.5281/zenodo.18721380
Автор: Luca Cazzaniga — Independent Researcher, AI-Assisted Visual Production (luca@lucacazzaniga.com)
Связанные работы: - Liu & Chilton (2021) — Design Guidelines for Prompt Engineering Text-to-Image Generative Models (CHI 2022) - Lee & Park (2025) — A Structured Prompt Framework for AI-Generated Biophilic Architectural Spaces, Journal of Building Engineering - Ho & Salimans (2022) — Classifier-Free Diffusion Guidance
