TL;DR
Tiered Prompting Protocol — техника постепенного раскрытия контекста при работе с изображениями: сначала спрашиваешь без объяснений, потом сообщаешь что проблема есть, потом даёшь категорию проблемы. Каждый уровень — отдельный запрос с чуть большим количеством информации.
Главная находка: одна фраза «в этом изображении что-то не так» поднимает точность обнаружения аномалий на 6%+. Но та же фраза на нормальных фотографиях заставляет модель выдумывать проблемы, которых нет — модели начинают галлюцинировать аномалии под влиянием формулировки запроса. Иначе говоря: чем конкретнее ты направляешь внимание модели, тем выше риск, что она найдёт то, чего ты и не ожидал — даже там, где этого нет.
Метод решает это через три отдельных запроса с нарастающей подсказкой: нулевой уровень (без намёков), уровень осведомлённости («есть проблема, найди её»), уровень категории («ищи в этой области»). Если первый уровень дал ответ — остальные не нужны. Если нет — переходишь дальше.
Схема метода
Три последовательных запроса. Каждый — только если предыдущий не дал результата.
ЗАПРОС 1 — Нулевой уровень (Zero-Shot)
Только изображение без пояснений →
Смотришь: нашла ли модель проблему?
↓ если НЕ нашла
ЗАПРОС 2 — Уровень осведомлённости
"В этом изображении есть что-то неправильное. Можешь найти?" →
Смотришь: нашла ли модель проблему теперь?
↓ если НЕ нашла
ЗАПРОС 3 — Уровень категории
"Подсказка: {категория проблемы}. Что за аномалия? Одно короткое предложение." →
Финальный ответ
Все три запроса — в обычном чате с загруженным изображением.
Пример применения
Задача: Ты снял видео-тур по квартире в Москве для объявления на Авито. Перед публикацией хочешь проверить фотографии — нет ли чего, что оттолкнёт покупателей или даст повод для торга.
Промпт — Запрос 1 (нулевой):
[Загружаешь фото комнаты]
Что ты видишь на этом фото?
Промпт — Запрос 2 (если первый не выявил проблему):
[То же фото]
В этом помещении есть что-то, что может вызвать вопросы
у потенциального покупателя или арендатора. Можешь найти?
Промпт — Запрос 3 (если второй тоже не помог):
[То же фото]
Подсказка: обрати внимание на состояние стен и потолка.
Что здесь не так? Одно короткое предложение.
Результат: Модель на первом уровне даёт описание комнаты. Если на втором уровне — получишь конкретное наблюдение: «трещина над оконным проёмом» или «неровный потолок с пятнами». На третьем уровне — точный ответ по направленной области. Важно: не запускай запрос 2, если хочешь объективную оценку — фраза «есть что-то неправильное» может вызвать выдумки даже на идеальном фото.
Почему это работает
Модель генерирует текст по паттернам. Когда ты загружаешь фото молча — она описывает то, что видит, без задачи искать проблемы. Это как спросить «что здесь?» вместо «что здесь не так?».
Фраза «в изображении есть проблема» переключает режим генерации — модель активно ищет объяснение уже сформулированному утверждению. Это работает как прайминг (предварительная настройка): задаёшь рамку, в которой модель работает. Отсюда и рост точности, и риск галлюцинаций — оба эффекта возникают из одного механизма.
Рычаги управления: - Строгость уровня 2 — «что-то неправильное» можно заменить на «что здесь может быть опасным» или «что выглядит необычно» — другая рамка, другой фокус - Категория в уровне 3 — чем точнее категория, тем точнее ответ, но тем выше риск, что модель подтвердит её даже без реального основания - Длина ответа — «одно короткое предложение» в уровне 3 убирает рассуждения и даёт лаконичный вердикт; убери его, если хочешь видеть ход мысли модели
Шаблон промпта
Уровень 1 — автономный:
[Загружаешь {изображение}]
{Нейтральный вопрос без указания на проблему. Например: "Что ты видишь?"
или "Опиши ситуацию на фото"}
Уровень 2 — с осведомлённостью:
[То же {изображение}]
В этом {контекст: изображении / помещении / документе / схеме}
есть {что-то неправильное / проблема / несоответствие}.
Можешь найти и объяснить?
Уровень 3 — с категорией:
[То же {изображение}]
Подсказка: обрати внимание на {категория: безопасность /
физическое состояние / логика процесса / соответствие нормам}.
Что здесь не так? Одно короткое предложение.
Плейсхолдеры:
- {изображение} — фото, скриншот, схема, документ
- {контекст} — как ты называешь то, что показываешь
- {что-то неправильное} — адаптируй под задачу: «странное», «опасное», «нелогичное»
- {категория} — направление поиска: безопасность, состояние, логика, документация
🚀 Быстрый старт — вставь в чат:
Вот шаблон Tiered Prompting Protocol для анализа изображений.
Адаптируй под мою задачу: {твоя задача — что анализируешь и что ищешь}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит что именно ты анализируешь и какого рода проблемы ищешь — чтобы правильно сформулировать нейтральный вопрос для уровня 1 и категорию для уровня 3. Она возьмёт трёхуровневую структуру и адаптирует под твой контекст.
Ограничения
⚠️ Риск галлюцинаций при уровне 2: Фраза «что-то не так» на нормальном изображении заставляет модель выдумывать проблемы. В эксперименте точность на нормальных фото упала с ~99% до 10-30% после добавления этой фразы. Используй уровень 2 только если уверен, что проблема есть.
⚠️ Работает только с изображениями: Метод требует загрузки фото или скриншота в ChatGPT/Claude с включённым Vision. Для текстовых задач нужна адаптация.
⚠️ Уровень 3 якорит слишком сильно: Категорийная подсказка существенно влияет на ответ — модель может подтверждать категорию даже при отсутствии реальной проблемы. Воспринимай уровень 3 как направленный поиск, не как объективную проверку.
⚠️ Открытые модели значительно слабее: Небольшие локально запускаемые модели (типа Llama 11B) показали результаты в 3-5 раз хуже закрытых. Схема работает надёжно на GPT, Claude, Gemini — не на локальных моделях.
Как исследовали
Команда из Университета Южной Флориды сгенерировала 1000+ синтетических изображений с логическими аномалиями — через GPT-Image-1. Синтетика помогла избежать пересечений с обучающими данными моделей: исследовали именно логическое рассуждение, а не узнавание виденного. Четыре категории — домашняя обстановка, городская среда, рабочие процессы, природа. Примеры: почтовый ящик посреди дороги, дельфин с жабрами, диспетчеры управления полётами прямо на взлётной полосе.
Семь моделей прогнали через трёхуровневый протокол. Самый интересный результат: Claude показал лучшую итоговую точность (70%), но при этом хуже всех справился с уровнем 1 — фактически, большинство его правильных ответов пришло только после подсказки «что-то не так». Gemini, наоборот, лидировал на уровне 1 (автономный поиск), но деградировал на уровнях 2-3. Это говорит о принципиально разных стратегиях внутри разных моделей: одни лучше рассуждают самостоятельно, другие — в режиме «проверь мою гипотезу».
Оценку ответов проводил GPT-5-nano (LLM-as-a-judge), ~10% проверяли люди — итоговая корректировка составила в среднем 4,4%. Даже лучший результат — 70,11% — авторы считают недостаточным для реального применения в автономных системах.
Адаптации и экстраполяции
1. Применение принципа к проверке текстов и документов
Тот же трёхуровневый принцип работает для анализа договоров, технических заданий, бизнес-планов:
🔧 Текст вместо изображения → принцип тот же
Уровень 1: «Прочитай этот договор аренды» — нейтральное чтение
Уровень 2: «В этом договоре есть условие, которое невыгодно арендатору. Найди»
Уровень 3: «Обрати внимание на раздел про расторжение договора. Что здесь создаёт риск?»
Это не оригинальный метод исследования, но принцип прогрессивного раскрытия напрямую переносится на текстовый анализ.
⚠️ Помни о риске галлюцинаций: если уровень 2 применить к хорошему договору, модель может «найти» проблему там, где её нет.
2. Диагностика своего промпта
Когда модель даёт неожиданный ответ — используй обратный Tiered Protocol:
Посмотри на свой предыдущий ответ.
В нём есть что-то, что противоречит моему запросу. Найди.
Это Level 2 в обратную сторону: ты прайминг применяешь к ответу модели, заставляя её самому найти несоответствие.
Ресурсы
LAD-Bench: A Benchmark for Logical Fault Detection in Images
Датасет: https://huggingface.co/datasets/SahasraK/LADBench
Авторы: Sahasra Kondapalli, Lara Radovanovic, Aadi Palnitkar, Mingyang Mao, Xiaomin Lin
Организация: Embodied Robotics and Automation Lab, University of South Florida, Tampa, FL
