3,583 papers
arXiv:2606.17433 76 16 июня 2026 г. FREE

Tiered Prompting Protocol: три уровня подсказок для анализа изображений — от полной автономии до прямой наводки

КЛЮЧЕВАЯ СУТЬ
Парадокс: фраза «что-то не так» поднимает точность поиска аномалий на изображении — и роняет её с 99% до 10–30% на нормальных фото. Один и тот же текст, противоположные эффекты в зависимости от того, есть ли реальная проблема. Tiered Prompting Protocol даёт возможность искать проблемы на изображениях управляемо: три отдельных запроса с нарастающей подсказкой — и ты сам решаешь, какой уровень давления на модель нужен. Фишка: нейтральный вопрос защищает от галлюцинаций, рамка усиливает поиск, категория даёт точный фокус. Запускаешь следующий уровень только если предыдущий не дал результата — так получаешь точность без риска выдуманных проблем.
Адаптировать под запрос

TL;DR

Tiered Prompting Protocol — техника постепенного раскрытия контекста при работе с изображениями: сначала спрашиваешь без объяснений, потом сообщаешь что проблема есть, потом даёшь категорию проблемы. Каждый уровень — отдельный запрос с чуть большим количеством информации.

Главная находка: одна фраза «в этом изображении что-то не так» поднимает точность обнаружения аномалий на 6%+. Но та же фраза на нормальных фотографиях заставляет модель выдумывать проблемы, которых нет — модели начинают галлюцинировать аномалии под влиянием формулировки запроса. Иначе говоря: чем конкретнее ты направляешь внимание модели, тем выше риск, что она найдёт то, чего ты и не ожидал — даже там, где этого нет.

Метод решает это через три отдельных запроса с нарастающей подсказкой: нулевой уровень (без намёков), уровень осведомлённости («есть проблема, найди её»), уровень категории («ищи в этой области»). Если первый уровень дал ответ — остальные не нужны. Если нет — переходишь дальше.


🔬

Схема метода

Три последовательных запроса. Каждый — только если предыдущий не дал результата.

ЗАПРОС 1 — Нулевой уровень (Zero-Shot)
Только изображение без пояснений → 
Смотришь: нашла ли модель проблему?

           ↓ если НЕ нашла

ЗАПРОС 2 — Уровень осведомлённости
"В этом изображении есть что-то неправильное. Можешь найти?" →
Смотришь: нашла ли модель проблему теперь?

           ↓ если НЕ нашла

ЗАПРОС 3 — Уровень категории
"Подсказка: {категория проблемы}. Что за аномалия? Одно короткое предложение." →
Финальный ответ

Все три запроса — в обычном чате с загруженным изображением.


🚀

Пример применения

Задача: Ты снял видео-тур по квартире в Москве для объявления на Авито. Перед публикацией хочешь проверить фотографии — нет ли чего, что оттолкнёт покупателей или даст повод для торга.

Промпт — Запрос 1 (нулевой):

[Загружаешь фото комнаты]

Что ты видишь на этом фото?

Промпт — Запрос 2 (если первый не выявил проблему):

[То же фото]

В этом помещении есть что-то, что может вызвать вопросы 
у потенциального покупателя или арендатора. Можешь найти?

Промпт — Запрос 3 (если второй тоже не помог):

[То же фото]

Подсказка: обрати внимание на состояние стен и потолка. 
Что здесь не так? Одно короткое предложение.

Результат: Модель на первом уровне даёт описание комнаты. Если на втором уровне — получишь конкретное наблюдение: «трещина над оконным проёмом» или «неровный потолок с пятнами». На третьем уровне — точный ответ по направленной области. Важно: не запускай запрос 2, если хочешь объективную оценку — фраза «есть что-то неправильное» может вызвать выдумки даже на идеальном фото.


🧠

Почему это работает

Модель генерирует текст по паттернам. Когда ты загружаешь фото молча — она описывает то, что видит, без задачи искать проблемы. Это как спросить «что здесь?» вместо «что здесь не так?».

Фраза «в изображении есть проблема» переключает режим генерации — модель активно ищет объяснение уже сформулированному утверждению. Это работает как прайминг (предварительная настройка): задаёшь рамку, в которой модель работает. Отсюда и рост точности, и риск галлюцинаций — оба эффекта возникают из одного механизма.

Рычаги управления: - Строгость уровня 2 — «что-то неправильное» можно заменить на «что здесь может быть опасным» или «что выглядит необычно» — другая рамка, другой фокус - Категория в уровне 3 — чем точнее категория, тем точнее ответ, но тем выше риск, что модель подтвердит её даже без реального основания - Длина ответа — «одно короткое предложение» в уровне 3 убирает рассуждения и даёт лаконичный вердикт; убери его, если хочешь видеть ход мысли модели


📋

Шаблон промпта

Уровень 1 — автономный:

[Загружаешь {изображение}]

{Нейтральный вопрос без указания на проблему. Например: "Что ты видишь?" 
или "Опиши ситуацию на фото"}

Уровень 2 — с осведомлённостью:

[То же {изображение}]

В этом {контекст: изображении / помещении / документе / схеме} 
есть {что-то неправильное / проблема / несоответствие}. 
Можешь найти и объяснить?

Уровень 3 — с категорией:

[То же {изображение}]

Подсказка: обрати внимание на {категория: безопасность / 
физическое состояние / логика процесса / соответствие нормам}.
Что здесь не так? Одно короткое предложение.

Плейсхолдеры: - {изображение} — фото, скриншот, схема, документ - {контекст} — как ты называешь то, что показываешь - {что-то неправильное} — адаптируй под задачу: «странное», «опасное», «нелогичное» - {категория} — направление поиска: безопасность, состояние, логика, документация


🚀 Быстрый старт — вставь в чат:

Вот шаблон Tiered Prompting Protocol для анализа изображений. 
Адаптируй под мою задачу: {твоя задача — что анализируешь и что ищешь}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит что именно ты анализируешь и какого рода проблемы ищешь — чтобы правильно сформулировать нейтральный вопрос для уровня 1 и категорию для уровня 3. Она возьмёт трёхуровневую структуру и адаптирует под твой контекст.


⚠️

Ограничения

⚠️ Риск галлюцинаций при уровне 2: Фраза «что-то не так» на нормальном изображении заставляет модель выдумывать проблемы. В эксперименте точность на нормальных фото упала с ~99% до 10-30% после добавления этой фразы. Используй уровень 2 только если уверен, что проблема есть.

⚠️ Работает только с изображениями: Метод требует загрузки фото или скриншота в ChatGPT/Claude с включённым Vision. Для текстовых задач нужна адаптация.

⚠️ Уровень 3 якорит слишком сильно: Категорийная подсказка существенно влияет на ответ — модель может подтверждать категорию даже при отсутствии реальной проблемы. Воспринимай уровень 3 как направленный поиск, не как объективную проверку.

⚠️ Открытые модели значительно слабее: Небольшие локально запускаемые модели (типа Llama 11B) показали результаты в 3-5 раз хуже закрытых. Схема работает надёжно на GPT, Claude, Gemini — не на локальных моделях.


🔍

Как исследовали

Команда из Университета Южной Флориды сгенерировала 1000+ синтетических изображений с логическими аномалиями — через GPT-Image-1. Синтетика помогла избежать пересечений с обучающими данными моделей: исследовали именно логическое рассуждение, а не узнавание виденного. Четыре категории — домашняя обстановка, городская среда, рабочие процессы, природа. Примеры: почтовый ящик посреди дороги, дельфин с жабрами, диспетчеры управления полётами прямо на взлётной полосе.

Семь моделей прогнали через трёхуровневый протокол. Самый интересный результат: Claude показал лучшую итоговую точность (70%), но при этом хуже всех справился с уровнем 1 — фактически, большинство его правильных ответов пришло только после подсказки «что-то не так». Gemini, наоборот, лидировал на уровне 1 (автономный поиск), но деградировал на уровнях 2-3. Это говорит о принципиально разных стратегиях внутри разных моделей: одни лучше рассуждают самостоятельно, другие — в режиме «проверь мою гипотезу».

Оценку ответов проводил GPT-5-nano (LLM-as-a-judge), ~10% проверяли люди — итоговая корректировка составила в среднем 4,4%. Даже лучший результат — 70,11% — авторы считают недостаточным для реального применения в автономных системах.


💡

Адаптации и экстраполяции

1. Применение принципа к проверке текстов и документов

Тот же трёхуровневый принцип работает для анализа договоров, технических заданий, бизнес-планов:

🔧 Текст вместо изображения → принцип тот же

Уровень 1: «Прочитай этот договор аренды» — нейтральное чтение

Уровень 2: «В этом договоре есть условие, которое невыгодно арендатору. Найди»

Уровень 3: «Обрати внимание на раздел про расторжение договора. Что здесь создаёт риск?»

Это не оригинальный метод исследования, но принцип прогрессивного раскрытия напрямую переносится на текстовый анализ.

⚠️ Помни о риске галлюцинаций: если уровень 2 применить к хорошему договору, модель может «найти» проблему там, где её нет.

2. Диагностика своего промпта

Когда модель даёт неожиданный ответ — используй обратный Tiered Protocol:

Посмотри на свой предыдущий ответ. 
В нём есть что-то, что противоречит моему запросу. Найди.

Это Level 2 в обратную сторону: ты прайминг применяешь к ответу модели, заставляя её самому найти несоответствие.


🔗

Ресурсы

LAD-Bench: A Benchmark for Logical Fault Detection in Images

Датасет: https://huggingface.co/datasets/SahasraK/LADBench

Авторы: Sahasra Kondapalli, Lara Radovanovic, Aadi Palnitkar, Mingyang Mao, Xiaomin Lin

Организация: Embodied Robotics and Automation Lab, University of South Florida, Tampa, FL


📋 Дайджест исследования

Ключевая суть

Парадокс: фраза «что-то не так» поднимает точность поиска аномалий на изображении — и роняет её с 99% до 10–30% на нормальных фото. Один и тот же текст, противоположные эффекты в зависимости от того, есть ли реальная проблема. Tiered Prompting Protocol даёт возможность искать проблемы на изображениях управляемо: три отдельных запроса с нарастающей подсказкой — и ты сам решаешь, какой уровень давления на модель нужен. Фишка: нейтральный вопрос защищает от галлюцинаций, рамка усиливает поиск, категория даёт точный фокус. Запускаешь следующий уровень только если предыдущий не дал результата — так получаешь точность без риска выдуманных проблем.

Принцип работы

Модель не смотрит на фото. Она генерирует текст, который вероятнее всего идёт после твоего вопроса. Задаёшь нейтральный вопрос — получаешь описание. Задаёшь вопрос с утверждением «есть проблема» — модель ищет подтверждение этому утверждению. Нашла реальную аномалию — отлично. Нет ничего? Придумает. Это прайминг: ты задаёшь рамку, модель работает внутри неё — даже если рамка ложная. Три уровня создают управляемый прайминг. Каскадная структура — используешь ровно столько давления, сколько нужно, не больше.

Почему работает

LLM при работе с изображением генерирует ответ, который «вписывается» в контекст вопроса. Нейтральный вопрос запускает режим описания. Вопрос с рамкой запускает режим поиска проблемы — и модель его не выключает, даже если смотреть не на что. На аномальных изображениях точность с рамкой выросла на 6%+. На нормальных фото та же рамка уронила точность с ~99% до 10–30% — модель начала выдумывать проблемы, которых нет. Отсюда правило: знаешь что проблема точно есть — используй уровень 2 или 3. Не уверен — начинай с нейтрального вопроса. Иначе получишь уверенный ответ про несуществующий дефект.

Когда применять

Визуальный контроль → проверка фото на маркетплейсах, строительных объектах, производственных линиях, юридических документах — особенно когда нужно найти проблему, но ты не знаешь заранее есть она или нет. Анализ скриншотов интерфейсов, схем, инструкций — когда ищешь логические несоответствия или ошибки верстки. НЕ подходит для локальных моделей типа Llama 11B — результат в 3–5 раз хуже. Надёжно работает на GPT-4o, Claude, Gemini. Не используй уровень 2 и 3 если проверяешь случайные фото — риск галлюцинаций высокий.

Мини-рецепт

1. Начни нейтрально: загрузи изображение и спроси без намёков: Что ты видишь на этом фото? Опиши ситуацию. — модель описывает, что видит, без задачи искать проблемы.

2. Если ничего не нашла — добавь рамку: В этом изображении есть что-то неправильное. Можешь найти и объяснить? — но только если ты уверен что проблема реально есть. Иначе модель выдумает.

3. Если снова мимо — дай категорию: Подсказка: обрати внимание на [безопасность / состояние объектов / логику расположения / соответствие нормам]. Что не так? Одно короткое предложение.

4. Остановись как только нашла: следующий уровень не нужен — каждый шаг вперёд усиливает прайминг и повышает риск выдуманного результата.

Примеры

[ПЛОХО] : Есть ли на этом фото проблемы или дефекты? (Сразу запускаешь режим поиска — модель будет выдумывать даже на идеальном фото)
[ХОРОШО] : Шаг 1: Опиши что ты видишь на этом фото. Что здесь происходит? → Если модель ничего подозрительного не нашла, и ты уверен что проблема есть: Шаг 2: В этом помещении есть что-то, что должно насторожить. Найди и объясни. → Если снова общие слова: Шаг 3: Подсказка: смотри на состояние стен и потолка. Что здесь не так? Одно предложение.
Источник: LADBench: A Benchmark for Logical Fault Detection in Images
ArXiv ID: 2606.17433 | Сгенерировано: 2026-06-17 05:31

Проблемы LLM

ПроблемаСутьКак обойти
Фраза «здесь что-то не так» вызывает галлюцинацииСообщаешь модели: «в этом изображении есть проблема». Модель переключается в режим поиска подтверждения. На нормальном материале — выдумывает проблемы, которых нет. Срабатывает не только на изображениях. То же происходит с документами, кодом, текстом — везде, где ты заранее заявляешь о наличии проблемы.Используй такую фразу только если уверен: проблема реально есть. Для проверки «а вдруг что-то не так» — сначала спрашивай нейтрально. Без наводки. Смотри что модель скажет сама

Методы

МетодСуть
Три уровня наводки — точность без лишних галлюцинацийЗапрос 1: загружаешь материал + нейтральный вопрос без намёка на проблему. Если модель нашла — стоп, больше не нужно. Запрос 2 (только если надо): добавляешь «здесь есть что-то неправильное, найди». Запрос 3 (только если надо): «обрати внимание на {категория}. Что не так? Одно предложение». Почему работает: каждый уровень сужает рамку. Без рамки — модель описывает. С рамкой «есть проблема» — ищет. С категорией — ищет прицельно. Чем раньше остановился — тем меньше галлюцинаций. Не работает на маленьких локальных моделях (результат хуже в 3–5 раз)
📖 Простыми словами

LADBench: A Benchmark for Logical Fault Detection in Images

arXiv: 2606.17433

Современные нейронки отлично описывают картинки, но когда дело доходит до поиска косяков, они превращаются в слепых котят. Проблема в самой механике LLM: модель просто генерирует наиболее вероятный текст по шаблону. Если ты даешь ей фото квартиры и спрашиваешь «что видишь?», она радостно опишет диван и шторы, проигнорировав дыру в линолеуме. Для нее это не ошибка, а просто часть пейзажа. Чтобы заставить AI видеть логические аномалии, нужно перестать ждать от него телепатии и начать дозировать информацию.

Это как если бы ты привел друга в гараж и спросил: «Ну как?». Он скажет, что гараж просторный и чистый. Но если ты уточнишь: «Присмотрись, тут что-то не так», он начнет искать подвох. А если добавишь: «Тут проблема с проводкой», он сразу ткнет пальцем в оголенный провод. Метод Tiered Prompting Protocol работает ровно так же: мы не вываливаем всё сразу, а ведем модель за руку от общего к частному, заставляя её фокусировать внимание там, где она обычно пролетает на автопилоте.

Суть метода в трех последовательных шагах, где каждый следующий — это «пинок» для мозгов нейронки. Сначала идет нулевой уровень: просто спрашиваешь, есть ли на фото проблемы. Если модель лажает, включается первый уровень — ты прямо говоришь: «Чувак, тут точно есть косяк, найди его». Если и это не помогло, в ход идет второй уровень: ты называешь категорию, например, «проблема с освещением» или «нарушение пропорций». Такая тактика «допроса с пристрастием» вытаскивает из модели правильные ответы, которые она знала, но ленилась достать.

Хотя метод обкатывали на бенчмарке LADBench, эта штука применима везде, где цена ошибки высока. Проверяешь ли ты рендеры интерьера, ищешь ли баги в сгенерированном коде или пытаешься отсеять плохие фото для объявления — принцип универсален. Вместо того чтобы писать один гигантский промпт, который модель наполовину проигнорирует, нужно дробить задачу на слои. Это превращает AI из пассивного наблюдателя в дотошного контролера.

Короче: хватит надеяться, что нейронка сама догадается, где ты накосячил. Используй послойное раскрытие контекста, чтобы выжать из зрения модели максимум. Если спрашивать в лоб, получишь белый шум, а если вести по уровням — получишь результат. Либо ты учишься управлять вниманием модели, либо продолжаешь получать описания в стиле «красивая комната» там, где из стены торчит арматура.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с