TL;DR
Когда даёшь ChatGPT или Claude сложный вопрос по картинке — модель часто отвечает неверно не потому что «плохо думает», а потому что неправильно прочитала изображение. Она смешивает детали, упускает ключевые элементы, хватается за что попало. UnAC решает это через трёхшаговую структуру: сначала задать правильные вопросы к картинке, потом перевести её в текст, потом проверять каждый шаг рассуждений по отдельности.
Главная находка: модель не умеет «разобрать» картинку так же легко, как разбирает текст. С текстом она движется последовательно — слово за словом. С изображением — хватает первое, что бросилось в глаза, и строит на этом ответ. Результат: 58% ошибок в визуальных задачах происходят из-за неверного прочтения или потери деталей картинки, а не из-за слабого рассуждения. Это значит, что «подумай лучше» здесь не помогает — нужно сначала «посмотри правильно».
Метод работает в три шага за один или несколько запросов. Шаг 1 — выяснить, на что смотреть в картинке. Шаг 2 — переложить изображение в текст: описать глобально и детально только то, что важно для вопроса. Шаг 3 — разбить вопрос на подвопросы и проверять каждый ответ по отдельности, сверяясь с исходным изображением.
Схема метода
ШАГ 1 — Понимание (что искать в картинке)
Запрос к модели: «Что нужно найти на изображении, чтобы ответить на вопрос [X]?»
→ Модель перечисляет объекты/данные/текст, нужные для ответа
ШАГ 2 — Абстракция (перевод картинки в текст)
Запрос: «Опиши изображение целиком. Затем — конкретно те части, которые связаны с [X]»
→ Двухуровневое текстовое описание: глобальное + целевое
ШАГ 3 — Постепенная проверка (ответы по шагам)
Запрос: «Раздели вопрос на подвопросы. Ответь на каждый и проверь ответ по картинке
перед переходом к следующему. Итоговый ответ — на основе всех проверенных шагов»
→ Цепочка: Q1/A1 → проверка → Q2/A2 → проверка → ... → финальный вывод
⚠️ Все три шага можно объединить в один запрос или разбить на три отдельных.
Важно: Шаг 1 в оригинальном исследовании требует внешних инструментов (сегментация изображения, OCR). В обычном чате с ChatGPT-4o или Claude его можно выполнить через текстовый запрос — модель сама скажет, на что смотреть.
Пример применения
Задача: Ты — продавец на Wildberries. Загружаешь скриншот из личного кабинета — сложный дашборд с несколькими графиками: выручка, заказы, возвраты, конверсия. Хочешь понять, почему в прошлую неделю упала выручка.
**Промпт:**
У меня скриншот аналитики из личного кабинета Wildberries. Работаем по шагам.
**Шаг 1 — Что нужно найти:**
Мой вопрос: «Почему на прошлой неделе упала выручка?»
Перечисли, какие данные на дашборде помогут ответить на этот вопрос.
**Шаг 2 — Опиши изображение:**
Сначала — что вообще видишь на экране: какие блоки, графики, цифры.
Затем — детально опиши только те части, которые связаны с падением выручки.
**Шаг 3 — Ответ по подвопросам с проверкой:**
Раздели вопрос о падении выручки на 3-4 подвопроса.
Ответь на каждый — и прежде чем перейти к следующему, проверь ответ по данным на скриншоте.
В конце — вывод: что стало главной причиной.
Результат: Модель сначала скажет какие метрики нужны для диагностики — это сфокусирует внимание. Потом даст двухуровневое описание: общая картина дашборда и детальный разбор графиков выручки/заказов/возвратов. Затем пошагово разберёт: упал трафик? упала конверсия? выросли возвраты? — проверяя каждую гипотезу по цифрам на скриншоте. Финальный вывод будет конкретным, а не расплывчатым «скорее всего дело в сезонности».
Почему это работает
Проблема: Модель обрабатывает картинку «одним взглядом» — формирует общее представление и строит на нём ответ. Если важная деталь оказалась на периферии или слилась с фоном — она потеряна. Исправить это внутри одного запроса сложно: модель не умеет «посмотреть заново» без явной инструкции.
Сила модели: Зато текст она разбирает отлично — последовательно, структурированно, с проверкой. Если перевести картинку в текст (это и есть абстракция), задача из визуально-сложной становится текстово-обычной.
Как метод использует это: Шаг 2 делает ровно это — заставляет модель «записать» изображение словами прежде, чем рассуждать. Шаг 3 usеет другую слабость: модель склонна проверять всё рассуждение разом в конце — и это почти не работает, потому что ошибка в шаге 2 тащит за собой шаги 3 и 4. Пошаговая проверка ловит ошибку там, где она возникла.
Рычаги управления: - Количество подвопросов → для простых картинок достаточно 2-3, для сложных схем/графиков — 5-6 - Детальность абстракции → добавь «не упускай цифры и подписи» для дашбордов и таблиц - Явная привязка к картинке → в шаге 3 добавь «процитируй конкретные данные с изображения» — модель будет реже фантазировать - Фокус шага 1 → вместо открытого вопроса укажи домен: «Найди только числовые показатели» или «Найди только текстовые подписи»
Шаблон промпта
На изображении [краткое описание что на картинке].
Мой вопрос: {вопрос}
Работаем по шагам:
**Шаг 1 — Что искать:**
Какие данные или объекты на изображении нужны, чтобы ответить на мой вопрос?
Перечисли их.
**Шаг 2 — Опиши изображение:**
Сначала — общее описание (что вообще видишь).
Затем — детальное описание только тех частей, которые связаны с вопросом {вопрос}.
**Шаг 3 — Ответ по подвопросам:**
Раздели мой вопрос на {число_подвопросов} подвопросов.
Ответь на каждый по отдельности.
Перед переходом к следующему подвопросу — проверь свой ответ по данным на изображении.
После всех шагов — дай финальный ответ.
Что подставлять:
- {вопрос} — конкретный вопрос по изображению, а не «расскажи об этом»
- {число_подвопросов} — 3 для простых задач, 5-6 для сложных схем/таблиц/графиков
- Краткое описание картинки в первой строке помогает модели быстрее ориентироваться
🚀 Быстрый старт — вставь в чат:
Вот шаблон UnAC — метода анализа изображений через абстракцию и пошаговую проверку.
Адаптируй под мою задачу: [опиши свою задачу и что за картинка].
Задавай уточняющие вопросы, чтобы заполнить шаблон.
[вставить шаблон выше]
LLM спросит какой именно вопрос ты хочешь задать по изображению и сколько шагов проверки нужно — потому что без конкретного вопроса шаг 1 не работает: нет цели, нет фокуса.
Адаптации и экстраполяции
🔧 Техника: только шаг 3 (градуальная проверка) без изображения → пошаговая верификация текстовых рассуждений
Принцип пошаговой проверки работает и без картинки. Для любой задачи с несколькими шагами — бизнес-расчёт, анализ ситуации, юридический разбор — можно попросить модель: «Раздели задачу на подвопросы. Ответь на каждый. Перед следующим шагом проверь предыдущий ответ на соответствие условию задачи.» Это прямая адаптация шага 3 без визуальной части — работает в обычном текстовом диалоге.
🔧 Техника: шаг 2 (абстракция) для голосовых описаний или PDF
Принцип «перевести нетекстовое в текст перед рассуждением» работает не только с картинками. Если вставляешь в чат транскрипт переговоров или скан документа — попроси сначала: «Прежде чем отвечать, выдели из этого текста только информацию, связанную с вопросом [X]. Запиши её структурированно.» Ты принудительно запускаешь абстракцию — и снижаешь шанс, что модель зацепится за нерелевантный контекст.
Ограничения
⚠️ Шаг 1 требует инструментов в оригинале: Адаптивная визуальная разметка (сегментация объектов, наложение меток) работает только при наличии внешних инструментов — SEEM и easyOCR. В обычном чате шаг 1 упрощается до текстового запроса «что нужно найти» — эффект есть, но слабее.
⚠️ Слабые модели получают меньше: Метод лучше работает на сильных моделях (GPT-4o, Gemini). Маленькие и более слабые модели хуже справляются с качественной абстракцией и проверкой — они сами становятся узким местом.
⚠️ Не для простых вопросов: Для простого «что изображено на картинке» или «какой цвет машины» — три шага избыточны. Метод нужен там, где вопрос требует нескольких шагов рассуждения и нескольких деталей с изображения.
⚠️ Reasoning — всё ещё узкое место: Даже после правильной абстракции, если задача требует сложного многошагового вывода (геометрия, математика), около 42% ошибок остаются — это ошибки рассуждения, которые визуальные улучшения не исправляют.
Как исследовали
Исследователи взяли три бенчмарка с разными типами визуальных задач: MathVista (математика по картинкам), MM-Vet (комплексные вопросы по изображениям) и MMMU (экспертные задачи). Протестировали на шести моделях — от тяжеловесов GPT-4V и Gemini до компактных LLaVA. Сравнивали с тремя методами-конкурентами: SoM (визуальная разметка регионов), CCoT (цепочка-мыслей через граф сцены) и SKETCHPAD.
Интересная деталь дизайна: чтобы разобраться почему метод помогает, исследователи вручную проанализировали ошибки, которые UnAC исправил. Разбили их на 4 категории: неверное прочтение картинки, потеря контекста, ошибка рассуждения, фактическая ошибка. Оказалось, что 58% исправлений на MathVista пришлись на первые две категории — то есть почти 60% ошибок были не в рассуждении, а в восприятии изображения. Это и стало главным обоснованием метода.
Неожиданный результат: простое добавление визуальных маркеров (SoM) без абстракции и проверки не только не помогло на некоторых задачах GPT-4V — оно принесло небольшой регресс. Маркеры без структуры рассуждения могут запутать модель, а не помочь ей.
Ресурсы
UnAC: Adaptive Visual Prompting with Abstraction and Stepwise Checking for Complex Multimodal Reasoning Yifan Wang, Yun Fu — Northeastern University Бенчмарки: MathVista (Lu et al., 2023), MM-Vet (Yu et al., 2023), MMMU (Yue et al., 2023) Инструменты в оригинале: SEEM (сегментация), easyOCR
