arXiv:2605.23897 70 22 мая 2026 г. FREE

ETCHR / Edit-Verify-Reason: почему аннотированный скриншот лучше, чем вопрос к сырому изображению

КЛЮЧЕВАЯ СУТЬ

Обнаружено: мультимодальная модель смотрит на дашборд с 12 графиками и одновременно решает два задания — где смотреть и что отвечать. На обоих теряет точность. Edit-Verify-Reason позволяет разбить любой сложный визуальный вопрос на три отдельных запроса — навигация, проверка, анализ — и получить ответ без блуждания по всему изображению. Фишка: средний шаг — верификация — ловит ошибки локализации до финального ответа. Если модель промазала с «где смотреть» — это всплывёт на шаге 2, а не в итоговом ответе, который ты уже отправил клиенту.

Адаптировать под запрос

⚡

TL;DR

Ключевой инсайт: мультимодальные LLM (те, что видят картинки) резко теряют точность, когда нужно самому решить где смотреть на изображении. Если визуальная подсказка уже нанесена — рамка, стрелка, выделение — модель отвечает значительно лучше. ETCHR — это специально обученный редактор изображений, который автоматически наносит такие подсказки перед тем, как основная модель отвечает на вопрос.

Проблема: у LLM есть два слабых места при работе с картинками. Первое — языковой разрыв: из абстрактного вопроса («что находится левее — стул или тумба?») модель не всегда понимает, куда смотреть на изображении. Второе — разрыв генерации: даже если модели объяснить что нарисовать, сложные многошаговые трансформации (например, проложить путь через лабиринт) выполняются с ошибками.

Решение: ETCHR добавляет трёхшаговый конвейер — Нарисуй → Проверь → Ответь. Сначала редактор аннотирует изображение (обводит нужную область, рисует путь, подсвечивает элемент). Затем модель проверяет: аннотация корректна? Если да — отвечает по аннотированному изображению. Если нет — по оригинальному.

🔬

Схема метода

ШАГ 1 — НАРИСУЙ (Edit)
  Вход: оригинал изображения + вопрос + тип задачи
  Редактор аннотирует: рамки, пути, выделения
  → аннотированное изображение

ШАГ 2 — ПРОВЕРЬ (Verify)
  Понимающая модель: "Аннотация содержит нужную 
  визуальную информацию для ответа?"
  → Да / Нет (без самого ответа)

ШАГ 3 — ОТВЕТЬ (Reason)
  Если Да → ответ по [оригинал + аннотация]
  Если Нет → ответ по [оригинал] (fallback)

Все три шага — отдельные запросы / вызовы модели.

🚀

Пример применения

Задача: Ты анализируешь годовой отчёт Сбера — сложный дашборд с 12 графиками на одном слайде. Нужно найти квартал с максимальным оттоком клиентов и объяснить причину по соседним данным.

Промпт (3-шаговый вручную):

Шаг 1 — Upload + ориентация:

Смотришь на финансовый дашборд (тип задачи: понимание 
графиков). Вопрос: в каком квартале был максимальный 
отток клиентов и что происходило с другими показателями 
в этот период?

Прежде чем отвечать — опиши: на каком графике/секции 
дашборда находится нужная информация, какой именно 
элемент нужно смотреть и где он расположен визуально 
(левый верхний угол, центр, и т.д.).

Шаг 2 — Верификация:

Ты сказал(а), что нужно смотреть на [описание из шага 1].

Проверь: это действительно то место, где можно найти 
данные об оттоке клиентов? Только подтверди или 
скорректируй — пока не отвечай на сам вопрос.

Шаг 3 — Ответ:

Отлично. Теперь используя подтверждённую область — 
ответь на вопрос: в каком квартале максимальный 
отток и что говорят соседние показатели?

Результат:

Модель сначала локализует нужную информацию явно — называет конкретный график и его расположение. Шаг 2 отлавливает ошибки локализации ещё до того, как они попадут в финальный ответ. Шаг 3 выдаёт ответ с опорой на проверенную визуальную область, а не блуждание по всему дашборду.

🧠

Почему это работает

Слабость LLM: когда ты загружаешь сложное изображение и сразу задаёшь вопрос, модель вынуждена одновременно решать две задачи: найти где смотреть и ответить на вопрос. Это как спросить человека «что написано на третьей полке слева в четвёртом ряду» и ожидать мгновенного ответа без возможности поднять глаза.

Сильная сторона LLM: модели хорошо рассуждают по явно предъявленным данным. Если ты сначала локализовал проблему — «смотри вот на этот элемент» — точность резко растёт. Это принцип работает даже в текстовом режиме: когда ты сначала просишь модель найти и озвучить нужный фрагмент, а потом уже анализировать.

Как метод использует это: разбивает задачу на два независимых шага — навигация и анализ. Плюс добавляет шаг проверки между ними: ошибка в навигации не попадает автоматически в ответ. Это работает и вручную — просто разбей свой вопрос на три отдельных запроса по схеме выше.

Рычаги управления: - Тип задачи в шаге 1 → явно назови: «понимание графиков», «пространственное расположение», «поиск мелких деталей» — это помогает модели настроиться на нужный режим внимания - Строгость верификации в шаге 2 → добавь «если не уверен — скажи, что аннотация ненадёжна» для консервативного режима - Визуальная аннотация вручную → самый сильный вариант: обведи нужную область в любом редакторе (даже Paint) и загрузи рядом с оригиналом

📋

Шаблон промпта

[Шаг 1 — Локализация]
Смотришь на изображение (тип задачи: {тип_задачи}).
Вопрос, который нужно ответить: {вопрос}

Сначала опиши: какой элемент / область / секция 
изображения содержит нужную информацию и где 
она расположена визуально. Не отвечай на вопрос.

---

[Шаг 2 — Верификация]
Ты указал(а) на {описание из шага 1}.

Это действительно содержит информацию для ответа 
на вопрос "{вопрос}"? Подтверди или скорректируй — 
без финального ответа.

---

[Шаг 3 — Ответ]
Используя подтверждённую область, ответь: {вопрос}

Плейсхолдеры: - {тип_задачи} → «понимание графиков», «поиск объекта», «сравнение элементов», «пространственное расположение», «мелкие детали» - {вопрос} → твой исходный вопрос к изображению - {описание из шага 1} → вставь ответ модели из шага 1 в шаг 2

🚀 Быстрый старт — вставь в чат:

Вот шаблон Edit-Verify-Reason для визуальных задач. 
Адаптируй под мою задачу: {твоя задача с картинкой}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит тип визуальной задачи и уточнит вопрос — потому что без этого она не сможет правильно настроить шаг локализации и верификации.

⚠️

Ограничения

⚠️ Требует мультимодальной модели: работает только там, где LLM видит изображения — ChatGPT-4o, Claude, Gemini. В текстовых моделях не применимо.

⚠️ Ручная аннотация даёт максимум: полный эффект метода — когда изображение реально аннотировано (рамки, стрелки). Текстовый 3-шаговый промпт — частичная версия; для сложных пространственных задач эффект ниже.

⚠️ Не для простых вопросов: если ответ очевиден из изображения «с первого взгляда», трёхшаговый процесс — лишние токены без прироста качества.

⚠️ Сам ETCHR — не в ChatGPT: автоматический редактор из статьи требует запуска специализированной модели (FLUX-based, fine-tuned). В обычном чате его нет. Статья применима через ручное воспроизведение принципов.

🔗

Ресурсы

Работа: ETCHR: Editing To Clarify and Harness Reasoning (2025) Авторы: Beichen Zhang, Yuhong Liu, Jinsong Li, Yuhang Zang, Jiaqi Wang, Dahua Lin Организации: The Chinese University of Hong Kong, Shanghai AI Laboratory, Shanghai Jiao Tong University, Shanghai Innovation Institute Код: https://github.com/InternLM/ETCHR

📋 Дайджест исследования

Ключевая суть

Принцип работы

Стандартный подход: один вопрос к изображению — модель делает всё разом. Это как попросить человека найти нужную строку в таблице из 500 строк и сразу объяснить её смысл — ошибки на первом шаге автоматически портят второй. Разбивка: Шаг 1 — Локализуй («какая область содержит ответ?»). Шаг 2 — Проверь («ты действительно смотришь туда?»). Шаг 3 — Отвечай («используй подтверждённую область»). Каждый шаг — отдельный запрос. Навигация и анализ больше не конкурируют за одно «внимание» модели.

Почему работает

LLM хорошо рассуждает по явно предъявленным данным — плохо ищет нужное место самостоятельно. Разбивка на шаги убирает навигационный шум из финального ответа: модель анализирует то, что уже нашла и подтвердила, а не блуждает по изображению. Верификация работает как фильтр — если локализация промазала, финальный шаг уходит в запасной вариант (ответ по оригинальному изображению), а не выдаёт уверенно неправильный ответ.

Когда применять

Сложные дашборды и графики — когда на одном слайде 8+ элементов и нужно найти пиковое значение или сравнить несколько показателей. Схемы с мелкими деталями, пространственные вопросы («что левее / правее / ниже»). Финансовые отчёты, технические чертежи, слайды с перегруженной инфографикой — везде где «смотри внимательнее» не помогает. НЕ подходит: простые вопросы к простым изображениям — три отдельных запроса добавят токены без прироста качества.

Мини-рецепт

1. Шаг 1 — Локализуй: загрузи изображение с запросом:

Тип задачи: [понимание графиков / поиск объекта / сравнение элементов]. Вопрос: [твой вопрос]. Опиши, какая область или элемент содержит нужную информацию и где она расположена на изображении. Не отвечай на вопрос.

2. Шаг 2 — Проверь: вставь ответ модели из шага 1 и добавь:

Ты указал на [описание области]. Это действительно содержит данные для ответа на [вопрос]? Подтверди или скорректируй — без финального ответа.

3. Шаг 3 — Ответь: Используя подтверждённую область — отвечай на вопрос: [вопрос].
4. Усиль ручной аннотацией: если задача пространственная или деталей много — обведи нужную область прямо в Paint или на телефоне и загрузи рядом с оригиналом. Это даёт максимальный эффект — модель больше не гадает «где смотреть».

Примеры

[ПЛОХО] :

Вот дашборд с показателями за год. В каком квартале был максимальный отток клиентов и почему?

[ХОРОШО] — три отдельных запроса: Шаг 1:

Смотришь на финансовый дашборд (тип задачи: понимание графиков). Вопрос: в каком квартале максимальный отток клиентов? Сначала опиши — какой график содержит эти данные и где он расположен на слайде. Не отвечай на сам вопрос.

Шаг 2:

Ты указал на [ответ из шага 1]. Это действительно содержит данные об оттоке клиентов? Подтверди или скорректируй — без финального ответа.

Шаг 3:

Используя подтверждённую область — в каком квартале максимальный отток и что говорят соседние показатели?

Источник: ETCHR: Editing To Clarify and Harness Reasoning

ArXiv ID: 2605.23897 | Сгенерировано: 2026-05-25 06:28

Проблемы LLM

Проблема	Суть	Как обойти
Мультимодальная модель теряет точность когда решает две задачи сразу	Задаёшь вопрос к сложному изображению. Модель вынуждена одновременно решить: где смотреть и что ответить. Это как спросить человека «что написано на третьей полке слева» и ждать мгновенного ответа — без паузы поднять глаза. Точность падает. Работает для любых сложных изображений: дашборды, схемы, графики, фотографии с множеством деталей	Разбей запрос на три отдельных шага. Сначала — только локализация. Потом — только проверка. Потом — только ответ. Не смешивай задачи в один запрос

Методы

Метод Суть

Трёхшаговый запрос к изображению — Найди → Проверь → Ответь Шаг 1 — Локализация: Смотришь на изображение (тип задачи: {понимание графиков / поиск объекта / пространственное расположение}). Вопрос: {вопрос}. Опиши какой элемент / область содержит нужную информацию и где она расположена. Не отвечай на вопрос. Шаг 2 — Верификация: Ты указал(а) на {ответ из шага 1}. Это действительно содержит информацию для ответа на {вопрос}? Подтверди или скорректируй — без финального ответа. Шаг 3 — Ответ: Используя подтверждённую область, ответь: {вопрос}. Почему работает: каждый шаг — одна задача. Модель не распыляется. Шаг 2 ловит ошибки локализации до финального ответа. Когда не нужно: простые изображения где ответ виден «с первого взгляда» — тут три шага лишние

Метод	Суть
Трёхшаговый запрос к изображению — Найди → Проверь → Ответь	Шаг 1 — Локализация: `Смотришь на изображение (тип задачи: {понимание графиков / поиск объекта / пространственное расположение}). Вопрос: {вопрос}. Опиши какой элемент / область содержит нужную информацию и где она расположена. Не отвечай на вопрос.` Шаг 2 — Верификация: `Ты указал(а) на {ответ из шага 1}. Это действительно содержит информацию для ответа на {вопрос}? Подтверди или скорректируй — без финального ответа.` Шаг 3 — Ответ: `Используя подтверждённую область, ответь: {вопрос}.` Почему работает: каждый шаг — одна задача. Модель не распыляется. Шаг 2 ловит ошибки локализации до финального ответа. Когда не нужно: простые изображения где ответ виден «с первого взгляда» — тут три шага лишние

Тезисы

Тезис	Комментарий
Промежуточная проверка предотвращает накопление ошибок	В многошаговых запросах ошибка на раннем шаге автоматически идёт в финальный ответ. Отдельный шаг верификации — это контрольная точка. Модель сравнивает то что нашла с тем что нужно найти. Ошибка всплывает раньше. В итоге финальный ответ опирается на проверенные данные, а не на первое что попалось. Применяй: добавляй шаг «проверь что ты нашёл прежде чем отвечать» в любые многошаговые запросы — не только к изображениям, но и к длинным текстам

Тезис

Комментарий

Промежуточная проверка предотвращает накопление ошибок

В многошаговых запросах ошибка на раннем шаге автоматически идёт в финальный ответ. Отдельный шаг верификации — это контрольная точка. Модель сравнивает то что нашла с тем что нужно найти. Ошибка всплывает раньше. В итоге финальный ответ опирается на проверенные данные, а не на первое что попалось. Применяй: добавляй шаг «проверь что ты нашёл прежде чем отвечать» в любые многошаговые запросы — не только к изображениям, но и к длинным текстам

📖 Простыми словами

ETCHR: Editing To Clarify and Harness Reasoning

arXiv: 2605.23897

Мультимодальные модели, которые якобы «видят» картинки, на самом деле жутко тупят, когда им скармливают что-то сложнее фотографии кота. Корень проблемы в том, что нейронка пытается сделать два дела одновременно: найти нужный пиксель на перегруженном графике и включить логику, чтобы ответить на вопрос. В итоге мозги у неё закипают, и она выдаёт рандомную чушь. Метод ETCHR решает это через разделение труда: сначала специальный «редактор» рисует на картинке жирную стрелку или рамку, а уже потом основная модель спокойно читает то, что ей подсунули под нос.

Это как если бы ты зашёл в огромный строительный гипермаркет и спросил у консультанта, какой шуруп лучше. Обычный AI начнёт бегать по всем рядам сразу, пытаясь прочитать каждую этикетку, и в итоге сойдёт с ума. ETCHR работает как опытный напарник: он молча хватает тебя за плечо, тычет пальцем в конкретную полку и говорит: «Смотри сюда». Когда твоё внимание уже сфокусировано на одной коробке, принять решение — дело пары секунд. Без такой наводки даже самая мощная модель — это просто зрячий, но очень рассеянный профессор.

Вся магия держится на визуальном редактировании для уточнения рассуждений. Вместо того чтобы просто скармливать картинку «как есть», система прогоняет её через фильтр, который наносит визуальные подсказки (visual prompts). Если ты спросишь про отток клиентов на дашборде из сотни графиков, ETCHR сам обведёт нужный столбец красным. Исследование показывает, что такая «разжёванная» подача информации резко повышает точность: модели больше не нужно гадать, относится ли вон та цифра в углу к твоему вопросу или это просто мусор.

Хотя тестировали это на сложных схемах и графиках, принцип универсален. Это сработает везде, где есть визуальный хаос: от анализа медицинских снимков и спутниковых карт до разбора запутанных интерфейсов мобильных приложений. Визуальный контекст — это новая нефть. Если раньше мы оптимизировали текст, чтобы AI нас понял, то теперь наступает эра GEO для изображений, где важно не просто показать картинку, а правильно расставить на ней акценты, чтобы алгоритм не заблудился в трёх соснах.

Короче, эпоха «просто закинь скриншот в ChatGPT» уходит. Чтобы выжать из мультимодальных моделей максимум, им нужно буквально рисовать подсказки, снимая с них нагрузку по поиску данных. Метод ETCHR доказывает: если хочешь получить умный ответ, сначала помоги модели увидеть правильный вопрос. Кто научится автоматически подсвечивать важное на своих данных, тот получит AI-аналитику, которая не галлюцинирует, а остальные продолжат получать ответы в стиле «пальцем в небо».

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

Выберите модель ИИ:

Ваш запрос:

0 / 2000

~0.5-2 N-токенов ~10-30с

~0.3-1 N-токенов ~5-15с

Меню