3,583 papers
arXiv:2606.10400 74 9 июня 2026 г. FREE

AI смотрит на картинку или угадывает? Как добиться реального анализа изображений

КЛЮЧЕВАЯ СУТЬ
Модель смотрит на твоё изображение — и отвечает из памяти. Не из картинки. Исследователи убрали изображения совсем, оставили только вопросы — точность упала до 1–9%. Вопросы были действительно визуальными. Но с изображением модели всё равно плыли: открытые — 10–16%, коммерческие — 27–38%. Метод Vision-Grounded Prompting позволяет вытащить реальный анализ изображения — не «обычно бывает так», а «вот что конкретно видно на этом скриншоте». Фишка: если вопрос можно ответить без картинки — модель ответит без картинки. Два приёма это ломают: переформулировать вопрос так, чтобы угадать было невозможно, и дать пример работы с похожей задачей до основного вопроса.
Адаптировать под запрос

TL;DR

Когда ты загружаешь картинку в ChatGPT или Claude и задаёшь вопрос, модель часто отвечает из памяти, а не из анализа изображения. Она читает твой вопрос, распознаёт знакомый паттерн и выдаёт «правдоподобный» ответ — не потому что увидела что-то конкретное на картинке, а потому что так обычно бывает. Чем больше вопрос похож на «общеизвестный факт», тем выше шанс, что модель угадывает, а не смотрит.

Исследователи доказали это радикальным способом: убрали изображение совсем и оставили только вопросы. Точность упала до 1–9 процентов — значит, вопросы были по-настоящему визуальными, ответить на них «из головы» нельзя. И всё равно модели на этих вопросах с изображением работали плохо. Это значит: модели не смотрят, модели угадывают. Открытые модели рушатся сильнее всего — 10–16% точности на самых визуальных вопросах против 27–38% у коммерческих систем.

Главный практический вывод: как ты формулируешь вопрос к изображению — определяет, увидит ли AI картинку или нажмёт «угадать». И есть два конкретных способа это исправить: переформулировать вопрос так, чтобы он мог быть решён только через изображение, и дать модели правильный пример работы с похожей задачей перед основным вопросом.


🔬

Схема метода

Из исследования извлекаются две независимые техники — применяй вместе или по отдельности:

ТЕХНИКА А: Vision-Grounded вопрос (один запрос)

ШАГ 1: Убери из вопроса всё, что можно ответить без картинки
ШАГ 2: Сформулируй вопрос от деталей изображения → не "какой тренд в продажах?",
        а "посмотри на конкретные значения на графике и скажи, что происходит с июня"
ШАГ 3: Задай вопрос → ответ, основанный на том что видно

---

ТЕХНИКА Б: Matching-exemplar (один запрос с примером)

ШАГ 1: Определи тип задачи (читать текст / анализ графика / пространственный вопрос)
ШАГ 2: Дай пример похожей задачи с решением ДО своего вопроса
ШАГ 3: Задай основной вопрос → точность вырастает на 18–23 п.п.

Обе техники работают в одном сообщении.

🚀

Пример применения

Задача: Максим Спиридонов или любой другой предприниматель скинул скриншот таблицы с метриками подкаста — просит AI разобрать динамику прослушиваний по месяцам.

Промпт без техники (как обычно делают):

Вот скриншот статистики подкаста. Какой тренд в прослушиваниях?

→ AI выдаст что-то вроде «обычно подкасты растут первые месяцы, потом стабилизируются» — угадывание из общих знаний, без реального анализа таблицы.

Промпт с Vision-Grounded формулировкой + matching-exemplar:

Пример того, как я хочу, чтобы ты работал с таблицей:

Задача: В таблице три колонки — месяц, прослушивания, уникальные слушатели.
Решение: Смотрю на числа слева направо построчно. Январь: 12 400, Февраль: 11 200 —
падение на 9,7%. Март: 15 800 — рост на 41%. Уникальные слушатели во все месяцы
остаются в диапазоне 8–9 тысяч, значит падение в феврале не отток, а меньше повторных.

---

Теперь твоя задача: посмотри на скриншот таблицы со статистикой подкаста.

1. Назови конкретные значения, которые ты видишь в каждой колонке
2. Посчитай изменения между периодами, опираясь именно на цифры в таблице
3. Только потом — вывод о тренде

Вот скриншот: [изображение]

Результат: Модель пройдёт по каждой строке таблицы, назовёт конкретные числа, которые видит на картинке, посчитает изменения — и только потом сделает вывод. Вместо «обычно подкасты растут» получишь «в марте прослушивания упали с 15 800 до 12 300, это –22%, при этом уникальные слушатели выросли на 400 человек».


🧠

Почему это работает

Слабость LLM при работе с изображениями. Модель обучалась на огромном количестве текста — и в этом тексте были миллионы вопросов с «правильными» ответами. Когда ты пишешь «какой тренд в продажах?», модель видит паттерн «вопрос о тренде в бизнесе» — и начинает генерировать ответ из этой памяти. Изображение при этом может вообще не использоваться. Это не баг, это то, как работает генерация текста по паттернам.

Почему Vision-Grounded формулировка помогает. Вопросы вида «посмотри конкретно на числа в третьей колонке» не имеют стандартного «угадываемого» ответа в памяти модели. Нет паттерна — нет угадывания. Модели вынуждена обратиться к изображению, потому что сгенерировать правдоподобный ответ из общих знаний невозможно.

Почему тип примера важен. Исследование показало: пример работает только если его тип совпадает с типом задачи. Пример «прочитай текст на изображении» помогает только для OCR-задач. Пример «разбей вопрос на под-вопросы по диаграмме» помогает только для графиков. Несовпадающий пример даёт почти нулевой прирост — или даже мешает. Рычаг: выбирай пример того же класса задачи, что и твой вопрос.

Рычаги управления: - Детализация запроса → чем точнее ты просишь назвать конкретные элементы («числа в таблице», «текст на вывеске», «цвет объекта слева»), тем меньше пространства для угадывания - Тип примера → меняй под класс задачи: текст, цифры, пространство, логика - Декомпозиция → попроси модель сначала «перечислить всё, что видишь», потом ответить — это принудительный первый шаг через изображение


📋

Шаблон промпта

Пример работы с {тип_задачи}:

Задача: {описание_примера_задачи}
Решение: {пример_пошагового_решения_на_основе_визуальных_деталей}

---

Теперь реши мою задачу, используя тот же подход:

1. Перечисли конкретные {элементы} которые ты видишь на изображении
2. {Промежуточный шаг — посчитай / прочитай / опиши}
3. Ответь на вопрос, опираясь только на то, что нашёл в пункте 1-2

Вопрос: {твой_вопрос}

[изображение]

Что подставлять: - {тип_задачи} — таблицей с числами / графиком / документом / схемой / фотографией - {описание_примера_задачи} — короткая похожая задача того же класса - {пример_пошагового_решения} — конкретный пример как ты хочешь видеть работу с визуальными деталями - {элементы} — числа / строки / объекты / текст — зависит от изображения - {твой_вопрос} — конкретный вопрос, желательно формулируй через «посмотри на...», «найди в...», «прочитай...»

🚀 Быстрый старт — вставь в чат:

Вот шаблон для работы с изображениями через Vision-Grounded подход. 
Адаптируй под мою задачу: {твоя задача}. 
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит тип изображения и что именно нужно найти — потому что без этого невозможно написать правильный пример в {пример_пошагового_решения}. Она возьмёт паттерн из шаблона и адаптирует под твою конкретную визуальную задачу.


⚠️

Ограничения

⚠️ Тип вопроса: Техника помогает там, где ответ зависит от конкретных визуальных деталей — числа, текст, элементы схемы. Для общих вопросов («красиво ли выглядит?», «удачен ли дизайн?») угадывание и реальный анализ неотличимы — и техника не спасёт.

⚠️ Коммерческие модели vs. открытые: Разрыв огромный. Если ты работаешь с GPT или Claude — точность на сложных визуальных задачах значительно выше (27–38%), чем у открытых моделей (10–16%). Даже с техникой открытые модели часто не дотягивают до уровня коммерческих без техники.

⚠️ Качество изображения: Исследование не тестировало низкокачественные или сжатые изображения. Если скриншот нечёткий — проблема не в формулировке, а в том, что модель буквально не может прочитать пиксели.

⚠️ Vision-Grounded вопросы сложнее писать: Переформулировать «что ты думаешь об этих данных?» в «назови конкретные числа из колонки B, строки 3-7» требует понимания, что именно ты хочешь найти. Если сам не знаешь что искать — техника не поможет.


🔍

Как исследовали

Исследователи задались провокационным вопросом: а что если AI просто угадывает ответы на вопросы про изображения? Проверить это сложно, потому что обычные бенчмарки дают каждой картинке один фиксированный вопрос — и невозможно понять, сработало знание или зрение. Команда обошла это элегантно: 540 изображений, каждому — 4 разных вопроса об одной и той же картинке. Вопросы различались только тем, насколько сильно они «подсказывают» ответ через формулировку. Самый лёгкий вариант — переписанный стандартный вопрос. Самый жёсткий, Vision-Grounded, — вопрос написан исключительно по тому, что видно на изображении, без опоры на оригинальный текст. Одиннадцать моделей — от маленьких открытых до GPT-5 mini и Claude — получили все 4 варианта. Решающий эксперимент: убрать изображение и оставить только вопрос. Если модель действительно смотрела на картинку — без неё точность рухнет. Рухнула до 1–9%, что подтвердило: вопросы действительно требуют зрения. Но даже с изображением на Vision-Grounded вопросах точность у открытых моделей составила всего 10–16% — они видели изображение, но всё равно не умели им пользоваться. Самое интересное открытие: когда вместе с вопросом дали правильный тип примера-подсказки, точность выросла на 18–23 процентных пункта. Причём только если тип совпадал — не совпал тип, не было прироста.


📄

Оригинал из исследования (опционально)

Четыре типа вопросов, которые использовались для одного изображения:

Question-Guided: Rewrite the source question into a harder, more image-dependent form.

Subquestion-Guided: Generate perceptual sub-questions in a single pass and synthesize 
them into the final question, so that the phrasing reflects lower-level perceptual 
decompositions rather than the original wording.

Multi-Signal: Elicit sub-questions turn-by-turn in a multi-turn chat (each conditioned 
on prior turns) and fuse them with the source question and a chat summary.

Vision-Grounded: Provide the model with only the image and no textual context, demanding 
that the generation rely entirely on visual content; the result is a question whose wording 
shares no lineage with any existing annotation.

Контекст: Так исследователи генерировали 4 варианта вопроса к каждому из 540 изображений. Vision-Grounded — самый жёсткий: вопрос создавался только по тому, что видно, без оригинального вопроса и аннотаций.


💡

Адаптации и экстраполяции

📌

💡 Адаптация для проверки — «слепой тест AI»

Хочешь проверить, действительно ли AI анализирует твоё изображение или «фантазирует»? Задай вопрос, ответ на который ты сам знаешь, но который нельзя угадать без картинки.

Например: загрузи таблицу и спроси «какое конкретное число стоит в ячейке третьей строки второго столбца?». Если модель ответит правильно — она реально смотрит. Если ответит что-то вроде «обычно в таких таблицах...» — не смотрит.

📌

🔧 Техника: Принудительная декомпозиция → глубокий визуальный анализ

Вместо прямого вопроса — сначала попроси перечислить всё видимое:

Сначала опиши всё, что видишь на изображении: перечисли каждый элемент, 
цифру, текст, объект. Просто перечисляй — без анализа.

После этого ответь на вопрос: {твой_вопрос}

Принудительный первый шаг «через пиксели» — и только потом ответ. Это навязывает Vision-Grounded режим без переформулировки самого вопроса.

📌

🔧 Метаподход: «Не угадывай»

Прямая инструкция модели не использовать общие знания:

Важно: отвечай только на основе того, что видишь на этом конкретном изображении. 
Не используй общие знания о том, "как обычно бывает". 
Если что-то не видно на картинке — так и скажи.

Вопрос: {твой_вопрос}

Это не гарантия, но снижает вероятность угадывания — особенно у коммерческих моделей.


🔗

Ресурсы

Do Vision-Language Models See or Guess? Measuring and Reducing Textual-Prior Reliance with a Phrasing-Controlled Benchmark

Pratham Singla, Shivank Garg — Indian Institute of Technology Roorkee + Lossfunk Vihan Singh — Raeth AI Paras Chopra — Lossfunk

Контакты: pratham_s@me.iitr.ac.in, paras@lossfunk.com

Связанные работы упомянутые в статье: VQA v2 (Goyal et al., 2017), MMStar (Chen et al., 2024), MathVista (Lu et al., 2024), GRPO (Shao et al., 2024), LoRA (Hu et al., 2022)


📋 Дайджест исследования

Ключевая суть

Модель смотрит на твоё изображение — и отвечает из памяти. Не из картинки. Исследователи убрали изображения совсем, оставили только вопросы — точность упала до 1–9%. Вопросы были действительно визуальными. Но с изображением модели всё равно плыли: открытые — 10–16%, коммерческие — 27–38%. Метод Vision-Grounded Prompting позволяет вытащить реальный анализ изображения — не «обычно бывает так», а «вот что конкретно видно на этом скриншоте». Фишка: если вопрос можно ответить без картинки — модель ответит без картинки. Два приёма это ломают: переформулировать вопрос так, чтобы угадать было невозможно, и дать пример работы с похожей задачей до основного вопроса.

Принцип работы

Стандартный вопрос «какой тренд в продажах?» — это паттерн, который модель видела тысячи раз. У неё есть готовый ответ. Изображение не нужно. Vision-Grounded вопрос разрушает паттерн: «назови значения из колонки B в строках 3–7» — такого шаблона в памяти просто нет. Нет шаблона — нет угадывания. Второй приём работает иначе: дай пример задачи того же типа с пошаговым решением, которое явно опирается на визуальные детали. Модель видит образец и копирует подход — прирост 18–23 процентных пункта. Критически важный момент: тип примера должен совпадать с типом задачи. Пример для чтения текста помогает только на OCR-задачах. Для графиков нужен другой образец. Несовпадающий пример почти не работает.

Почему работает

Модель обучалась на огромном количестве текста. В этом тексте — миллионы вопросов с ответами. Вопрос «какой тренд?» запускает генерацию из памяти — как студент, который пишет ответ по шаблону, не читая условие задачи. Вопрос без угадываемого паттерна вынуждает модель реально обратиться к изображению — другого источника ответа просто нет. Matching-exemplar работает как инструктаж перед смотром: ты показываешь не «что спросить», а «как именно смотреть». Модель видит образец и воспроизводит подход — вместо того чтобы ехать на общих знаниях.

Когда применять

Любая задача, где ответ спрятан в конкретных деталях изображения: таблицы и графики — для точных значений; документы и скриншоты — для конкретного текста; схемы — для пространственных связей между элементами. Не подходит для субъективных оценок («красивый ли дизайн?», «удачна ли композиция?») — там реальный анализ и угадывание неотличимы. Также не спасёт при нечётких или сильно сжатых изображениях: проблема не в формулировке вопроса, а в том, что пиксели физически нечитаемы.

Мини-рецепт

1. Проверь свой вопрос на угадываемость: можно ли ответить на него без картинки? Если да — переформулируй. Не «что ты видишь на графике?», а «назови конкретные значения на оси Y за январь и март».
2. Определи тип задачи: читать текст с фото — это одно, анализировать числа в таблице — другое, описывать пространственные связи на схеме — третье. От этого зависит, какой пример давать.
3. Напиши пример задачи того же класса с пошаговым решением. Решение должно явно называть визуальные детали: «смотрю на строку 3, вижу значение 12 400, смотрю на строку 4 — 11 200, падение на 9,7%».
4. Собери запрос: сначала пример с решением, затем своя задача с явной инструкцией — «перечисли конкретные элементы → посчитай или прочитай → только потом сделай вывод».
5. Добавь изображение в конце. Вопрос должен стоять до изображения, не после.

Примеры

[ПЛОХО] : Вот скриншот таблицы с продажами. Какой тренд видишь?
[ХОРОШО] : Пример работы с таблицей: Задача: в таблице три колонки — месяц, выручка, количество заказов. Решение: смотрю построчно. Январь: 450 тысяч, 210 заказов. Февраль: 380 тысяч, 180 заказов — падение выручки на 15,5%. Март: 520 тысяч, 240 заказов — рост на 36,8%. Вывод делаю только после того как выписал все числа. --- Теперь реши мою задачу, используя тот же подход: 1. Назови конкретные значения из каждой колонки, которые ты видишь 2. Посчитай изменения между периодами — опираясь только на цифры из таблицы 3. Только потом — итоговый вывод о тренде [изображение таблицы]
Источник: Do Vision-Language Models See or Guess? Measuring and Reducing Textual-Prior Reliance with a Phrasing-Controlled Benchmark
ArXiv ID: 2606.10400 | Сгенерировано: 2026-06-10 04:28

Проблемы LLM

ПроблемаСутьКак обойти
Модель отвечает из памяти, а не из изображенияПишешь вопрос о картинке. Формулировка похожа на знакомый паттерн — "какой тренд?", "что здесь происходит?". Модель видит паттерн и генерирует "правдоподобный" ответ из обучающих данных. Изображение при этом почти не используется. Проблема в любых задачах с визуальными данными: графики, таблицы, схемы, фотоСформулируй вопрос так, чтобы на него нельзя было ответить без конкретных деталей изображения. Не "какой тренд?" "назови значения в строках 3–7 и посчитай изменение". Нет знакомого паттерна — нет угадывания

Методы

МетодСуть
Вопрос от деталей — блокирует угадываниеУбери из вопроса всё общее. Добавь привязку к конкретным элементам картинки. Не "что показывает график?" "назови значения за июнь и июль, посчитай разницу". Не "опиши схему" "перечисли все стрелки слева от центрального блока". Почему работает: на конкретный элемент ("число в ячейке B4") нет готового паттерна в памяти. Модель вынуждена смотреть. Когда работает: числа, текст, пространственные элементы. Когда не работает: субъективные оценки — "красиво ли выглядит?"
Пример того же типа задачи — буст точностиПеред основным вопросом дай пример решения похожей задачи. Покажи как ты хочешь видеть работу с визуальными деталями. "Задача: таблица с тремя колонками. Решение: смотрю построчно, январь — 12 400, февраль — 11 200, падение на 9,7%..." затем твой вопрос. Почему работает: пример задаёт режим "читай изображение, потом отвечай". Без примера модель сразу генерирует из памяти. Важно: тип примера должен совпадать с типом задачи (таблица пример с таблицей, схема пример со схемой). Несовпадающий пример почти не помогает

Тезисы

ТезисКомментарий
Пример работает только при совпадении типов задачиДаёшь модели пример "как читать текст на изображении" — это помогает только для задач с текстом. Для графиков и схем этот же пример даёт почти нулевой прирост. Механика: пример задаёт конкретный режим обработки. Если режим не тот — переключения не происходит. Применяй: перед вопросом про таблицу пример с таблицей. Перед вопросом про пространство пример с пространственным описанием. Один шаблон для всего не работает
📖 Простыми словами

Do Vision-LanguageModelsSee or Guess? Measuring and Reducing Textual-Prior Reliance with a Phrasing-Controlled Benchmark

arXiv: 2606.10400

Современные мультимодальные модели вроде ChatGPT или Claude на самом деле ленивые гадалки, а не внимательные наблюдатели. Когда ты скармливаешь им картинку и задаешь вопрос, нейронка часто даже не «смотрит» на пиксели, а просто вытаскивает ответ из своей текстовой памяти. Она видит знакомый паттерн в твоем вопросе и выдает то, что кажется ей логичным на основе прочитанных в интернете триллионов книг. Это фундаментальный баг: текстовое смещение заставляет модель игнорировать реальные данные с изображения в пользу «общеизвестной правды».

Это как если бы ты пришел к врачу с рентгеном сломанной ноги, а он, едва взглянув на твою спортивную форму, бодро заявил: «Ну, раз вы атлет, значит, у вас просто растяжение». Врач не изучает снимок, он просто подгоняет ответ под стереотип, который уже сидит у него в голове. В итоге ты получаешь не анализ фактов, а уверенную галлюцинацию, основанную на ожиданиях, а не на реальности.

Чтобы заставить AI реально работать глазами, исследователи предлагают использовать контроль формулировок. Суть проста: нужно пересобрать вопрос так, чтобы у модели не было шанса угадать ответ по памяти. Если ты спрашиваешь про тренды в таблице, не давай ей зацепок вроде «почему продажи растут?». Вместо этого используй нейтральные и сухие промпты, которые заставляют модель описывать конкретные аномалии или цифры, не опираясь на «базу» из обучающей выборки.

Этот принцип универсален и касается не только графиков или таблиц. Будь то разбор кода по скриншоту, анализ дизайна лендинга или попытка понять, что не так с твоим фикусом на фото — модель всегда будет пытаться схалявить. Если твой вопрос содержит подсказку или намек на ожидаемый результат, ты получишь зеркало своих же мыслей, а не объективный фидбек. SEO-логика здесь не работает, тут нужно быть следователем, который не дает свидетелю наводящих вопросов.

Короче, хватит доверять «зрению» нейросетей на слово — они патологические лжецы, когда дело касается визуальных деталей. Главный вывод исследования: чем больше твой вопрос похож на типичный запрос из интернета, тем меньше шансов, что AI вообще открыл глаза. Хочешь правды — убирай контекстные подсказки и заставляй модель работать с «голыми» фактами на картинке, иначе ты просто будешь читать пересказ Википедии, притянутый за уши к твоему файлу.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с