TL;DR
Когда ты загружаешь картинку в ChatGPT или Claude и задаёшь вопрос, модель часто отвечает из памяти, а не из анализа изображения. Она читает твой вопрос, распознаёт знакомый паттерн и выдаёт «правдоподобный» ответ — не потому что увидела что-то конкретное на картинке, а потому что так обычно бывает. Чем больше вопрос похож на «общеизвестный факт», тем выше шанс, что модель угадывает, а не смотрит.
Исследователи доказали это радикальным способом: убрали изображение совсем и оставили только вопросы. Точность упала до 1–9 процентов — значит, вопросы были по-настоящему визуальными, ответить на них «из головы» нельзя. И всё равно модели на этих вопросах с изображением работали плохо. Это значит: модели не смотрят, модели угадывают. Открытые модели рушатся сильнее всего — 10–16% точности на самых визуальных вопросах против 27–38% у коммерческих систем.
Главный практический вывод: как ты формулируешь вопрос к изображению — определяет, увидит ли AI картинку или нажмёт «угадать». И есть два конкретных способа это исправить: переформулировать вопрос так, чтобы он мог быть решён только через изображение, и дать модели правильный пример работы с похожей задачей перед основным вопросом.
Схема метода
Из исследования извлекаются две независимые техники — применяй вместе или по отдельности:
ТЕХНИКА А: Vision-Grounded вопрос (один запрос)
ШАГ 1: Убери из вопроса всё, что можно ответить без картинки
ШАГ 2: Сформулируй вопрос от деталей изображения → не "какой тренд в продажах?",
а "посмотри на конкретные значения на графике и скажи, что происходит с июня"
ШАГ 3: Задай вопрос → ответ, основанный на том что видно
---
ТЕХНИКА Б: Matching-exemplar (один запрос с примером)
ШАГ 1: Определи тип задачи (читать текст / анализ графика / пространственный вопрос)
ШАГ 2: Дай пример похожей задачи с решением ДО своего вопроса
ШАГ 3: Задай основной вопрос → точность вырастает на 18–23 п.п.
Обе техники работают в одном сообщении.
Пример применения
Задача: Максим Спиридонов или любой другой предприниматель скинул скриншот таблицы с метриками подкаста — просит AI разобрать динамику прослушиваний по месяцам.
Промпт без техники (как обычно делают):
Вот скриншот статистики подкаста. Какой тренд в прослушиваниях?
→ AI выдаст что-то вроде «обычно подкасты растут первые месяцы, потом стабилизируются» — угадывание из общих знаний, без реального анализа таблицы.
Промпт с Vision-Grounded формулировкой + matching-exemplar:
Пример того, как я хочу, чтобы ты работал с таблицей:
Задача: В таблице три колонки — месяц, прослушивания, уникальные слушатели.
Решение: Смотрю на числа слева направо построчно. Январь: 12 400, Февраль: 11 200 —
падение на 9,7%. Март: 15 800 — рост на 41%. Уникальные слушатели во все месяцы
остаются в диапазоне 8–9 тысяч, значит падение в феврале не отток, а меньше повторных.
---
Теперь твоя задача: посмотри на скриншот таблицы со статистикой подкаста.
1. Назови конкретные значения, которые ты видишь в каждой колонке
2. Посчитай изменения между периодами, опираясь именно на цифры в таблице
3. Только потом — вывод о тренде
Вот скриншот: [изображение]
Результат: Модель пройдёт по каждой строке таблицы, назовёт конкретные числа, которые видит на картинке, посчитает изменения — и только потом сделает вывод. Вместо «обычно подкасты растут» получишь «в марте прослушивания упали с 15 800 до 12 300, это –22%, при этом уникальные слушатели выросли на 400 человек».
Почему это работает
Слабость LLM при работе с изображениями. Модель обучалась на огромном количестве текста — и в этом тексте были миллионы вопросов с «правильными» ответами. Когда ты пишешь «какой тренд в продажах?», модель видит паттерн «вопрос о тренде в бизнесе» — и начинает генерировать ответ из этой памяти. Изображение при этом может вообще не использоваться. Это не баг, это то, как работает генерация текста по паттернам.
Почему Vision-Grounded формулировка помогает. Вопросы вида «посмотри конкретно на числа в третьей колонке» не имеют стандартного «угадываемого» ответа в памяти модели. Нет паттерна — нет угадывания. Модели вынуждена обратиться к изображению, потому что сгенерировать правдоподобный ответ из общих знаний невозможно.
Почему тип примера важен. Исследование показало: пример работает только если его тип совпадает с типом задачи. Пример «прочитай текст на изображении» помогает только для OCR-задач. Пример «разбей вопрос на под-вопросы по диаграмме» помогает только для графиков. Несовпадающий пример даёт почти нулевой прирост — или даже мешает. Рычаг: выбирай пример того же класса задачи, что и твой вопрос.
Рычаги управления: - Детализация запроса → чем точнее ты просишь назвать конкретные элементы («числа в таблице», «текст на вывеске», «цвет объекта слева»), тем меньше пространства для угадывания - Тип примера → меняй под класс задачи: текст, цифры, пространство, логика - Декомпозиция → попроси модель сначала «перечислить всё, что видишь», потом ответить — это принудительный первый шаг через изображение
Шаблон промпта
Пример работы с {тип_задачи}:
Задача: {описание_примера_задачи}
Решение: {пример_пошагового_решения_на_основе_визуальных_деталей}
---
Теперь реши мою задачу, используя тот же подход:
1. Перечисли конкретные {элементы} которые ты видишь на изображении
2. {Промежуточный шаг — посчитай / прочитай / опиши}
3. Ответь на вопрос, опираясь только на то, что нашёл в пункте 1-2
Вопрос: {твой_вопрос}
[изображение]
Что подставлять:
- {тип_задачи} — таблицей с числами / графиком / документом / схемой / фотографией
- {описание_примера_задачи} — короткая похожая задача того же класса
- {пример_пошагового_решения} — конкретный пример как ты хочешь видеть работу с визуальными деталями
- {элементы} — числа / строки / объекты / текст — зависит от изображения
- {твой_вопрос} — конкретный вопрос, желательно формулируй через «посмотри на...», «найди в...», «прочитай...»
🚀 Быстрый старт — вставь в чат:
Вот шаблон для работы с изображениями через Vision-Grounded подход.
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит тип изображения и что именно нужно найти — потому что без этого невозможно написать правильный пример в {пример_пошагового_решения}. Она возьмёт паттерн из шаблона и адаптирует под твою конкретную визуальную задачу.
Ограничения
⚠️ Тип вопроса: Техника помогает там, где ответ зависит от конкретных визуальных деталей — числа, текст, элементы схемы. Для общих вопросов («красиво ли выглядит?», «удачен ли дизайн?») угадывание и реальный анализ неотличимы — и техника не спасёт.
⚠️ Коммерческие модели vs. открытые: Разрыв огромный. Если ты работаешь с GPT или Claude — точность на сложных визуальных задачах значительно выше (27–38%), чем у открытых моделей (10–16%). Даже с техникой открытые модели часто не дотягивают до уровня коммерческих без техники.
⚠️ Качество изображения: Исследование не тестировало низкокачественные или сжатые изображения. Если скриншот нечёткий — проблема не в формулировке, а в том, что модель буквально не может прочитать пиксели.
⚠️ Vision-Grounded вопросы сложнее писать: Переформулировать «что ты думаешь об этих данных?» в «назови конкретные числа из колонки B, строки 3-7» требует понимания, что именно ты хочешь найти. Если сам не знаешь что искать — техника не поможет.
Как исследовали
Исследователи задались провокационным вопросом: а что если AI просто угадывает ответы на вопросы про изображения? Проверить это сложно, потому что обычные бенчмарки дают каждой картинке один фиксированный вопрос — и невозможно понять, сработало знание или зрение. Команда обошла это элегантно: 540 изображений, каждому — 4 разных вопроса об одной и той же картинке. Вопросы различались только тем, насколько сильно они «подсказывают» ответ через формулировку. Самый лёгкий вариант — переписанный стандартный вопрос. Самый жёсткий, Vision-Grounded, — вопрос написан исключительно по тому, что видно на изображении, без опоры на оригинальный текст. Одиннадцать моделей — от маленьких открытых до GPT-5 mini и Claude — получили все 4 варианта. Решающий эксперимент: убрать изображение и оставить только вопрос. Если модель действительно смотрела на картинку — без неё точность рухнет. Рухнула до 1–9%, что подтвердило: вопросы действительно требуют зрения. Но даже с изображением на Vision-Grounded вопросах точность у открытых моделей составила всего 10–16% — они видели изображение, но всё равно не умели им пользоваться. Самое интересное открытие: когда вместе с вопросом дали правильный тип примера-подсказки, точность выросла на 18–23 процентных пункта. Причём только если тип совпадал — не совпал тип, не было прироста.
Оригинал из исследования (опционально)
Четыре типа вопросов, которые использовались для одного изображения:
Question-Guided: Rewrite the source question into a harder, more image-dependent form.
Subquestion-Guided: Generate perceptual sub-questions in a single pass and synthesize
them into the final question, so that the phrasing reflects lower-level perceptual
decompositions rather than the original wording.
Multi-Signal: Elicit sub-questions turn-by-turn in a multi-turn chat (each conditioned
on prior turns) and fuse them with the source question and a chat summary.
Vision-Grounded: Provide the model with only the image and no textual context, demanding
that the generation rely entirely on visual content; the result is a question whose wording
shares no lineage with any existing annotation.
Контекст: Так исследователи генерировали 4 варианта вопроса к каждому из 540 изображений. Vision-Grounded — самый жёсткий: вопрос создавался только по тому, что видно, без оригинального вопроса и аннотаций.
Адаптации и экстраполяции
💡 Адаптация для проверки — «слепой тест AI»
Хочешь проверить, действительно ли AI анализирует твоё изображение или «фантазирует»? Задай вопрос, ответ на который ты сам знаешь, но который нельзя угадать без картинки.
Например: загрузи таблицу и спроси «какое конкретное число стоит в ячейке третьей строки второго столбца?». Если модель ответит правильно — она реально смотрит. Если ответит что-то вроде «обычно в таких таблицах...» — не смотрит.
🔧 Техника: Принудительная декомпозиция → глубокий визуальный анализ
Вместо прямого вопроса — сначала попроси перечислить всё видимое:
Сначала опиши всё, что видишь на изображении: перечисли каждый элемент,
цифру, текст, объект. Просто перечисляй — без анализа.
После этого ответь на вопрос: {твой_вопрос}
Принудительный первый шаг «через пиксели» — и только потом ответ. Это навязывает Vision-Grounded режим без переформулировки самого вопроса.
🔧 Метаподход: «Не угадывай»
Прямая инструкция модели не использовать общие знания:
Важно: отвечай только на основе того, что видишь на этом конкретном изображении.
Не используй общие знания о том, "как обычно бывает".
Если что-то не видно на картинке — так и скажи.
Вопрос: {твой_вопрос}
Это не гарантия, но снижает вероятность угадывания — особенно у коммерческих моделей.
Ресурсы
Do Vision-Language Models See or Guess? Measuring and Reducing Textual-Prior Reliance with a Phrasing-Controlled Benchmark
Pratham Singla, Shivank Garg — Indian Institute of Technology Roorkee + Lossfunk Vihan Singh — Raeth AI Paras Chopra — Lossfunk
Контакты: pratham_s@me.iitr.ac.in, paras@lossfunk.com
Связанные работы упомянутые в статье: VQA v2 (Goyal et al., 2017), MMStar (Chen et al., 2024), MathVista (Lu et al., 2024), GRPO (Shao et al., 2024), LoRA (Hu et al., 2022)
