TL;DR
VLM (vision-language model — языковая модель с поддержкой изображений) не "смотрит" на картинку так, как кажется. Когда ты просишь Claude проанализировать изображение, модель часто вспоминает паттерны из обучения, а не анализирует то, что видит. Покажи ей классическую оптическую иллюзию — она ответит правильно, но по памяти, а не по факту изображения. Измени иллюзию чуть-чуть — и она всё равно выдаст тот же "правильный" ответ, хотя на картинке теперь другое.
Это называют ловушкой "вспомни vs. посмотри": модель извлекает факт из памяти вместо того, чтобы выполнить реальный визуальный анализ. Та же ловушка срабатывает не только на иллюзиях — на любом изображении, где у модели есть сильный предзаписанный паттерн: стандартные графики, знакомые интерфейсы, типичные дизайн-элементы.
Anti-illusion prompting — техника, которая выводит модель из режима памяти в режим наблюдения: назови механизм иллюзии/ловушки напрямую, перенаправь внимание на конкретный визуальный признак, упрости задачу до прямого сравнения. Бонус: задай вопрос несколько раз и возьми большинство голосов.
Схема метода
Полная система требует кода (обработка изображений), но два из трёх шагов работают прямо в чате:
ШАГ 1 (КОД): Предобработка изображения → убрать контекст, создающий иллюзию
edge-strips, mirror-blend, reference lines, color isolation
⚠️ Этот шаг требует Python/OpenCV — не для чата
ШАГ 2 (ЧАТ): Anti-illusion промпт →
(1) назови механизм иллюзии/ловушки
(2) направь на конкретный визуальный признак
(3) упрости задачу до прямого сравнения
(4) зафиксируй формат ответа
ШАГ 3 (ЧАТ): Majority voting (голосование большинством) →
запроси ответ N раз (оптимум: 5)
возьми ответ, который встретился чаще всего
Шаги 2 и 3 выполняются в обычном чате — каждый новый запрос.
Пример применения
Задача: Ты загружаешь в Claude скриншот дашборда из аналитики Яндекс.Метрики — там столбчатая диаграмма с показателями двух рекламных кампаний. Визуально кажется, что одна явно выигрывает. Просишь оценить разницу — и модель уверенно говорит что-то вдоль линии "да, кампания А явно лучше", хотя цифры на осях могут этого не подтверждать.
Промпт:
Смотри на эту диаграмму как аналитик, который видит её впервые и не знает контекста.
У диаграмм с усечённой осью Y есть ловушка: визуально разрыв выглядит большим,
хотя числовая разница может быть незначительной. Игнорируй визуальную высоту
столбцов — они могут вводить в заблуждение.
Вместо этого:
1. Найди точные числовые значения на осях и в столбцах
2. Вычисли реальный процентный разрыв между значениями
3. Ответь: разрыв статистически значимый (>10%) или визуальный эффект?
Отвечай только после того как посмотрел на цифры, не на высоту столбцов.
Результат: Модель сначала покажет вычисления — найдёт числа с осей, посчитает разницу явно. Затем даст ответ, опираясь на реальный процент, а не визуальное впечатление. Если ось усечена и разрыв визуально раздут — ответ будет точнее, чем без промпта.
Почему это работает
LLM с vision — это не глаз, это паттерн-матчер. Когда модель видит изображение, она не "смотрит" попиксельно — она сопоставляет то, что видит, с паттернами из обучения. Если паттерн сильный (классическая иллюзия, стандартный тип графика, знакомый интерфейс) — память перевешивает реальный визуальный анализ. Моделей учили на миллионах правильных ответов про эти иллюзии — поэтому они и отвечают "правильно" даже когда картинка изменена.
У модели есть сильная сторона: она умеет следовать точным инструкциям о том, на что именно смотреть. Если сказать "сравни только горизонтальные отрезки, игнорируй стрелки" — модель сделает именно это и перестанет опираться на паттерн из памяти.
Метод использует эту сильную сторону: называя механизм ловушки явно, ты "деактивируешь" автоматический паттерн. Перефокусируя на конкретный признак — даёшь модели понятную задачу вместо открытого вопроса, который она закрывает из памяти. Majority voting (5 запросов) убирает стохастические выбросы — когда модель "угадывает" по-разному, большинство голосов сглаживает шум.
Рычаги управления: - Число запросов в majority voting — 5 оптимально, 3 дешевле (теряешь ~1-2% точности), 1 — работает, но ненадёжно для важных решений - Уровень детализации инструкции — чем конкретнее признак ("сравни только числа на осях"), тем меньше пространства для памяти - Прямое называние ловушки — убирай, если хочешь проверить насколько модель "видит" без подсказок
Шаблон промпта
Анализируй это изображение как будто ты видишь его впервые, без предположений о контексте.
В подобных изображениях есть ловушка: {описание_ловушки — что может казаться не тем,
что есть на самом деле}.
Не опирайся на {что нужно игнорировать}.
Вместо этого:
1. Найди {конкретный визуальный элемент/признак}
2. Сравни {что с чем именно}
3. Ответь: {простой бинарный или числовой вопрос}
Дай ответ только после явного разбора по шагам выше.
Что подставлять:
- {описание_ловушки} — чем визуальное впечатление может обманывать: усечённые оси, разный масштаб, окружающий контекст
- {что нужно игнорировать} — визуальную высоту, размер, цветовой фон
- {конкретный визуальный элемент} — цифры на осях, длину отрезков, числовые метки
- {что с чем} — реальные числа, а не визуальное представление
🚀 Быстрый старт — вставь в чат:
Вот шаблон Anti-Illusion Prompting. Адаптируй под мою задачу: {твоя задача с изображением}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит, что именно в изображении может вводить в заблуждение и какой конкретный признак нужно анализировать — потому что именно эти два поля определяют, сработает ли переключение из режима "вспоминаю" в режим "смотрю".
Почему это работает (продолжение): Multi-VLM Strategy Discovery
В исследовании есть ценная мета-техника, применимая шире иллюзий:
Три разных LLM независимо анализируют проблему → четвёртая LLM синтезирует консенсус → человек валидирует
Авторы использовали это для разработки стратегий предобработки изображений. Но ту же структуру можно применить к любой задаче, где нужно найти непредвзятый подход: Claude, ChatGPT и Gemini независимо предлагают решения, потом одна из них синтезирует то, с чем согласились все трое. То, что три разные модели с разными обучающими данными предлагают независимо — статистически надёжнее одного ответа.
Ограничения
⚠️ Главная инновация бумаги недоступна в чате: 60-70% прироста точности дала именно предобработка изображений — удаление иллюзионного контекста на уровне пикселей (Python + OpenCV). Промпт-инжиниринг и majority voting дали +11.5pp к уже сильной основе, но без предобработки — с нуля base accuracy около 77%.
⚠️ Модели лучше видят "присутствие" чем "отсутствие": Original-ACC (когда иллюзия есть) — 98.57%, Perturbed-ACC (когда иллюзии нет) — 82.38%. Модели легче подтвердить наличие, чем опровергнуть отсутствие различия.
⚠️ Majority voting помогает меньше без сильной базы: 5 запросов дают +3.4pp, но если базовый промпт слабый — голосование усиливает неправильный ответ. Сначала хороший промпт, потом ансамбль.
⚠️ Тип-специфичность: авторы разрабатывали отдельный промпт + предобработку под каждый из 7 типов иллюзий. Универсальный anti-illusion промпт работает слабее специализированного.
Оригинал из исследования
Anti-illusion prompts (Table 2):
Müller-Lyer:
"This is a Müller-Lyer illusion. The outward circles make the lower line appear longer.
Ignore the circles, compare ONLY the horizontal line segments. Only answer NOT EQUAL
if the difference is truly dramatic; otherwise answer EQUAL."
Color (Simultaneous Contrast):
"Two edge strips (LEFT and RIGHT) shown side-by-side on neutral gray. Describe each
strip's hue and brightness independently, then compare. Different hue or clearly
different brightness → 0, otherwise → 1."
Ebbinghaus (Size):
"Left target mirrored and overlaid on right. Clean overlay with no edge ring = same
size (1); visible edge ring = different size (0)."
Straightness (Hering/Wundt):
"Red lines on blue reference grid. If red lines stay parallel to grid → straight (1);
if tilted relative to grid → not straight (0)."
Poggendorff (Alignment):
"A dashed extension line has been drawn along the red line's direction. Compare it
with the black line above the bar. Overlap → aligned (1); visible separation →
not aligned (0)."
Café Wall (Parallelism):
"Red parallel reference lines added. Compare column edges against red lines at top vs.
bottom. Constant gap → parallel (1); gap changes → not parallel (0)."
Kanizsa (Boundary):
"Enhanced contrast and sharpness. Look for actual dividing lines between adjacent
regions. Abrupt color change with visible edge → 1; smooth gradient with no sharp
edge → 0."
Контекст: Авторы разработали тип-специфичные промпты для каждого из 7 типов оптических иллюзий. Каждый промпт: (1) называет механизм иллюзии, (2) описывает что было изменено в изображении при предобработке, (3) даёт конкретный визуальный критерий, (4) фиксирует бинарный формат ответа.
Meta-prompt для Multi-VLM Strategy Discovery:
"This image contains a [type] illusion. VLMs tend to answer based on memorized
knowledge rather than visual perception. Analyze the visual mechanism that causes
this illusion and propose 2–3 image transformations that would weaken or remove
the illusion-inducing context."
Адаптации и экстраполяции
💡 Адаптация 1: VLM-дискуссия для анализа дизайна / презентации
Та же мета-техника — попроси несколько LLM (или одну в нескольких сессиях) независимо оценить визуал, потом синтезируй:
Сессия 1 (Claude):
"Оцени этот дизайн лендинга. Не знакомый тебе продукт — оцени только визуальную
иерархию, читаемость СТА, контраст. Назови 2-3 конкретные проблемы с обоснованием."
Сессия 2 (ChatGPT):
[тот же запрос]
Сессия 3 (Gemini):
[тот же запрос]
Финальный синтез (любой LLM):
"Вот три независимые оценки дизайна от разных моделей. Выдели только те проблемы,
на которые обратили внимание минимум две из трёх. Это консенсусные находки —
вероятно, реальные проблемы, а не артефакты отдельной модели."
🔧 Адаптация 2: Принцип "назови ловушку" для любого анализа данных
Тот же паттерн — называй механизм возможного смещения явно:
Анализируй этот отчёт о продажах.
Возможные ловушки восприятия:
- Survivorship bias: мы видим только выжившие продукты
- Sunk cost: прошлые инвестиции не должны влиять на будущие решения
- Base rate neglect: 20% рост при малой базе vs. малый рост при большой
Для каждого вывода в отчёте — укажи: какая из ловушек могла исказить эту цифру
и как это меняет интерпретацию?
🔧 Адаптация 3: Majority voting для важных решений
Самая простая адаптация — задай один и тот же вопрос 3-5 раз в новых сессиях:
[Один и тот же промпт — например, оценка юридического риска в договоре]
После 3-5 ответов: найди позиции, в которых все сессии согласны — это надёжные выводы.
Позиции где ответы расходятся — флаги неопределённости, требуют человека.
Как исследовали
Команда из SF Technology (логистическая компания) решала соревновательную задачу на CVPR 2026: 630 изображений с семью типами классических оптических иллюзий, бинарные ответы (да/нет), тренировочная выборка всего 27 семплов. Базовый Claude без специальных промптов показал 62.75% — чуть лучше монетки. Авторы прошли три фазы: сначала few-shot, потом чистый промпт-инжиниринг, потом полный пайплайн с предобработкой изображений.
Интересная деталь: для разработки стратегий предобработки они использовали Claude Opus, Qwen3-VL и Gemini три-вместе как "консультантов" — каждая модель независимо анализировала иллюзии и предлагала трансформации. ~60% финальных стратегий пришло из модельных предложений, 40% — от людей. Это не просто академический трюк: авторы буквально спрашивали "что ты бы изменил в этом изображении чтобы увидеть правду через иллюзию?" — и модель отвечала конкретными алгоритмами.
Самый важный результат аблации: добавление anti-illusion промптов и majority voting дало +11.5pp на тестовой выборке — но ТОЛЬКО поверх сильной предобработки изображений. Те же промпты без предобработки в ранних экспериментах давали скромный прирост. Синергия оказалась multiplicative, не additive. Конечный результат — 90.48% на официальных 630 изображениях, 2-е место с отставанием 0.47% от победителя.
Ресурсы
- Статья: "Illusion-Aware Visual Preprocessing and Anti-Illusion Prompting for Classic Illusion Understanding in Vision-Language Models"
- Код: github.com/jasminezz/sf-illusion-aware-vlm
- Авторы: Junli Zha, Jiahui Wang, Xinkai Lu, Jinbo Wang — SF Technology Co., Ltd.
- Контекст: 5th DataCV Challenge Task 1 @ CVPR 2026
- Ключевая отсылка: VI-Probe framework (Sun et al.) — оригинальная работа про "perceive-or-recall" дилемму в VLM
