TL;DR
Загрузи фото, укажи в вопросе, что человек в синей рубашке — а рубашка красная. Модель ответит про синюю. Не потому что не видит красную — она её видит. Просто не скажет, что ты ошибся. Это и есть Representation-Action Gap (разрыв между тем, что закодировано внутри модели, и тем, что она выдаёт в ответ) — явление, которое исследователи из NTU задокументировали систематически на 9 омнимодальных моделях.
Главная боль: ты задаёшь вопрос с ошибочной предпосылкой — и модель просто её принимает. Не потому что ошиблась в восприятии. Внутренние слои модели надёжно фиксируют противоречие (linear probe достигает до 86% точности при декодировании скрытых состояний). Но это знание застревает внутри и не попадает в ответ. Модель видит, что ты неправ — и всё равно отвечает, как будто ты прав.
Почему так происходит — не до конца ясно, но картина такая: сигнал о несоответствии есть в промежуточных слоях модели, но не доходит до итогового токена. Текстовые инструкции в запросе перевешивают сенсорный сигнал. Семь разных вариаций промпта — ни одна не решила проблему: это не баг формулировки, это системное поведение. Практический вывод: не жди, что модель сама поправит твои ошибочные описания при работе с изображениями или видео.
Схема явления
ТЫ: [Загрузил изображение] + [Вопрос с ложной предпосылкой]
↓
МОДЕЛЬ: Внутренние слои → фиксируют несоответствие (сигнал есть)
↓
Итоговый ответ → игнорирует сигнал → принимает твою ложную предпосылку
↓
ТЫ: Получаешь ответ, который подтверждает твою ошибку
-----
Два режима отказа:
НЕДО-ОТКЛОНЕНИЕ (большинство моделей)
→ Модель принимает ложь и отвечает уверенно
ПЕРЕ-ОТКЛОНЕНИЕ (Qwen3-Omni, Gemini 3.1 Pro)
→ Модель отклоняет всё подряд — и ложные, и правильные вопросы
→ Точность на обычных вопросах падает на 15-25 процентных пунктов
Пример применения
Задача: Ты разбираешь с Клодом финансовую таблицу — скриншот из Excel. Хочешь понять динамику продаж.
Проблема по умолчанию:
[загружаешь скриншот таблицы]
Промпт: "Судя по росту выручки в марте, какой прогноз на Q2?"
Если в марте на самом деле было падение — модель скорее всего ответит на вопрос про "рост", не поправив тебя. Ты получишь красивый прогноз на основе неверной предпосылки.
Промпт с защитой от этого:
Перед тем как ответить — сверь мои слова с тем, что видишь.
Шаг 1: Опиши точно, что показывает таблица в марте — цифры,
направление изменений, отклонения от февраля.
Шаг 2: Проверь: в моём вопросе есть предположение о росте
выручки в марте. Оно верное или нет? Если нет — поправь.
Шаг 3: Теперь ответь на вопрос: какой прогноз на Q2 с учётом
реальных данных?
Мой вопрос: Судя по росту выручки в марте, какой прогноз на Q2?
Результат: Модель сначала опишет что реально на изображении — без твоей интерпретации. Затем явно скажет "в марте было падение, а не рост" — и только потом ответит на вопрос с правильными данными. Принудительный шаг описания ломает механизм автоматического принятия предпосылки.
Почему это работает
Почему модель принимает ложные предпосылки. Модель генерирует текст, следуя статистическим паттернам — и вопрос с встроенной предпосылкой создаёт сильный контекст "это факт". Текстовый сигнал ("синяя рубашка") конкурирует с визуальным сигналом (красная рубашка) — и в большинстве случаев текстовый выигрывает. Модель не "обманывается" — она просто не настроена оспаривать предположения пользователя без явного запроса.
Что модель умеет хорошо. Когда ты явно просишь описать изображение — модель делает это точно. Когда ты явно просишь проверить предпосылку перед ответом — сигнал о противоречии получает шанс проявиться. Принципиальный момент из исследования: сигнал уже есть внутри модели. Нужно не "научить" её видеть противоречие — нужно создать структуру вывода, которая даёт этому сигналу выйти наружу.
Как двухшаговый промпт обходит проблему. Разделение на "опиши факты" и "ответь на вопрос" создаёт промежуточный якорь — описание на основе реального восприятия. К моменту ответа на вопрос у модели уже есть сгенерированный правильный контекст, который перебивает ложную предпосылку из вопроса. Это структурный обход через явное описание, а не волшебное слово.
Рычаги управления промптом: - Степень детализации в шаге описания → чем конкретнее ("опиши цифры", "назови цвет"), тем меньше шанс, что модель уйдёт в интерпретацию вместо факта - Явное называние предпосылки → "в моём вопросе есть предположение X — оно верное?" работает лучше, чем общее "проверь вопрос" - Порядок шагов → описание → проверка → ответ. Если поменять порядок (сначала ответ), защита не работает
Шаблон промпта
Перед ответом выполни три шага.
Шаг 1 — Опиши факты: [что именно описать — цвет, цифры,
действие, текст] на изображении/видео. Только то, что
видишь, без интерпретаций.
Шаг 2 — Проверь предпосылку: в моём вопросе есть
утверждение о {предполагаемый факт}. Оно совпадает
с тем, что ты видишь? Если нет — укажи что именно неверно.
Шаг 3 — Ответь: {твой вопрос}, опираясь на реальные
данные из шага 1.
Что подставлять:
- {что именно описать} — конкретный элемент: "значения в столбце март", "цвет и положение объектов", "текст на экране"
- {предполагаемый факт} — твоё утверждение из вопроса: "рост продаж", "красный цвет", "мужчина стоит слева"
- {твой вопрос} — исходный вопрос без изменений
🚀 Быстрый старт — вставь в чат:
Вот шаблон двухшагового промпта для работы с изображениями.
Адаптируй под мою задачу: [опиши свою задачу и что за
изображение загружаешь]. Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит какой конкретный визуальный элемент ты хочешь проверить и что ты предполагаешь увидеть — потому что без этого она не сможет сформулировать точную проверку предпосылки.
Почему это важно знать
⚠️ Касается только работы с изображениями/видео/аудио: Для текстовых задач без медиафайлов эффект не применим — там нет сенсорного сигнала, которому противоречит предпосылка.
⚠️ Аудио хуже визуала: Если модель плохо ловит ложные визуальные предпосылки — аудиальные она не ловит почти никогда. Для задач с озвучкой, транскрипцией или анализом видеопотоков защита через описание особенно важна.
⚠️ Промпт не панацея: Семь разных вариаций системного промпта (с указаниями "проверяй предпосылки") не решали проблему в исследовании без структурного разделения шагов. Одна инструкция в начале чата слабее принудительной последовательности шагов.
⚠️ Пере-отклонение хуже недо-отклонения для обычных задач: Модели типа Gemini 3.1 Pro чаще сомневаются в верных предпосылках — это ложные тревоги, которые снижают точность. Если замечаешь, что модель слишком часто оспаривает твои описания — не добавляй лишних инструкций "проверяй всё", это усилит пере-отклонение.
Как исследовали
Исследователи поставили себе хирургический вопрос: модель не видит или видит, но не говорит? Чтобы это разделить, они собрали 500 кино-клипов (20+ часов фильмов), для каждого клипа создали 4 варианта вопроса по схеме 2×2: визуальный / аудиальный × правильная предпосылка / ложная предпосылка. Ложная — это буквально одна деталь: цвет рубашки, тип звука, реплика персонажа— всё остальное точное. Это позволяло измерять чистую способность модели заметить одно конкретное несоответствие.
Проверяли на 8 открытых омнимодальных моделях и Gemini 3.1 Pro. Картина оказалась пугающей: большинство моделей успешно отвечали на 60-75% правильных вопросов, но ловили ложные предпосылки в менее 16% случаев, а по аудио четыре модели не поймали ни одной. Особенно красноречиво исследование внутренних состояний: линейный пробник (инструмент интерпретируемости, который "читает" intermediate векторы модели) декодировал наличие ложной предпосылки с точностью до 86%. Модель "знала" что предпосылка ложная — и не говорила об этом. Это и сделало находку убедительной: не проблема восприятия, а проблема трансляции внутреннего знания во внешний ответ.
Адаптации и экстраполяции
🔧 Техника: Обратная проверка — попроси модель сначала описать изображение, не зная твоего вопроса
Если боишься неосознанно "подсказать" ответ формулировкой:
Шаг 1: Опиши [изображение/раздел] подробно — что видишь,
без моего вопроса.
[Модель отвечает]
Шаг 2: Теперь вопрос: {вопрос с предположением}.
Совпадает ли твоё описание с тем, что я написал?
Разрыв между шагами не даёт твоей предпосылке заразить описание.
🔧 Экстраполяция: Тот же принцип работает для фактов из документов
Если загружаешь PDF и задаёшь вопрос с ошибочным предположением ("в третьем квартале выручка выросла на 15%..."), модель будет склонна принять это за факт. Структура "сначала процитируй цифру из документа, потом ответь" работает аналогично.
Шаг 1: Найди и процитируй точную цифру [показателя]
из [раздела/страницы] документа.
Шаг 2: В моём вопросе написано {моё предположение о цифре}.
Совпадает с тем, что ты нашёл?
Шаг 3: Ответь на вопрос на основе реальных данных: {вопрос}
Ресурсы
Название: Senses Wide Shut: A Representation-Action Gap in Omnimodal LLMs
Авторы: Nguyen Quang Trung, Yiming Gao, Fanyi Pu, Kaichen Zhang, Shuo Sun, Ziwei Liu
Организации: Nanyang Technological University (NTU), LMMs-Lab Team, Johns Hopkins University
Связанные работы: Inference-Time Intervention (ITI), Representation Engineering — техники усиления честных направлений в активациях LLM; Linear probing — инструмент интерпретируемости для "чтения" скрытых состояний
