3,583 papers
arXiv:2605.10588 73 11 мая 2026 г. FREE

TwNV (Thinking with Novel Views): пространственное мышление через смену точки обзора

КЛЮЧЕВАЯ СУТЬ
Кадрирование при пространственных вопросах не просто не помогает — оно делает хуже. GPT-5 с инструментами зума потерял 2 позиции точности по сравнению с обычным режимом без них. Метод TwNV позволяет задавать вопросы «что левее», «поместится ли», «куда смотрит» — и получать ответы, которые с одного ракурса физически недоступны. Фишка: сначала попроси модель указать нужный ракурс — она сама скажет, откуда сфотографировать дополнительно. Затем загрузи оба фото вместе — пространственная карта складывается в контексте модели, и она отвечает на то, что раньше было слепым пятном.
Адаптировать под запрос

TL;DR

Когда спрашиваешь модель о пространстве по одной фотографии — она в ловушке. Она видит мир только с одного угла и не может «увидеть» что за углом, что скрыто, как объекты расположены в трёх измерениях. TwNV решает это через добавление альтернативных ракурсов в процесс рассуждения: модель планирует нужный угол, получает изображение с него и сравнивает оба вида перед ответом.

Главная находка: кроп и зум не помогают при пространственных вопросах — и даже вредят. GPT-5 с инструментами кадрирования давал результаты хуже, чем без них (потерял 2 pp на вопросах о взаимном расположении объектов). Проблема не в детализации — проблема в том, что модель остаётся в той же плоскости. Пространственные отношения — «что левее», «что ближе», «куда смотрит» — не видны с одной точки по определению.

Метод работает в три шага в одном сеансе: Планировщик (та же модель) определяет, с какого ракурса сцена будет читаться лучше → Генератор изображений создаёт вид с нужного угла → Аналитик (снова та же модель) сравнивает исходное и новое изображение и даёт ответ. Опционально — итерации: модель проверяет качество нового ракурса и при необходимости запрашивает следующий.


🔬

Схема метода

Выполняется в одном сеансе, три этапа:

ШАГ 1: Планирование ракурса
  Модель видит фото + вопрос → называет нужный угол обзора
  Формат: "сдвинуться влево на 1 м, повернуть вправо на 15°"

ШАГ 2: Синтез нового вида
  Генератор изображений создаёт сцену с нового угла
  → новое изображение It

ШАГ 3: Совместный анализ
  Модель смотрит на {исходное фото + новый ракурс} → даёт ответ

[Опционально] Итерация (N=1):
  Верификатор оценивает качество нового ракурса
  Если плохой → Планировщик корректирует инструкции → Шаг 2 снова
  Оптимум: 1 раунд итерации, больше — результат ухудшается

Исследователи строили автоматическую систему. Нам важен принцип — он применим руками.


🚀

Пример применения

Задача: Риелтор продаёт квартиру в Москве. Покупатель спрашивает: «Влезет ли угловой диван 2,5×2,5 м в гостиную? Как он соотносится с балконной дверью?» На руках только одна фотография комнаты — стандартный ракурс из угла.

Промпт:

Я хочу понять, поместится ли угловой диван 2,5×2,5 м в эту комнату.

Посмотри на фото и ответь:
1. Что ты МОЖЕШЬ определить по этому ракурсу точно?
2. Чего ты НЕ МОЖЕШЬ определить из-за угла съёмки?
3. Какое дополнительное фото тебе нужно, чтобы ответить точнее?
   Опиши конкретно: откуда снимать, что должно быть в кадре.

[прикрепи фото комнаты]

Результат: Модель честно разграничит, что видит (ширина одной стены, расположение окна) и чего не видит (глубина комнаты, угол у балкона, скрытые простенки). Затем скажет: «Сфотографируй из противоположного угла, чтобы был виден балкон и смежная стена». Ты делаешь второе фото, прикрепляешь — и получаешь конкретный ответ про диван.


🧠

Почему это работает

Слабость LLM: Модель не видит геометрию — она видит пиксели. С одного ракурса часть информации о трёхмерном пространстве физически недоступна. Это не вопрос умности модели — это вопрос информации в кадре. Кадрирование и зум не решают проблему, потому что остаются в той же плоскости проекции.

Сильная сторона LLM: Модель умеет соотносить несколько изображений. Когда она видит две фотографии одной сцены с разных точек — она строит в контексте что-то вроде ментальной карты. Инсайт исследования: более слабые модели выигрывают больше от дополнительных ракурсов (Qwen-32B +6,7% vs GPT-5 +1,3%). Чем хуже у модели внутренние «трёхмерные» представления — тем ценнее внешняя визуальная подсказка.

Механика обхода: Вместо попытки вытащить 3D-информацию из одного кадра — просто дай несколько кадров. Это убирает исходное ограничение. Итерация (модель сама говорит «этот ракурс не то, нужен другой») работает как самопроверка — но только один раунд. Дальше накапливаются ошибки.

Рычаги управления:

Элемент Как менять Эффект
Количество дополнительных фото 1→2→3 1 ракурс — оптимум, больше — возможна деградация
Формат описания ракурса «слева» → «2 метра влево, повернуть на 20°» Точнее = лучше результат
Вопрос «что тебе нужно?» Добавить/убрать Модель сама укажет полезный ракурс
Тип задачи Пространственная vs. общая Метод помогает только там, где важна геометрия

📋

Шаблон промпта

📌

Базовый — одно фото, модель указывает нужный ракурс

Я хочу разобраться с пространственным вопросом: {вопрос о расположении/размере/направлении}.

Смотри на фото и ответь структурно:

1. ЧТО ВИДИШЬ ТОЧНО — что однозначно понятно из этого ракурса
2. ЧТО НЕЯСНО — что невозможно определить из-за угла съёмки
3. НУЖНЫЙ РАКУРС — какое дополнительное фото решит неясность:
   - откуда снимать (сторона, высота, расстояние)
   - что должно попасть в кадр

[прикрепи фото]
📌

Продвинутый — два фото уже есть

Я даю два фото одной и той же сцены с разных точек.
Вопрос: {пространственный вопрос}.

Фото 1 — {откуда снято, например: "из правого угла комнаты"}
Фото 2 — {откуда снято, например: "от входной двери"}

Используй оба ракурса вместе. Если информации всё ещё не хватает — 
скажи, какой третий ракурс нужен и почему.

[прикрепи оба фото]

Плейсхолдеры: - {вопрос} — конкретный пространственный вопрос: «поместится ли», «что левее», «куда выходит окно» - {откуда снято} — описание точки съёмки для контекста модели


🚀 Быстрый старт — вставь в чат:

Вот шаблон для анализа пространственных вопросов по фото.
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы понять контекст.

[вставить шаблон выше]

LLM спросит: что именно ты хочешь понять, что уже есть на фото, и какая информация критична для ответа — потому что без этого она не поймёт, какой дополнительный ракурс запрашивать.


⚠️

Ограничения

⚠️ Не для общих вопросов: Если вопрос не требует пространственного суждения (что изображено, какой цвет, что написано) — дополнительные ракурсы не помогают вообще.

⚠️ Размер объектов: Новый ракурс меняет кажущийся масштаб объектов. При вопросах «что больше» — результат может ухудшиться, модель путается. Метод лучше работает на «где», «куда», «как расположено», а не на «насколько большой».

⚠️ Больше одной итерации — хуже: Один дополнительный ракурс улучшает ответ. Два — почти нейтрально. Три и более — результат деградирует. Накапливаются артефакты и противоречия между ракурсами.

⚠️ Плохое изображение хуже чем никакого: Если дополнительное фото нечёткое, с сильными искажениями или не с того угла — оно активно вредит ответу. Это подтверждено: модель без генерации давала 70,4%, плохой генератор снизил до 68,6%.

⚠️ Нужна возможность загружать несколько фото: Работает в GPT-4o, Claude 3.5+. Текстовые модели без vision — не применимо.


🔗

Ресурсы

Название: Thinking with Novel Views: A Systematic Analysis of Generative-Augmented Spatial Intelligence

Авторы: Yanbing Zhang, Bo Wang, Jianhui Liu, Nan Jiang, Jiaxiu Jiang, Haoze Sun, Yijun Yang, Shenghe Zheng, Lin Song, Haoyang Huang, Nan Duan, Wenbo Li

Организация: Joy Future Academy

Связанные работы: 3DSRBench (бенчмарк пространственного рассуждения), RealWorldQA (реальные пространственные вопросы), Chain-of-View Prompting, Think3D


📋 Дайджест исследования

Ключевая суть

Кадрирование при пространственных вопросах не просто не помогает — оно делает хуже. GPT-5 с инструментами зума потерял 2 позиции точности по сравнению с обычным режимом без них. Метод TwNV позволяет задавать вопросы «что левее», «поместится ли», «куда смотрит» — и получать ответы, которые с одного ракурса физически недоступны. Фишка: сначала попроси модель указать нужный ракурс — она сама скажет, откуда сфотографировать дополнительно. Затем загрузи оба фото вместе — пространственная карта складывается в контексте модели, и она отвечает на то, что раньше было слепым пятном.

Принцип работы

Зум остаётся в той же плоскости. Хоть в сто раз приблизь — глубина сцены, что за углом, взаимное расположение объектов — этого в одной проекции нет по определению. Не детализация нужна, а другая точка обзора. Второй ракурс добавляет не детали — он добавляет новое измерение. Модель соотносит два кадра и строит ментальную карту. Вручную это работает так же, как в автоматическом методе: сначала планируешь угол — потом снимаешь — потом анализируешь оба кадра вместе. Ты сам делаешь второе фото вместо генератора.

Почему работает

LLM умеет сопоставлять несколько кадров лучше, чем разгадывать геометрию из одного. Дай два снимка одной сцены с разных точек — модель строит что-то вроде ментальной карты в своём контексте. Парадокс: слабые модели выигрывают больше — Qwen-32B прибавил 6,7%, GPT-5 всего 1,3%. Чем слабее внутренние пространственные представления модели — тем ценнее внешняя визуальная подсказка. Ещё одно важное следствие: один дополнительный ракурс — оптимум. Два — почти нейтрально. Три — результат начинает проседать. Ракурсы накапливают противоречия, и модель путается сильнее, чем если бы смотрела на один кадр. И отдельно: плохое фото хуже, чем никакого — размытый или не с того угла снимок активно вредит ответу.

Когда применять

Анализ фото с пространственными вопросами: дизайн интерьеров, оценка недвижимости, производственные задачи, навигация. Особенно полезно когда нужно ответить «что ближе», «что левее», «куда смотрит объект», «поместится ли предмет». НЕ подходит для общих вопросов о содержании фото, тексте на изображении или сравнении размеров объектов — при вопросах о размере второй ракурс меняет кажущийся масштаб и может запутать модель больше, чем помочь.

Мини-рецепт

1. Задай структурный вопрос к первому фото: что видно точно, что неясно из-за угла съёмки, с какой точки нужно второе фото — всё это в одном промпте.
2. Слушай ответ: модель назовёт точку съёмки — сторону, высоту, что должно попасть в кадр. Чем конкретнее описание — тем точнее результат. «Сдвинься влево на метр, развернись на 15 градусов вправо» работает лучше, чем «сфотографируй с другой стороны».
3. Сфотографируй с указанной точки. Если фото размытое или не с того угла — лучше переснять. Плохой ракурс вреднее, чем совсем без него.
4. Загрузи оба фото вместе с оригинальным вопросом. Укажи откуда снято каждое — модель сориентируется точнее.
5. Один раунд уточнения — оптимум. Понадобился третий ракурс — запроси ровно один. Больше не добавляй: накопление кадров начинает путать, а не помогать.

Примеры

[ПЛОХО]: `Вот фото комнаты. Поместится ли угловой диван 2,5×2,5 м у окна?` [ХОРОШО — шаг 1, к первому фото]: `Смотри на фото комнаты. Вопрос: поместится ли угловой диван 2,5×2,5 м у окна? Ответь структурно: 1. Что видно точно — что понятно из этого ракурса без догадок 2. Чего не видно — что невозможно определить из-за угла съёмки 3. Нужный ракурс — с какой точки сделать второе фото: откуда снять, что должно войти в кадр [прикрепи фото комнаты]` [ХОРОШО — шаг 2, когда второе фото готово]: `Вот второе фото — снято от входной двери. Используй оба снимка вместе. Ответь: поместится ли угловой диван 2,5×2,5 м у окна? Что ближе к балконной двери — окно или правая стена? [прикрепи оба фото]`
Источник: Thinking with Novel Views: A Systematic Analysis of Generative-Augmented Spatial Intelligence
ArXiv ID: 2605.10588 | Сгенерировано: 2026-05-12 09:34

Проблемы LLM

ПроблемаСутьКак обойти
Зум и кадрирование не помогают при пространственных вопросахДумаешь: «не видит деталей — приближу». Но проблема не в детализации. Модель остаётся в той же плоскости проекции. Что слева, что за углом, как объекты соотносятся в глубину — этого в кадре физически нет. Зум это не исправит. GPT-5 с инструментом кадрирования работал хуже, чем GPT-5 без негоНе кадрируй — добавляй новые ракурсы. Другая точка съёмки даёт информацию которой нет в исходном кадре. Реальное второе фото > зум первого

Методы

МетодСуть
Попроси модель назвать нужный ракурс — до ответаСначала спроси: «что ты видишь точно, чего не видишь из-за угла, какое фото тебе нужно?». Модель сама укажет полезную точку съёмки. Ты делаешь второе фото, даёшь оба — получаешь ответ. Шаблон: 1. Что видишь точно. 2. Чего не хватает из этого ракурса. 3. Откуда снять и что должно попасть в кадр. Почему работает: Модель знает чего ей не хватает для ответа. Но без прямого вопроса — молчит и галлюцинирует. Прямой вопрос включает честную оценку пробелов. Когда применять: любой пространственный вопрос по фото — «поместится ли», «что левее», «куда смотрит», «как расположено». Когда не работает: вопросы про цвет, текст, что изображено — там ракурс не влияет

Тезисы

ТезисКомментарий
Один дополнительный ракурс — оптимум. Два и больше — хужеКаждый новый ракурс добавляет противоречия между кадрами. Модель начинает путаться. Первое фото — baseline. Второе — максимальный прирост. Третье и дальше — деградация. Это работает и в руках: не заваливай модель фотографиями одного объекта. Одного дополнительного вида достаточно
📖 Простыми словами

Thinking with Novel Views: A Systematic Analysis of Generative-Augmented Spatial Intelligence

arXiv: 2605.10588

Современные нейронки в вопросах пространства ведут себя как люди с одним глазом и затекшей шеей: они видят мир плоским и только с одного ракурса. Если ты покажешь модели фото комнаты и спросишь, влезет ли туда шкаф, она начнет гадать. Проблема не в том, что она «глупая», а в том, что в одной картинке физически не хватает данных о глубине и скрытых углах. Метод TwNV (Thinking with Novel Views) выбивает эту опору у неопределенности: он заставляет модель не просто смотреть на фото, а достраивать пространство в голове, создавая новые точки обзора.

Это как пытаться купить квартиру по одной фотографии из объявления, где снят только угол с фикусом. Ты не понимаешь реальных масштабов, пока не пройдешься по комнате или не посмотришь план сверху. TwNV — это и есть тот самый «виртуальный обход». Модель понимает, что ей не хватает инфы, сама решает, с какого угла нужно взглянуть на объект, генерирует этот вид и только потом выносит вердикт. Формально она все еще смотрит на картинки, но по факту — строит в памяти полноценную 3D-сцену.

Работает это через три жестких этапа: планирование ракурса, генерация вида и финальное сравнение. Сначала модель соображает: «Так, спереди я этот диван вижу, но не понимаю, перекроет ли он дверь, надо глянуть сверху». Затем нейронка-генератор рисует этот вид «с потолка», сохраняя все пропорции. В конце основная модель сопоставляет оба кадра. Если на первом фото диван казался маленьким, а на втором он перекрывает проход — модель честно скажет, что это полный провал, а не будет галлюцинировать об уюте.

Хотя тестировали это на бытовых задачах и робототехнике, принцип пространственного интеллекта применим везде, где плоского изображения мало. Это и дизайн интерьеров, и удаленная диагностика поломок, и даже разбор ДТП по одной записи с регистратора. Модель перестает быть пассивным зрителем и превращается в активного исследователя, который понимает, что за пределами кадра тоже есть жизнь. Геометрия больше не помеха, если ты умеешь смотреть на проблему под нужным углом.

Короче: хватит требовать от AI невозможного на основе одного кривого селфи. Метод TwNV доказывает, что для адекватных выводов модели нужно дать возможность «покрутить» объект в руках. Это переход от простого распознавания образов к реальному пониманию пространства. Кто первый внедрит такие «прогулки» в свои сервисы, тот и решит проблему вечных косяков с размерами и планировкой. Остальные продолжат объяснять клиентам, почему шкаф на картинке выглядел меньше.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с