TL;DR
Когда спрашиваешь модель о пространстве по одной фотографии — она в ловушке. Она видит мир только с одного угла и не может «увидеть» что за углом, что скрыто, как объекты расположены в трёх измерениях. TwNV решает это через добавление альтернативных ракурсов в процесс рассуждения: модель планирует нужный угол, получает изображение с него и сравнивает оба вида перед ответом.
Главная находка: кроп и зум не помогают при пространственных вопросах — и даже вредят. GPT-5 с инструментами кадрирования давал результаты хуже, чем без них (потерял 2 pp на вопросах о взаимном расположении объектов). Проблема не в детализации — проблема в том, что модель остаётся в той же плоскости. Пространственные отношения — «что левее», «что ближе», «куда смотрит» — не видны с одной точки по определению.
Метод работает в три шага в одном сеансе: Планировщик (та же модель) определяет, с какого ракурса сцена будет читаться лучше → Генератор изображений создаёт вид с нужного угла → Аналитик (снова та же модель) сравнивает исходное и новое изображение и даёт ответ. Опционально — итерации: модель проверяет качество нового ракурса и при необходимости запрашивает следующий.
Схема метода
Выполняется в одном сеансе, три этапа:
ШАГ 1: Планирование ракурса
Модель видит фото + вопрос → называет нужный угол обзора
Формат: "сдвинуться влево на 1 м, повернуть вправо на 15°"
ШАГ 2: Синтез нового вида
Генератор изображений создаёт сцену с нового угла
→ новое изображение It
ШАГ 3: Совместный анализ
Модель смотрит на {исходное фото + новый ракурс} → даёт ответ
[Опционально] Итерация (N=1):
Верификатор оценивает качество нового ракурса
Если плохой → Планировщик корректирует инструкции → Шаг 2 снова
Оптимум: 1 раунд итерации, больше — результат ухудшается
Исследователи строили автоматическую систему. Нам важен принцип — он применим руками.
Пример применения
Задача: Риелтор продаёт квартиру в Москве. Покупатель спрашивает: «Влезет ли угловой диван 2,5×2,5 м в гостиную? Как он соотносится с балконной дверью?» На руках только одна фотография комнаты — стандартный ракурс из угла.
Промпт:
Я хочу понять, поместится ли угловой диван 2,5×2,5 м в эту комнату.
Посмотри на фото и ответь:
1. Что ты МОЖЕШЬ определить по этому ракурсу точно?
2. Чего ты НЕ МОЖЕШЬ определить из-за угла съёмки?
3. Какое дополнительное фото тебе нужно, чтобы ответить точнее?
Опиши конкретно: откуда снимать, что должно быть в кадре.
[прикрепи фото комнаты]
Результат: Модель честно разграничит, что видит (ширина одной стены, расположение окна) и чего не видит (глубина комнаты, угол у балкона, скрытые простенки). Затем скажет: «Сфотографируй из противоположного угла, чтобы был виден балкон и смежная стена». Ты делаешь второе фото, прикрепляешь — и получаешь конкретный ответ про диван.
Почему это работает
Слабость LLM: Модель не видит геометрию — она видит пиксели. С одного ракурса часть информации о трёхмерном пространстве физически недоступна. Это не вопрос умности модели — это вопрос информации в кадре. Кадрирование и зум не решают проблему, потому что остаются в той же плоскости проекции.
Сильная сторона LLM: Модель умеет соотносить несколько изображений. Когда она видит две фотографии одной сцены с разных точек — она строит в контексте что-то вроде ментальной карты. Инсайт исследования: более слабые модели выигрывают больше от дополнительных ракурсов (Qwen-32B +6,7% vs GPT-5 +1,3%). Чем хуже у модели внутренние «трёхмерные» представления — тем ценнее внешняя визуальная подсказка.
Механика обхода: Вместо попытки вытащить 3D-информацию из одного кадра — просто дай несколько кадров. Это убирает исходное ограничение. Итерация (модель сама говорит «этот ракурс не то, нужен другой») работает как самопроверка — но только один раунд. Дальше накапливаются ошибки.
Рычаги управления:
| Элемент | Как менять | Эффект |
|---|---|---|
| Количество дополнительных фото | 1→2→3 | 1 ракурс — оптимум, больше — возможна деградация |
| Формат описания ракурса | «слева» → «2 метра влево, повернуть на 20°» | Точнее = лучше результат |
| Вопрос «что тебе нужно?» | Добавить/убрать | Модель сама укажет полезный ракурс |
| Тип задачи | Пространственная vs. общая | Метод помогает только там, где важна геометрия |
Шаблон промпта
Базовый — одно фото, модель указывает нужный ракурс
Я хочу разобраться с пространственным вопросом: {вопрос о расположении/размере/направлении}.
Смотри на фото и ответь структурно:
1. ЧТО ВИДИШЬ ТОЧНО — что однозначно понятно из этого ракурса
2. ЧТО НЕЯСНО — что невозможно определить из-за угла съёмки
3. НУЖНЫЙ РАКУРС — какое дополнительное фото решит неясность:
- откуда снимать (сторона, высота, расстояние)
- что должно попасть в кадр
[прикрепи фото]
Продвинутый — два фото уже есть
Я даю два фото одной и той же сцены с разных точек.
Вопрос: {пространственный вопрос}.
Фото 1 — {откуда снято, например: "из правого угла комнаты"}
Фото 2 — {откуда снято, например: "от входной двери"}
Используй оба ракурса вместе. Если информации всё ещё не хватает —
скажи, какой третий ракурс нужен и почему.
[прикрепи оба фото]
Плейсхолдеры:
- {вопрос} — конкретный пространственный вопрос: «поместится ли», «что левее», «куда выходит окно»
- {откуда снято} — описание точки съёмки для контекста модели
🚀 Быстрый старт — вставь в чат:
Вот шаблон для анализа пространственных вопросов по фото.
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы понять контекст.
[вставить шаблон выше]
LLM спросит: что именно ты хочешь понять, что уже есть на фото, и какая информация критична для ответа — потому что без этого она не поймёт, какой дополнительный ракурс запрашивать.
Ограничения
⚠️ Не для общих вопросов: Если вопрос не требует пространственного суждения (что изображено, какой цвет, что написано) — дополнительные ракурсы не помогают вообще.
⚠️ Размер объектов: Новый ракурс меняет кажущийся масштаб объектов. При вопросах «что больше» — результат может ухудшиться, модель путается. Метод лучше работает на «где», «куда», «как расположено», а не на «насколько большой».
⚠️ Больше одной итерации — хуже: Один дополнительный ракурс улучшает ответ. Два — почти нейтрально. Три и более — результат деградирует. Накапливаются артефакты и противоречия между ракурсами.
⚠️ Плохое изображение хуже чем никакого: Если дополнительное фото нечёткое, с сильными искажениями или не с того угла — оно активно вредит ответу. Это подтверждено: модель без генерации давала 70,4%, плохой генератор снизил до 68,6%.
⚠️ Нужна возможность загружать несколько фото: Работает в GPT-4o, Claude 3.5+. Текстовые модели без vision — не применимо.
Ресурсы
Название: Thinking with Novel Views: A Systematic Analysis of Generative-Augmented Spatial Intelligence
Авторы: Yanbing Zhang, Bo Wang, Jianhui Liu, Nan Jiang, Jiaxiu Jiang, Haoze Sun, Yijun Yang, Shenghe Zheng, Lin Song, Haoyang Huang, Nan Duan, Wenbo Li
Организация: Joy Future Academy
Связанные работы: 3DSRBench (бенчмарк пространственного рассуждения), RealWorldQA (реальные пространственные вопросы), Chain-of-View Prompting, Think3D
