TL;DR
LLM плохо понимает пространство с чьей-то точки зрения — «что у меня слева», «что вижу, если повернусь на 90°». Зато хорошо работает с глобальными ориентирами — «стол севернее стула», «диван у западной стены». Это не мелкая деталь: если неправильно сформулировать пространственную задачу — модель выдаст уверенную чушь.
Главная находка: модели не строят реальную «карту в голове», а подбирают статистически вероятный ответ. Эффект «кровать-север» — модель помещает кровать у северной стены просто потому, что так чаще встречается в текстах. Попроси её «представить, что ты стоишь у двери лицом к окну — что справа?» — она путается, потому что ей нужно мысленно повернуться, а это выходит за рамки заученных паттернов.
Практическое решение двойное: переформулировать задачу с эгоцентрических описаний («слева от тебя») на аллоцентрические («западнее») — и добавить специальный промпт-инструкцию, заставляющую модель строить ментальную карту до ответа.
Схема метода
ШАГ 1 (как описывать задачу):
Эгоцентрическое → Аллоцентрическое
❌ "Что находится слева от тебя, если стоишь у входа?"
✅ "Шкаф у северной стены. Дверь — в южной. Что восточнее шкафа?"
ШАГ 2 (промпт-инструкция, добавляется к любому пространственному запросу):
"Прежде чем ответить — построй мысленную карту сцены шаг за шагом,
обозначь положение каждого объекта, затем дай вывод."
Оба шага — в одном промпте.
Пример применения
Задача: Ты помогаешь расставить мебель в новой квартире. Хочешь спросить у Claude: «как лучше организовать пространство в спальне», и тебе важно, чтобы модель правильно поняла расположение вещей.
Промпт (слабый вариант — эгоцентрический):
Я стою у двери спальни лицом к окну. Слева от меня — шкаф, справа — тумбочка,
впереди у стены — кровать. Как расставить мебель удобнее?
Промпт (сильный вариант — по выводам исследования):
Прежде чем ответить — построй мысленную карту комнаты шаг за шагом,
обозначь положение каждого объекта, затем дай вывод.
Спальня 4×5 метров. Дверь — в южной стене по центру. Окно — в северной стене.
Кровать стоит у северной стены. Шкаф — у западной стены. Тумбочка —
восточнее кровати, между кроватью и восточной стеной.
Предложи как улучшить эту расстановку для удобного движения по комнате.
Результат: Модель сначала воспроизведёт карту словами — «итак, дверь на юге, окно напротив, кровать у севера...» — потом оценит проходы и предложит конкретные перестановки. Без инструкции и без аллоцентрических описаний — даст общие советы, не учитывая реальное расположение.
Почему это работает
LLM обучена на текстах, где «слева» и «справа» зависят от того, кто говорит и куда смотрит. Сотни тысяч разных контекстов — и у модели нет устойчивой «точки отсчёта». Каждый раз приходится догадываться. Итог — ошибки при смене точки зрения: попроси мысленно повернуться, и модель теряет нить.
Зато глобальные координаты — север, юг, «у восточной стены» — однозначны. Они не зависят от того, кто где стоит. Модель хорошо работает с такими описаниями, потому что здесь нет неоднозначности: «стол севернее стула» означает одно и то же для любого наблюдателя.
Инструкция «построй мысленную карту шаг за шагом» — это не магия. Она заставляет модель явно прописать позицию каждого объекта в тексте прежде чем отвечать. Таким образом промежуточные «координаты» остаются в контексте — и модель опирается на них, а не на статистические паттерны вроде «кровати обычно у стены».
Рычаги управления:
- Добавь "Нарисуй ASCII-схему комнаты" → получишь видимую карту, легко проверить ошибки
- Замени кардинальные стороны на часы: «шкаф на 9 часов от входа» → если задача предполагает именно такой формат
Шаблон промпта
Прежде чем ответить — построй мысленную карту {сцены/помещения/пространства}
шаг за шагом: обозначь положение каждого объекта относительно
{сторон света / фиксированных ориентиров}, затем дай вывод.
{Описание пространства с глобальными ориентирами:
— Укажи размеры или форму
— Используй: севернее/южнее, у северной стены, восточнее {объекта}
— Избегай: слева/справа от тебя, впереди/сзади}
{Твой вопрос про это пространство}
Плейсхолдеры:
- {сцены/помещения/пространства} — что описываешь: офис, склад, зал, план квартиры
- {сторон света / фиксированных ориентиров} — выбери что удобнее: север/юг или «от входа», «от окна» — главное, чтобы якорь был один и неподвижный
- Описание — это сердце промпта: чем точнее координаты, тем точнее ответ
🚀 Быстрый старт — вставь в чат:
Вот шаблон для пространственных задач. Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит какое пространство ты описываешь и какие объекты в нём — потому что без этого не сможет выстроить карту для рассуждений. Она возьмёт структуру из шаблона и переформулирует твоё описание в аллоцентрические координаты.
Почему это работает
Слабость LLM при эгоцентрических задачах возникает не случайно. «Повернись на 180° — что теперь справа?» требует мысленно переиграть всю карту с новой точки. Это несколько шагов рассуждений, где каждая ошибка накапливается. Модели на таких задачах проваливались у большинства участников теста — точность падала в 1,5–2 раза по сравнению с аллоцентрическими описаниями того же пространства.
Сильная сторона LLM — работа с явно прописанными отношениями. «Стол севернее стула, стул восточнее шкафа» — это цепочка утверждений, которую модель может последовательно «развернуть». Никакой смены точки зрения не нужно.
Инструкция «построй карту» использует эту сильную сторону: она переводит пространственную задачу в текстовую цепочку утверждений до ответа. Модель, по сути, сама пишет себе подсказку в виде явных координат — и уже с ней отвечает на вопрос.
Ограничения
⚠️ Сложные перспективные задачи: Даже с правильным форматом и инструкцией — если задача требует нескольких последовательных «поворотов» точки зрения, модели ошибаются. Это структурное ограничение, не решается промптингом.
⚠️ Размер моделей: Тестировались модели 7–14B параметров (средние по размеру). Большие модели — GPT-4, Claude 3.5, DeepSeek V3 — вероятно, справляются лучше, но паттерн «аллоцентрическое > эгоцентрическое» сохраняется и у них.
⚠️ 3D-пространство: Когда добавляется вертикаль («над», «под», «между этажами»), точность падает дополнительно. Аллоцентрические описания по-прежнему лучше, но общий уровень ниже.
⚠️ Неполная информация: Если в описании намеренно пропущены ключевые отношения, модели склонны додумывать — вместо того чтобы сказать «невозможно определить». Это «галлюцинации уверенности» в пространственном контексте.
Как исследовали
Команда из Чжэцзянского университета собрала две базы данных. Первая — 100 фотографий реальных интерьеров (спальни, кухни, гостиные) из датасета LSUN; люди-аннотаторы описали расположение предметов тремя способами: только с точки зрения наблюдателя, только глобальными ориентирами, и смешанно. Получилось 485 вопросов разной сложности — от «что стоит у стены» до «представь, что ты переместился — что теперь у тебя за спиной?».
Вторая база — 80 синтетических сцен, сгенерированных кодом с точными координатами. Здесь нет языковой «воды» — только чистая геометрия. Часть сцен была «полной» (по описанию можно точно восстановить карту), часть — намеренно неполной (правильный ответ — «невозможно определить»).
На этом проверили 8 моделей: от старого Mistral-7B до DeepSeek-V3.2. Самый поразительный результат — разрыв между аллоцентрическими и эгоцентрическими задачами оказался огромным у всех моделей без исключения. Даже лучшие модели теряли 15–25% точности при переходе к задачам «с чьей-то точки зрения». Исследователи назвали это «кровать-север галлюцинацией»: модель ставит кровать у северной стены просто потому, что видела такое сочетание слов в обучающих данных тысячи раз — независимо от реального описания сцены.
Адаптации и экстраполяции
🔧 Техника: ASCII-карта как промежуточный шаг → видимый контроль ошибок
Добавь к шаблону «нарисуй ASCII-схему комнаты»:
Прежде чем ответить: 1) построй мысленную карту и нарисуй ASCII-схему
расположения объектов, 2) проверь схему на противоречия, 3) ответь на вопрос.
Если ASCII-карта видна — ты сразу замечаешь ошибку в расположении объектов до того, как модель даст финальный совет.
🔧 Экстраполяция: принцип аллоцентрического описания → за пределами пространства
Тот же принцип «убери точку зрения, добавь абсолютный якорь» работает для описания структуры документов, иерархий, процессов: - ❌ «Этот раздел идёт после предыдущего» (относительно) - ✅ «Раздел 3 следует за разделом 2, содержит пункты 3.1–3.4» (абсолютно)
Когда просишь LLM разобраться в сложной структуре — давай абсолютные позиции, а не относительные переходы.
Ресурсы
SpatialText: A Pure-Text Cognitive Benchmark for Spatial Understanding in Large Language Models
Авторы: Peiyao Jiang, Zequn Qin, Xi Li — Zhejiang University
Смежные бенчмарки, упомянутые в работе: bAbI, STEPGAME, FloorPlanQA, CLEVR, GQA
