3,583 papers
arXiv:2603.03002 70 3 мар. 2026 г. FREE

SpatialText: LLM разбирается в «севернее стола» — и теряется в «слева от тебя»

КЛЮЧЕВАЯ СУТЬ
Точность пространственных ответов LLM падает в 1.5–2 раза — если описывать комнату словами «слева от тебя» и «впереди», а не «у северной стены» и «восточнее шкафа». Метод позволяет получать точные ответы по расположению объектов — для планировки помещений, навигации, работы с чертежами — без дообучения. Два шага: заменить эгоцентрические ориентиры («слева/справа/впереди») на глобальные («у западной стены», «севернее шкафа») и добавить инструкцию «сначала построй мысленную карту шаг за шагом». Модель перестаёт подбирать статистически вероятный ответ и начинает последовательно «разворачивать» явную цепочку координат — ошибки уходят.
Адаптировать под запрос

TL;DR

LLM плохо понимает пространство с чьей-то точки зрения — «что у меня слева», «что вижу, если повернусь на 90°». Зато хорошо работает с глобальными ориентирами — «стол севернее стула», «диван у западной стены». Это не мелкая деталь: если неправильно сформулировать пространственную задачу — модель выдаст уверенную чушь.

Главная находка: модели не строят реальную «карту в голове», а подбирают статистически вероятный ответ. Эффект «кровать-север» — модель помещает кровать у северной стены просто потому, что так чаще встречается в текстах. Попроси её «представить, что ты стоишь у двери лицом к окну — что справа?» — она путается, потому что ей нужно мысленно повернуться, а это выходит за рамки заученных паттернов.

Практическое решение двойное: переформулировать задачу с эгоцентрических описаний («слева от тебя») на аллоцентрические («западнее») — и добавить специальный промпт-инструкцию, заставляющую модель строить ментальную карту до ответа.


🔬

Схема метода

ШАГ 1 (как описывать задачу):
  Эгоцентрическое → Аллоцентрическое
  ❌ "Что находится слева от тебя, если стоишь у входа?"
  ✅ "Шкаф у северной стены. Дверь — в южной. Что восточнее шкафа?"

ШАГ 2 (промпт-инструкция, добавляется к любому пространственному запросу):
  "Прежде чем ответить — построй мысленную карту сцены шаг за шагом, 
   обозначь положение каждого объекта, затем дай вывод."

Оба шага — в одном промпте.

🚀

Пример применения

Задача: Ты помогаешь расставить мебель в новой квартире. Хочешь спросить у Claude: «как лучше организовать пространство в спальне», и тебе важно, чтобы модель правильно поняла расположение вещей.

Промпт (слабый вариант — эгоцентрический):

Я стою у двери спальни лицом к окну. Слева от меня — шкаф, справа — тумбочка, 
впереди у стены — кровать. Как расставить мебель удобнее?

Промпт (сильный вариант — по выводам исследования):

Прежде чем ответить — построй мысленную карту комнаты шаг за шагом, 
обозначь положение каждого объекта, затем дай вывод.

Спальня 4×5 метров. Дверь — в южной стене по центру. Окно — в северной стене. 
Кровать стоит у северной стены. Шкаф — у западной стены. Тумбочка — 
восточнее кровати, между кроватью и восточной стеной.

Предложи как улучшить эту расстановку для удобного движения по комнате.

Результат: Модель сначала воспроизведёт карту словами — «итак, дверь на юге, окно напротив, кровать у севера...» — потом оценит проходы и предложит конкретные перестановки. Без инструкции и без аллоцентрических описаний — даст общие советы, не учитывая реальное расположение.


🧠

Почему это работает

LLM обучена на текстах, где «слева» и «справа» зависят от того, кто говорит и куда смотрит. Сотни тысяч разных контекстов — и у модели нет устойчивой «точки отсчёта». Каждый раз приходится догадываться. Итог — ошибки при смене точки зрения: попроси мысленно повернуться, и модель теряет нить.

Зато глобальные координаты — север, юг, «у восточной стены» — однозначны. Они не зависят от того, кто где стоит. Модель хорошо работает с такими описаниями, потому что здесь нет неоднозначности: «стол севернее стула» означает одно и то же для любого наблюдателя.

Инструкция «построй мысленную карту шаг за шагом» — это не магия. Она заставляет модель явно прописать позицию каждого объекта в тексте прежде чем отвечать. Таким образом промежуточные «координаты» остаются в контексте — и модель опирается на них, а не на статистические паттерны вроде «кровати обычно у стены».

Рычаги управления: - Добавь "Нарисуй ASCII-схему комнаты" → получишь видимую карту, легко проверить ошибки - Замени кардинальные стороны на часы: «шкаф на 9 часов от входа» → если задача предполагает именно такой формат


📋

Шаблон промпта

Прежде чем ответить — построй мысленную карту {сцены/помещения/пространства} 
шаг за шагом: обозначь положение каждого объекта относительно 
{сторон света / фиксированных ориентиров}, затем дай вывод.

{Описание пространства с глобальными ориентирами:
 — Укажи размеры или форму
 — Используй: севернее/южнее, у северной стены, восточнее {объекта}
 — Избегай: слева/справа от тебя, впереди/сзади}

{Твой вопрос про это пространство}

Плейсхолдеры: - {сцены/помещения/пространства} — что описываешь: офис, склад, зал, план квартиры - {сторон света / фиксированных ориентиров} — выбери что удобнее: север/юг или «от входа», «от окна» — главное, чтобы якорь был один и неподвижный - Описание — это сердце промпта: чем точнее координаты, тем точнее ответ

🚀 Быстрый старт — вставь в чат:

Вот шаблон для пространственных задач. Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит какое пространство ты описываешь и какие объекты в нём — потому что без этого не сможет выстроить карту для рассуждений. Она возьмёт структуру из шаблона и переформулирует твоё описание в аллоцентрические координаты.


🧠

Почему это работает

Слабость LLM при эгоцентрических задачах возникает не случайно. «Повернись на 180° — что теперь справа?» требует мысленно переиграть всю карту с новой точки. Это несколько шагов рассуждений, где каждая ошибка накапливается. Модели на таких задачах проваливались у большинства участников теста — точность падала в 1,5–2 раза по сравнению с аллоцентрическими описаниями того же пространства.

Сильная сторона LLM — работа с явно прописанными отношениями. «Стол севернее стула, стул восточнее шкафа» — это цепочка утверждений, которую модель может последовательно «развернуть». Никакой смены точки зрения не нужно.

Инструкция «построй карту» использует эту сильную сторону: она переводит пространственную задачу в текстовую цепочку утверждений до ответа. Модель, по сути, сама пишет себе подсказку в виде явных координат — и уже с ней отвечает на вопрос.


⚠️

Ограничения

⚠️ Сложные перспективные задачи: Даже с правильным форматом и инструкцией — если задача требует нескольких последовательных «поворотов» точки зрения, модели ошибаются. Это структурное ограничение, не решается промптингом.

⚠️ Размер моделей: Тестировались модели 7–14B параметров (средние по размеру). Большие модели — GPT-4, Claude 3.5, DeepSeek V3 — вероятно, справляются лучше, но паттерн «аллоцентрическое > эгоцентрическое» сохраняется и у них.

⚠️ 3D-пространство: Когда добавляется вертикаль («над», «под», «между этажами»), точность падает дополнительно. Аллоцентрические описания по-прежнему лучше, но общий уровень ниже.

⚠️ Неполная информация: Если в описании намеренно пропущены ключевые отношения, модели склонны додумывать — вместо того чтобы сказать «невозможно определить». Это «галлюцинации уверенности» в пространственном контексте.


🔍

Как исследовали

Команда из Чжэцзянского университета собрала две базы данных. Первая — 100 фотографий реальных интерьеров (спальни, кухни, гостиные) из датасета LSUN; люди-аннотаторы описали расположение предметов тремя способами: только с точки зрения наблюдателя, только глобальными ориентирами, и смешанно. Получилось 485 вопросов разной сложности — от «что стоит у стены» до «представь, что ты переместился — что теперь у тебя за спиной?».

Вторая база — 80 синтетических сцен, сгенерированных кодом с точными координатами. Здесь нет языковой «воды» — только чистая геометрия. Часть сцен была «полной» (по описанию можно точно восстановить карту), часть — намеренно неполной (правильный ответ — «невозможно определить»).

На этом проверили 8 моделей: от старого Mistral-7B до DeepSeek-V3.2. Самый поразительный результат — разрыв между аллоцентрическими и эгоцентрическими задачами оказался огромным у всех моделей без исключения. Даже лучшие модели теряли 15–25% точности при переходе к задачам «с чьей-то точки зрения». Исследователи назвали это «кровать-север галлюцинацией»: модель ставит кровать у северной стены просто потому, что видела такое сочетание слов в обучающих данных тысячи раз — независимо от реального описания сцены.


💡

Адаптации и экстраполяции

🔧 Техника: ASCII-карта как промежуточный шаг → видимый контроль ошибок

Добавь к шаблону «нарисуй ASCII-схему комнаты»:

Прежде чем ответить: 1) построй мысленную карту и нарисуй ASCII-схему 
расположения объектов, 2) проверь схему на противоречия, 3) ответь на вопрос.

Если ASCII-карта видна — ты сразу замечаешь ошибку в расположении объектов до того, как модель даст финальный совет.


🔧 Экстраполяция: принцип аллоцентрического описания → за пределами пространства

Тот же принцип «убери точку зрения, добавь абсолютный якорь» работает для описания структуры документов, иерархий, процессов: - ❌ «Этот раздел идёт после предыдущего» (относительно) - ✅ «Раздел 3 следует за разделом 2, содержит пункты 3.1–3.4» (абсолютно)

Когда просишь LLM разобраться в сложной структуре — давай абсолютные позиции, а не относительные переходы.


🔗

Ресурсы

SpatialText: A Pure-Text Cognitive Benchmark for Spatial Understanding in Large Language Models

Авторы: Peiyao Jiang, Zequn Qin, Xi Li — Zhejiang University

Смежные бенчмарки, упомянутые в работе: bAbI, STEPGAME, FloorPlanQA, CLEVR, GQA


📋 Дайджест исследования

Ключевая суть

Точность пространственных ответов LLM падает в 1.5–2 раза — если описывать комнату словами «слева от тебя» и «впереди», а не «у северной стены» и «восточнее шкафа». Метод позволяет получать точные ответы по расположению объектов — для планировки помещений, навигации, работы с чертежами — без дообучения. Два шага: заменить эгоцентрические ориентиры («слева/справа/впереди») на глобальные («у западной стены», «севернее шкафа») и добавить инструкцию «сначала построй мысленную карту шаг за шагом». Модель перестаёт подбирать статистически вероятный ответ и начинает последовательно «разворачивать» явную цепочку координат — ошибки уходят.

Принцип работы

Стандартный инстинкт — описывать пространство от своей точки зрения: «стоишь у двери, слева шкаф, справа кровать». Для человека удобно, для модели — ловушка. «Слева» в обучающих текстах означало тысячи разных вещей в зависимости от того, кто и куда смотрел. У модели нет устойчивой точки отсчёта — она угадывает по паттернам. Переключись на глобальные координаты — «шкаф у западной стены, кровать у северной» — и неоднозначность исчезает. Добавь «построй мысленную карту шаг за шагом» — и модель прописывает координаты в тексте до ответа, создавая себе явную подсказку.

Почему работает

Модель обучалась на текстах, где «правое» и «левое» — всегда чья-то перспектива. Миллионы разных контекстов, и у каждого свой «левый». Итог — модель не строит карту, она ищет статистически вероятный паттерн: «в спальнях кровати обычно у стены» — и помещает кровать туда. Попроси её мысленно повернуться — она теряет нить, потому что нужно переиграть всю карту с новой точки. Ошибки накапливаются с каждым шагом. Стороны света работают иначе: «стол севернее стула» означает одно и то же для любого наблюдателя. Это однозначная цепочка утверждений без чьей-либо перспективы — и модель умеет по ней рассуждать. Инструкция «построй карту» форсирует запись промежуточных координат прямо в контекст — и модель отвечает, опираясь на них, а не на заученные паттерны вроде «кровать обычно у стены».

Когда применять

Планировка и дизайн интерьеров → для описания расположения мебели и зон в помещении, особенно когда нужно проверить проходимость или взаимное расположение объектов. Навигация и маршруты → объяснение пути через фиксированные ориентиры, не «поверни направо у поворота», а «иди на север до перекрёстка». Технические схемы и чертежи → разбор расположения компонентов, описание взаимного положения элементов на плане. НЕ подходит: если задача требует нескольких последовательных «поворотов» точки зрения — даже с правильным форматом модель накапливает ошибки. Для 3D-пространства с вертикалью («над», «под», «между этажами») — работает заметно хуже.

Мини-рецепт

1. Переформулируй описание: убери «слева», «справа», «впереди», «сзади» — замени на стороны света или один неподвижный якорь: «от входа», «от окна», «у северной стены». Главное — якорь один и не двигается.
2. Добавь инструкцию в начало промпта: Прежде чем ответить — построй мысленную карту пространства шаг за шагом: обозначь положение каждого объекта относительно фиксированных ориентиров, затем дай вывод.
3. Опиши пространство структурно: сначала границы («комната 4×5 метров»), потом фиксированные точки («дверь в южной стене, окно в северной»), потом объекты («кровать у северной стены, шкаф у западной»). Не воспроизводи свою точку зрения — только факты.
4. Хочешь проверить карту сам: добавь Нарисуй ASCII-схему расположения объектов — модель выдаст визуальную сетку, ошибки видны сразу.

Примеры

[ПЛОХО] : Я стою у двери лицом к окну. Слева шкаф, справа тумбочка, прямо кровать. Как лучше расставить мебель?
[ХОРОШО] : Прежде чем ответить — построй мысленную карту комнаты шаг за шагом, обозначь положение каждого объекта, затем дай вывод. Комната 4×5 метров. Дверь — по центру южной стены. Окно — по центру северной стены. Кровать — у северной стены. Шкаф — у западной стены. Тумбочка — восточнее кровати, между кроватью и восточной стеной. Предложи как улучшить расстановку для удобного прохода по комнате. Модель сначала воспроизведёт карту словами — «дверь на юге, окно напротив, кровать у севера» — потом оценит проходы и предложит конкретные перестановки. Без инструкции и глобальных ориентиров — выдаст общие советы, не учитывая реальное расположение.
Источник: SpatialText: A Pure-Text Cognitive Benchmark for Spatial Understanding in Large Language Models
ArXiv ID: 2603.03002 | Сгенерировано: 2026-03-04 05:25

Проблемы LLM

ПроблемаСутьКак обойти
Относительные ориентиры путают модельПишешь "слева от тебя", "повернись на 90° — что теперь впереди?". Модель вынуждена мысленно менять точку зрения. Каждый шаг такого "разворота" добавляет ошибку. Задача из трёх поворотов — три раза множится погрешность. Работает плохо для любых описаний где есть "слева/справа", "выше/ниже меня", "предыдущий"Замени относительные ориентиры абсолютными. Не "слева от тебя" — а "у западной стены". Не "следующий элемент" — а "элемент 3". Абсолютный якорь не меняется — модели не нужно "разворачиваться"
Модель заполняет пробелы в позиции из паттернов, а не логикиЕсли в описании не сказано где стоит кровать — модель ставит её "у северной стены", потому что так чаще в обучающих текстах. Не потому что так правильно по задаче. Итог: уверенный ответ, построенный на угадывании. Не скажет "не могу определить"Описывай полностью. Указывай позицию каждого важного объекта явно. Если информации не хватит — попроси модель перечислить что неизвестно, прежде чем отвечать

Методы

МетодСуть
Шаг-за-шагом карта перед ответомДобавь в начало запроса: "Прежде чем ответить — построй карту шаг за шагом: обозначь положение каждого объекта относительно фиксированных ориентиров. Потом дай вывод." Почему работает: Модель вынуждена явно прописать координаты в тексте до ответа. Они остаются в контексте. Дальше модель опирается на эти записанные позиции — а не на статистические паттерны. Это цепочка рассуждений, но специально развёрнутая в пространстве. Когда да: любое описание с позиционными отношениями — помещения, схемы, расположение элементов интерфейса, порядок шагов. Когда нет: если задача требует нескольких последовательных смен точки зрения — промпт помогает, но не устраняет проблему полностью
📖 Простыми словами

SpatialText: A Pure-Text Cognitive Benchmark for Spatial Understanding inLargeLanguageModels

arXiv: 2603.03002

Современные нейронки — это гении текста, которые при этом топографические кретины. Корень проблемы в том, что у LLM нет тела и глаз, они живут в мире слов, где понятия лево и право постоянно меняются в зависимости от того, кто говорит. Для модели пространство — это не 3D-карта, а хаотичный набор описаний, где точка отсчета постоянно плавает. В итоге нейронка отлично цитирует Канта, но впадает в ступор, когда нужно понять, что окажется перед ней после поворота на 90 градусов.

Это как пытаться объяснить дорогу пьяному другу по телефону: ты говоришь поверни направо, а он уже стоит к тебе спиной, и твое право для него — это лево. В текстах, на которых учились модели, миллионы таких противоречивых указаний. Без жесткой привязки к местности пространственное мышление превращается в гадание на кофейной гуще, где модель просто выбирает наиболее вероятное слово, а не строит реальную схему в «голове».

Исследование SpatialText четко показывает, что реально работает: глобальные ориентиры вместо относительных. Если ты скажешь, что шкаф стоит у северной стены, а кровать — у южной, модель не запутается, потому что север всегда на севере. Но как только ты переходишь на эгоцентрические координаты типа «что я увижу слева от себя», точность падает в разы. Использование абсолютных координат — это единственный способ заставить модель не лажать в пространственных задачах.

Тестировали это на расстановке мебели, но принцип универсален. Он работает везде: от программирования логики в играх до описания сцен в сценариях или планирования маршрутов. Если ты описываешь нейронке интерфейс сайта или расположение кнопок в приложении, забудь про «справа от логотипа». Используй сетку или стороны света, иначе модель построит тебе такого Франкенштейна, что пользоваться этим будет невозможно. Относительные координаты — это яд для LLM.

Короче: если хочешь, чтобы AI тебя понял, перестань крутить его вокруг своей оси. Давай четкую глобальную привязку, фиксируй объекты относительно стен или сторон света, и тогда модель перестанет выдавать уверенную чушь. Либо ты задаешь жесткую систему координат, либо получаешь результат, который формально выглядит логично, но на практике ведет в тупик. Кто научится формулировать задачи через SpatialText-логику, тот получит от AI вменяемую помощь, а не пространственные галлюцинации.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с