3,583 papers
arXiv:2601.08626 70 13 янв. 2026 г. FREE

OrderProbe: LLM видят смысл, но теряют структуру

КЛЮЧЕВАЯ СУТЬ
Парадокс: LLM правильно объясняет значение перемешанной идиомы, но не может собрать символы в правильном порядке. Точность восстановления меньше 35% даже у топовых моделей. Метод OrderProbe обнаруживает разрыв между пониманием смысла и планированием структуры – модель ведёт себя так, будто перемешанные элементы независимы, и выдаёт семантически близкий, но структурно неправильный ответ. Ключ: LLM запоминают смысловые паттерны, но не обучены явному структурному планированию. Даже если модель знает что идиома означает, она не может применить правило "сначала действие, потом объект, потом эффект".
Адаптировать под запрос

TL;DR

OrderProbe — исследование о том, как LLM восстанавливают правильный порядок элементов из перемешанных данных. Учёные взяли четырёхсимвольные идиомы на китайском, японском и корейском (они имеют единственный правильный порядок символов), перемешали их всеми возможными способами (23 варианта для каждой идиомы) и проверили, сколько раз модели смогут восстановить оригинал. Это как дать модели буквы "Т-К-О-Н" и попросить собрать слово "КНОТ" — если ты знаешь морской термин, порядок очевиден. Но LLM часто выдают "ТКОН" или "НОКТ", хотя понимают что речь о верёвке.

Главная находка: модели отлично понимают значение, но плохо восстанавливают структуру. Даже топовые LLM (GPT-4o, Claude, DeepSeek-R1) в zero-shot восстанавливают правильный порядок меньше чем в 35% случаев. При этом они дают правильные объяснения значения идиомы — просто не могут собрать символы в точной последовательности. Это называют semantic-structure dissociation (разрыв между пониманием смысла и планированием структуры). Модель ведёт себя так, будто перемешанные символы — независимые токены без связи, и выдаёт семантически близкий, но структурно неправильный ответ.

Суть находки: Chain-of-Thought улучшает результаты (лучшие модели поднимаются до ~48%), но проблема остаётся. Few-shot примеры дают более стабильный эффект — когда модель видит 2-3 примера правильного восстановления, она лучше понимает задачу. Также обнаружили, что "якоря" критически важны — если ключевые элементы остаются близко к своим исходным позициям, модель справляется лучше. Если разбросаны — точность падает резко.

📌

Почему это важно

LLM обучены на связанных последовательностях текста — предложениях, абзацах, документах, где порядок слов естественен. Когда мы разрушаем локальную структуру, модель теряет контекст и начинает угадывать по семантическим ассоциациям, а не восстанавливать точную последовательность.

Проблема в том, что модель запоминает смысловые паттерны, но не обучена явному структурному планированию. Она знает что идиома "一鸣惊人" (Yi-Ming-Jing-Ren — "прославиться внезапно") означает "резкий успех", но когда символы перемешаны как "鸣人一惊", модель не может применить правило "сначала действие, потом объект, потом эффект". Вместо этого она выдаёт семантически близкий вариант типа "人一惊鸣" (смысл похож, порядок неправильный).

Chain-of-Thought помогает, потому что заставляет модель явно проговорить шаги: "анализирую символы → ищу грамматические связи → проверяю устойчивое выражение → собираю в порядке". Это добавляет структурную проверку перед выводом финального ответа.

Few-shot примеры работают ещё лучше, потому что модель видит конкретный паттерн восстановления: "было 'D-C-B-A' → стало 'A-B-C-D' + объяснение почему". Это даёт модели схему действий, а не абстрактное указание "подумай поэтапно".

📌

Применимые принципы

Это исследование не даёт готовую технику, но показывает ограничения LLM в задачах на упорядочивание. Вот что можно применить:

📌

1. Explicit Structure Anchoring (Явные структурные якоря)

Когда задача требует точного порядка элементов, давай модели явные подсказки о структуре:

  • Указывай какой элемент должен быть первым / последним
  • Давай правила порядка ("сначала причина, потом следствие")
  • Выделяй ключевые элементы как "якоря" для ориентации
📌

2. Few-shot для структурных задач

Для задач где важен порядок (списки шагов, последовательности, инструкции), не полагайся на zero-shot — давай 2-3 примера правильного упорядочивания.

📌

3. Разделяй семантику и структуру

Семантическое понимание ≠ структурное планирование. Разбивай задачу на два шага:

  1. Убедись что модель поняла смысл элементов
  2. Попроси расположить их в правильном порядке с явными правилами
📌

4. Сохраняй локальные подсказки

Если даёшь модели разрозненные элементы для упорядочивания, сохрани хотя бы несколько "якорей" на своих местах — это даст модели опорные точки для восстановления остальной структуры.

🚀

Примеры применения

📌

Задача 1: Упорядочить шаги запуска продукта

Плохо (zero-shot, модель может перепутать):

Вот шаги запуска продукта вразброс:
- Набрать команду
- Запустить рекламу
- Сделать MVP
- Провести тесты
- Собрать обратную связь

Расположи в правильном порядке.

Хорошо (с якорями и few-shot):

Задача: упорядочить шаги запуска продукта.

Пример 1:
Дано: [Запуск, Прототип, Идея, Тесты]
Правило: сначала идея → прототип → тесты → запуск
Результат: Идея → Прототип → Тесты → Запуск

Пример 2:
Дано: [Реклама, Сборка команды, Разработка, Первые клиенты]
Правило: команда → разработка → клиенты → реклама
Результат: Сборка команды → Разработка → Первые клиенты → Реклама

Теперь твоя задача:
Дано: [Набрать команду, Запустить рекламу, Сделать MVP, Провести тесты, Собрать обратную связь]

Якорь: первый шаг — "Набрать команду"

Расположи остальное в правильном порядке по логике "подготовка → создание → проверка → публикация → итерация".

Результат: Модель увидит паттерн, использует якорь и правило порядка — вероятность правильного восстановления выше.


📌

Задача 2: Восстановить структуру аргумента

Ситуация: У тебя есть тезисы для презентации инвестору, но они перемешаны в заметках. Нужно собрать их в убедительную последовательность.

Промпт:

Задача: восстановить убедительную структуру питча для инвестора.

Дано (вразброс):
- Мы уже заработали первые 500 тыс. рублей
- Рынок онлайн-образования для специалистов растёт на 30% в год
- Наш продукт — платформа для корпоративного обучения с ИИ-ассистентом
- Нам нужно 10 млн рублей на масштабирование
- У нас есть 3 крупных клиента (Сбер, Яндекс, ВТБ)

Правило классического питча:
1. Проблема / возможность (рынок)
2. Решение (продукт)
3. Тяга (текущие результаты)
4. Запрос (сколько нужно денег)

Восстанови последовательность по этому правилу. Для каждого тезиса укажи к какому пункту он относится.

Результат: Модель явно разложит тезисы по структуре классического питча. Без правила она могла бы начать с запроса денег (неэффективно) или перепутать "тягу" с "решением".


📌

Задача 3: Упорядочить причины и следствия

Ситуация: Анализируешь проблему в бизнесе, нужно выстроить цепочку причин и следствий.

Промпт:

Вот факты о падении продаж в интернет-магазине:
- Конверсия с корзины в покупку упала на 40%
- Доставка стала работать медленнее (5-7 дней вместо 2-3)
- Отзывы стали хуже (4.2 → 3.8 звёзд)
- Трафик остался на том же уровне
- Средний чек вырос на 15%

Задача: построить причинно-следственную цепочку от первопричины к итоговому эффекту.

Правило: сначала изменения в процессах → потом реакция клиентов → потом финансовые последствия.

Якорь: первопричина — "Доставка стала работать медленнее"

Выстрой остальное в логической последовательности.

Результат: Модель построит цепочку: медленная доставка → плохие отзывы → падение конверсии. Без якоря и правила могла бы начать с финансов ("средний чек вырос") и запутаться.

⚠️

Ограничения принципов

⚠️ Не универсальное решение: Даже с якорями и few-shot, сложные задачи восстановления порядка остаются трудными для LLM. Если элементов много (больше 7-10) или связи между ними неочевидны — модель будет ошибаться.

⚠️ Субъективный порядок: Если "правильный порядок" зависит от контекста или предпочтений (например, "какие аргументы важнее"), модель может дать семантически верный, но не тот порядок который ты ожидал. Принципы работают для задач с объективным правильным ответом (инструкции, формальные последовательности), хуже — для субъективных.

⚠️ Барьер входа для few-shot: Если у тебя нет готовых примеров правильного упорядочивания, придётся создавать их вручную. Это требует времени и понимания задачи.

⚠️ Не для русских идиом: Само исследование про китайские/японские/корейские идиомы — структура CJK-языков отличается от русского. Прямой перенос невозможен, можно только экстраполировать принципы на задачи с упорядочиванием в русском языке.

🔍

Как исследовали

Команда из Пекинского университета собрала 3,543 четырёхсимвольных идиомы на китайском (упрощённый и традиционный), японском и корейском из словарей и лингвистических баз. Лингвисты-эксперты отфильтровали только идиомы с единственным правильным порядком символов (чтобы была однозначная ground truth) и составили для каждой семантическую справку — определение значения из словарей плюс перефразировки, проверенные аннотаторами.

Потом каждую идиому перемешали всеми возможными способами: для 4 символов это 24 варианта (4 факториал), минус исходный = 23 перестановки на каждую идиому. Итого 81,489 тестовых примеров (3,543 × 23). Каждую перестановку скармливали 12 LLM в трёх режимах: zero-shot, Chain-of-Thought и few-shot (3 примера). Модели должны были выдать: (1) восстановленную идиому — ровно 4 символа в правильном порядке, (2) объяснение значения на том же языке.

Оценивали шестью метриками: (1) Recovery Rate — процент точных восстановлений (главная метрика), (2) Semantic Fidelity — насколько объяснение модели совпадает с эталонным значением (через cross-encoder и multilingual embeddings), (3) Logical Validity — нет ли противоречий между объяснением модели и эталоном (через NLI-модель), (4) Structural Consistency — стабильна ли модель при разных перестановках одной и той же идиомы (низкая вариация = высокая консистентность), (5) Robustness — как сильно падает качество при изменении перестановок, (6) Information Density — не "льёт ли воду" модель (штраф за многословные объяснения с низкой информативностью).

Результаты удивили: даже топовые модели в zero-shot восстанавливали порядок меньше чем в 35% случаев. При этом семантическая точность была намного выше — модели давали правильные объяснения значения в 45-52% случаев, но не могли собрать символы в правильной последовательности. Это прямое доказательство semantic-structure dissociation: понимание смысла не гарантирует структурного планирования.

CoT улучшал результаты, но не радикально: лучшая модель (Qwen-3-VLThink) с CoT поднялась до 48.4% recovery. Few-shot давал более стабильные улучшения, но всё равно далеко от человеческого уровня.

Ещё один неожиданный вывод: корейский хангыль (фонетическое письмо) провалился катастрофически — восстановление упало до 12-18%, в то время как для китайских/японских иероглифов было 30-48%. Почему? Иероглифы сохраняют смысл даже по отдельности (каждый знак = морфема), а корейские символы при перемешивании теряют слоговую структуру и превращаются в бессмысленный набор букв. Это показало что модели опираются на локальные семантические "якоря" — если их нет, восстановление рушится.

Последний инсайт: исследователи проверили что происходит если перемешать примеры в few-shot промпте (дать правильные пары "перемешанное → оригинал", но сами примеры расположить в случайном порядке). Результаты упали у всех моделей, но некоторые модели деградировали сильнее других — это показало что разные архитектуры по-разному чувствительны к позиционным подсказкам в контексте. Llama-3 и DeepSeek-R1 с CoT показали наименьшую деградацию, что говорит о более робастном структурном планировании в этих моделях.

💡

Адаптации и экстраполяции

📌

🔧 Техника: Якорь + Правило → Снижение когнитивной нагрузки

Вместо того чтобы просить модель "упорядочить элементы" без подсказок, дай ей фиксированную точку (якорь) и явное правило:

Дано: [E, B, D, A, C]

Якорь: элемент A должен быть первым.

Правило: порядок по хронологии событий.

Восстанови последовательность.

Это снижает пространство поиска: модель не перебирает все 120 вариантов (5 факториал), а фиксирует A в начале и упорядочивает оставшиеся 4 элемента по правилу.


🏗️

🔧 Техника: Двухэтапная проверка (семантика → структура)

Если боишься что модель "поймёт смысл, но напутает порядок", разбей задачу на два запроса:

Запрос 1:

Вот список элементов: [X, Y, Z, ...]

Объясни смысл каждого элемента и как они связаны между собой.

Запрос 2:

Теперь расположи эти элементы в правильном порядке на основе связей, которые ты описал. Используй правило: [твоё правило].

Это заставляет модель сначала построить семантическую карту, потом применить структурное планирование — снижает риск "семантически верный, структурно неправильный" ответ.


📋

🔧 Экстраполяция: Промпт для восстановления логики из хаоса

Адаптация принципов OrderProbe для работы с неструктурированными данными (например, заметки после мозгового штурма).

Промпт:

У меня есть набор разрозненных мыслей после встречи. Нужно восстановить логическую структуру.

Мысли:
{вставить список мыслей}

Шаг 1: Определи какие мысли связаны между собой (причина-следствие, часть-целое, последовательность во времени).

Шаг 2: Найди "якорь" — центральную идею, от которой отталкиваются остальные.

Шаг 3: Построй структуру от якоря к периферии по типу связей.

Шаг 4: Выведи финальную структуру в виде списка или дерева.

Это комбинирует принцип "якорей" из OrderProbe с явным структурным планированием через Chain-of-Thought.

🔗

Ресурсы

OrderProbe: How Order-Sensitive Are LLMs? Deterministic Structural Reconstruction

Yingjie He, Zhaolu Kang, Kehan Jiang, Qianyuan Zhang, Jiachen Qian и др.

Peking University, The Chinese University of Hong Kong, City University of Hong Kong, и др.

2025

Датасет: 3,543 четырёхсимвольных идиомы на китайском (упрощённый и традиционный), японском и корейском, 81,489 перестановок для тестирования.


📋 Дайджест исследования

Ключевая суть

Парадокс: LLM правильно объясняет значение перемешанной идиомы, но не может собрать символы в правильном порядке. Точность восстановления меньше 35% даже у топовых моделей. Метод OrderProbe обнаруживает разрыв между пониманием смысла и планированием структуры – модель ведёт себя так, будто перемешанные элементы независимы, и выдаёт семантически близкий, но структурно неправильный ответ. Ключ: LLM запоминают смысловые паттерны, но не обучены явному структурному планированию. Даже если модель знает что идиома означает, она не может применить правило "сначала действие, потом объект, потом эффект".

Принцип работы

Модель обучена на связанных последовательностях – предложениях, абзацах, где порядок слов естественен. Когда ты разрушаешь локальную структуру, модель теряет контекст и начинает угадывать по семантическим ассоциациям, а не восстанавливать точную последовательность. Она выдаёт "похожий по смыслу" вариант, но символы стоят не на тех местах. Пошаговые рассуждения (CoT) помогают – модель явно проговаривает шаги: "анализирую символы → ищу грамматические связи → проверяю устойчивое выражение → собираю в порядке". Few-shot примеры работают ещё лучше – модель видит конкретный паттерн восстановления: "было D-C-B-A → стало A-B-C-D + объяснение почему".

Почему работает

LLM видели миллиарды примеров текста где порядок слов уже правильный. Когда элементы разбросаны, модель не может опереться на заученные синтаксические паттерны – она пытается собрать по смыслу, но это не гарантирует точную последовательность. Few-shot даёт схему действий: модель видит "вот так надо восстанавливать" и копирует алгоритм. Якоря критически важны – если ключевые элементы остаются близко к исходным позициям, модель справляется лучше. Цифры: меньше 35% точности в zero-shot, до 48% с CoT, стабильнее с few-shot. Разница в том что few-shot показывает конкретный пример правильного восстановления, а CoT просто просит "подумай поэтапно" без образца.

Когда применять

Задачи где важен точный порядок элементов → упорядочивание шагов процесса, восстановление структуры аргументов, построение причинно-следственных цепочек, особенно когда элементы разрознены или связи неочевидны. НЕ подходит для субъективного порядка ("какие аргументы важнее") – там нет единственно правильного ответа, модель даст семантически верный, но не тот что ты ожидал.

Мини-рецепт

1. Дай явное правило порядка: "сначала причина, потом следствие" или "подготовка → создание → проверка → публикация".
2. Покажи 2-3 примера восстановления (few-shot): Дано: [D, C, B, A] → Правило: хронология → Результат: [A, B, C, D]. Модель увидит паттерн и скопирует алгоритм.
3. Постав якорь: укажи какой элемент точно первый или последний – это опорная точка для восстановления остального.
4. Разбей на два шага: сначала убедись что модель поняла смысл элементов, потом попроси расположить их в правильном порядке с явными правилами.

Примеры

[ПЛОХО] : Вот шаги вразброс: Набрать команду, Запустить рекламу, Сделать MVP, Провести тесты. Расположи в правильном порядке – модель может перепутать, потому что нет правила и примеров.
[ХОРОШО] : Задача: упорядочить шаги запуска продукта. Пример: Дано [Запуск, Прототип, Идея, Тесты] → Правило: идея → прототип → тесты → запуск → Результат: Идея → Прототип → Тесты → Запуск. Теперь твоя задача: Дано [Набрать команду, Запустить рекламу, Сделать MVP, Провести тесты, Собрать обратную связь]. Якорь: первый шаг — "Набрать команду". Расположи остальное по логике "подготовка → создание → проверка → публикация → итерация" – модель видит паттерн, использует якорь и правило, вероятность правильного восстановления выше.
Источник: How Order-Sensitive Are LLMs? OrderProbe for Deterministic Structural Reconstruction
ArXiv ID: 2601.08626 | Сгенерировано: 2026-01-14 05:32

Проблемы LLM

ПроблемаСутьКак обойти
Модель понимает смысл, но не может восстановить порядокДаёшь перемешанные элементы: "Тесты Запуск Идея Прототип". Просишь расположить правильно. Модель понимает ЧТО это (этапы разработки), но выдаёт неправильный порядок: "Идея Запуск Прототип Тесты". Семантика верна, структура сломана. Причина: модель обучена на связных текстах где порядок естественен. Когда локальная структура разрушена, она угадывает по ассоциациям, а не восстанавливает точную последовательностьТри способа вместе: 1) Дай явное правило порядка ("сначала причина, потом следствие"). 2) Укажи якорь — один элемент на правильном месте ("первый шаг — сборка команды"). 3) Покажи 2-3 примера правильного восстановления (few-shot). Без этого даже топовые модели восстанавливают порядок меньше чем в 35% случаев

Тезисы

ТезисКомментарий
Семантическое понимание не гарантирует структурное планированиеМодель знает значение элементов, но не умеет явно планировать их порядок. Причина: обучение на связных текстах (предложения, абзацы) где порядок задан. Когда структура разрушена, модель опирается на смысловые ассоциации, а не на грамматические или логические правила последовательности. Применяй: Разбивай задачу упорядочивания на два шага: сначала проверь что модель поняла смысл каждого элемента, потом попроси расположить их с явными правилами порядка
Локальные якоря удерживают структуруКогда ключевые элементы остаются близко к исходным позициям, модель восстанавливает порядок лучше. Если все элементы разбросаны хаотично — точность падает резко. Механика: якоря дают опорные точки, от которых модель выстраивает остальную последовательность. Применяй: Если даёшь модели разрозненные элементы, сохрани хотя бы один-два на правильных местах. Например: "Первый шаг точно — планирование. Расположи остальное"
Few-shot эффективнее цепочки рассуждений для задач упорядочиванияЦепочка рассуждений даёт абстрактное указание ("подумай поэтапно"). Few-shot показывает конкретный паттерн восстановления: "было A-D-C-B стало A-B-C-D + объяснение почему". Модель видит схему действий и повторяет её. Для структурных задач это стабильнее. Применяй: Для упорядочивания элементов (шаги инструкции, причинно-следственные цепочки, аргументы) давай 2-3 примера правильного восстановления вместо "рассуждай пошагово"
📖 Простыми словами

How Order-Sensitive AreLLMs? OrderProbe for Deterministic Structural Reconstruction

arXiv: 2601.08626

Нейросети не понимают структуру текста так, как мы — для них это не логическая цепочка, а статистическое облако. Исследование OrderProbe вскрыло фундаментальный баг: модели отлично знают значения слов, но катастрофически лажают, когда нужно расставить их в правильном порядке. Ученые взяли идиомы из китайского, японского и корейского языков, где порядок символов жестко зафиксирован веками, перемешали их всеми 23 способами и попросили модели собрать оригинал. Оказалось, что даже топовые LLM ведут себя как гениальные склеротики: они понимают смысл фразы, но не могут восстановить её «скелет».

Это как если бы ты рассыпал детали от конструктора Lego перед мастером, а он, глядя на них, в деталях описал бы тебе готовую модель замка, но при попытке сборки воткнул бы крышу вместо фундамента. Формально знания есть, но структурная логика сломана. Модель видит набор символов, узнает в них знакомую идиому, но когда дело доходит до детерминированной реконструкции, она начинает гадать. Это не просто ошибка, это системный провал в понимании того, как части целого соединяются друг с другом.

В ходе тестов выяснилось, что позиционное кодирование — то, как нейронка нумерует слова в своей голове — работает из рук вон плохо. Исследователи использовали метод перестановок всех вариантов, чтобы исключить случайное угадывание. Результаты удручают: модели часто выдают галлюцинации или просто копируют входной перемешанный порядок, даже если он не имеет смысла. Это доказывает, что LLM чувствительны к порядку на уровне «увидел — запомнил», но абсолютно беспомощны, когда нужно применить логику сборки к незнакомой комбинации.

Хотя эксперимент ставили на восточных идиомах, этот принцип — структурная слепота — касается любого контента. Это напрямую влияет на то, как нейронки пишут код, составляют юридические договоры или планируют задачи. Если модель не может собрать четыре символа в идиому, которую она «видела» в обучении миллион раз, то доверять ей сложную структуру проекта — это игра в рулетку. Любая задача, где важна строгая последовательность, а не просто «общий смысл», становится для AI зоной риска.

Короче: мы слишком долго верили, что нейросети «понимают» текст. На деле они просто очень круто предсказывают следующее слово, но стоит выбить у них из-под ног привычный порядок, как вся магия рассыпается. OrderProbe — это холодный душ для тех, кто считает LLM разумными. Если хочешь, чтобы AI выдал качественный результат, не заставляй его собирать пазлы с нуля — давай ему четкую структуру и проверяй каждый стык, иначе получишь бессмысленный набор символов вместо работающего решения.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с