TL;DR
OrderProbe — исследование о том, как LLM восстанавливают правильный порядок элементов из перемешанных данных. Учёные взяли четырёхсимвольные идиомы на китайском, японском и корейском (они имеют единственный правильный порядок символов), перемешали их всеми возможными способами (23 варианта для каждой идиомы) и проверили, сколько раз модели смогут восстановить оригинал. Это как дать модели буквы "Т-К-О-Н" и попросить собрать слово "КНОТ" — если ты знаешь морской термин, порядок очевиден. Но LLM часто выдают "ТКОН" или "НОКТ", хотя понимают что речь о верёвке.
Главная находка: модели отлично понимают значение, но плохо восстанавливают структуру. Даже топовые LLM (GPT-4o, Claude, DeepSeek-R1) в zero-shot восстанавливают правильный порядок меньше чем в 35% случаев. При этом они дают правильные объяснения значения идиомы — просто не могут собрать символы в точной последовательности. Это называют semantic-structure dissociation (разрыв между пониманием смысла и планированием структуры). Модель ведёт себя так, будто перемешанные символы — независимые токены без связи, и выдаёт семантически близкий, но структурно неправильный ответ.
Суть находки: Chain-of-Thought улучшает результаты (лучшие модели поднимаются до ~48%), но проблема остаётся. Few-shot примеры дают более стабильный эффект — когда модель видит 2-3 примера правильного восстановления, она лучше понимает задачу. Также обнаружили, что "якоря" критически важны — если ключевые элементы остаются близко к своим исходным позициям, модель справляется лучше. Если разбросаны — точность падает резко.
Почему это важно
LLM обучены на связанных последовательностях текста — предложениях, абзацах, документах, где порядок слов естественен. Когда мы разрушаем локальную структуру, модель теряет контекст и начинает угадывать по семантическим ассоциациям, а не восстанавливать точную последовательность.
Проблема в том, что модель запоминает смысловые паттерны, но не обучена явному структурному планированию. Она знает что идиома "一鸣惊人" (Yi-Ming-Jing-Ren — "прославиться внезапно") означает "резкий успех", но когда символы перемешаны как "鸣人一惊", модель не может применить правило "сначала действие, потом объект, потом эффект". Вместо этого она выдаёт семантически близкий вариант типа "人一惊鸣" (смысл похож, порядок неправильный).
Chain-of-Thought помогает, потому что заставляет модель явно проговорить шаги: "анализирую символы → ищу грамматические связи → проверяю устойчивое выражение → собираю в порядке". Это добавляет структурную проверку перед выводом финального ответа.
Few-shot примеры работают ещё лучше, потому что модель видит конкретный паттерн восстановления: "было 'D-C-B-A' → стало 'A-B-C-D' + объяснение почему". Это даёт модели схему действий, а не абстрактное указание "подумай поэтапно".
Применимые принципы
Это исследование не даёт готовую технику, но показывает ограничения LLM в задачах на упорядочивание. Вот что можно применить:
1. Explicit Structure Anchoring (Явные структурные якоря)
Когда задача требует точного порядка элементов, давай модели явные подсказки о структуре:
- Указывай какой элемент должен быть первым / последним
- Давай правила порядка ("сначала причина, потом следствие")
- Выделяй ключевые элементы как "якоря" для ориентации
2. Few-shot для структурных задач
Для задач где важен порядок (списки шагов, последовательности, инструкции), не полагайся на zero-shot — давай 2-3 примера правильного упорядочивания.
3. Разделяй семантику и структуру
Семантическое понимание ≠ структурное планирование. Разбивай задачу на два шага:
- Убедись что модель поняла смысл элементов
- Попроси расположить их в правильном порядке с явными правилами
4. Сохраняй локальные подсказки
Если даёшь модели разрозненные элементы для упорядочивания, сохрани хотя бы несколько "якорей" на своих местах — это даст модели опорные точки для восстановления остальной структуры.
Примеры применения
Задача 1: Упорядочить шаги запуска продукта
Плохо (zero-shot, модель может перепутать):
Вот шаги запуска продукта вразброс:
- Набрать команду
- Запустить рекламу
- Сделать MVP
- Провести тесты
- Собрать обратную связь
Расположи в правильном порядке.
Хорошо (с якорями и few-shot):
Задача: упорядочить шаги запуска продукта.
Пример 1:
Дано: [Запуск, Прототип, Идея, Тесты]
Правило: сначала идея → прототип → тесты → запуск
Результат: Идея → Прототип → Тесты → Запуск
Пример 2:
Дано: [Реклама, Сборка команды, Разработка, Первые клиенты]
Правило: команда → разработка → клиенты → реклама
Результат: Сборка команды → Разработка → Первые клиенты → Реклама
Теперь твоя задача:
Дано: [Набрать команду, Запустить рекламу, Сделать MVP, Провести тесты, Собрать обратную связь]
Якорь: первый шаг — "Набрать команду"
Расположи остальное в правильном порядке по логике "подготовка → создание → проверка → публикация → итерация".
Результат: Модель увидит паттерн, использует якорь и правило порядка — вероятность правильного восстановления выше.
Задача 2: Восстановить структуру аргумента
Ситуация: У тебя есть тезисы для презентации инвестору, но они перемешаны в заметках. Нужно собрать их в убедительную последовательность.
Промпт:
Задача: восстановить убедительную структуру питча для инвестора.
Дано (вразброс):
- Мы уже заработали первые 500 тыс. рублей
- Рынок онлайн-образования для специалистов растёт на 30% в год
- Наш продукт — платформа для корпоративного обучения с ИИ-ассистентом
- Нам нужно 10 млн рублей на масштабирование
- У нас есть 3 крупных клиента (Сбер, Яндекс, ВТБ)
Правило классического питча:
1. Проблема / возможность (рынок)
2. Решение (продукт)
3. Тяга (текущие результаты)
4. Запрос (сколько нужно денег)
Восстанови последовательность по этому правилу. Для каждого тезиса укажи к какому пункту он относится.
Результат: Модель явно разложит тезисы по структуре классического питча. Без правила она могла бы начать с запроса денег (неэффективно) или перепутать "тягу" с "решением".
Задача 3: Упорядочить причины и следствия
Ситуация: Анализируешь проблему в бизнесе, нужно выстроить цепочку причин и следствий.
Промпт:
Вот факты о падении продаж в интернет-магазине:
- Конверсия с корзины в покупку упала на 40%
- Доставка стала работать медленнее (5-7 дней вместо 2-3)
- Отзывы стали хуже (4.2 → 3.8 звёзд)
- Трафик остался на том же уровне
- Средний чек вырос на 15%
Задача: построить причинно-следственную цепочку от первопричины к итоговому эффекту.
Правило: сначала изменения в процессах → потом реакция клиентов → потом финансовые последствия.
Якорь: первопричина — "Доставка стала работать медленнее"
Выстрой остальное в логической последовательности.
Результат: Модель построит цепочку: медленная доставка → плохие отзывы → падение конверсии. Без якоря и правила могла бы начать с финансов ("средний чек вырос") и запутаться.
Ограничения принципов
⚠️ Не универсальное решение: Даже с якорями и few-shot, сложные задачи восстановления порядка остаются трудными для LLM. Если элементов много (больше 7-10) или связи между ними неочевидны — модель будет ошибаться.
⚠️ Субъективный порядок: Если "правильный порядок" зависит от контекста или предпочтений (например, "какие аргументы важнее"), модель может дать семантически верный, но не тот порядок который ты ожидал. Принципы работают для задач с объективным правильным ответом (инструкции, формальные последовательности), хуже — для субъективных.
⚠️ Барьер входа для few-shot: Если у тебя нет готовых примеров правильного упорядочивания, придётся создавать их вручную. Это требует времени и понимания задачи.
⚠️ Не для русских идиом: Само исследование про китайские/японские/корейские идиомы — структура CJK-языков отличается от русского. Прямой перенос невозможен, можно только экстраполировать принципы на задачи с упорядочиванием в русском языке.
Как исследовали
Команда из Пекинского университета собрала 3,543 четырёхсимвольных идиомы на китайском (упрощённый и традиционный), японском и корейском из словарей и лингвистических баз. Лингвисты-эксперты отфильтровали только идиомы с единственным правильным порядком символов (чтобы была однозначная ground truth) и составили для каждой семантическую справку — определение значения из словарей плюс перефразировки, проверенные аннотаторами.
Потом каждую идиому перемешали всеми возможными способами: для 4 символов это 24 варианта (4 факториал), минус исходный = 23 перестановки на каждую идиому. Итого 81,489 тестовых примеров (3,543 × 23). Каждую перестановку скармливали 12 LLM в трёх режимах: zero-shot, Chain-of-Thought и few-shot (3 примера). Модели должны были выдать: (1) восстановленную идиому — ровно 4 символа в правильном порядке, (2) объяснение значения на том же языке.
Оценивали шестью метриками: (1) Recovery Rate — процент точных восстановлений (главная метрика), (2) Semantic Fidelity — насколько объяснение модели совпадает с эталонным значением (через cross-encoder и multilingual embeddings), (3) Logical Validity — нет ли противоречий между объяснением модели и эталоном (через NLI-модель), (4) Structural Consistency — стабильна ли модель при разных перестановках одной и той же идиомы (низкая вариация = высокая консистентность), (5) Robustness — как сильно падает качество при изменении перестановок, (6) Information Density — не "льёт ли воду" модель (штраф за многословные объяснения с низкой информативностью).
Результаты удивили: даже топовые модели в zero-shot восстанавливали порядок меньше чем в 35% случаев. При этом семантическая точность была намного выше — модели давали правильные объяснения значения в 45-52% случаев, но не могли собрать символы в правильной последовательности. Это прямое доказательство semantic-structure dissociation: понимание смысла не гарантирует структурного планирования.
CoT улучшал результаты, но не радикально: лучшая модель (Qwen-3-VLThink) с CoT поднялась до 48.4% recovery. Few-shot давал более стабильные улучшения, но всё равно далеко от человеческого уровня.
Ещё один неожиданный вывод: корейский хангыль (фонетическое письмо) провалился катастрофически — восстановление упало до 12-18%, в то время как для китайских/японских иероглифов было 30-48%. Почему? Иероглифы сохраняют смысл даже по отдельности (каждый знак = морфема), а корейские символы при перемешивании теряют слоговую структуру и превращаются в бессмысленный набор букв. Это показало что модели опираются на локальные семантические "якоря" — если их нет, восстановление рушится.
Последний инсайт: исследователи проверили что происходит если перемешать примеры в few-shot промпте (дать правильные пары "перемешанное → оригинал", но сами примеры расположить в случайном порядке). Результаты упали у всех моделей, но некоторые модели деградировали сильнее других — это показало что разные архитектуры по-разному чувствительны к позиционным подсказкам в контексте. Llama-3 и DeepSeek-R1 с CoT показали наименьшую деградацию, что говорит о более робастном структурном планировании в этих моделях.
Адаптации и экстраполяции
🔧 Техника: Якорь + Правило → Снижение когнитивной нагрузки
Вместо того чтобы просить модель "упорядочить элементы" без подсказок, дай ей фиксированную точку (якорь) и явное правило:
Дано: [E, B, D, A, C]
Якорь: элемент A должен быть первым.
Правило: порядок по хронологии событий.
Восстанови последовательность.
Это снижает пространство поиска: модель не перебирает все 120 вариантов (5 факториал), а фиксирует A в начале и упорядочивает оставшиеся 4 элемента по правилу.
🔧 Техника: Двухэтапная проверка (семантика → структура)
Если боишься что модель "поймёт смысл, но напутает порядок", разбей задачу на два запроса:
Запрос 1:
Вот список элементов: [X, Y, Z, ...]
Объясни смысл каждого элемента и как они связаны между собой.
Запрос 2:
Теперь расположи эти элементы в правильном порядке на основе связей, которые ты описал. Используй правило: [твоё правило].
Это заставляет модель сначала построить семантическую карту, потом применить структурное планирование — снижает риск "семантически верный, структурно неправильный" ответ.
🔧 Экстраполяция: Промпт для восстановления логики из хаоса
Адаптация принципов OrderProbe для работы с неструктурированными данными (например, заметки после мозгового штурма).
Промпт:
У меня есть набор разрозненных мыслей после встречи. Нужно восстановить логическую структуру.
Мысли:
{вставить список мыслей}
Шаг 1: Определи какие мысли связаны между собой (причина-следствие, часть-целое, последовательность во времени).
Шаг 2: Найди "якорь" — центральную идею, от которой отталкиваются остальные.
Шаг 3: Построй структуру от якоря к периферии по типу связей.
Шаг 4: Выведи финальную структуру в виде списка или дерева.
Это комбинирует принцип "якорей" из OrderProbe с явным структурным планированием через Chain-of-Thought.
Ресурсы
OrderProbe: How Order-Sensitive Are LLMs? Deterministic Structural Reconstruction
Yingjie He, Zhaolu Kang, Kehan Jiang, Qianyuan Zhang, Jiachen Qian и др.
Peking University, The Chinese University of Hong Kong, City University of Hong Kong, и др.
2025
Датасет: 3,543 четырёхсимвольных идиомы на китайском (упрощённый и традиционный), японском и корейском, 81,489 перестановок для тестирования.
