TL;DR
LLM могут восстанавливать смысл текста, где почти все слова заменены бессмысленными строками. Например, "He dwushed a ghanc zawk" модель переводит как "He dragged a spare chair", а текст про юридическую преэмпцию ("sprarb phlaint has phlol over any bredge strith's phlaint") — в связный текст про федеральное и местное право. Модель делает это используя только структурные паттерны: порядок слов, грамматические суффиксы (-ing, -ed, множественное число), служебные слова (the, and, in) и числа.
Исследование отвечает на вопрос "что такое LLM": не база данных, не размытая копия интернета, не просто имитатор. LLM — это система распознавания паттернов. Модель "видит" глубокие структурные связи в языке и восстанавливает смысл даже когда конкретные слова отсутствуют. В одном эксперименте замена "in the Splud" на "in the Netherlands" в тексте-абракадабре мгновенно улучшила перевод — модель связала структуру с контекстом голландской еды и выдала почти точный оригинал.
Pattern matching — не альтернатива "настоящему" интеллекту, а его ключевой компонент. То же самое делает человек, читая "The gostak distims the doshes" — мы понимаем, что gostak способен что-то делать с doshes, основываясь только на структуре. LLM делает это на порядки мощнее: восстанавливает полный смысл по минимальным структурным зацепкам плюс знания о мире.
Ключевые находки
1. Структура важнее слов
Исследователи взяли тексты и заменили почти все существительные и глаголы случайными строками типа "phlaint", "dwushed", "ghanc". Сохранили только: - Порядок слов - Грамматические суффиксы (the, -ing, -ed, множественное -s) - Служебные слова (and, in, the, with) - Числа
Результат: LLM восстанавливают смысл с высокой точностью. Даже Reddit-пост, написанный за день до теста (гарантированно не в обучающих данных), модель перевела правильно: кто-то купил продукт в магазине, сомневается безопасен ли он, гуглил на двух языках, нашёл противоречивые ответы.
2. Якорь в контексте резко усиливает точность
Когда исследователи заменили "in the Splud" на "in the Netherlands" в абракадабре про еду, качество перевода скачком улучшилось. Один конкретный якорь позволил модели связать структуру с контекстом голландской кухни — и восстановить почти точный оригинал (единственная ошибка: говядина вместо свинины).
Это показывает интеграцию синтаксиса и семантики: модель не просто узнаёт паттерн, а связывает его с релевантными знаниями о мире.
3. Даже BLANK-заглушки работают
Исследователи заменили все слова в Jabberwocky на слово BLANK, оставив только структуру:
BLANK BLANK, and the BLANK BLANK
Did BLANK and BLANK in the BLANK:
All BLANK were the BLANK,
And the BLANK BLANK BLANK.
LLM опознала оригинал по чистой структуре. Это уникальный отпечаток текста — как распознать мелодию только по ритму.
Что это значит для работы с LLM
Принцип 1: Структура — это подсказка
Когда даёшь LLM пример или шаблон, структура работает как направляющая. Модель улавливает паттерн и применяет к новым данным.
Практическое применение: - Показываешь формат ответа — LLM повторяет структуру - Даёшь пример рассуждения — модель следует логике - Структурируешь промпт (нумерация, разделители) — модель лучше понимает части
Принцип 2: Минимальные якоря имеют большой эффект
Небольшая конкретная деталь в контексте (название места, имя, число) помогает модели активировать релевантные знания и резко улучшает результат.
Практическое применение: - Вместо "напиши текст о компании" → "напиши текст о SaaS-стартапе для b2b, 20 сотрудников, Москва" - Вместо "проанализируй данные" → "проанализируй данные воронки продаж e-commerce, средний чек 3000₽"
Даже один точный якорь (SaaS, воронка продаж, 3000₽) активирует нужный контекст.
Принцип 3: LLM "видят" то, что мы не замечаем
Модель улавливает структурные связи, которые для нас невидимы. Мы пишем слова, модель видит паттерны.
Практическое применение: Когда LLM выдаёт странный результат — проверь структуру промпта. Возможно модель уловила паттерн, который ты не планировал: - Повторяющиеся фразы → модель думает это шаблон - Случайный формат списка → модель продолжает в том же формате - Двусмысленная структура → модель выбирает один паттерн из нескольких
Пример применения
Задача: Нужно заполнить таблицу товаров для маркетплейса, но часть данных неполная или на другом языке.
Промпт:
У меня таблица товаров. Некоторые поля пустые или содержат
описания на английском. Восстанови пропущенные данные,
опираясь на структуру и контекст других строк.
Категория | Название | Цена | Описание | Бренд
Электроника | Наушники TWS | 2990₽ | [ОТСУТСТВУЕТ] | QCY
Электроника | [ОТСУТСТВУЕТ] | 4500₽ | Wireless charger 15W fast charging | Baseus
Бытовая техника | Увлажнитель | 3200₽ | Ультразвуковой, 3L tank, auto shut-off | Xiaomi
Бытовая техника | [ОТСУТСТВУЕТ] | [ОТСУТСТВУЕТ] | Робот-пылесос с влажной уборкой | Roborock
Заполни пустые поля.
Результат: Модель восстановит пропущенные данные, опираясь на: - Структурные паттерны (в категории "Электроника" после наушников логично зарядка, в "Бытовой технике" после увлажнителя — пылесос) - Ценовые паттерны (гаджеты Xiaomi/Roborock в диапазоне 3000-8000₽) - Языковые паттерны (переведёт английские описания, сохранив структуру) - Контекстные якоря (бренды Baseus, Xiaomi, Roborock → китайские гаджеты, определённый ценовой сегмент)
Модель выдаст не просто "что-то подходящее", а структурно согласованный результат с остальной таблицей.
Почему это работает
LLM обучались предсказывать следующее слово на триллионах текстов. В процессе они извлекли структурные паттерны языка — не просто "какие слова после каких идут", а глубокие связи:
- Какие типы действий совершаются с какими объектами
- Как устроены тексты про спорт / право / еду / технику
- Какие числа типичны для разных контекстов (88 receptions for 884 yards → это футбол)
- Как грамматические конструкции связаны со смыслом
Когда видят абракадабру с сохранённой структурой, активируются те же паттерны, что при обработке нормального текста. Модель "узнаёт" конструкцию и подставляет наиболее вероятное содержимое.
Рычаги: - Количество якорей — больше конкретных деталей = точнее результат - Сохранение структуры — числа, форматирование, грамматика направляют модель - Контекстная специфика — точный термин (Netherlands, NFL, Reddit) активирует нужную область знаний
Ограничения
⚠️ Это не техника, а объяснение механики: Исследование показывает КАК работают LLM, но не даёт готовой техники "делай так". Применять нужно через понимание принципов.
⚠️ Случайные совпадения: Иногда модель может "увидеть" паттерн там, где его нет, и выдать уверенный, но неправильный ответ.
⚠️ Зависимость от обучающих данных: Модель хорошо восстанавливает паттерны из областей, хорошо представленных в обучении (новости, спорт, право). В узкоспециальных областях может ошибаться.
Как исследовали
Исследователи из Университета Висконсина и Google создали Jabberwockified тексты — заменили почти все существительные и глаголы на случайные строки (phlaint, dwushed, ghanc), сохранив грамматику и структуру. Взяли тексты разных типов: - Известные (стихотворение Jabberwocky Льюиса Кэрролла) - Опубликованные научные материалы (текст про юридическую преэмпцию) - Гарантированно новые (Reddit-посты и новости ESPN, написанные за день до теста)
Тестировали несколько LLM (GPT-4, Gemini, o3), просили перевести абракадабру в нормальный текст. Измеряли качество через similarity score между оригиналом и переводом (векторные embeddings).
Результаты удивили: Даже тексты из обучающих данных модель не просто доставала из памяти, а реконструировала. Это видно по деталям: в научном тексте про hearing aid labels модель восстанавливала смысл (федеральный закон vs. закон штата, медицинские устройства), но никогда не выдавала точный пример про hearing aids — значит не retrieval, а reconstruction.
Самое интересное: Эффект якоря. Когда в Reddit-пост про голландскую еду добавили "in the Netherlands" (вместо "in the Splud"), перевод стал почти идеальным. Модель связала структуру с контекстом голландской кухни и восстановила даже специфичные термины типа "rookvlees" (копчёная говядина).
Вывод исследователей: LLM — не база данных и не размытая копия интернета. Это системы распознавания паттернов, которые видят структурные отношения в языке и используют их для восстановления смысла. Pattern matching — не "дешёвая имитация интеллекта", а фундаментальный механизм мышления.
Адаптации и экстраполяции
🔧 Техника: Структурные примеры вместо словесных инструкций
Вместо объяснения словами "как должен выглядеть результат" — покажи структуру на примере.
До:
Напиши описания товаров. Каждое описание должно содержать
характеристику, пользу для клиента и призыв к действию.
После:
Напиши описания товаров по структуре:
[Характеристика] → [Польза] → [Призыв]
Пример структуры:
"Батарея 5000 мАч → Работает 2 дня без подзарядки → Забудьте про PowerBank"
Товары:
1. Беспроводные наушники TWS, активное шумоподавление
2. Умная лампа с регулировкой цвета и яркости
Модель распознаёт паттерн из примера и применяет к новым товарам точнее, чем по словесной инструкции.
🔧 Техника: Якорь + минимальный контекст для восстановления
Если нужно, чтобы LLM что-то восстановила или додумала — дай минимальный якорь в контекст.
Пример:
Вот отрывок письма клиента с пропусками. Восстанови пропущенное.
"Заказал [ТОВАР] две недели назад, до сих пор не пришло.
Трек-номер [НОМЕР]. Поддержка не отвечает уже [ВРЕМЯ].
Очень разочарован, это был подарок на [СОБЫТИЕ]."
Контекст: Интернет-магазин электроники, средний срок доставки 5-7 дней, Москва.
Якоря (электроника, 5-7 дней, Москва) + структура (срок, поддержка, подарок) дадут модели достаточно контекста для правдоподобного восстановления.
🔧 Техника: Проверка понимания через структурный тест
Используй абракадабру для проверки, понимает ли LLM структуру твоей задачи.
Пример: Ты настроил сложный промпт для анализа продуктовых метрик. Проверь, правильно ли LLM понимает структуру:
Проанализируй эти данные по структуре, которую я дал раньше:
Продукт: АБВГД
Метрика А: 12345 (+15% к ЖЗИЙ)
Метрика Б: 67890 (-8% к КЛМН)
Вывод: [твой вывод]
Если модель выдаст структурно правильный анализ (рост одной метрики, падение другой, связь между ними) — значит паттерн усвоен. Если нет — промпт нужно дорабатывать.
Ресурсы
The unreasonable effectiveness of pattern matching (2026) Gary Lupyan (University of Wisconsin–Madison), Blaise Agüera y Arcas (Google)
Связанные работы: - Goldberg, A. (1995). _Constructions: A construction grammar approach to argument structure_ - Carroll, L. (1871). _Through the Looking Glass_ (оригинал Jabberwocky) - Ingraham, A. (1903). _Nine Uses of Language_ ("The gostak distims the doshes") - The Gostak — интерактивная игра на "Gostakian" языке
