3,583 papers
arXiv:2605.24541 73 23 мая 2026 г. FREE

SemanticZip: сжатие контекста в символьный код — LLM сама разворачивает смысл

КЛЮЧЕВАЯ СУТЬ
Каждый новый чат — снова объясняешь продукт, тон, ограничения. Три абзаца, 10 минут, один и тот же текст в пятый, пятидесятый раз. SemanticZip позволяет заменить эти абзацы структурным кодом из аббревиатур — вставляешь один блок, модель разворачивает всё сама. Фишка: модель уже знает что значит "MVP+6мес" или "tone.exec" — ей не нужен полный текст, если паттерн предсказуемый. Определяешь словарь один раз — используешь в пятидесяти чатах подряд. Итог: 40-46% меньше токенов, ноль повторных объяснений.
Адаптировать под запрос

TL;DR

SemanticZip — техника сжатия длинного контекста в компактный символьный код. Вместо "полного описания проекта на 3000 слов" — структурированный шифр из аббревиатур, который LLM расшифровывает самостоятельно. Главный принцип: модель уже знает, что значит "4d", "бюджет умеренный", "без аренды авто" — ей не нужен полный текст, если контекст предсказуемый.

Главная находка: у LLM есть встроенные знания о шаблонных ситуациях — путешествия, проекты, технические задачи. Это значит, что предсказуемую часть контекста можно сократить до аббревиатур без потери смысла. Но один и тот же подход не работает для всего: точные числа, медицинские факты, юридические ограничения — модель может "додумать" их неверно.

Суть метода: контекст разбивается на два канала — PROTECTED (точное, критичное, что нельзя потерять) и LOSSY (предсказуемое, низкорисковое, что можно сжать). Для PROTECTED пишешь точно. Для LOSSY — компактный символьный код с заранее определёнными аббревиатурами. LLM принимает оба канала и работает с ними правильно.


🔬

Схема метода

ШАГ 1: Определить что критично → попадает в @SAFE{}
        (точные числа, жёсткие ограничения, аллергии, бюджетный потолок)

ШАГ 2: Определить что предсказуемо → попадает в @SZIP{}
        (стиль работы, предпочтения, типовые форматы, контекст проекта)

ШАГ 3: Создать словарь аббревиатур @DICT/
        (один раз — используешь во всех чатах по этому проекту)

ШАГ 4: Собрать всё в один блок → вставить в начало нового чата

Все шаги — ручная подготовка. В чат вставляется готовый блок одним сообщением.
LLM разворачивает смысл автоматически при чтении.

🚀

Пример применения

Задача: Ты фаундер B2B SaaS для автоматизации отчётности. Каждый раз начинаешь новый чат с ChatGPT/Claude и тратишь 10 минут на объяснение продукта — кто ты, что за продукт, для кого, какой тон, какие ограничения. Решение: сжать контекст в блок на полшага задачи.

Промпт:

@DICT/PROJ: SMB=малый и средний бизнес; RS=российский сегмент; 
B2B=корпоративные продажи; MVP=минимальный жизнеспособный продукт; 
1C=1С:Бухгалтерия; tone.exec=деловой без пафоса; 
no-jargon=без технических терминов для клиента

@SAFE{
  product_name: "ОтчётМастер";
  price_range: 4900–19900 руб/мес;
  target: бухгалтер или финдир в SMB RS;
  hard_limit: не обещать интеграции которых нет (нет SAP, нет Битрикс24);
  legal: не говорить "гарантируем возврат налогов"
}

@SZIP{
  STAGE:MVP+6мес MARKET:RS/SMB COMP:таблицы Excel+1С
  USP:автоотчёт/30мин→3мин NO:enterprise,crm,startup
  TONE:tone.exec,no-jargon OUT:короткий текст, потом правки
}

Задача: напиши landing-заголовок и 3 буллета с выгодами для главной страницы. 
Аудитория — главбух в компании 20–100 человек.

Результат: Модель прочитает оба блока и сразу начнёт с задачи — без уточняющих вопросов про продукт. В @SAFE она найдёт точные данные: цену, имя продукта, жёсткие ограничения. В @SZIP — расшифрует аббревиатуры через словарь и поймёт контекст: стадия, рынок, тон, запреты. На выходе — заголовок и буллеты в нужном стиле, без фраз про SAP и без обещаний гарантий.


🧠

Почему это работает

LLM плохо держит длинный контекст. Когда ты вставляешь три абзаца про продукт — модель читает их, но детали размываются. К тому же длинный контекст = больше токенов = дороже и медленнее при API, а в чате быстро добирается до лимита окна.

LLM хорошо заполняет пропуски в предсказуемых сценариях. "MVP+6мес" — модель знает что это. "tone.exec" с расшифровкой в словаре — запомнит. Аббревиатуры работают как горячие клавиши: одно слово активирует целый паттерн знаний.

Метод разделяет риски. Критичное — пишешь точно в @SAFE, и модель не "додумает". Предсказуемое — сжимаешь в @SZIP, и получаешь 40–46% экономию токенов. Словарь @DICT/ делает код воспроизводимым: определил один раз — используешь в 50 чатах.

Рычаги управления: - Размер @SAFE — чем больше туда положишь, тем надёжнее, но больше токенов. Клади только то, что нельзя потерять. - Детализация @DICT/ — больше расшифровок = меньше ошибок. Стоит пополнять словарь когда модель неправильно поняла аббревиатуру. - Стиль @SZIP — ASCII-аббревиатуры работают надёжнее, чем эмодзи. "NO:car" лучше "🚗❌".


📋

Шаблон промпта

@DICT/{тема_проекта}: {аббревиатура_1}={расшифровка_1}; 
{аббревиатура_2}={расшифровка_2}; 
{аббревиатура_тона}={описание_тона}

@SAFE{
  название: "{точное_название}";
  ключевые_числа: {конкретные_цифры};
  целевая_аудитория: {точное_описание};
  запреты: {что_нельзя_говорить_или_обещать}
}

@SZIP{
  ЭТАП:{стадия} РЫНОК:{рынок} КОНКУРЕНТ:{с_чем_конкурируем}
  USP:{главное_преимущество} NO:{что_не_делаем}
  ФОРМАТ:{формат_ответа}
}

Задача: {конкретный_запрос}

Что подставлять: - {тема_проекта} — PROJECT, BRAND, WORK и т.п., любое короткое имя - @SAFE{} — только то, что модель не должна интерпретировать свободно: числа, имена, запреты - @SZIP{} — всё что модель "додумает" правильно по контексту: стиль, предпочтения, типовые форматы - @DICT/ — определяй аббревиатуры которые используешь в @SZIP

🚀 Быстрый старт — вставь в чат:

Помоги мне создать сжатый контекст-блок для проекта по методу SemanticZip. 
Задавай вопросы, чтобы заполнить поля. Моя задача: {твой_проект}.

[вставить шаблон выше]

LLM спросит что критично и защищено (для @SAFE), что предсказуемо (для @SZIP), какие аббревиатуры нужны (для @DICT/) — потому что метод требует явного разделения информации по каналам. Она возьмёт структуру из шаблона и соберёт готовый блок под твой проект.


⚠️

Ограничения

⚠️ Пилотное исследование: Результаты получены на 5 авторских кейсах. Статистических гарантий нет — это демонстрация принципа, не доказанный стандарт.

⚠️ Эмодзи ненадёжны: Символы типа 🚗, 👁️, 📚 модель расшифровывает непредсказуемо — "просмотр", "вид", "вечерняя активность" вместо "смотровая площадка". ASCII-аббревиатуры работают стабильнее.

⚠️ Критичное нельзя сжимать: Точные суммы, медицинские ограничения, юридические запреты, редкие сущности — только в @SAFE. Если потеряется при "разворачивании" — последствия серьёзнее, чем не сэкономить токены.

⚠️ Нет сравнения с конкурентами: Методы типа LLMLingua делают похожее автоматически. SemanticZip — ручной подход. Авторы честно признают: сравнение не проводилось.

⚠️ Первый запуск дороже: Словарь @DICT/ стоит токенов. Окупается только если используешь один контекст в многих чатах.


🔍

Как исследовали

Исследователи из Embedded Intelligence Lab взяли 5 авторских кейсов — путешествие, генерация JS-кода, Python-скрипт, React-дашборд, описание исследования — и вручную создали по 6 версий каждого в разных форматах: обычная проза, JSON, два варианта CCL и два варианта SemanticZip. Потом отдельная LLM (gpt-4o-mini, температура 0) без подсказок восстанавливала смысловые "атомы" из каждого сжатого варианта — и авторы считали сколько атомов восстановилось верно.

Главный сюрприз: структурированная проза оказалась лучше всего по точности восстановления. Это ожидаемо — натуральный язык родной для LLM. Неожиданно, что JSON расширяет текст под новым токенизатором OpenAI из-за кавычек и скобок. И совсем неочевидно — эмодзи проиграли ASCII и по сжатию, и по точности одновременно. Авторы предполагают: ASCII-аббревиатуры сохраняют лексические якоря ("4d", "OUT"), а эмодзи слишком многозначны — модель интерпретирует 👁️ то как "вид", то как "смотровая площадка", то как "слежка".

Важная оговорка: авторы сами создавали кейсы, сами размечали атомы и сами определяли пороги совпадения. Это честно описано — исследование называет себя "пилотом", не бенчмарком.


💡

Адаптации и экстраполяции

🔧 Техника: Накапливаемый словарь проекта

Создай отдельный документ с @DICT/ для каждого долгосрочного проекта. После каждого удачного чата — добавляй новые аббревиатуры которые сработали. Через 10 сессий у тебя готовый "язык" проекта на 30–50 токенов, который LLM понимает точно.

В начале: @DICT/BRAND: RS=российский рынок; SMB=малый бизнес

После 5 чатов: добавил comp.voice=голос бренда как у Т—Ж, short.b2b=короткий без воды для ЛПР

Результат: контекст стал плотнее, ошибки реже

🔧 Техника: ASCII-шаблоны для повторяющихся задач

Если каждую неделю делаешь одно и то же — разбор продаж, ревью текстов, планирование спринта — сделай один раз @SZIP под эту задачу. Меняй только переменные:

@SZIP{TASK:review_copy PROD:Х5 W:3 TONE:прямой,без-воды 
OUT:булл+правки NO:похвала FORMAT:маркд}

🔗

Ресурсы

SemanticZip: A Pilot Framework for Lossy Text Compression with LLMs as Semantic Decompressors

Natalia Trukhina, Vadim Vashkelis

Embedded Intelligence Lab (EMILAB), май 2026

Связанное от тех же авторов: Compress the Context, Keep the Commitments (Context Codec — более консервативный предшественник SemanticZip)

Упомянутые методы-конкуренты: LLMLingua, LongLLMLingua, Selective Context


📋 Дайджест исследования

Ключевая суть

Каждый новый чат — снова объясняешь продукт, тон, ограничения. Три абзаца, 10 минут, один и тот же текст в пятый, пятидесятый раз. SemanticZip позволяет заменить эти абзацы структурным кодом из аббревиатур — вставляешь один блок, модель разворачивает всё сама. Фишка: модель уже знает что значит "MVP+6мес" или "tone.exec" — ей не нужен полный текст, если паттерн предсказуемый. Определяешь словарь один раз — используешь в пятидесяти чатах подряд. Итог: 40-46% меньше токенов, ноль повторных объяснений.

Принцип работы

Не весь контекст одинаково опасен. Есть то, что нельзя терять — точные числа, имена, запреты. И есть то, что модель додумает правильно — стиль, стадия проекта, предпочтения по формату. Метод делит контекст по уровню риска: критичное — точно в @SAFE{}, предсказуемое — кодом в @SZIP{}. Словарь @DICT/ определяется один раз и расшифровывает все аббревиатуры. Модель принимает оба канала и работает с ними как с полным описанием — без уточняющих вопросов про продукт.

Почему работает

LLM хранит знания о тысячах шаблонных ситуаций. "MVP+6мес" для неё — не просто текст, а целый паттерн с контекстом. Аббревиатуры работают как горячие клавиши: одно слово активирует набор ассоциаций. Длинный текст размывается в окне внимания — структурный код фиксирует важное жёстче, чем свободные абзацы. Отсюда и экономия: 40-46% токенов уходит без потери смысла. Но честно: исследование пилотное. Всего 5 авторских кейсов, сравнения с аналогами (типа LLMLingua) нет. Это демонстрация принципа, не доказанный стандарт.

Когда применять

Повторяющиеся контексты → для любого проекта где ты начинаешь новые чаты с одним и тем же объяснением продукта, бренда, роли. Особенно полезно при работе через программный интерфейс (API), где платишь за токены, или когда контекстное окно быстро заполняется. НЕ подходит для: медицинских данных, юридических ограничений, точных финансовых расчётов — всё критичное идёт только в @SAFE{}, сжимать нельзя.

Мини-рецепт

1. Раздели контекст: что нельзя потерять (числа, имена, запреты) → в @SAFE{}. Что предсказуемо (стиль, стадия, форматы) → в @SZIP{}. Сомневаешься — клади в @SAFE.
2. Создай словарь: запиши аббревиатуры и расшифровки в @DICT/ — один раз на весь проект. Чем конкретнее расшифровка, тем меньше ошибок.
3. Собери блок: @DICT/ → @SAFE{} → @SZIP{} → задача. Всё одним сообщением в начало нового чата.
4. Проверь первый ответ: если модель что-то поняла неверно — добавь расшифровку в @DICT/ или перенеси в @SAFE{}. Пополняй словарь по мере работы.

Примеры

[ПЛОХО] : Я фаундер B2B SaaS для автоматизации отчётности. Продукт — ОтчётМастер, цена 4900–19900 руб/мес, аудитория — бухгалтеры в малом бизнесе, тон деловой без жаргона, нет интеграции с SAP и Битрикс24. Напиши заголовок для лендинга.
[ХОРОШО] : @DICT/PROJ: SMB=малый и средний бизнес; tone.exec=деловой без пафоса; no-jargon=без техтерминов для клиента @SAFE{ product_name: "ОтчётМастер"; price_range: 4900–19900 руб/мес; hard_limit: нет SAP, нет Битрикс24; legal: не обещать возврат налогов } @SZIP{ MARKET:SMB STAGE:MVP+6мес TONE:tone.exec,no-jargon OUT:заголовок+3 буллета с выгодами } Задача: лендинг для главбуха в компании 20–100 человек. Разница: во втором варианте модель не задаёт уточняющих вопросов. Числа и запреты она взяла из @SAFE — не додумала. Стиль и формат — из @SZIP через словарь. Следующий чат про тот же продукт: просто вставляешь этот же блок.
Источник: SemanticZip: A Pilot Framework for Lossy Text Compression with LLMs as Semantic Decompressors
ArXiv ID: 2605.24541 | Сгенерировано: 2026-05-26 07:34

Проблемы LLM

ПроблемаСутьКак обойти
Длинный контекст размывает важные деталиВставляешь три абзаца про проект. Модель читает всё. Но к концу чата точные числа, запреты и имена "размываются" — модель начинает додумывать. Чем длиннее контекст, тем выше шанс что критичное потеряется или исказитсяРаздели контекст на два блока. Первый — только точное и критичное (числа, запреты, имена). Пиши там полным текстом. Второй — предсказуемое и шаблонное. Там можно сжимать
Эмодзи в промптах расшифровываются случайноПишешь 🚗❌ имея в виду "без аренды авто". Модель видит "автомобильный запрет", "нет машины", "дорожные ограничения" — непредсказуемо. Одна и та же иконка в разных запросах даёт разный смысл. Поведение нельзя воспроизвести стабильноЗамени эмодзи на ASCII-аббревиатуры. NO:car вместо 🚗❌. VIEW:pano вместо 👁️. ASCII-символы модель читает однозначно

Методы

МетодСуть
Два канала контекста — точный и сжимаемыйРаздели контекст на два блока. Блок точности (@SAFE{}): числа, имена, запреты, жёсткие ограничения — всё что нельзя потерять. Пиши точно и полно. Блок сжатия (@SZIP{}): стиль, тон, типовые предпочтения, контекст проекта — то что предсказуемо. Пиши аббревиатурами через словарь (@DICT/: USP=главное преимущество; tone.exec=деловой без пафоса). Собери оба блока + словарь + задачу в одно сообщение. Почему работает: модель уже знает шаблонные ситуации — "MVP+6мес", "B2B-тон", "без корпоративного сегмента". Ей не нужен полный текст. Словарь расшифровывает аббревиатуры, а точные данные лежат в @SAFE нетронутыми. Когда применять: один контекст используешь в 5+ чатах. Когда не стоит: разовый запрос — overhead не окупается

Тезисы

ТезисКомментарий
Предсказуемая информация сжимается без потери смыслаМодель знает шаблонные сценарии: путешествия, проекты, бизнес-контексты. Для таких тем одно слово активирует целый паттерн знаний. "MVP+6мес" = стадия продукта, команда, ограничения, приоритеты. Ты не теряешь смысл — ты убираешь текст который модель и так достраивает. Но: работает только для предсказуемого. Точные числа, медицинские данные, редкие сущности модель достроит неверно — их сжимать нельзя. Применяй: разделяй контекст на "модель знает" и "модель не знает". Первое — сжимай. Второе — пиши точно
📖 Простыми словами

SemanticZip: A Pilot Framework for Lossy Text Compression withLLMsas Semantic Decompressors

arXiv: 2605.24541

Суть SemanticZip в том, что нейросети — это не просто калькуляторы, а чертовски догадливые лингвисты. Им не нужно разжевывать каждое слово, как первокласснику. Если ты скажешь человеку «купи хлеб, молоко, яйца», он поймет тебя без лекции о пользе завтрака. С LLM та же история: модель обладает колоссальными фоновыми знаниями, поэтому избыточность текста для неё — это просто мусорный шум. Метод превращает рыхлое описание в плотный семантический код, где каждое сокращение — это триггер для развертывания целого пласта смыслов, которые уже сидят в «голове» у модели.

Это как если бы ты общался с лучшим другом, с которым вы понимаете друг друга с полуслова. Вместо того чтобы объяснять: «Помнишь тот бар на углу, где мы пили крафтовое пиво в прошлую пятницу и встретили твоего бывшего коллегу?», ты просто пишешь: «Тот бар, пятница». Друг мгновенно восстанавливает всю картину. SemanticZip делает то же самое: он выкидывает воду и оставляет только «костяк», зная, что нейросеть сама достроит мясо на эти кости, не потеряв ни капли смысла.

В основе лежат семантические декомпрессоры — по сути, это умение модели восстанавливать контекст из сжатых аббревиатур и ключевых меток. Вместо того чтобы скармливать чату простыню текста про свой стартап, ты даешь ему структурированный шифр. Например, вместо описания целевой аудитории, болей и фич, ты используешь сжатый блок, где «4d» или «B2B-SaaS-Auto» заменяют абзацы текста. Модель видит этот код и сама «распаковывает» его в полноценную рабочую среду, экономя твоё время и свои ресурсы.

Тестировали это на длинных описаниях проектов, но принцип универсален. Это спасение для любого, кто работает с API или постоянно переключается между чатами. Экономия токенов напрямую конвертируется в деньги, а для обычного пользователя это способ не упираться в лимит контекстного окна. Если ты каждый раз объясняешь ChatGPT правила игры или специфику своего бизнеса, ты просто тратишь ресурс впустую. SEO для людей уступает место сжатым промптам для машин.

Короче: хватит кормить нейросеть «литературщиной», она понимает структурные коды гораздо лучше. SemanticZip доказывает, что краткость — это не просто вежливость, а способ заставить AI работать точнее и дешевле. Либо ты учишься упаковывать свои мысли в семантические архивы, либо продолжаешь платить за лишние токены и смотреть, как модель тупит в длинных текстах. Выбор очевиден: меньше слов — больше дела.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с