Memelang: компактный язык запросов через разделители вместо ключевых слов

КЛЮЧЕВАЯ СУТЬ

Memelang — язык запросов, где структура определяется рангом разделителей (двойная точка с запятой, одинарная, пробел), а не ключевыми словами SQL. Каждая позиция между разделителями имеет фиксированную роль: крайняя справа — значение, средняя — колонка, крайняя слева — таблица. Это снижает вариативность генерации — LLM не выбирает между WHERE, HAVING, AND, а просто ставит токены в нужные слоты.

Адаптировать под запрос

⚡

TL;DR

Memelang — язык запросов, где структура определяется рангом разделителей (двойная точка с запятой, одинарная, пробел), а не ключевыми словами SQL. Каждая позиция между разделителями имеет фиксированную роль: крайняя справа — значение, средняя — колонка, крайняя слева — таблица. Это снижает вариативность генерации — LLM не выбирает между WHERE, HAVING, AND, а просто ставит токены в нужные слоты.

Главная проблема SQL для LLM — слишком много синтаксически эквивалентных способов выразить одно и то же. SELECT может быть до или после FROM, JOIN может быть явным или через запятую, условия могут идти в WHERE или HAVING. Это создаёт огромное пространство валидных, но разных строк. LLM тратит "усилия" на выбор между эквивалентами вместо работы над логикой запроса. Исследование показало: модели генерируют корректнее, когда синтаксис детерминирован — один способ выразить одну мысль.

Memelang фиксирует позиции через разделители: таблица колонка значение; таблица колонка значение;; — двойная точка с запятой завершает запрос, одинарная разделяет условия, пробел разделяет роли. Плюс carry-forward: если не указал таблицу во втором условии — наследуется из первого. Относительные ссылки (@ = предыдущее значение) избавляют от повторов. Inline-теги (:grp, :min, :asc) добавляют агрегацию и сортировку без отдельных clause.

📌

Применимые принципы

Для читателя: это НЕ готовая промпт-техника. Memelang — полноценный язык с парсером и компилятором. Вы не можете использовать его синтаксис напрямую в ChatGPT. НО исследование раскрывает принципы, которые работают для любой структурированной генерации.

📌

1. Минимизируйте синтаксическую вариативность

Проблема: LLM ошибается чаще, когда у неё много способов сказать одно и то же.

Решение из Memelang: Один способ — фиксированные позиции через разделители.

Как применить в чате:

Когда просите LLM генерировать структурированный вывод (список, таблицу, JSON), явно зафиксируйте формат:

❌ "Проанализируй текст и выдай структуру"

✅ "Выдай результат строго так: Тема | Тональность | Ключ. Одна строка — один блок текста. Разделитель — вертикальная черта."

Принцип: Один синтаксис = меньше "развилок" в генерации = выше точность.

📌

2. Фиксированные роли вместо именованных полей

Проблема: JSON/YAML требуют писать имена полей каждый раз. Это токены + риск опечаток.

Решение из Memelang: Позиция = роль. Третье слово всегда "значение", второе всегда "колонка".

Как применить в чате:

Вместо "генерируй JSON с полями title, author, year" попросите:

"Каждая книга — одна строка. Формат: название | автор | год. Пример: Мастер и Маргарита | Булгаков | 1967"

Экономите токены и убираете риск "auther" вместо "author".

📌

3. Carry-forward (наследование контекста)

Это ЗОЛОТАЯ идея, применимая прямо сейчас.

Проблема: LLM дублирует контекст при повторяющихся операциях.

Проанализируй отзыв 1 по тональности.
Проанализируй отзыв 2 по тональности.
Проанализируй отзыв 3 по тональности.

Решение из Memelang: Если параметр не указан — наследуется из предыдущего шага.

Промпт с carry-forward:

Проанализируй отзывы по тональности. Формат вывода: одна строка на отзыв.
Если критерий не меняется — пропускай, он наследуется.

Отзыв 1: [текст]
Критерий: тональность + эмоция

Отзыв 2: [текст]
(критерий тот же)

Отзыв 3: [текст]
Критерий: только тональность

Принцип: Явное "пропускаем повтор" = короче промпт = больше контекста для данных.

🔗

4. Относительные ссылки вместо копирования

Проблема: При многошаговых операциях приходится копировать результат прошлого шага.

Решение из Memelang: Символ @ = "значение из предыдущего шага".

Как применить в чате:

Задача: Улучшить текст в 3 итерации.

Шаг 1: Убери канцелярит.
Шаг 2: Примени результат предыдущего шага — добавь конкретику.
Шаг 3: Примени результат предыдущего шага — сократи на 20%.

Текст: [исходный текст]

Между шагами не копируй текст целиком, пиши: "(применяю к версии выше)".

Принцип: Явная инструкция "не дублируй" экономит контекст.

📌

Почему эти принципы работают

LLM генерирует текст токен за токеном, выбирая следующий из распределения вероятностей. Чем больше вариантов на каждом шаге — тем выше шанс "свернуть не туда". SQL даёт модели сотни синтаксически валидных путей к одному результату. Memelang сжимает это до одного пути через фиксированные роли и разделители.

Механика: Когда модель знает, что "после второго пробела идёт только значение" — она не тратит "внимание" на выбор между ключевыми словами (WHERE/HAVING/AND), а фокусируется на семантике — что именно фильтровать.

Carry-forward работает потому что контекст LLM конечен. Каждый повтор параметра — это токены, которые можно потратить на данные. Явная инструкция "наследуй" учит модель экономить место.

Относительные ссылки (@, "версия выше") снижают риск drift — когда модель слегка меняет копируемый текст при переносе между шагами.

Рычаги для читателя: - Жёсткость формата → добавьте Если формат нарушен — выдай ошибку для критичных данных - Детализация carry-forward → укажите что именно наследуется ("критерий тот же" vs "всё кроме даты") - Разделители → для табличных данных | читается легче чем запятая (меньше путаницы с числами)

⚠️

Ограничения применимости

⚠️ Требует инфраструктуры: Сам язык Memelang нельзя использовать в обычном чате — нужен парсер и компилятор в SQL. Это инструмент для разработчиков баз данных, не промпт-техника.

⚠️ Узкий домен: Принципы выше применимы для структурированной генерации (таблицы, списки, повторяющиеся операции). Для креатива, длинного текста, диалога эти идеи не дадут выигрыша.

⚠️ Не для простых запросов: Carry-forward и фиксированные позиции полезны при 3+ шагах или 5+ параметрах. Для одиночных вопросов это оверхед.

🔍

Как исследовали

Исследователи создали полноценный язык запросов с формальной грамматикой, лексером, парсером и компилятором в PostgreSQL SQL. Проверяли на гибридных запросах — комбинация обычных фильтров (год, жанр) с векторным поиском (семантическое сходство через embeddings). Основная метрика — компактность (количество токенов) и детерминированность парсинга (один входной запрос = один AST, без вариантов).

Команда реализовала несколько ключевых фич: (1) axial grammar — многомерная структура восстанавливается из линейной последовательности через ранги разделителей; (2) coordinate-stable references — позиции элементов стабильны относительно их роли (table/column/value всегда на одних и тех же координатах); (3) parse-time variable binding — можно ввести переменную $a и ссылаться на неё дальше в запросе.

Самое интересное — почему именно так: SQL исторически оптимизирован для людей (читаемые ключевые слова SELECT, WHERE), но это создаёт комбинаторный взрыв для LLM. Эквивалентные запросы могут отличаться порядком JOIN, положением условий, явными vs неявными связями. Memelang убирает эту вариативность через единственный канонический синтаксис.

Интересная деталь: язык поддерживает псевдо-XML теги внутри значений (:min, :grp, :asc) — это компактнее отдельных clause, но сохраняет выразительность. Компилятор разворачивает это в полноценный SQL с GROUP BY, ORDER BY, MIN().

📌

Для кого эта работа

Разработчикам AI-агентов — если строите систему, где LLM генерирует запросы к базе данных, Memelang — готовый референс компактного IR.

Промпт-дизайнерам — принципы (фиксированные роли, carry-forward, относительные ссылки) применимы при создании форматов для структурированного вывода.

Data-аналитикам с LLM — идеи помогут формулировать промпты для генерации SQL или других DSL компактнее.

НЕ для: Пользователей чатов без технического бэкграунда. Нельзя "скопировать промпт и применить".

🔗

Ресурсы

Memelang: An Axial Grammar for LLM-Generated Vector-Relational Queries

Патент США 12,475,098

Автор: Bri Holt

Сайт: https://www.memelang.net/

Репозиторий: https://github.com/memelang-net/memesql9

Цитируемые работы: PICARD (Scholak et al.), Grammar-Constrained Decoding (Geng et al.), RAT-SQL (Wang et al.), Spider benchmark (Yu et al.)

Проблема	Суть	Как обойти
LLM чаще ошибается, когда есть несколько синтаксически эквивалентных способов выразить одно и то же	SQL позволяет: `SELECT` до или после `FROM`, `JOIN` через запятую или явно, условия в `WHERE` или `HAVING` — модель тратит "внимание" на выбор между эквивалентами вместо работы над логикой; каждая развилка = риск свернуть не туда	Фиксируй один формат: `Выдай строго так: тема \| тональность \| ключ. Разделитель — вертикальная черта`

Проблема

Суть

Как обойти

LLM чаще ошибается, когда есть несколько синтаксически эквивалентных способов выразить одно и то же

SQL позволяет: SELECT до или после FROM, JOIN через запятую или явно, условия в WHERE или HAVING — модель тратит "внимание" на выбор между эквивалентами вместо работы над логикой; каждая развилка = риск свернуть не туда

Фиксируй один формат:

Выдай строго так: тема | тональность | ключ. Разделитель — вертикальная черта

Метод	Суть
Наследование контекста — не дублируй параметры и данные между шагами	Явно укажи что повторяется: `Если критерий не меняется — пропускай, он наследуется`. Для данных: `Между шагами не копируй текст, пиши: "(применяю к версии выше)"`. Экономит токены (контекст конечен) + снижает drift (модель меняет текст при копировании). Для: многошаговые операции (3+ шага), повторяющиеся параметры (5+ пунктов). НЕ для: одиночные запросы, креативные задачи

Метод

Суть

Наследование контекста — не дублируй параметры и данные между шагами

Явно укажи что повторяется: Если критерий не меняется — пропускай, он наследуется. Для данных: Между шагами не копируй текст, пиши: "(применяю к версии выше)". Экономит токены (контекст конечен) + снижает drift (модель меняет текст при копировании). Для: многошаговые операции (3+ шага), повторяющиеся параметры (5+ пунктов). НЕ для: одиночные запросы, креативные задачи

Тезис	Комментарий
Фиксированный формат помогает LLM генерировать точнее — один способ выразить идею снижает ошибки	LLM выбирает токен из распределения вероятностей; чем больше валидных вариантов — тем выше шанс "свернуть не туда". Memelang через фиксированные позиции (`таблица колонка значение`) убирает развилки → модель фокусируется на семантике, не на синтаксисе. Применяй: для структурированного вывода (таблицы, списки, JSON) жёстко фиксируй формат с примером

Тезис

Комментарий

Фиксированный формат помогает LLM генерировать точнее — один способ выразить идею снижает ошибки

LLM выбирает токен из распределения вероятностей; чем больше валидных вариантов — тем выше шанс "свернуть не туда". Memelang через фиксированные позиции (таблица колонка значение) убирает развилки → модель фокусируется на семантике, не на синтаксисе. Применяй: для структурированного вывода (таблицы, списки, JSON) жёстко фиксируй формат с примером

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

Выберите модель ИИ:

Ваш запрос:

0 / 2000

~0.5-2 N-токенов ~10-30с

~0.3-1 N-токенов ~5-15с

Меню

Memelang: компактный язык запросов через разделители вместо ключевых слов

TL;DR

Применимые принципы

1. Минимизируйте синтаксическую вариативность

2. Фиксированные роли вместо именованных полей

3. Carry-forward (наследование контекста)

4. Относительные ссылки вместо копирования

Почему эти принципы работают

Ограничения применимости

Как исследовали

Для кого эта работа

Ресурсы

Проблемы LLM

Методы

Тезисы

Работа с исследованием

Результат адаптации