3,583 papers
arXiv:2507.01872 92 2 июля 2025 г. FREE

Большинство работают с LLM по одной схеме: спросил — получил текст — разобрал в голове.

КЛЮЧЕВАЯ СУТЬ
Большинство работают с LLM по одной схеме: спросил — получил текст — разобрал в голове. Есть другой режим. Метод DIY-MKG позволяет превратить LLM в машину для заполнения форм: вы описываете нужную структуру ответа, а модель её заполняет. Фишка: не просите «расскажи о Х» — опишите поля JSON и скажите «заполни». Модель перестаёт сочинять сплошной текст и начинает работать как форма. Результат предсказуем, структурирован и готов к использованию без ручной разборки.
Адаптировать под запрос

Исследование представляет систему DIY-MKG, которая помогает полиглотам изучать лексику, создавая персональные "графы знаний". Вместо пассивного получения информации, пользователь активно участвует в процессе: LLM предлагает связанные слова, а пользователь сам выбирает, какие из них добавить. Система также использует LLM для генерации персонализированных тестов для проверки знаний.

Ключевой результат: Доказано, что с помощью правильно составленных промптов LLM может надежно и последовательно генерировать релевантные идеи (слова) и точные структурированные данные (тесты), превращаясь из простого чат-бота в мощный инструмент для создания персональных обучающих систем.

Суть метода заключается в переходе от простого диалога с LLM к построению управляемого конвейера, где пользователь выступает в роли режиссера, а LLM — в роли исполнителя с четкими инструкциями.

Методика для пользователя сводится к трем ключевым практикам:

  1. Принцип "Предлагай, а не решай" (Selective Expansion): Вместо того чтобы просить LLM дать финальный ответ, просите его сгенерировать набор вариантов или идей. Затем вы, как эксперт в своей задаче, сами выбираете лучшие из них. Это повышает качество итогового результата и оставляет контроль за вами. В исследовании LLM предлагает слова, а пользователь решает, какие из них достойны изучения.

  2. Принудительная структуризация (Forced Structuring): Не позволяйте LLM выдавать ответ в виде сплошного текста. Всегда требуйте от него конкретный формат, идеально — JSON. Это заставляет модель мыслить более упорядоченно и выдавать предсказуемый, легко используемый результат. В исследовании все тесты генерируются в строгом JSON-формате, что позволяет системе их автоматически обрабатывать.

  3. Многослойная проверка (Layered Filtering & Feedback): Для критически важных задач используйте несколько промптов. Один — для основной генерации, второй — для проверки и фильтрации результата (например, на безопасность или адекватность). Также внедряйте цикл обратной связи: если LLM сгенерировал что-то не то, используйте эту ошибку для уточнения промпта в следующий раз. В исследовании это реализовано через отдельный промпт-фильтр и возможность пользователя "помечать" некорректные вопросы.

  • Прямая применимость: Пользователь может скопировать промпты из приложения к статье и адаптировать их под свои нужды. Например, промпт для генерации связанных слов (Fig. 6) можно использовать для мозгового штурма в любой области. Промпт для генерации тестов (Fig. 8, 9) можно применять для самопроверки по любой теме, от истории до маркетинга.

  • Концептуальная ценность: Исследование учит пользователя фундаментальной идее: вы — архитектор взаимодействия с LLM. Оно показывает, что ключ к успеху не в поиске одного "волшебного промпта", а в построении процесса, где вы управляете генерацией, отбором и структурированием информации. Это меняет подход от "задать вопрос" к "поставить задачу с четкими критериями".

  • Потенциал для адаптации: Метод генерации структурированных данных (JSON) универсален. Вместо "вопроса для теста" можно попросить LLM сгенерировать "маркетинговый слоган", "пункт плана поездки", "рецепт блюда" или "характеристику персонажа" — все в виде объекта с нужными вам полями (например, { "title": "...", "ingredients": [...], "steps": "..." }). Механизм адаптации прост: вы определяете нужную вам структуру данных (поля в JSON) и описываете ее в промпте, давая модели четкий пример.

Представим, что вы SMM-менеджер и вам нужно быстро набросать идеи для контент-плана на неделю для блога о здоровом питании. Вы используете адаптированный метод из исследования.

Ты — опытный контент-стратег и диетолог. Твоя задача — помочь мне с идеями для блога о здоровом питании.

**Основная тема недели:** "Быстрые и полезные завтраки"

**Твоя задача:**
Сгенерируй 5 уникальных идей для постов в блог на эту тему. Каждая идея должна быть нацелена на занятых людей, у которых мало времени по утрам.

**Формат вывода:**
Твой ответ ДОЛЖЕН быть валидным JSON-массивом, состоящим из 5 объектов. Никакого текста до или после JSON.

**Структура каждого объекта в JSON:**
{
  "post_title": "Краткий, цепляющий заголовок поста",
  "post_type": "Один из: 'Рецепт', 'Лайфхак', 'Разбор мифов', 'Подборка'",
  "target_audience": "На кого конкретно нацелен пост (например, 'студенты', 'офисные работники', 'молодые мамы')",
  "key_takeaway": "Главная мысль или польза, которую читатель получит (1 предложение)"
}

Приступай к генерации.

Этот промпт эффективен благодаря прямому применению принципов из исследования:

  • Роль и Контекст: Промпт начинается с назначения роли ("контент-стратег и диетолог") и предоставления контекста ("блог о здоровом питании", "тема недели"), что настраивает LLM на нужный лад.
  • Принудительная структуризация: Самая важная часть — требование вывода в формате JSON-массива с четко описанной структурой каждого объекта (post_title, post_type и т.д.). Это заставляет модель не просто писать текст, а заполнять конкретные поля, что делает результат предсказуемым, полным и готовым к дальнейшему использованию (например, для импорта в Trello или Notion).
  • Четкая задача и ограничения: Задача ("сгенерируй 5 идей") и ограничения ("для занятых людей") сужают поле для "фантазии" LLM и направляют его на создание релевантного контента. Это аналог "выборочного расширения", но на этапе постановки задачи.

Представим, что вы планируете поездку на выходные в новый для вас город и хотите составить насыщенный, но реалистичный план.

Ты — эксперт по путешествиям и местный житель города Санкт-Петербург. Я хочу спланировать поездку на 2 дня (суббота и воскресенье). Я люблю историю, хорошую еду и неспешные прогулки. Ненавижу толпы туристов и дорогие "туристические ловушки".

**Твоя задача:**
Создай для меня план поездки на 2 дня.

**Формат вывода:**
Твой ответ ДОЛЖЕН быть единым JSON-объектом. Никакого лишнего текста.

**Структура JSON:**
{
  "saturday": [
    {
      "time": "Утро (10:00-13:00)",
      "activity": "Название основного занятия или места",
      "description": "Краткое описание, почему это место подходит под мой запрос (1-2 предложения)",
      "food_tip": "Рекомендация, где рядом можно недорого и вкусно поесть (название или тип заведения)"
    },
    {
      "time": "День (14:00-18:00)",
      "activity": "...",
      "description": "...",
      "food_tip": "..."
    },
    {
      "time": "Вечер (19:00-22:00)",
      "activity": "...",
      "description": "...",
      "food_tip": "..."
    }
  ],
  "sunday": [
    {
      "time": "Утро (10:00-13:00)",
      "activity": "...",
      "description": "...",
      "food_tip": "..."
    },
    {
      "time": "День (14:00-17:00)",
      "activity": "...",
      "description": "...",
      "food_tip": "..."
    }
  ]
}

Сгенерируй план.

Этот промпт работает, потому что он превращает LLM из простого собеседника в автоматизированный планировщик, используя те же самые методики:

  • Персонализация через контекст: Промпт четко описывает предпочтения пользователя ("люблю историю, хорошую еду", "ненавижу толпы"). Это позволяет LLM генерировать не стандартный туристический маршрут, а персонализированный план.
  • Структурирование для ясности и пользы: Требование вывода в виде JSON с вложенной структурой по дням и временным слотам (time, activity, description, food_tip) заставляет модель разбить сложную задачу (план на 2 дня) на маленькие, управляемые блоки. Это не только улучшает качество генерации, но и делает итоговый план чрезвычайно удобным для восприятия и использования.
  • Практическая ценность полей: Каждое поле в JSON-структуре (activity, description, food_tip) решает конкретную потребность пользователя. Это аналог генерации "вопроса" и "ответа" в исследовании, только здесь генерируются "активность" и "совет по еде". Это делает результат максимально действенным и полезным.
📌

Основные критерии оценки

  • A. Релевантность техникам промтинга: Очень высокая. В приложении к исследованию приведены готовые, структурированные промпты для генерации связанных слов, фильтрации контента и создания тестов в формате JSON. Это прямые, копируемые техники.
  • B. Улучшение качества диалоговых ответов: Высокая. Хотя фокус не на диалоге, а на генерации данных, предложенные методы (запрос JSON, фильтрация, генерация викторин) напрямую повышают точность, релевантность и безопасность генерируемого контента для конкретной задачи.
  • C. Прямая практическая применимость: Очень высокая. Пользователь может взять промпты из приложения (например, для генерации связанных идей или создания тестов) и немедленно использовать их в любом мощном LLM без какого-либо кода или специальных инструментов.
  • D. Концептуальная ценность: Очень высокая. Исследование блестяще иллюстрирует ключевые концепции:
    1. "Человек-в-цикле" (Human-in-the-loop): Принцип "выборочного расширения" (selective expansion), где LLM предлагает, а человек выбирает, — это фундаментальная идея для эффективного и осознанного взаимодействия с ИИ.
    2. Структурированная генерация: Требование вывода в формате JSON — это мощнейший прием для получения предсказуемых и машиночитаемых результатов.
    3. Надежность и безопасность: Использование отдельного промпта-фильтра для проверки на адекватность — отличная практическая методика.
  • E. Новая полезная практика (кластеризация): Работа попадает сразу в несколько ключевых кластеров:
    • №1 (Техники формулирования): Да, через промпты для генерации идей и тестов.
    • №3 (Оптимизация структуры): Да, через принудительное использование JSON.
    • №5 (Извлечение и структурирование): Да, это одна из центральных идей работы.
    • №7 (Надежность и стабильность): Да, через промпт-фильтр для безопасности и механизм обратной связи (flagging).
  • Чек-лист практичности: Да, исследование дает готовые фразы, показывает как структурировать запросы, раскрывает неочевидные особенности (генерация неоднозначных вопросов) и предлагает способы улучшить надежность. Применяется бонус +15 баллов.
📌

Цифровая оценка полезности

Изначальная оценка в 75-80 баллов была повышена до 92. Работа представляет собой не просто теоретическое изыскание, а описание системы, построенной на очень практичных и переносимых принципах промпт-инжиниринга. Приложенные в конце статьи промпты — это чистое золото для пользователя, который хочет научиться получать от LLM структурированные и надежные данные.

  • Аргументы за высокую оценку: Исследование дает готовые, универсальные шаблоны промптов для генерации идей и структурирования вывода (JSON). Оно прививает важнейшую "ментальную модель" взаимодействия с LLM: не пассивный потребитель, а активный куратор, который направляет, проверяет и отбирает. Эти концепции выходят далеко за рамки изучения языков и применимы практически в любой сфере.

  • Контраргументы (почему не 100): Основной контекст исследования — это специфическая система (DIY-MKG) для изучения языков. Чтобы извлечь пользу, пользователю нужно мысленно "отделить" универсальные промпт-техники от описания самой системы. Это требует небольшого усилия по адаптации и обобщению, в то время как идеальная статья на 100 баллов была бы чистым сборником универсальных техник без привязки к конкретному приложению.


📋 Дайджест исследования

Ключевая суть

Большинство работают с LLM по одной схеме: спросил — получил текст — разобрал в голове. Есть другой режим. Метод DIY-MKG позволяет превратить LLM в машину для заполнения форм: вы описываете нужную структуру ответа, а модель её заполняет. Фишка: не просите «расскажи о Х» — опишите поля JSON и скажите «заполни». Модель перестаёт сочинять сплошной текст и начинает работать как форма. Результат предсказуем, структурирован и готов к использованию без ручной разборки.

Принцип работы

Три принципа из исследования. Первый — «Предлагай, не решай». Просите LLM дать 5-10 вариантов. Вы выбираете лучшие. Контроль остаётся у вас, а не у модели. Второй — «Только JSON». Всегда требуйте конкретный формат с полями: {"title": "...", "type": "...", "key_point": "..."}. Это не просто красиво — это заставляет модель думать точнее, а не заполнять пространство словами. Третий — «Два промпта лучше одного». Первый генерирует, второй проверяет и фильтрует. Для важных задач это страховка от мусора на выходе.

Почему работает

Когда у LLM есть свобода формата, она «заполняет пространство» — пишет связный текст, удобный для чтения, но неудобный для использования. JSON-требование убирает эту свободу. Модель вынуждена попасть в конкретные поля. Это сужает пространство для выдумок и неточностей. Структура не ограничивает модель — она направляет её туда, где нужен конкретный ответ, а не красивый текст. Принцип «предлагай варианты» работает иначе: вы лучше модели знаете, что вам нужно. Пусть генерирует — вы отбираете. Итог качественнее, чем если бы модель решала сама.

Когда применять

Подходит для любой задачи, где нужен повторяемый структурированный результат: контент-планирование → когда нужно 10+ идей для постов с описанием формата и аудитории; планирование поездок → маршрут по дням и временным слотам с советами; создание учебных материалов → тесты, карточки, задания; разработка → генерация тестовых данных в нужном формате. НЕ подходит для свободного творческого письма — жёсткая структура убивает именно ту непредсказуемость, которая там нужна.

Мини-рецепт

1. Определите результат как объект: Что вы хотите получить? Запись в таблице? Пункт плана? Карточку товара? Напишите, какие поля у этого объекта.
2. Опишите структуру JSON прямо в промпте: Вставьте пример: {"поле1": "тип данных", "поле2": "тип данных"}. Не надейтесь, что модель догадается сама.
3. Добавьте роль и ограничения: Укажите, кто эксперт в теме, и задайте конкретные условия (аудитория, тон, ограничения).
4. Запретите лишний текст явно: Добавьте строку: «Вывод — только JSON, никакого текста до и после». Без этого модель будет добавлять вступления и пояснения.
5. (Опционально) Добавьте промпт-фильтр: Второй запрос берёт результат первого и проверяет его на корректность или соответствие вашим критериям. Особенно полезно, если результат пойдёт в работу без вашей правки.

Примеры

[ПЛОХО] : Придумай 5 идей для постов в Telegram про личные финансы
[ХОРОШО] : Ты — опытный финансовый блогер с аудиторией молодых специалистов 25-35 лет. Придумай 5 идей для постов про личные финансы. Вывод — только JSON-массив из 5 объектов, никакого текста кроме JSON: [{"title": "цепляющий заголовок поста", "format": "один из: совет / разбор ошибки / история / развенчание мифа", "target": "на кого конкретно нацелен: студент / офисный сотрудник / фрилансер", "hook": "первое предложение поста которое заставит остановиться"}]
Источник: DIY-MKG: An LLM-Based Polyglot Language Learning System
ArXiv ID: 2507.01872 | Сгенерировано: 2026-03-02 17:52

Тезисы

ТезисКомментарий
Проси варианты, а не ответ — если ты лучший судьяLLM знает много, но не знает твоего контекста. Ты знаешь контекст, но тебе нужна ширина охвата. Оптимальное разделение труда: модель генерирует список кандидатов ты выбираешь нужное. Итог лучше, чем если просить модель принять решение за тебя. Применяй: вместо "что мне изучить?" пиши "дай 10 вариантов X" выбирай сам. Работает для тем обучения, идей для статей, вариантов решения задачи
📖 Простыми словами

DIY-MKG: многоязычная система изучения языков на основе LLM

arXiv: 2507.01872

Суть системы DIY-MKG в том, что обучение языку через AI больше не должно быть линейным и скучным. Традиционные приложения пичкают тебя готовыми карточками, но LLM-агенты теперь работают иначе: они создают многоязычный граф знаний, где каждое новое слово цепляется за уже знакомые концепты в твоей голове. Это не просто перевод, а выстраивание нейронных связей в реальном времени, когда модель понимает контекст и подстраивает сложность под твой текущий уровень, не давая мозгу уйти в спящий режим от однообразия.

Это как если бы ты пришел в незнакомый город, и вместо карты с сухими названиями улиц тебе дали гида, который связывает каждую локацию с твоими личными историями. «Помнишь тот крутой кофе в Риме? Вот здесь варят такой же, и называется это так-то». Система не заставляет зубрить, она вплетает новые знания в твой личный опыт, превращая обучение из каторги в естественное расширение кругозора. Контекстуальное обучение побеждает тупую зубрежку, потому что мозгу проще запомнить живую связь, чем изолированный факт.

В основе лежат три кита: извлечение сущностей, построение графа и адаптивная генерация. Сначала AI выцепляет из текста ключевые смыслы, затем связывает их в сеть на разных языках и, наконец, выдает упражнения, которые бьют точно в твои пробелы. Если ты SMM-щик и пишешь про здоровое питание, система не будет мучить тебя темой «в аэропорту». Она подтянет термины вроде nutrient density или antioxidants, свяжет их с твоими идеями для постов и заставит использовать в контексте, который тебе реально нужен прямо сейчас.

Хотя исследование сфокусировано на языках, этот принцип графа знаний применим везде, где нужно быстро всосать большой объем инфы. Будь то изучение нового софта, погружение в маркетинг или разбор сложной технической документации — механика одна. Ты не просто читаешь текст, ты строишь структуру, где каждый новый кусок данных находит свое место. Полиглот-системы доказывают, что AI — это не просто чат-бот, а динамическая база знаний, которая растет вместе с тобой.

Короче: завязывай с приложениями, которые заставляют переводить «яблоко» по сто раз. Будущее за адаптивными графами, которые понимают, что ты уже знаешь, и подсовывают только то, что реально заполнит пустоты. DIY-MKG — это протокол того, как мы будем учиться всему через пару лет. Кто перейдет на обучение через контекст и связи, тот сэкономит годы жизни, остальные так и будут мусолить начальный уровень, удивляясь, почему ничего не запоминается.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с