3,583 papers
arXiv:2506.02720 88 3 июня 2025 г. FREE

LocalGPT: бенчмаркинг и развитие больших языковых моделей для локальных сервисов в Meituan

КЛЮЧЕВАЯ СУТЬ
Ключевой результат: Специализированная подготовка LLM на локальных данных гораздо эффективнее, чем простое увеличение размера универсальной модели
Адаптировать под запрос

Исследователи выяснили, как улучшить работу LLM для задач, связанных с локальными сервисами (рестораны, развлечения). Они создали специальный набор тестов (бенчмарк) и доказали, что даже небольшая модель (7B параметров), дообученная на данных конкретной предметной области (например, о ресторанах в Пекине), работает лучше, чем огромная универсальная модель (72B параметров). Для решения сложных задач они разработали "агентские рабочие процессы" — пошаговые инструкции для модели.

Ключевой результат: Специализированная подготовка LLM на локальных данных гораздо эффективнее, чем простое увеличение размера универсальной модели.

Для обычного пользователя суть метода заключается не в дообучении модели, а в подходе, который исследователи назвали "agentic workflow" (агентский рабочий процесс). Это способ заставить LLM решать сложную задачу не одним махом, а разбив ее на последовательность логических шагов, как это сделал бы человек-эксперт.

Представьте, что вам нужно выбрать ресторан. Вы не просто думаете "куда пойти?", а рассуждаете поэтапно: 1. "Какие рестораны в принципе нравятся людям с похожими на мои вкусами?" 2. "А что я сам предпочитаю, где я был в последнее время?" 3. "Какие у меня сейчас условия? Вечер субботы, я с друзьями, бюджет средний". 4. "Окей, с учетом всего этого, вот три лучших варианта".

Исследователи формализовали эту логику и заставили модель следовать ей. Для пользователя это означает, что вместо простого вопроса "Посоветуй ресторан", нужно дать LLM четкий план рассуждений прямо в промпте. Вы буквально говорите модели: "Сначала подумай об этом, потом проанализируй то, затем учти вот это, и только после этого дай мне ответ".

📌

Этот подход превращает LLM из простого "ответчика" в "аналитика", который следует вашему плану, что резко повышает релевантность и продуманность финального результата.

Анализ практической применимости:

  • Прямая применимость: Пользователь может напрямую скопировать логику "agentic workflow" в свои промпты. Вместо того чтобы задавать один сложный вопрос, можно создать промпт с разделами: "Роль", "Контекст", "Задача" и, самое главное, "План рассуждений", где по пунктам расписано, что и в каком порядке модель должна проанализировать. Это не требует никаких технических навыков.

  • Концептуальная ценность: Исследование дает два мощных концептуальных урока:

    1. Гипер-специфичность контекста: LLM не всеведуща. Ее знания о "ресторанах вообще" сильно уступают знаниям о "ресторанах в Москве для свиданий в дождливую погоду". Чем точнее и детальнее вы описываете свой локальный и временной контекст, тем лучше будет ответ. Знания о Пекине не помогли модели в Урумчи — это яркая иллюстрация данного принципа.
    2. Декомпозиция задачи: Сложные задачи нужно дробить. LLM лучше справляется, когда ее ведут по цепочке простых логических шагов, а не заставляют сразу выдать комплексный ответ.

* Потенциал для адаптации: Метод "agentic workflow" универсален. Его можно адаптировать для любой сложной задачи: планирование путешествия, разработка маркетинговой стратегии, написание бизнес-плана, выбор образовательного курса. Механизм адаптации прост: определите ключевые этапы принятия решения в вашей задаче и изложите их в виде пошагового плана для LLM.

Практически пример применения:

### Роль
Ты — опытный эксперт по организации досуга в Москве, который помогает парам спланировать идеальный вечер.

### Контекст
*   **Кто:** Пара, 30-35 лет. Ценят уютную атмосферу, хорошую кухню (итальянская, грузинская, современная европейская), не любят слишком шумные и пафосные места.
*   **Когда:** Вечер субботы, примерно с 19:00.
*   **Погода:** Хорошая, +22 градуса, без осадков.
*   **Бюджет:** Средний (до 5000-6000 руб. на двоих за ужин без алкоголя).
*   **Локация:** Внутри Садового кольца, желательно с возможностью немного прогуляться до или после.

### Задача
Предложить 3 разноплановых варианта для ужина, которые соответствуют контексту. Для каждого варианта укажи название, примерный средний чек, краткое описание атмосферы и почему он подходит.

### План рассуждений (Agentic Workflow)
Чтобы дать наилучший ответ, следуй этому плану шаг за шагом:

1.  **Анализ общих предпочтений:** Сначала определи, какие заведения в центре Москвы в целом популярны у пар 30-35 лет со средним бюджетом, ищущих уютную, но не скучную атмосферу.
2.  **Анализ специфических предпочтений:** Из общего списка отфильтруй те, что соответствуют указанным кухням (итальянская, грузинская, европейская) и не являются слишком шумными.
3.  **Учет контекста (погода и время):** Так как погода хорошая, отдай предпочтение местам, рядом с которыми есть приятные парки или пешеходные улицы для прогулки. Учти, что это вечер субботы, поэтому заведение должно быть таким, где есть шанс найти столик (или стоит бронировать заранее).
4.  **Формирование итоговых рекомендаций:** На основе анализа выше, представь 3 лучших варианта. Обоснуй каждый выбор, ссылаясь на контекст.

Почему это работает:

Этот промпт эффективен, потому что он в точности воспроизводит логику "Expert Agent" из исследования:

  1. Структурированный контекст: Вместо сплошного текста, вся информация четко разделена на блоки (Кто, Когда, Бюджет), что помогает модели лучше "переварить" данные.
  2. Четкая роль: Задание роли "эксперта по досугу" настраивает модель на нужный стиль и уровень детализации ответа.
  3. 3. Пошаговый план (Agentic Workflow): Это ключевой элемент. Промпт не просто просит "посоветуй", а заставляет модель выполнить последовательность мыслительных операций: сначала широкий анализ, затем сужение по критериям, затем учет дополнительных факторов и, наконец, синтез ответа. Это предотвращает "галлюцинации" и поверхностные ответы, заставляя модель строить рассуждение на основе предоставленных фактов и логических шагов.

Другой пример практического применения

### Роль
Ты — опытный контент-маркетолог, который помогает начинающим блогерам разработать стратегию.

### Контекст
*   **Блог:** Канал в Telegram о финансовой грамотности для фрилансеров и самозанятых.
*   **Автор:** Эксперт с 5-летним опытом в бухгалтерии для малого бизнеса.
*   **Целевая аудитория:** IT-специалисты, дизайнеры, копирайтеры на фрилансе, возраст 25-40 лет. Их главные боли: нестабильный доход, сложности с налогами, отсутствие накоплений.
*   **Цель блога:** Привлечь первых 1000 подписчиков и создать репутацию эксперта.

### Задача
Разработать контент-план на первый месяц (4 недели). План должен включать 3-4 темы постов на каждую неделю с указанием формата (например: пошаговая инструкция, разбор кейса, короткие советы, опрос).

### План рассуждений (Agentic Workflow)
Чтобы создать эффективный контент-план, действуй по следующей схеме:

1.  **Анализ болей аудитории:** Внимательно изучи боли целевой аудитории (нестабильный доход, налоги, накопления). Определи, какие вопросы для них самые острые и срочные.
2.  **Генерация тем:** На основе этих болей, сгенерируй пул из 15-20 тем для постов. Темы должны быть практическими и давать конкретную пользу.
3.  **Структурирование по неделям и форматам:** Распредели темы на 4 недели. Начни с самых насущных проблем, чтобы сразу зацепить аудиторию. Варьируй форматы контента (инструкции, кейсы, советы, опросы), чтобы поддерживать интерес.
4.  **Формирование итогового плана:** Представь финальный контент-план в виде таблицы или списка по неделям. Для каждой темы кратко обоснуй, почему она будет полезна аудитории.

Объяснение механизма почему этот пример работает.

Этот промпт работает по тому же принципу декомпозиции сложной творческой задачи на логические шаги, что и в исследовании.

  1. От проблемы к решению: План заставляет модель идти не от абстрактных "идей для постов", а от конкретных "болей аудитории". Это гарантирует, что контент будет релевантным и востребованным.
  2. Продуманная структура: Вместо хаотичного набора тем, модель вынуждена сгруппировать их по неделям и разнообразить форматы. Это имитирует работу настоящего маркетолога, который думает о вовлечении и удержании аудитории в долгосрочной перспективе.
  3. Принудительное обоснование: Требование "обосновать каждую тему" заставляет LLM не просто генерировать заголовки, а проверять их на соответствие целям блога и потребностям аудитории. Это повышает качество и глубину проработки контент-плана.

Таким образом, промпт не просто запрашивает информацию, а управляет процессом мышления модели, направляя ее к созданию стратегически выверенного, а не случайного продукта.

Оценка полезности: 88

📌

Основные критерии оценки

  • A. Релевантность техникам промтинга: Да. Исследование напрямую сравнивает свой подход с техниками промптинга (CoT, few-shot) и, что важнее, предлагает "агентские рабочие процессы" (agentic workflows) — по сути, готовые шаблоны для структурирования сложных запросов.
  • B. Улучшение качества диалоговых ответов: Да. Весь фокус работы на повышении точности и релевантности ответов в задачах, связанных с локальными сервисами (рекомендации, поиск, анализ отзывов).
  • C. Прямая практическая применимость: Да. Хотя основной метод (fine-tuning) недоступен обычному пользователю, предложенные "agentic workflows" можно легко адаптировать в виде структурированных промптов без какого-либо кода.
  • D. Концептуальная ценность: Очень высокая. Исследование наглядно демонстрирует важность специфического контекста (данные по конкретному городу) и ограниченность переноса знаний между разными контекстами (знания о Пекине не помогают в Урумчи). Это ключевой инсайт для написания промтов.
  • E. Новая полезная практика: Работа попадает в несколько кластеров:
    • Кластер 1 (Техники формулирования): "Agentic workflows" — это продвинутая форма декомпозиции задачи.
    • Кластер 2 (Поведенческие закономерности): Демонстрация того, как сильно производительность модели зависит от географического и культурного контекста.
    • Кластер 7 (Надежность и стабильность): Методы направлены на повышение точности в конкретных задачах.
  • Чек-лист практичности (+15 баллов): Да, работа показывает, как структурировать сложные запросы, и раскрывает неочевидные особенности поведения LLM (контекстуальная зависимость от географии), а также предлагает способы улучшить точность.
📌

Цифровая оценка полезности

Аргументы за высокую оценку (88): Исследование, хоть и сфокусировано на дообучении моделей, предоставляет два чрезвычайно ценных актива для обычного пользователя. Во-первых, это концептуальное понимание того, что контекст — король. Эксперименты с разными городами (Пекин vs. Урумчи) наглядно доказывают, что для получения релевантного ответа LLM нуждается в максимально специфичных данных о локации, культуре и привычках. Это учит пользователя не лениться и предоставлять детальный контекст. Во-вторых, "agentic workflows" — это, по сути, готовые рецепты для создания сложных, многошаговых промптов. Они учат пользователя не просто задавать вопрос, а давать модели пошаговый план мышления, что кардинально повышает качество результата.

Контраргументы (почему не 95+): * Основной метод исследования — дообучение (fine-tuning), что находится за пределами возможностей обычного пользователя. Практические техники промптинга являются скорее побочным продуктом и элементом сравнения, а не центральным объектом изучения. * Чтобы извлечь пользу, пользователю нужно проделать мыслительную работу: понять концепцию "agentic workflow" и адаптировать ее под свою задачу, превратив в структурированный промпт. Работа не дает готовых "копипаст" фраз.

Контраргументы (почему не 60-70):

📋

* Ценность концептуальных инсайтов и готовых логических схем ("workflows") слишком высока, чтобы считать исследование "просто любопытным". Оно дает фундаментальное понимание того, как и почему нужно структурировать сложные запросы, что напрямую влияет на качество промптов.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с