3,583 papers
arXiv:2507.22910 85 18 июля 2025 г. FREE

Парадокс: дообучение Mistral 7B на реальных данных проиграло по точности и полноте обычному промпту к более крупной модели — просто потому что промпт был грамотно устроен.

КЛЮЧЕВАЯ СУТЬ
Парадокс: дообучение Mistral 7B на реальных данных проиграло по точности и полноте обычному промпту к более крупной модели — просто потому что промпт был грамотно устроен. Метод позволяет получать точные тексты без выдумок из любых данных — нужно лишь правильно подать информацию. Фишка: не "напиши про отель, он уютный и у него есть бассейн" — а "Атмосфера: уютная / Бассейн: открытый, 25м / Завтрак: включён" — модель перестаёт быть собеседником и становится исполнителем по чек-листу.
Адаптировать под запрос

Исследователи решали бизнес-задачу по созданию единообразных и качественных описаний отелей для сайта бронирования, используя данные из разных источников. Они сравнили два подхода: дообучение небольшой модели (Mistral 7B) и использование более мощной модели (Mixtral 8x7B) с продвинутым системным промптом. В результате, модель Mixtral с четко структурированным промптом показала значительно лучшие результаты по точности и полноте, сгенерировав более качественный контент с меньшим количеством "выдумок".

Ключевой результат: Предоставление LLM четко структурированного контекста (данных, разбитых на категории) в сочетании с системной инструкцией является более эффективной стратегией для получения качественного результата, чем дообучение модели на неструктурированных данных.

Суть метода, который может применить любой пользователь, заключается в подходе "Разделяй и властвуй" при подготовке информации для LLM. Вместо того чтобы писать сплошной текст с запросом, нужно разделить свой промпт на две четкие части:

  1. Инструкция (Системный промпт): В самом начале вы задаете модели роль и основную цель. Вы говорите ей, кем она должна быть (например, "Ты — опытный маркетолог") и что конкретно от нее требуется ("Твоя задача — написать яркий и привлекательный пост для соцсетей"). Это задает тон, стиль и формат будущего ответа.

  2. Контекст (Структурированные данные): Вместо того чтобы вплетать факты в повествование, вы предоставляете их в виде структурированного списка или блоков с четкими заголовками. Например, вместо "напиши про наш ресторан, он уютный, у нас есть пицца и паста, и мы на главной улице", вы даете модели "шпаргалку":

    • Название: "La Dolce Vita"
    • Атмосфера: "Уютная, семейная, итальянская траттория"
    • Фирменные блюда: "Пицца Маргарита на дровах, Паста Карбонара"
    • Расположение: "Главная улица, д. 15"
🔗

Этот подход превращает LLM из "собеседника" в "исполнителя". Вы даете ей четкое ТЗ (инструкцию) и все необходимые материалы в удобном виде (контекст). Модель не тратит ресурсы на то, чтобы "додумать" или вычленить факты из вашего рассказа, а сразу приступает к выполнению задачи, используя предоставленные данные как чек-лист. Это резко повышает точность, полноту и снижает риск галлюцинаций.

Анализ практической применимости:

  • Прямая применимость: Метод применим немедленно и в любом чате с LLM. Пользователь может взять за основу структуру из исследования (роль, задача, контекст с категориями) и адаптировать ее под любую свою задачу: от написания делового письма до создания плана путешествия. Это не требует никаких технических навыков.

  • Концептуальная ценность: Исследование наглядно доказывает, что LLM — это не "черный ящик", а инструмент, который работает по принципу "качественные данные на входе — качественный результат на выходе". Оно учит пользователя думать о своем запросе как о техническом задании: чем четче и структурированнее ТЗ, тем лучше будет результат. Это помогает избавиться от иллюзии, что модель "должна сама догадаться".

* Потенциал для адаптации: Механизм адаптации предельно прост. Для любой задачи нужно мысленно разбить всю необходимую информацию на логические блоки и дать им названия. Например, для составления резюме это будут блоки "Опыт работы", "Образование", "Ключевые навыки", "Личные качества". Для планирования тренировки — "Цель", "Доступное оборудование", "Продолжительность", "Ограничения по здоровью". Этот шаблон универсален.

Практически пример применения:

**Твоя роль:** Ты — опытный SMM-менеджер, специализирующийся на продвижении локальных заведений. Твой стиль — живой, дружелюбный и аппетитный.

**Твоя задача:** На основе предоставленного контекста напиши короткий, но увлекательный пост для Instagram о новом кафе. Пост должен вызывать желание зайти на чашку кофе. Добавь 3-4 релевантных эмодзи и 5-7 хэштегов.

---
**КОНТЕКСТ ДЛЯ ПОСТА**

*   **Название заведения:** "Зерно и Пена"
*   **Концепция:** Уютная кофейня третьей волны с акцентом на качественный кофе и свежую выпечку.
*   **Атмосфера:** Светлый интерьер, много растений, удобные кресла для работы и отдыха, тихая фоновая музыка.
*   **Фирменные позиции:**
    *   Кофе: Флэт уайт на овсяном молоке.
    *   Выпечка: Миндальный круассан, который пекут на месте каждое утро.
*   **Уникальная особенность:** Каждую неделю — новый сорт кофе в эспрессо от локальных обжарщиков.
*   **Адрес:** ул. Тихая, д. 5 (вход со двора).
---

Почему это работает:

Этот промпт эффективен благодаря нескольким механикам, напрямую следующим из исследования:

  1. Четкое разделение ролей: Твоя роль и Твоя задача немедленно настраивают модель на нужный лад, определяя стиль (дружелюбный, аппетитный) и формат (пост для Instagram с эмодзи и хэштегами).
  2. Структурированный контекст: Вместо сплошного текста, вся информация о кафе подана в виде списка с маркерами (Название, Концепция, Атмосфера). Это работает как "чек-лист" для LLM, гарантируя, что ни одна важная деталь не будет упущена.
  3. Предотвращение галлюцинаций: Модели не нужно ничего выдумывать. Все факты (название, адрес, фирменные блюда) уже предоставлены. Это минимизирует риск того, что она "придумает" несуществующий десерт или неправильный адрес.
  4. Фокус на качестве: Модель может направить все свои "творческие" ресурсы не на поиск и интерпретацию фактов, а на их красивую упаковку в текст, соответствующий заданной роли SMM-менеджера.

Другой пример практического применения

**Твоя роль:** Ты — внимательный и структурированный ассистент руководителя. Твой стиль письма — деловой, четкий и лаконичный.

**Твоя задача:** На основе данных ниже, составь краткий email для руководителя (Ивана Петровича) о статусе проекта "Альфа". Цель письма — быстро ввести его в курс дела.

---
**КОНТЕКСТ ДЛЯ EMAIL**

*   **Название проекта:** "Альфа" (Запуск нового сайта)
*   **Отчетный период:** 1-7 июля 2024 г.
*   **Ключевые достижения за неделю:**
    *   Дизайн главной страницы утвержден.
    *   Завершен модуль регистрации пользователей.
    *   Проведено успешное нагрузочное тестирование сервера.
*   **Возникшие проблемы:**
    *   Поставщик платежной системы задерживает предоставление API-ключей на 3 дня.
*   **План на следующую неделю:**
    *   Интеграция утвержденного дизайна.
    *   Начало разработки раздела "Личный кабинет".
    *   Повторный запрос ключей у платежной системы.
---

Объяснение механизма почему этот пример работает.

Этот промпт работает по тому же принципу, что и предыдущий, но в деловом контексте:

  1. Контекстуальная роль: Роль "внимательного ассистента" и стиль "деловой, четкий" сразу задают нужный тон для корпоративной переписки, отсекая излишнюю "креативность" или неформальность.
  2. Структура как основа: Информация разбита на логические блоки, которые являются стандартными для любого отчета о статусе проекта (Достижения, Проблемы, Планы). Это гарантирует, что итоговый email будет структурированным и легким для восприятия руководителем.
  3. Эффективность и полнота: Руководитель получит письмо, в котором есть вся необходимая информация и нет "воды". Модель не упустит ни одного пункта из контекста, так как он подан в виде четкого списка. Это идеальный способ быстро и точно передать суть дела, что и требовалось в задаче.

Оценка полезности: 85

📌

Основные критерии оценки

  • A. Релевантность техникам промтинга: Да, исследование напрямую демонстрирует два типа промптов (для fine-tuning и system prompt), показывая, как структурирование контекста влияет на результат.
  • B. Улучшение качества диалоговых ответов: Да, основная цель исследования — улучшить полноту (до 99.6%), точность (до 98.8%) и снизить галлюцинации (до 1.2%) в генерируемых текстах.
  • C. Прямая практическая применимость: Да, метод структурирования контекста и использования системного промпта (как в случае с Mixtral 8x7B) полностью применим обычным пользователем без какого-либо кода или донастройки.
  • D. Концептуальная ценность: Да, исследование отлично иллюстрирует фундаментальный принцип: качество и структура входных данных (контекста) напрямую определяют качество выходного текста. Оно также дает понимание о компромиссе между мощностью модели и сложностью промпта.
  • E. Новая полезная практика (кластеризация): Работа попадает в несколько ключевых кластеров:
    • 1. Техники формулирования промптов: Демонстрирует подход с системным промптом и структурированным контекстом.
    • 3. Оптимизация структуры промптов: Явно показывает пользу от разбиения контекста на категории (Recreation, Services, Dining и т.д.).
    • 5. Извлечение и структурирование: По сути, это задача генерации структурированного описания из набора фактов.
    • 7. Надежность и стабильность: Одна из ключевых метрик — снижение галлюцинаций, что напрямую повышает надежность.
  • Чек-лист практичности: Дает готовые конструкции для промптов, показывает, как структурировать сложные запросы и как улучшить точность ответов. (+15 баллов).
📌

Цифровая оценка полезности

Аргументы за оценку 85: Исследование представляет собой почти идеальный кейс, доказывающий ценность одного из фундаментальных принципов промпт-инжиниринга: структурированный ввод порождает качественный вывод. Пример системного промпта для Mixtral (рис. 4) и структурирование контекста (рис. 2) — это готовая инструкция для любого пользователя. Она учит не просто просить, а предоставлять модели "сырые данные" в удобном для нее формате, что резко снижает галлюцинации и повышает полноту ответа. Это универсальный и крайне полезный навык.

Контраргументы (почему оценка не 95-100): * Технический фокус: Значительная часть статьи посвящена сравнению моделей, fine-tuning (QLoRA), требованиям к VRAM и стоимости инстансов AWS. Эта информация совершенно нерелевантна для обычного пользователя ChatGPT или Claude и может отпугнуть его от сути. * Отсутствие "магической фразы": Исследование не открывает новую прорывную технику вроде "Chain-of-Thought", а скорее эмпирически подтверждает уже известную лучшую практику (структурирование данных). Поэтому "вау-эффект" несколько ниже, чем у работ, вводящих совершенно новые парадигмы.

Контраргументы (почему оценка не 60-70): * Универсальность принципа: Несмотря на узкую доменную область (туризм), продемонстрированный подход к структурированию контекста абсолютно универсален. Его можно применить для написания email, создания маркетинговых текстов, составления резюме и т.д. Практическая польза выходит далеко за рамки описанного кейса.

🚀

* Наглядность: Примеры промптов (рис. 3 и 4) очень наглядны и легко адаптируются. Пользователю не нужно читать всю статью, чтобы понять основной принцип и начать его применять.

📋 Дайджест исследования

Ключевая суть

Парадокс: дообучение Mistral 7B на реальных данных проиграло по точности и полноте обычному промпту к более крупной модели — просто потому что промпт был грамотно устроен. Метод позволяет получать точные тексты без выдумок из любых данных — нужно лишь правильно подать информацию. Фишка: не "напиши про отель, он уютный и у него есть бассейн" — а "Атмосфера: уютная / Бассейн: открытый, 25м / Завтрак: включён" — модель перестаёт быть собеседником и становится исполнителем по чек-листу.

Принцип работы

Обычный запрос — это монолог. Модель слушает, что-то выхватывает, что-то додумывает. Структурированный контекст — это ТЗ с готовыми материалами. Промпт разбивается на две части: инструкция (кто модель, что делает, в каком стиле) и данные (факты — списком, с именованными блоками). Модель проходит по блокам как по списку покупок. Ни одна деталь не теряется, ничего не нужно угадывать.

Почему работает

LLM плохо делает два дела разом: вычленять факты из сплошного текста и красиво их упаковывать. Когда данные уже разложены по полочкам — она тратит все силы на упаковку. Именно поэтому "Бассейн: открытый, 25м" даёт точный результат, а "у нас огромный бассейн рядом с морем" — выдумку. Исследование сравнивало два подхода на реальных данных о тысячах отелей: структурированный промпт к Mixtral 8x7B обошёл дообученный Mistral 7B по точности и полноте при меньшем количестве галлюцинаций. Вывод жёсткий: не нужно тратить ресурсы на дообучение, если данные можно просто нормально оформить.

Когда применять

Генерация описаний на основе фактов → для карточек товаров, профилей услуг, объявлений о недвижимости, туристических страниц — особенно когда нельзя допустить выдуманных деталей. Деловые письма и отчёты → когда нужно собрать разрозненные данные в связный текст без потерь. Контент-конвейеры → когда один шаблон промпта нужно применять к сотням однотипных объектов с разными данными. НЕ подходит для чисто творческих задач без фактологической базы — там структура не даёт преимущества.

Мини-рецепт

1. Задай роль и цель: В начале промпта — кто модель и что конкретно она делает. Пример: <роль>Ты — маркетолог, пишешь карточки товаров для интернет-магазина. Стиль: живой, конкретный, без воды.
2. Поставь разделитель: Отдели инструкцию от данных явным маркером — например, строкой "---" или заголовком "КОНТЕКСТ:". Модель должна чётко видеть где ТЗ, а где материалы.
3. Разбей данные на именованные блоки: Каждый факт — отдельная строка с заголовком. Не "уютный ресторан с итальянской кухней", а "Атмосфера: уютная / Кухня: итальянская / Фирменное блюдо: паста карбонара".
4. Проверь что ничего не упущено: Если категория важна для результата — включи её явно, даже если кажется очевидной. Пустой блок лучше отсутствующего.

Примеры

[ПЛОХО] : Напиши описание нашего отеля. Он уютный, есть бассейн, хорошее расположение, завтрак включён, подходит для семей
[ХОРОШО] : Роль: Ты — копирайтер для сайта бронирования отелей. Стиль: тёплый, конкретный, без штампов. Задача: напиши описание отеля в 3 предложениях для карточки на сайте. --- КОНТЕКСТ: - Название: «Морской бриз» - Категория: 4 звезды - Расположение: 50 метров от пляжа, центр Сочи - Питание: завтрак включён, шведский стол - Инфраструктура: открытый бассейн, спа, детский клуб - Для кого: семьи с детьми Разница: в плохом варианте модель угадывает детали и рискует их приукрасить. В хорошем — у неё есть чёткий список фактов, и она просто красиво их упаковывает.
Источник: Large Language Models in the Travel Domain: An Industrial Experience
ArXiv ID: 2507.22910 | Сгенерировано: 2026-03-02 17:13

Методы

МетодСуть
Инструкция + блоки данных с заголовкамиРаздели промпт на две части. Первая: роль и задача (Ты — X. Твоя задача — Y). Вторая: данные разбиты на блоки с названиями (Название: ..., Атмосфера: ...). Почему работает: Модель получает чек-лист фактов. Не тратит ресурс на вычленение данных из текста — сразу работает с ними. Каждый блок = отдельный якорь, который трудно пропустить. Когда применять: Нужно сгенерировать текст на основе набора фактов. Когда не работает: Творческая задача без конкретных данных на входе

Тезисы

ТезисКомментарий
Структурированный промпт с большой моделью лучше, чем дообучение маленькойЕсли данные неструктурированные и разрозненные — дообучение маленькой модели не спасает. Модель не учится извлекать смысл из хаоса. Дешевле взять большую модель и дать ей те же данные, но в структурированном виде. Применяй: прежде чем думать о дообучении — попробуй структурировать контекст и сменить модель на более мощную
📖 Простыми словами

Большие языковые модели в туристической сфере: промышленный опыт

arXiv: 2507.22910

Суть в том, что современные LLM в тревел-индустрии перестали быть просто чат-ботами и превратились в цифровых консьержей. Они больше не ищут совпадения по словам, а пытаются «прожить» клиентский опыт, сопоставляя запрос с контекстом. Если раньше поисковик выдавал список отелей, то теперь модель анализирует тональность отзывов, специфику локации и даже такие мелочи, как наличие розеток у дивана. Это фундаментальный сдвиг: AI оценивает не наличие услуги, а качество её реализации через призму чужого опыта.

Это как если бы ты выбирал отель не по официальным фото с сайта, а позвонил другу, который там жил неделю назад. Друг не будет зачитывать тебе брошюру, он скажет: «Там завтраки — отвал всего, но лифт скрипит как проклятый». Исследование показывает, что для AI неформальный контекст и детализация важнее, чем сухие характеристики. Если в описании нет «мяса», модель просто проигнорирует объект, посчитав его безликим.

В индустрии сейчас рулят три метода: извлечение сущностей (когда AI выцепляет из отзывов конкретные фишки вроде «лучший флэт уайт в районе»), анализ намерений (понимает ли модель, что юзер хочет работать, а не просто пить кофе) и генерация персонализированных офферов. В примере с кофейней это работает через ролевую модель и жесткую привязку к контексту. Мы не просто пишем текст, мы заставляем AI имитировать голос бренда, используя локальные триггеры — адрес во дворе, свежую выпечку и конкретные сорта зерна.

Хотя исследование сфокусировано на путешествиях, этот принцип — контекстуальное обогащение — применим везде, от продажи софта до записи на ноготочки. Любой бизнес, который хочет, чтобы ChatGPT или Perplexity рекомендовали именно его, должен кормить их не ключевиками, а смысловыми блоками. Если ты не объяснил нейронке свою уникальность через конкретные детали, для неё ты — очередной безликий бизнес, который не стоит внимания пользователя.

Главный вывод: эпоха «просто текстов» закончилась, началась эра структурированного контекста. Нужно перестать писать описания «для всех» и начать упаковывать смыслы так, чтобы AI мог легко вычленить твои преимущества. Либо ты даешь модели четкие зацепки вроде еженедельной смены зерна и уютных кресел, либо остаешься на задворках выдачи. GEO — это новое SEO, и выигрывает в нем тот, кто умеет в детали, а не в объемы.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с