3,583 papers
arXiv:2404.18043 50 28 апр. 2024 г. FREE

Использование больших языковых моделей для извлечения информации из сделок с недвижимостью

КЛЮЧЕВАЯ СУТЬ
Улучшение качества диалоговых ответов: Высокая, но достигается за счет дообучения, а не промптинга
Адаптировать под запрос

Исследователи дообучили языковую модель для автоматического извлечения информации из юридических договоров о недвижимости. Поскольку настоящих договоров мало и они конфиденциальны, авторы сгенерировали тысячи "синтетических" контрактов для обучения модели, что позволило ей научиться точно и кратко отвечать на вопросы по содержанию документа.

Ключевой результат: Дообучение на специализированных данных кардинально улучшает способность LLM давать точные, краткие ответы и не выдумывать информацию, которой нет в исходном тексте.

Хотя основная часть исследования посвящена дообучению (fine-tuning), что недоступно обычному пользователю, в нем есть крайне полезное наблюдение, которое можно превратить в практический метод промптинга.

Суть метода заключается в "проверке на честность". Исследователи обнаружили, что модели склонны "галлюцинировать" (выдумывать факты), когда их просят извлечь информацию. Чтобы бороться с этим, они намеренно включали в свои тесты вопросы о данных, которых заведомо не было в контракте (например, "Какая страховая компания указана в договоре?").

Правильно настроенная модель должна была ответить, что такая информация отсутствует. Базовые же модели часто пытались что-то придумать. Этот принцип можно перенести в свои промпты: чтобы повысить надежность ответа LLM при анализе текста, нужно не только просить извлечь нужную информацию, но и задавать "контрольный" вопрос о том, чего в тексте нет. Если модель честно признается в отсутствии данных, вы можете больше доверять остальным ее ответам.

Кроме того, качественный анализ в статье (IX.B) показывает, что необученная модель дает многословные, цитирующие ответы, а обученная — краткие и по существу. Это учит нас тому, что в промпте стоит явно требовать краткости, прямоты и ответа своими словами, а не цитатами.

  • Прямая применимость: Пользователь может напрямую внедрить в свои промпты для анализа текста "контрольный вопрос" о несуществующей информации. Это простой и эффективный способ проверить модель на склонность к галлюцинациям в данном конкретном запросе. Также можно явно добавлять инструкции о краткости и прямоте ответа.

  • Концептуальная ценность: Исследование наглядно демонстрирует, что LLM — это не "всезнающий оракул", а инструмент, склонный к ошибкам и "заполнению пробелов" вымыслом. Оно формирует полезную "модель недоверия" и учит пользователя необходимости верифицировать ответы, особенно при работе с важными документами. Понимание разницы между многословным цитированием и кратким синтезом помогает лучше формулировать требования к формату вывода.

  • Потенциал для адаптации: Метод "проверки на честность" универсален. Его можно адаптировать для любой задачи, где требуется точное извлечение фактов из предоставленного контекста: анализ отзывов, суммаризация новостей, разбор деловой переписки, изучение научных статей. Вместо сложного дообучения пользователь применяет простой поведенческий тест прямо в промпте.

Ты — внимательный ассистент-аналитик. Твоя задача — проанализировать отзыв клиента на новый смартфон и структурировать информацию.

**Контекст (отзыв клиента):**
"Купил вчера модель 'AuraPhone X'. Экран просто потрясающий, очень яркие и сочные цвета, смотреть видео одно удовольствие. Камера делает отличные снимки днем, но вечером появляются шумы, ожидал большего. Батарея держит заряд весь день при активном использовании, что радует. А вот корпус оказался довольно скользким, без чехла носить страшно. Заряжается быстро, за полчаса до 50%."

**Твоя задача:**
1.  Выдели основные **Плюсы** и **Минусы** устройства, упомянутые в отзыве. Представь их в виде двух списков.
2.  Ответь на следующие вопросы, основываясь **СТРОГО** на тексте отзыва:
    *   Насколько быстро заряжается телефон?
    *   **Какой объем оперативной памяти у этой модели?**

**Формат ответа:**
Сначала предоставь списки плюсов и минусов, а затем дай ответы на вопросы. Если информации для ответа на вопрос в тексте нет, прямо укажи на это.

Этот промпт использует два ключевых принципа, вытекающих из исследования:

  1. Структурирование и требование точности: Промпт четко определяет роль ("ассистент-аналитик"), задачу (извлечь плюсы и минусы) и формат вывода. Это направляет модель на структурированный анализ, а не на общие рассуждения.

  2. "Проверка на честность" (ключевая механика): В отзыве нет ни слова об объеме оперативной памяти. Вопрос "Какой объем оперативной памяти у этой модели?" является контрольным.

    • Хороший ответ модели: "В предоставленном отзыве нет информации об объеме оперативной памяти."
    • Плохой ответ (галлюцинация): "Обычно у таких моделей 8 ГБ оперативной памяти."

Если модель правильно отвечает на контрольный вопрос, это повышает доверие к остальной извлеченной ею информации (спискам плюсов и минусов). Эта техника, вдохновленная исследованием, позволяет пользователю без специальных инструментов оценить надежность ответа LLM в конкретной задаче.

Ты — ассистент руководителя проекта. Проанализируй выдержку из протокола совещания и подготовь краткую сводку.

**Контекст (протокол совещания):**
"Тема: Запуск нового сайта.
Присутствовали: Анна (маркетинг), Виктор (разработка), Ольга (дизайн).
Обсуждение: Виктор сообщил, что основной функционал бэкенда готов, но требуется еще неделя на интеграцию платежной системы. Ольга представила финальный макет главной страницы, который был утвержден. Анна подняла вопрос о необходимости подготовки контента для раздела 'Блог' к моменту запуска. Решили, что Анна предоставит 3 статьи в течение следующих двух недель. Запуск сайта предварительно намечен на конец месяца."

**Твоя задача:**
1.  Сформируй список **ключевых решений**, принятых на совещании.
2.  Составь список **задач (action items)** с указанием ответственных.
3.  Ответь на следующий вопрос, основываясь **ИСКЛЮЧИТЕЛЬНО** на тексте протокола:
    *   **Какой бюджет был выделен на разработку?**

**Требования к ответу:**
Будь краток и точен. Если для ответа на вопрос не хватает данных в тексте, четко сообщи об этом.

Механизм работы этого промпта аналогичен предыдущему и основан на выводах из исследования.

  1. Ограничение контекста: Инструкция "основываясь ИСКЛЮЧИТЕЛЬНО на тексте протокола" создает жесткие рамки, снижая вероятность того, что модель будет использовать свои общие знания.

  2. Контрольный вопрос-ловушка: В протоколе не упоминается бюджет. Вопрос "Какой бюджет был выделен на разработку?" служит для проверки модели на галлюцинации. Правильный ответ ("Информация о бюджете в протоколе отсутствует") сигнализирует о том, что модель следует инструкциям и не додумывает факты. Это делает списки ключевых решений и задач, которые она сгенерировала, более заслуживающими доверия.

Таким образом, пользователь применяет простую, но эффективную технику для повышения надежности и точности LLM при выполнении задач по извлечению и структурированию информации, что является практической адаптацией одного из центральных выводов научной статьи.

📌

Основные критерии оценки

  • A. Релевантность техникам промтинга: Низкая. Исследование фокусируется на дообучении (fine-tuning) модели, а не на техниках составления промптов для готовых моделей.
  • B. Улучшение качества диалоговых ответов: Высокая, но достигается за счет дообучения, а не промптинга. Качественный анализ ответов (раздел IX.B) дает косвенные идеи для промптов.
  • C. Прямая практическая применимость: Очень низкая. Основной метод (генерация синтетических данных и fine-tuning модели с помощью LoRA) недоступен обычному пользователю чат-ботов.
  • D. Концептуальная ценность: Средняя. Сравнение ответов базовой и дообученной модели (Qualitative Analysis) дает ценное понимание поведения LLM, их склонности к излишней многословности и галлюцинациям, а также показывает пути их снижения.
  • E. Новая полезная практика (кластеры): Работа частично затрагивает кластеры #2 (Поведенческие закономерности LLM), демонстрируя разницу в ответах до и после fine-tuning, и #7 (Надежность и стабильность), предлагая метод снижения галлюцинаций.
  • Чек-лист практичности (+15 баллов): Да, исследование раскрывает неочевидные особенности поведения LLM и предлагает способ улучшить точность ответов (путем задавания вопросов о несуществующей в тексте информации).
📌

Цифровая оценка полезности

Исследование получает оценку 50 из 100, так как его основной фокус — это сложный технический процесс дообучения модели для узкой задачи, что не имеет прямой практической ценности для обычного пользователя. Однако работа содержит ценные концептуальные находки в разделе качественного анализа (IX.B) и один конкретный прием для борьбы с галлюцинациями, который можно адаптировать для повседневного использования.

Контраргументы к оценке: * Почему оценка могла быть выше? Можно было бы оценить выше (до 65), так как качественный анализ ответов "до" и "после" наглядно иллюстрирует, к какому идеалу краткости и точности нужно стремиться при формулировании промптов. Кроме того, идея "проверочных вопросов" для снижения галлюцинаций — это конкретная и полезная техника, заслуживающая высокой оценки. * Почему оценка могла быть ниже? Можно было бы оценить ниже (до 35-40), поскольку 95% статьи посвящено темам, абсолютно недоступным и непонятным для неспециалиста (PEFT, LoRA, генерация синтетических данных, метрики BERTScore). Практическая польза извлекается из нескольких абзацев, что делает ее случайной, а не основной целью исследования.


Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с