3,583 papers
arXiv:2506.00042 92 1 июня 2025 г. FREE

Улучшение обучения инструментов в больших языковых моделях с помощью иерархических контрольных списков ошибок

КЛЮЧЕВАЯ СУТЬ
Вместо того чтобы просто говорить модели ЧТО делать, мы явно указываем ей ЧЕГО НЕ ДЕЛАТЬ. Метод работает через двухуровневый чек-лист: ГЛОБАЛЬНЫЙ (универсальные ошибки для всех задач) и ЛОКАЛЬНЫЙ (специфичные ошибки для конкретной задачи). Превентивное информирование об ошибках значительно повышает надежность и предсказуемость результата.
Адаптировать под запрос
📌

1. Ключевые аспекты исследования:

Исследование показывает, что большие языковые модели часто ошибаются при использовании внешних инструментов (API), например, путают или пропускают нужные параметры. Авторы предлагают методHiTEC (Hierarchical Tool Error Checklist)— иерархический чек-лист ошибок, который встраивается прямо в промпт, чтобы научить модель избегать типичных промахов. HiTEC состоит из двух частей: "глобального" чек-листа общих ошибок (для всех инструментов) и "локального" чек-листа ошибок, специфичных для конкретного инструмента.

Ключевой результат: Предварительное информирование модели о типичных ошибках с помощью чек-листа значительно повышает точность и надежность ее работы с инструментами.

🔬

2. Объяснение всей сути метода:

Суть метода HiTEC — вместо того чтобы просто говорить LLM, что делать, мы явно указываем ей, чегоне делать. Это похоже на инструктаж для нового сотрудника: мы не только даем ему должностную инструкцию, но и рассказываем о частых ошибках, которые совершали его предшественники.

Метод реализуется через двухуровневый чек-лист:

  1. Глобальный чек-лист (Global Error Checklist): Это универсальный список типичных ошибок, не зависящих от конкретной задачи. Он вставляется в самый первый промпт. Примеры ошибок:

    • Пропущен обязательный параметр.
    • Неверный тип данных (например, текст вместо числа).
    • Лишняя информация в ответе.
    • Неправильный формат вывода (например, невалидный JSON).
  2. Локальный чек-лист (Local Error Checklist): Это список ошибок, характерных именно для данного, конкретного инструмента или задачи. Например, если мы работаем с API погоды, локальная ошибка может быть «забыли указать параметр time» или «перепутали широту и долготу». Этот чек-лист используется на втором шаге, если модель все-таки ошиблась, для уточняющей коррекции.

Для обычного пользователя наиболее применима реализация HiTEC-ICL (In-Context Learning). Она работает так:

* Шаг 1: Вы даете модели задачу и глобальный чек-лист ошибок.
* Шаг 2: Модель дает первый ответ.
* Шаг 3: Если ответ неверный, вы даете модели локальный чек-лист с описанием конкретной ошибки и просите: «Пожалуйста, исправь свой предыдущий ответ, избегая ошибок из этого списка».

На практике для большинства задач достаточно использовать только глобальный чек-лист в первом же промпте, чтобы превентивно предотвратить самые частые ошибки.

📌

3. Анализ практической применимости:

*Прямая применимость:Очень высокая. Любой пользователь может составить свой собственный чек-лист ошибок для задач, где важна структура и точность, и вставить его в промпт. Например, при генерации отчетов в формате JSON, составлении планов поездок или написании постов по строгому шаблону. Это готовая к использованию техника, не требующая никаких технических навыков.

  • Концептуальная ценность: Огромная. Исследование доказывает, что LLM — это не «черный ящик», а система, которую можно и нужно «программировать» с помощью четких инструкций и, что важнее, ограничений. Пользователь учится думать не только о том, какой результат он хочет, но и о том, каких ошибок он хочет избежать. Это повышает контроль над генерацией и делает взаимодействие с LLM более предсказуемым и надежным.

  • Потенциал для адаптации: Максимальный. Идею «чек-листа ошибок» можно перенести из технической сферы (API) в любую другую:

    • Копирайтинг: Создать чек-лист из клише, канцеляризмов и стоп-слов, которые модель не должна использовать.
    • Юриспруденция: Сделать чек-лист для анализа договора, где будут перечислены пункты, на которые нужно обратить особое внимание или которые нужно проигнорировать.
    • SMM: Составить чек-лист с требованиями к посту: «не больше 5 хэштегов», «не использовать пассивный залог», «обязательно добавить эмодзи».

Механизм адаптации прост: проанализируйте типичные ошибки, которые LLM совершает в вашей конкретной задаче, сформулируйте их в виде простого списка «Что нельзя делать» и добавьте этот список как неотъемлемую часть вашего промпта.


🚀

4. Практически пример применения:

# РОЛЬ

Ты — опытный SMM-менеджер, который умеет адаптировать длинные статьи в короткие, вовлекающие посты для социальных сетей.

# ЗАДАЧА

Прочитай приведенную ниже статью и создай на ее основе пост для Telegram-канала о продуктивности. Пост должен быть ярким, полезным и побуждать к обсуждению.

# СТРУКТУРА ОТВЕТА

Твой ответ должен строго следовать этой структуре:
1. **Заголовок:** Яркий и привлекающий внимание (с эмодзи).
2. **Основная часть:** 3-4 ключевых тезиса из статьи, изложенные простым языком. Каждый тезис — с эмодзи.
3. **Призыв к действию (CTA):** Вопрос к аудитории, чтобы спровоцировать комментарии.
4. **Хэштеги:** 3-4 релевантных хэштега.

### ЧЕК-ЛИСТ ЧАСТЫХ ОШИБОК (ОБЯЗАТЕЛЬНО ИЗБЕГАТЬ)

- **Error 1 (Длина заголовка):** Заголовок НЕ должен быть длиннее 10 слов.
- **Error 2 (Сложность языка):** НЕ используй канцелярит, сложные термины и пассивный залог. Пиши так, как будто объясняешь другу.
- **Error 3 (Форматирование):** НЕ пиши сплошным текстом. Используй абзацы и списки.
- **Error 4 (Лишняя информация):** НЕ добавляй свои личные мнения или информацию, которой нет в статье.
- **Error 5 (Количество тезисов):** В основной части должно быть НЕ БОЛЕЕ 4 тезисов.
- **Error 6 (Хэштеги):** Хэштегов должно быть НЕ БОЛЕЕ 4.

# СТАТЬЯ ДЛЯ АНАЛИЗА:

[Здесь вставляется текст длинной статьи о методах тайм-менеджмента, прокрастинации и т.д.]

🧠

5. Почему это работает:

Этот промпт работает за счет применения принципа HiTEC (чек-лист ошибок), который значительно повышает надежность и предсказуемость результата.

  1. Превентивное наведение фокуса: Секция ЧЕК-ЛИСТ ЧАСТЫХ ОШИБОК работает как "негативные ограничения". Она не просто говорит модели, что делать (это описано в секции СТРУКТУРА), а явно указывает на распространенные ловушки и промахи. Модель, обрабатывая промпт, вынуждена сверять свой будущий вывод с этим списком "запретов".

  2. Снижение двусмысленности: Такие правила, как "НЕ БОЛЕЕ 4 тезисов" или "Заголовок НЕ должен быть длиннее 10 слов", убирают любую двусмысленность. Без них модель могла бы решить, что 5 тезисов — это тоже "несколько", а длинный заголовок — это "информативно". Чек-лист делает требования строгими и измеримыми.

  3. Активация "режима самопроверки": Перечисляя ошибки с метками Error 1, Error 2, мы имитируем структуру, показанную в исследовании. Это заставляет модель уделить повышенное внимание каждому пункту и, по сути, запустить внутренний механизм самопроверки перед генерацией финального ответа. Вместо того чтобы просто креативно генерировать текст, модель переключается в режим следования строгим правилам, что и требуется в данной задаче.


📌

6. Другой пример практического применения

# РОЛЬ

Ты — ассистент по планированию путешествий. Твоя задача — создавать структурированные и полные планы поездок на основе запросов пользователя.

# ЗАДАЧА

Создай детальный план поездки в Рим на 3 дня для пары, которая интересуется историей и вкусной едой. Бюджет на развлечения и еду — 500 евро.

# ФОРМАТ ВЫВОДА

Предоставь ответ в виде единого JSON-объекта. Никакого другого текста до или после JSON выводить не нужно.

### ГЛОБАЛЬНЫЙ ЧЕК-ЛИСТ ОШИБОК ФОРМАТИРОВАНИЯ

Пожалуйста, строго придерживайся этих правил, чтобы избежать ошибок в выводе:
- **Error 1 (Пропущенный ключ):** Убедись, что в каждом дне (`day_1`, `day_2`, `day_3`) присутствуют ВСЕ ключи: `morning_activity`, `lunch_spot`, `afternoon_activity`, `dinner_spot`. Ни один не должен быть пропущен.
- **Error 2 (Неверный тип данных):** Значение ключа `estimated_cost` для каждого места должно быть числом (integer), а не строкой.
- **Error 3 (Пустое значение):** Ни один ключ не должен иметь пустое значение (`""` или `null`). Если подходящего варианта нет, предложи альтернативу.
- **Error 4 (Лишние ключи):** Не добавляй в JSON никаких ключей, кроме тех, что указаны в структуре примера (например, не нужно добавлять `weather` или `transport_details`).
- **Error 5 (Невалидный JSON):** Внимательно проверь, что все скобки расставлены правильно, а после последнего элемента в списке или объекте нет висячей запятой.

# ПРИМЕР СТРУКТУРЫ JSON (для day_1):

`json
{
 "trip_plan": {
 "city": "Rome",
 "duration_days": 3,
 "total_budget_eur": 500,
 "day_1": {
 "morning_activity": {
 "name": "Колизей и Римский Форум",
 "description": "Погружение в историю Древнего Рима.",
 "estimated_cost": 50
 },
 "lunch_spot": {
 "name": "Trattoria da Enzo al 29",
 "description": "Аутентичная римская кухня.",
 "estimated_cost": 60
 },
 // ... и так далее для afternoon и dinner
 },
 // ... и так далее для day_2 и day_3
 }
}`

🧠

7. Объяснение механизма почему этот пример работает.

Этот пример работает благодаря тому, что он превращает LLM из простого генератора текста в надежный генератор структурированных данных, используя принципы из исследования HiTEC.

  1. Явное определение формата (Positive Instruction): Сначала мы даем модели четкий "позитивный" пример желаемой структуры JSON. Это задает основной шаблон.

  2. Превентивная отладка через чек-лист (Negative Constraints): Секция ГЛОБАЛЬНЫЙ ЧЕК-ЛИСТ ОШИБОК — это прямое применение метода HiTEC. Она заставляет модель сфокусироваться на самых частых и критичных ошибках при генерации JSON:

    • Полнота данных (Error 1): Гарантирует, что структура будет одинаковой для всех дней, что критически важно для последующей автоматической обработки.
    • Корректность типов (Error 2): Предотвращает ошибки, когда вместо ожидаемого числа (бюджет) модель выдает строку ("около 50 евро"), что сломало бы любой парсер.
    • Чистота структуры (Error 4): Запрещает модели "творчески" добавлять поля, которые не предусмотрены схемой, сохраняя ответ консистентным.
    • Синтаксическая валидность (Error 5): Напрямую просит модель проверить синтаксис JSON, снижая вероятность получения "битого" ответа.

В совокупности, промпт не просто просит сделать хорошо, а вооружает модель знаниями о том, как не сделать плохо. Это переводит задачу из вероятностной плоскости в детерминированную, где LLM выступает в роли исполнителя, строго следующего техническому заданию и списку ограничений.

📌

Основные критерии оценки

  • A. Релевантность техникам промтинга: Да, предлагает конкретную структуру (иерархические чек-листы ошибок) и формулировки для встраивания в промпт (метод HiTEC-ICL).
  • B. Улучшение качества диалоговых ответов: Да, исследование напрямую нацелено на повышение точности и надежности LLM в задачах, требующих структурированного вывода (function/tool calling), что является продвинутым видом диалога.
  • C. Прямая практическая применимость: Да, метод HiTEC-ICL (In-Context Learning) может быть использован любым пользователем без кода. Он заключается в добавлении в промпт специальных инструкций-чек-листов. Метод HiTEC-KTO (fine-tuning) для обычного пользователя неприменим.
  • D. Концептуальная ценность: Очень высокая. Раскрывает, что LLM можно эффективно направлять не только позитивными инструкциями («сделай так»), но и негативными ограничениями («избегай вот таких ошибок»). Это помогает пользователю понять, что для получения надежного результата нужно явно прописывать ограничения и возможные точки отказа.
  • E. Новая полезная практика (кластеризация): Работа четко попадает в несколько кластеров:
    • Кластер 1 (Техники формулирования): Предлагает новую технику — "инструктирование через чек-листы ошибок".
    • Кластер 3 (Оптимизация структуры): Чек-лист — это элемент структурирования промпта.
    • Кластер 5 (Извлечение и структурирование): Основная цель метода — улучшить генерацию структурированных вызовов инструментов (API), что очень близко к извлечению данных в формате JSON.
    • Кластер 7 (Надежность и стабильность): Это ядро исследования. Метод напрямую борется с ошибками («галлюцинациями» в параметрах) и повышает консистентность ответов.
  • Чек-лист практичности (+15 баллов): Да, работа дает готовые конструкции (чек-листы), показывает, как структурировать сложные запросы, раскрывает неочевидные особенности LLM (типичные ошибки при вызове функций) и предлагает способ улучшить точность.
📌

2 Цифровая оценка полезности

Аргументы в пользу оценки (92/100):

Исследование предлагает чрезвычайно практичный и мощный фреймворк, который пользователь может немедленно применить для повышения надежности LLM в задачах, требующих точности и следования формату. Идея «чек-листа ошибок» проста для понимания и реализации, но при этом дает значительный прирост качества, что подтверждается цифрами в статье (до 42% улучшения).

Ключевая ценность для пользователя — это переход от «надежды», что модель поймет правильно, к «инжинирингу», где пользователь явно указывает на потенциальные ошибки, тем самым направляя LLM к правильному результату. Это фундаментальный сдвиг в подходе к промптингу, который дает пользователю больше контроля. Работа дает готовый паттерн, который можно адаптировать под любые задачи, требующие структурированного ответа (генерация JSON, таблиц, следование сложному плану).

Контраргументы:

  • Почему оценка могла быть ниже? Фокус исследования довольно узкий — tool calling (вызов API). Обычному пользователю, который пишет эссе или письма, терминология "заполнение параметров" и "вызов функций" может показаться слишком технической. Чтобы применить метод к своим задачам, пользователю нужно сделать шаг по адаптации и обобщению, поняв, что "вызов функции с параметрами" — это любая задача, требующая вывода в строгом формате.
  • Почему оценка могла быть выше? Если рассматривать не только прямую пользу, но и концептуальную, то работа заслуживает еще более высокой оценки. Принцип «негативных ограничений» (negative constraints) универсален. Его можно применять для творческих задач («напиши рассказ, но избегай этих клише: ...»), для анализа («проанализируй документ, но не обращай внимания на...») и т.д. Исследование дает научное обоснование и структуру тому, что многие опытные промпт-инженеры делают интуитивно.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с