arXiv:2505.16944 88 1 мая 2025 г. PRO

AGENTIF - Бенчмаркинг - Следование инструкциям больших языковых моделей в агентных сценариях

КЛЮЧЕВАЯ СУТЬ

Исследование показывает, что даже топовые модели (GPT-4o, Claude 3.5) КАТАСТРОФИЧЕСКИ ПЛОХО справляются с длинными и сложными инструкциями. Чем длиннее промпт и больше правил, тем выше вероятность ошибок. Модели особенно "ломаются" на условной логике ("если...то...") и правилах использования инструментов.

Адаптировать под запрос

Контент доступен только для PRO подписчиков

Чтобы получить доступ к полному содержанию этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс

YandexPay • SberPay • СБП • Карты РФ

⚡ Оплатить через Tribute

Telegram Stars • Моментальный доступ

Узнать о PRO

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

Выберите модель ИИ:

Ваш запрос:

0 / 2000

~0.5-2 N-токенов ~10-30с

~0.3-1 N-токенов ~5-15с

88

ОТЛИЧНО

AGENTIF - Бенчмаркинг - Следование инструкциям больших языко...

Возможности

Улучшение промптов 95%

Решение сложных задач 90%

Диалоговые агенты и виртуальные ассистенты 90%

Область

Автоматизация процессов 95%

Поддержка клиентов 85%

IT и разработка ПО 80%

Паттерн

Instruction Prompt 95%

КОМУ ПОЛЕЗНО

Аналитик

Извлекает и структурирует данные из неструктурированных текстов (отзывы, отчеты) в заданный формат (JSON). Использует промпт, четко разделяющий исходный текст, простые правила и обязательный пример конечной структуры (few-shot). Это обеспечивает получение на 99% валидных данных, сокращая время на ручную очистку.

Маркетолог

Создает контент-план для соцсетей со строгими требованиями. Вместо одного длинного промпта с условиями, задача разбивается на несколько коротких запросов для каждой платформы, каждый из которых включает конкретный пример (few-shot). Это повышает точность выполнения требований и соответствие брендбуку.

Разработчик

Генерирует код, который корректно использует внешние API. В промпте минимизируется сложность правил использования инструментов (Tool Constraints) и каждое правило сопровождается коротким рабочим примером кода (few-shot). Это снижает количество ошибок (неверные параметры, вызов несуществующих функций) и ускоряет разработку.

Менеджер поддержки

Создает надежного бота для обработки обращений клиентов. Вместо одного промпта со всем регламентом, используется цепочка простых промптов (декомпозиция задачи), где каждый шаг выполняет одну функцию (классификация, уточнение, ответ). Сложная условная логика выносится во внешний код, что повышает надежность бота в следовании регламенту.

Юрист

Готовит стандартизированные юридические документы. Использует многошаговый подход: сначала LLM помогает собрать и структурировать данные клиента, а затем отдельный простой запрос подставляет эти данные в шаблон, формат которого задан через пример (few-shot). Это ускоряет подготовку типовых документов и минимизирует ошибки форматирования.

HR-специалист

Проводит первичный скрининг резюме. Использует промпт с четким списком критериев и примером (few-shot) итоговой сводки в формате таблицы или JSON. Это сокращает время на ручной отбор и обеспечивает единообразный подход к оценке кандидатов.

Проектный менеджер

Автоматизирует создание отчетов о статусе проекта. Процесс разбивается на этапы (декомпозиция): сначала LLM извлекает обновления из разных источников по отдельности, а затем второй промпт компилирует эти данные в единый отчет, следуя строгому формату, заданному через пример (few-shot). Это экономит время и повышает точность отчетов.