3,583 papers
arXiv:2505.16944 88 1 мая 2025 г. PRO

AGENTIF - Бенчмаркинг - Следование инструкциям больших языковых моделей в агентных сценариях

КЛЮЧЕВАЯ СУТЬ
Исследование показывает, что даже топовые модели (GPT-4o, Claude 3.5) КАТАСТРОФИЧЕСКИ ПЛОХО справляются с длинными и сложными инструкциями. Чем длиннее промпт и больше правил, тем выше вероятность ошибок. Модели особенно "ломаются" на условной логике ("если...то...") и правилах использования инструментов.
Адаптировать под запрос

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с