arXiv:2506.22853 82 28 июня 2025 г. PRO

DICE-BENCH: Оценка возможностей использования инструментов большими языковыми моделями в многораундовых, многосторонних диалогах

КЛЮЧЕВАЯ СУТЬ

Ключевой результат: Чем сильнее важные детали "размазаны" по диалогу, тем выше вероятность, что LLM ошибется или упустит что-то важное

Адаптировать под запрос

Контент доступен только для PRO подписчиков

Чтобы получить доступ к полному содержанию этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс

YandexPay • SberPay • СБП • Карты РФ

⚡ Оплатить через Tribute

Telegram Stars • Моментальный доступ

Узнать о PRO

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

Выберите модель ИИ:

Ваш запрос:

0 / 2000

~0.5-2 N-токенов ~10-30с

~0.3-1 N-токенов ~5-15с

82

ОЧЕНЬ ХОРОШО

DICE-BENCH: Оценка возможностей использования инструментов б...

Возможности

Диалоговые агенты и виртуальные ассистенты 95%

Извлечение и структурирование данных 80%

Решение сложных задач 75%

Область

Наука и исследования 90%

IT и разработка ПО 85%

Личная продуктивность 70%

Паттерн

Новое: Консолидация контекста 95%

КОМУ ПОЛЕЗНО

Пользователь LLM

Консолидирует разрозненную информацию из длинного диалога в один структурированный промпт перед финальным запросом, чтобы избежать потери данных и улучшить точность ответов LLM. Польза: Снижение ошибок LLM на 30-50% в задачах, требующих сбора данных из контекста.

Разработчик чат-ботов

Проектирует пользовательские интерфейсы и логику взаимодействия, которые побуждают пользователя к консолидации информации, или реализует внутренние механизмы суммаризации контекста перед передачей запроса LLM. Польза: Повышение удовлетворенности пользователей на 20% за счет более точных и релевантных ответов бота.

Контент-менеджер

Составляет детальные технические задания для LLM, агрегируя все требования, тезисы и стилистические предпочтения в одном блоке, чтобы получить более качественные и соответствующие ожиданиям черновики статей или постов. Польза: Сокращение времени на редактирование контента на 25%.

Менеджер проектов

Использует LLM для планирования, предоставляя ему четко структурированные данные о задачах, сроках и ресурсах, собранные из различных источников, чтобы получить более точные планы и рекомендации. Польза: Увеличение точности планирования на 15% и снижение рисков пропуска важных деталей.

Аналитик данных

Формулирует запросы к LLM для анализа данных, предварительно собирая все необходимые параметры, фильтры и условия в единый промпт, чтобы избежать неверной интерпретации или неполного анализа. Польза: Уменьшение количества итераций для получения корректного анализа на 2-3 раза.

HR-специалист

Использует LLM для составления описаний вакансий или профилей кандидатов, консолидируя требования из разных источников (руководители, отделы), чтобы получить полное и точное описание. Польза: Улучшение качества подбора кандидатов на 10% за счет более точных описаний.

Специалист по поддержке

При взаимодействии с LLM-ассистентом для решения сложных запросов клиентов, суммирует всю историю переписки и ключевые детали проблемы в одном запросе, чтобы ассистент мог дать наиболее релевантное решение. Польза: Сокращение времени решения сложных запросов на 20%.