arXiv:2506.17335 67 1 июня 2025 г. PRO

LMR-BENCH - Оценка способности агентов LLM к воспроизведению исследований в области языкового моделирования.

КЛЮЧЕВАЯ СУТЬ

Современные LLM пока не способны надежно и автономно воспроизводить код из научных работ, что указывает на их фундаментальные ограничения в глубоком понимании контекста и сложной логики.

Адаптировать под запрос

Контент доступен только для PRO подписчиков

Чтобы получить доступ к полному содержанию этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс

YandexPay • SberPay • СБП • Карты РФ

⚡ Оплатить через Tribute

Telegram Stars • Моментальный доступ

Узнать о PRO

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

Выберите модель ИИ:

Ваш запрос:

0 / 2000

~0.5-2 N-токенов ~10-30с

~0.3-1 N-токенов ~5-15с

67

УДОВЛЕТВОРИТЕЛЬНО

LMR-BENCH - Оценка способности агентов LLM к воспроизведению...

Возможности

Решение сложных задач 90%

Написание кода 80%

Улучшение промптов 75%

Область

Наука и исследования 95%

IT и разработка ПО 85%

Data Science и аналитика 70%

Паттерн

Instruction Prompt 85%

КОМУ ПОЛЕЗНО

ML-инженер

Использует выводы исследования для создания более надежных и воспроизводимых LLM-агентов, которые могут автономно воспроизводить научные эксперименты, минимизируя ошибки из-за неполного понимания контекста и разрозненных данных. Польза: Сокращение времени на воспроизведение исследований на 30%.

Промпт-инженер

Применяет принципы 'защитного промптинга' (явное указание шагов, сбор всей информации в одном месте, структурирование ввода) для создания более устойчивых и точных промптов для любых сложных задач, снижая количество итераций для получения желаемого результата. Польза: Увеличение точности ответов LLM на 25%.

Контент-маркетолог

Разрабатывает контент-планы, используя структурированные промпты с явным разделением контекста (бриф, ЦА, ключевые слова) и пошаговыми инструкциями, что позволяет LLM генерировать более релевантные и полные идеи для постов. Польза: Ускорение генерации контент-планов на 40%.

Туристический агент

Создает персонализированные маршруты, предоставляя LLM всю информацию о клиенте (интересы, бюджет, ограничения) в одном структурированном промпте и задавая четкий алгоритм построения маршрута, что исключает нерелевантные предложения. Польза: Уменьшение количества правок маршрутов на 35%.

Аналитик данных

Формулирует запросы к LLM для анализа больших объемов данных, предварительно очищая и структурируя входные данные и явно указывая шаги анализа, что минимизирует ошибки парсинга и улучшает качество извлечения инсайтов. Польза: Повышение надежности извлечения данных на 20%.

Разработчик ПО

Использует LLM для генерации фрагментов кода или документации, предоставляя максимально детализированный контекст и явные инструкции, а также структурируя входные данные, чтобы избежать ошибок, связанных с неполным пониманием требований. Польза: Сокращение времени на написание рутинного кода на 15%.

Исследователь

Применяет выводы о 'слепых зонах' LLM для более критической оценки результатов, полученных с помощью LLM, и для разработки методов, компенсирующих ограничения моделей в глубоком понимании контекста и сложной логики. Польза: Улучшение качества исследований, использующих LLM, на 10%.