3,583 papers
arXiv:2512.12791 73 16 дек. 2025 г. FREE

Фреймворк оценки агентных систем: проверка процесса, а не только результата

КЛЮЧЕВАЯ СУТЬ
Обнаружено: Агенты могут формально выполнить задачу, но при этом нарушить политики, пропустить критические проверки или использовать неправильную последовательность действий. Классические метрики 'задача выполнена/не выполнена' такие поведенческие ошибки не ловят. Принципы из фреймворка позволяют повысить надёжность работы с LLM через проверку процесса, а не только результата — особенно критично для Projects с большим контекстом. Фишка: требуй от модели показывать шаги рассуждений, какие части контекста использованы, какие политики проверены. Явный пошаговый план (workflow) сужает пространство возможных путей выполнения — модель не 'придумывает' последовательность, а следует заданной. Эксперименты на CloudOps-сценариях: 100% задач формально выполнены, но детальная проверка выявила массу нарушений процесса — неправильный порядок действий, отсутствие диагностики перед исправлением, игнорирование политик безопасности.
Адаптировать под запрос

TL;DR

Агенты могут "выполнить задачу", но при этом нарушить политики, пропустить критические проверки или использовать неправильную последовательность действий. Исследователи из IIIT-Hyderabad и MontyCloud столкнулись с этим в продакшене: CloudOps-агенты закрывали тикеты, но при проверке выяснялось, что они не консультировались с политиками безопасности или пропускали обязательные диагностические шаги. Классические метрики ("задача выполнена / не выполнена") такие проблемы не ловят.

Авторы выделили 4 источника ошибок в агентных системах: LLM (следует ли инструкциям и политикам), Memory (правильно ли сохраняет и находит информацию), Tools (выбирает ли правильный инструмент с правильными параметрами в правильном порядке), Environment (соблюдает ли ограничения и разрешения). Проблема: LLM-модели недетерминированы — при одном и том же промпте могут выбрать разные пути выполнения. Эта вариативность проходит через всю систему: модель то вспоминает нужный контекст, то нет; то вызывает инструменты в правильном порядке, то пропускает шаги.

Фреймворк оценивает агентов по трём слоям: статический анализ (проверка логов и траекторий против эталонов), динамическое выполнение (мониторинг в рантайме — какие инструменты вызваны, какие запросы к памяти сделаны, какие политики проверены), и judge-оценка (качественная проверка рассуждений и безопасности через LLM-as-Judge). Эксперименты на CloudOps-сценариях показали: 100% задач формально выполнены, но детальная проверка выявила массу поведенческих ошибок — неправильный порядок действий, отсутствие диагностики перед исправлением, игнорирование политик.


📌

Применимые принципы для работы в чате

Это исследование про инфраструктуру оценки агентных систем с кодом и метриками. Читатель не может взять фреймворк и применить напрямую. НО можно извлечь принципы, которые сделают работу с LLM надёжнее — особенно если используешь Projects в ChatGPT/Claude, Custom Instructions, или ведёшь долгие диалоги с контекстом.

📌

1. Проверяй процесс, а не только результат

Проблема: Модель может дать правильный ответ, но "неправильным путём" — без обращения к нужному контексту, с пропущенными проверками, с нарушением последовательности.

Принцип: Требуй от модели показывать шаги рассуждений и какие части контекста она использовала.

Пример промпта:

Проанализируй {задачу}.

Перед ответом покажи:
1. Какие части контекста/документов ты проверил
2. Какие шаги рассуждений сделал
3. Какие альтернативы рассмотрел

Затем дай финальный ответ.

Зачем: Ты увидишь, если модель проигнорировала важный документ или политику, которые ты загрузил в контекст. Это особенно критично в Projects, где модель имеет доступ к большому объёму информации.


📌

2. Структурируй инструкции явно

Проблема: При абстрактных инструкциях ("оптимизируй облачную инфраструктуру") модель может пропустить обязательные шаги — диагностику перед действием, проверку разрешений, валидацию результата.

Принцип: Вместо "сделай X" → задавай workflow пошагово с явными условиями и проверками.

Пример промпта:

Задача: {оптимизировать расходы на рекламу в Яндекс.Директе}

Workflow:
1. Сначала проанализируй текущую статистику (CTR, CPC, конверсии)
2. Найди кампании с аномалиями (низкий CTR при высоком бюджете)
3. ОБЯЗАТЕЛЬНО: Проверь в документе "Политика рекламы" — есть ли ограничения на изменение ставок
4. Предложи оптимизацию с обоснованием
5. Покажи прогноз экономии в рублях

Не пропускай шаг 3 — без него не действуй.

Зачем: Явная последовательность снижает вариативность поведения. Модель следует чёткому плану, а не "придумывает путь на лету".


📌

3. Требуй консультации с контекстом

Проблема: Модель может ответить из общих знаний, игнорируя загруженный контекст (документы, политики, примеры).

Принцип: Явно требуй проверки контекста перед действием.

Пример промпта:

Ты консультант по карьере. В контексте проекта есть документ "Моя карьерная стратегия 2025".

Правило: Перед любым советом ОБЯЗАТЕЛЬНО процитируй релевантные части из "Моя карьерная стратегия 2025". Если совет противоречит стратегии — укажи явно и объясни почему предлагаешь отклонение.

Задача: {стоит ли переходить в стартап или остаться в корпорации?}

Зачем: Ты увидишь, обратилась ли модель к твоим документам или отвечает "из головы". Это критично для Projects и Custom Instructions с большим контекстом.


📌

4. Валидируй "память" через саммари

Проблема: В длинных диалогах модель может "забыть" ранние договорённости, детали, ограничения. Memory retrieval ненадёжна — модель не всегда вспоминает нужное в нужный момент.

Принцип: Периодически проси модель подытожить, что она помнит. Проверяй, не потерялись ли критические детали.

Пример промпта:

Мы обсуждаем {разработку MVP для сервиса аренды}.

Перед тем как продолжить, подытожь:
1. Какие ограничения по бюджету мы установили?
2. Какие фичи решили НЕ включать в MVP?
3. Какие технические требования обсудили?

Если что-то забыл — скажи, я напомню.

Зачем: Ты выявишь пробелы в "памяти" модели до того, как она предложит решение, противоречащее ранним договорённостям. Это аналог проверки Memory Retrieval из фреймворка — только вручную.


📌

5. Проверяй "инструменты" и параметры

Проблема: Если даёшь модели доступ к функциям/API/кастомным GPT, она может выбрать неправильный инструмент или передать некорректные параметры.

Принцип: Требуй от модели объяснять выбор инструмента и показывать параметры перед вызовом.

Пример промпта (для Custom GPT с actions):

У тебя есть доступ к API: get_weather, book_ticket, send_email.

Правило: Перед вызовом API покажи мне:
1. Какой API ты выбрал
2. Какие параметры передашь
3. Почему этот API подходит для задачи

Жди моего подтверждения, затем вызывай.

Задача: {узнай погоду в Москве на выходные и забронируй билет в музей, если будет солнечно}

Зачем: Ты поймаешь ошибки до выполнения — неправильный API, неправильные параметры, неправильная последовательность. Это аналог Tool Selection и Parameter Mapping из фреймворка.


🧠

Почему это работает

LLM-модели недетерминированы: при одинаковых промптах могут выбрать разные пути выполнения. Модель генерирует текст вероятностно — иногда она "вспоминает" нужный контекст, иногда нет; иногда следует инструкциям строго, иногда отклоняется. Эта вариативность — не баг, а свойство архитектуры.

Сильная сторона LLM: модель отлично следует явным структурированным инструкциям и генерирует текст по заданному паттерну. Если промпт содержит чёткий workflow ("сначала сделай А, потом Б, не пропускай В") — модель выполняет его надёжнее, чем абстрактное "сделай задачу".

Как принципы снижают вариативность: - Явный workflow сужает пространство возможных путей выполнения — модель не "придумывает" последовательность, а следует заданной. - Требование показывать шаги делает процесс прозрачным — ты видишь, если модель отклонилась от ожиданий. - Консультация с контекстом снижает риск "ответа из общих знаний" — модель явно обращается к загруженным документам. - Саммари "памяти" выявляет пробелы в retrieval — модель явно формулирует что помнит, ты проверяешь полноту.

Рычаги управления: - Строгость workflow: "ОБЯЗАТЕЛЬНО сделай шаг 3" vs "желательно сделай шаг 3" — первое снижает вероятность пропуска. - Требование подтверждения: "Покажи план, жди подтверждения, затем действуй" vs "Сразу действуй" — первое даёт контроль до выполнения. - Частота саммари: Проверяй "память" каждые 5 сообщений в критичных диалогах, каждые 15 — в обычных.


⚠️

Ограничения

⚠️ Ручная работа: Эти принципы требуют активного участия — ты должен проверять выводы модели, валидировать шаги, запрашивать саммари. Это не автоматическая система оценки, а набор практик для более надёжной работы.

⚠️ Не гарантия детерминизма: Даже с явными инструкциями модель остаётся вероятностной. Принципы снижают вариативность, но не устраняют полностью — модель всё ещё может отклониться, особенно при сложных задачах.

⚠️ Overhead для простых задач: Если задача тривиальна ("напиши email с благодарностью"), требование показывать шаги рассуждений избыточно. Эти принципы для критичных сценариев — долгие диалоги, сложный контекст, важные решения.

⚠️ Применимость к сложным агентным системам: Исследование показало проблемы в multi-agent системах с кодом и инфраструктурой. Описанные принципы — упрощённая адаптация для одиночного диалога в чате. Для настоящих агентных систем нужен полноценный фреймворк оценки с метриками и мониторингом.


🔗

Ресурсы

Beyond Task Completion: An Assessment Framework for Evaluating Agentic AI Systems Авторы: Sreemaee Akshathala, Bassam Adnan, Mahisha Ramesh (SERC, IIIT-Hyderabad), Karthik Vaidhyanathan, Basil Muhammed, Kannan Parthasarathy (MontyCloud Inc)

GitHub с экспериментами: https://github.com/sa4s-serc/asf

MOYA framework: упоминается как основа для экспериментов [19]

Mem0: инструмент для memory механизмов [5]

Arize Guards: open-source решение для мониторинга guardrails

Strands Agents: observability для агентов


📋 Дайджест исследования

Ключевая суть

Обнаружено: Агенты могут формально выполнить задачу, но при этом нарушить политики, пропустить критические проверки или использовать неправильную последовательность действий. Классические метрики 'задача выполнена/не выполнена' такие поведенческие ошибки не ловят. Принципы из фреймворка позволяют повысить надёжность работы с LLM через проверку процесса, а не только результата — особенно критично для Projects с большим контекстом. Фишка: требуй от модели показывать шаги рассуждений, какие части контекста использованы, какие политики проверены. Явный пошаговый план (workflow) сужает пространство возможных путей выполнения — модель не 'придумывает' последовательность, а следует заданной. Эксперименты на CloudOps-сценариях: 100% задач формально выполнены, но детальная проверка выявила массу нарушений процесса — неправильный порядок действий, отсутствие диагностики перед исправлением, игнорирование политик безопасности.

Принцип работы

Вместо абстрактной задачи ('оптимизируй инфраструктуру') задавай пошаговый план с явными условиями и проверками: 'Сначала проанализируй статистику → Найди аномалии → ОБЯЗАТЕЛЬНО проверь политики в документе X → Предложи решение'. Явная последовательность снижает вариативность поведения LLM — модель следует чёткому плану, а не 'придумывает путь на лету'. Требуй консультации с контекстом: 'ОБЯЗАТЕЛЬНО процитируй релевантные части из документа перед советом'. Валидируй память через саммари: каждые 5-10 сообщений в критичных диалогах проси модель подытожить что она помнит об ограничениях и требованиях.

Почему работает

LLM недетерминированы — при одинаковых промптах могут выбрать разные пути выполнения. Модель генерирует текст вероятностно: иногда 'вспоминает' нужный контекст, иногда нет; иногда следует инструкциям строго, иногда отклоняется. Явный пошаговый план сужает пространство возможных путей — модель не 'придумывает' последовательность, а следует заданной. Требование показывать шаги делает процесс прозрачным — ты видишь, если модель проигнорировала важный документ или пропустила обязательную проверку. Исследователи в продакшене CloudOps-агентов столкнулись: тикеты закрыты, но при проверке оказалось что агенты не консультировались с политиками безопасности или пропускали обязательные диагностические шаги. 100% формальный успех → массу скрытых ошибок в процессе.

Когда применять

ChatGPT/Claude Projects с большим контекстом → конкретно для критичных диалогов где важна последовательность действий и соблюдение политик/ограничений, особенно когда используешь Custom Instructions или загружаешь документы с инструкциями в контекст проекта. НЕ подходит для простых одноразовых задач ('напиши email с благодарностью') — требование показывать шаги рассуждений создаёт избыточную сложность.

Мини-рецепт

1. Задай явный пошаговый план: Вместо 'оптимизируй X' → 'Сначала сделай A, затем B, ОБЯЗАТЕЛЬНО проверь C в документе, затем предложи решение'
2. Требуй показывать процесс: 'Перед ответом покажи: (1) какие части контекста проверил, (2) какие шаги рассуждений сделал, (3) какие альтернативы рассмотрел'
3. Валидируй память через итоги: Каждые 5-10 сообщений в критичных диалогах проси: 'Подытожь что ты помнишь об ограничениях/требованиях/договорённостях'
4. Требуй консультации с контекстом: 'ОБЯЗАТЕЛЬНО процитируй релевантные части из документа X перед советом. Если совет противоречит документу — укажи явно и объясни почему предлагаешь отклонение'

Примеры

[ПЛОХО] : Оптимизируй наш рекламный бюджет в Яндекс.Директе
[ХОРОШО] : Задача: оптимизировать расходы на рекламу в Яндекс.Директе. Пошаговый план: 1. Сначала проанализируй текущую статистику (CTR, цена клика, конверсии) 2. Найди кампании с аномалиями (низкий CTR при высоком бюджете) 3. ОБЯЗАТЕЛЬНО: Проверь в документе 'Политика рекламы' — есть ли ограничения на изменение ставок или остановку кампаний 4. Предложи план оптимизации с обоснованием каждого изменения 5. Покажи прогноз экономии в рублях Не пропускай шаг 3 — без проверки политик не действуй. Перед финальным планом покажи: какие части документа 'Политика рекламы' ты проверил.
Источник: Beyond Task Completion: An Assessment Framework for Evaluating Agentic AI Systems
ArXiv ID: 2512.12791 | Сгенерировано: 2026-01-08 23:46

Проблемы LLM

ПроблемаСутьКак обойти
Memory retrieval ненадёжна в длинных диалогах — модель не всегда вспоминает нужное в нужный моментВ multi-agent системах: модель то вспоминает контекст/политики, то нет; пропускает ранние договорённости, детали, ограничения; вариативность retrieval — свойство архитектуры, не баг конкретного запросаПериодически проси модель подытожить что она помнит: Перед продолжением: что ты помнишь про [X, Y, Z]? Если забыл — скажи — выявляет пробелы до того, как модель предложит противоречащее решение
📖 Простыми словами

Фреймворк оценки агентных систем: проверка процесса, а не только результата

arXiv: 2512.12791

Нынешние AI-агенты — это не калькуляторы, которые выдают четкий результат, а скорее вероятностные машины. Когда ты ставишь задачу агенту, он не идет по жесткому алгоритму, а буквально «нащупывает» путь, генерируя каждый следующий шаг на основе статистики и контекста. Проблема в том, что LLM-модели недетерминированы: при одном и том же запросе агент может один раз сработать идеально, а в другой — срезать углы или вообще забить на правила. Это фундаментальное свойство архитектуры, а не просто временный баг, который можно поправить парой строчек кода.

Это как нанять курьера, который доставляет посылку вовремя, но по дороге нарушает все правила движения, едет по встречке и теряет половину документов. Формально задача выполнена — посылка у тебя, но процесс превратился в полный хаос. Если обычный софт либо работает, либо нет, то AI-агент может выдать правильный результат через абсолютно «кривое» и опасное выполнение, которое вскроется только на этапе серьезного аудита или когда что-то окончательно рванет.

Исследователи из IIIT-Hyderabad и MontyCloud наткнулись на это в реальном облачном управлении: их CloudOps-агенты бодро закрывали тикеты, но при детальном разборе выяснилось, что они игнорировали протоколы безопасности и пропускали диагностику. Чтобы ловить такие косяки, они внедрили фреймворк оценки агентских систем, который смотрит не только на финал, но и на каждый шаг процесса. Теперь важно не просто «сделал или нет», а соблюдал ли агент политики безопасности и правильную последовательность действий, иначе цена такой «эффективности» станет неподъемной.

Хотя тест проводили на облачных сервисах, этот принцип универсален для любого бизнеса, где внедряют автономию. Будь то юридический бот, финансовый аналитик или ассистент по закупкам — если ты оцениваешь их только по конечному результату, ты сидишь на пороховой бочке. Метрика Task Completion мертва, потому что она не учитывает риски, которые агент создает в процессе «творческого» решения задачи.

Короче: хватит радоваться тому, что нейронка просто «закрыла задачу» — пора проверять, какой ценой она это сделала. Нужно внедрять многослойную оценку траектории, которая фиксирует отклонения от инструкций еще до того, как они станут фатальными. Если твой агент работает как черный ящик, который выдает результат без оглядки на правила, — это не помощник, а мина замедленного действия в твоем продакшене.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с