arXiv:2512.08273 78 9 дек. 2025 г. PRO

AgentEval: оценка AI-текстов через агентов с профилями

КЛЮЧЕВАЯ СУТЬ

LLM без контекста оценивает текст «вообще нормально?» — усредненная оценка, которая игнорирует кто читает. Технический пост, ясный для разработчика, непонятен маркетологу. Кейс-стади, скучный эксперту, интересен новичку. AgentEval позволяет получать оценку текста от лица конкретного читателя — создаешь виртуального рецензента с профилем (возраст, профессия, опыт, черты характера), он оценивает как живой человек. Фишка: сначала инициализируешь агента как конкретную персону, потом через 3-шаговый процесс он оценивает по критериям — связность, релевантность, интересность, ясность, справедливость. Каждый критерий получает оценку 1-5 с объяснением.

Адаптировать под запрос

Контент доступен только для PRO подписчиков

Чтобы получить доступ к полному содержанию этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс

YandexPay • SberPay • СБП • Карты РФ

⚡ Оплатить через Tribute

Telegram Stars • Моментальный доступ

Узнать о PRO

📋 Дайджест исследования

Контент доступен только для PRO подписчиков

Чтобы получить доступ к дайджесту этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс

YandexPay • SberPay • СБП • Карты РФ

⚡ Оплатить через Tribute

Telegram Stars • Моментальный доступ

Узнать о PRO

Контент доступен только для PRO подписчиков

Чтобы получить доступ к концептам этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс

YandexPay • SberPay • СБП • Карты РФ

⚡ Оплатить через Tribute

Telegram Stars • Моментальный доступ

Узнать о PRO

📖 Простыми словами

Контент доступен только для PRO подписчиков

Чтобы получить доступ к упрощённому объяснению этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс

YandexPay • SberPay • СБП • Карты РФ

⚡ Оплатить через Tribute

Telegram Stars • Моментальный доступ

Узнать о PRO

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

Выберите модель ИИ:

Ваш запрос:

0 / 2000

~0.5-2 N-токенов ~10-30с

~0.3-1 N-токенов ~5-15с

Что это такое?

AgentEval — это фреймворк для оценки AI-контента с помощью генеративных агентов. Вместо того, чтобы использовать людей или простые метрики для оценки качества текста, они используют LLM-агентов, которые симулируют человеческую оценку.

Как работает?

Generative Agent — агент с персональными характеристиками (возраст, профессия, 3 черты личности)

Chain-of-Thoughts — последовательность промптов:

Task Introduction — объяснить что будем делать
Evaluation Criteria — критерии по 5 измерениям (Coherence, Relevance, Interestingness, Fairness, Clarity)
Evaluation Steps — прочитать текст, оценить, дать оценку 1-5

Агент проходит через память → извлечение → планирование → рефлексию → рейтинг

Что нашли?

Агенты хорошо коррелируют с человеческими оценками (лучше, чем G-Eval и простой GPT-4 промпт)

Профессия (JOB) — самый важный фактор в оценке (важнее личностных черт)

По большинству метрик (coherence, relevance, interestingness, clarity) агенты согласны с людьми (ANOVA p-value высокий)

По Fairness — не согласны (p<0.00001)

Личностные черты тоже влияют на результаты, но их влияние слабее, чем у профессии

Применимость для читателя?

Это интересно. С одной стороны, они описывают сложную систему с памятью, рефлексией и т.д. Но extractable principles точно есть:

Персонализация агента — дать агенту профиль (возраст, профессия, черты личности) перед оценкой

Многошаговый промптинг — не спрашивать сразу оценку, а разбить на этапы введения, критериев и пошагового анализа

Явные критерии — определить что значит 5 звёзд vs 1 звезда для каждой метрики

Профессия важнее личности — если хочешь разные перспективы, меняй профессию агента, а не только черты

Читатель может применить это в ChatGPT/Claude, создав несколько агентов с разными профилями, попросив их оценить текст и используя структурированный подход. Это не требует кода для применения.

Однако есть ограничения: fairness плохо оценивается из-за расхождения с реальными людьми, нужны реальные профили для настройки, а interestingness остаётся субъективной метрикой. Лучше всего работает на конкретных задачах — например, когда нужна обратная связь на продающий текст лендинга с разных перспектив, а не абстрактная оценка.

Можно создать несколько агентов с разными ролями (маркетолог, копирайтер, предприниматель) и попросить их оценить материал по установленным критериям. Или проверить, как статью в блог воспримут разные целевые аудитории. Материал полезен тем, что даёт применимые принципы без кода, конкретные находки о важности профессии и многошаговых промптов, плюс готовую структуру для использования.

Однако идея не совсем новая — оценка через несколько моделей уже применяется в G-Eval и других подходах. Fairness критерий не сработал, и требуется адаптация под конкретные задачи. Я оценил бы это примерно на 77-79 баллов — полезный материал с практическими выводами, но без прорывных идей. Усложнение через агентов не очевидно превосходит просто разные промпты, хотя конкретные находки о профессионализме и структуре промптов добавляют ценность.

Меню

AgentEval: оценка AI-текстов через агентов с профилями

Контент доступен только для PRO подписчиков

Контент доступен только для PRO подписчиков

Контент доступен только для PRO подписчиков

Контент доступен только для PRO подписчиков

Работа с исследованием

Результат адаптации