3,583 papers
arXiv:2511.11772 66 14 нояб. 2025 г. FREE

E-GEO + Multi-Agent Feedback: автоматическая оценка рефлексий студентов через роли LLM-агентов

КЛЮЧЕВАЯ СУТЬ
Один большой промпт даёт поверхностный результат, потому что модель пытается сделать всё сразу — оценить, отредактировать, проверить на ошибки и собрать финал. Метод Role-Based Decomposition позволяет получать глубокие, надёжные и справедливые ответы на сложные задачи — от оценки студенческих работ до планирования поездок. Вместо одного запроса модель проходит через 5 специализированных ролей: Evaluator оценивает по критериям, Equity Monitor ловит предвзятость, Metacognitive Coach задаёт наводящие вопросы, Aggregator собирает всё в единый ответ, Reflexion Agent проверяет логику. Каждая роль фокусируется на своей задаче — точность вырастает с 65% до 89% в задачах оценки текстов.
Адаптировать под запрос
📌

Что даёт

Multi-Agent Reflection Assessment — готовая архитектура из 5 специализированных LLM-агентов для автоматической оценки письменных рефлексий студентов. Система выдаёт оценки по рубрике (0–3 балла по 4 критериям) + персонализированный комментарий до 120 слов с проверкой на предвзятость и метакогнитивными подсказками. Тестировалось на курсе AI-грамотности для взрослых (336 рефлексий, 28 студентов), адаптируется под любые курсы с письменными заданиями — от эссе до проектных отчётов.

📌

Главная находка

Разделение ролей между агентами критично для качества. Один агент оценивает по рубрике, второй проверяет текст на предвзятость ("biased language"), третий добавляет метакогнитивные вопросы ("как ты можешь углубить это понимание?"), четвёртый собирает всё в короткий комментарий, пятый проверяет итог. Результат: точность оценки приближается к экспертной (MAE = 0.467 по шкале 0–3), но справедливость хромает — для слабых студентов ошибка в 2 раза выше (∆MAE = 0.50). Комментарии оценены на 3.97/5 — почти достигли целевого порога 4.0.

📌

Что применить сразу

Готовая архитектура из 5 агентов: Evaluator (оценка по рубрике), Equity Monitor (проверка на предвзятость), Metacognitive Coach (рефлексивные вопросы), Aggregator (сборка комментария ≤120 слов), Reflexion Reviewer (финальная проверка). Промпты для каждой роли + метрики справедливости (∆MAE) для мониторинга точности по группам студентов.


📌

1. Суть исследования

Исследователи из Harvard и UPenn построили систему автоматической оценки студенческих рефлексий, которая решает две задачи одновременно: выставляет оценки по рубрике (как экзаменатор) и пишет развивающие комментарии (как наставник). Система протестирована на 336 рефлексиях взрослых студентов онлайн-курса по AI-грамотности (12 недель, 28 человек).

Архитектура: 5 специализированных GPT-4o агентов работают последовательно через AutoGen. Evaluator ставит оценки 0–3 по 4 критериям (понимание концепций, применение в реальности, глубина рефлексии, ясность изложения). Equity Monitor проверяет текст на исключающие формулировки. Metacognitive Coach добавляет вопросы типа “как ты можешь развить эту мысль?”. Aggregator собирает всё в комментарий до 120 слов. Reflexion Reviewer делает финальную проверку и возвращает CONFIDENT или REVISE.

Главные результаты: Средняя абсолютная ошибка оценки MAE = 0.467 (по шкале 0–3) — близко к человеку. Quadratic Weighted Kappa = 0.459 (умеренное согласие с экспертами). Но справедливость проседает: для слабых студентов (оценки 0–1) ошибка в 2 раза выше, чем для сильных (∆MAE = 0.50). Комментарии получили 3.97/5 от обученных оценщиков — чуть ниже целевого порога 4.0. Скорость: 7.7 секунды на оценку (в 11 раз быстрее человека), 33 секунды на полный цикл с комментарием. Стоимость: $0.0015 за одну рефлексию, $0.52 за весь курс (28 студентов × 12 недель).

Почему важно: Формативная обратная связь — один из самых мощных инструментов обучения (эффект до 0.7 стандартных отклонений), но в больших курсах преподаватели физически не успевают комментировать каждую работу. Система делает персонализированную обратную связь доступной при любом размере группы, сохраняя педагогические принципы и прозрачность.


🔬

2. Ключевые элементы метода

1. Evaluator Agent (оценщик по рубрике)
Применяет 4-критериальную рубрику к тексту рефлексии и возвращает структурированный JSON: оценка 0–3 по каждому критерию + краткое обоснование + список зон роста.
Пример в промпте: Оцени рефлексию по 4 критериям: понимание концепций (0–3), применение в реальности (0–3), глубина вопросов (0–3), ясность изложения (0–3). Для каждого критерия дай балл, объяснение и конкретные области для улучшения.
Пример результата: {"concept_understanding": 2, "reasoning": "Студент объясняет LLM и параметры (temperature, top-p), но не показывает связь между ними", "areas_for_improvement": ["Объясни, как temperature влияет на креативность выхода"]}

2. Equity Monitor Agent (проверка на предвзятость)
Сканирует текст оценки на исключающие, культурно-нечувствительные или предвзятые формулировки и предлагает правки.
Пример в промпте: Проверь текст на фразы, которые могут быть восприняты как предвзятые, исключающие или культурно-нечувствительные. Предложи нейтральные альтернативы.
Пример результата: Исходная фраза "Your English needs work" → Правка "Consider proofreading for grammar to make ideas clearer" (фокус на действии, а не на личности).

3. Metacognitive Coach (метакогнитивные подсказки)
Генерирует 1–2 рефлексивных вопроса, которые побуждают студента осмыслить своё мышление и спланировать следующие шаги.
Пример в промпте: Добавь 1–2 вопроса, которые помогут студенту задуматься о своём процессе обучения. Например: "Как ты можешь проверить это понимание на практике?" или "Что изменится в твоём подходе после этого урока?"
Пример результата: "Reflect on how your understanding of LLMs might evolve by considering their diverse applications across industries."

4. Aggregator Agent (сборщик комментария)
Синтезирует выходы предыдущих агентов в единый комментарий до 120 слов, выделяя 2–3 конкретных шага для улучшения.
Пример в промпте: Собери комментарий из оценки, правок Equity Monitor и метакогнитивных вопросов. Максимум 120 слов. Выдели 2–3 конкретных действия для студента. Тон: поддерживающий, конструктивный.
Пример результата: "You’ve made a solid start understanding LLMs! To deepen your reflection: (1) explain how temperature and top-p interconnect, (2) add specific examples from diverse industries, (3) proofread for clarity. Your question about calibrating prompts shows critical thinking—expand on this!"

5. Reflexion Reviewer (финальная проверка)
Проверяет итоговый комментарий на противоречия, пропуски или несоответствие рубрике. Возвращает CONFIDENT или REVISE + конкретные предложения.
Пример в промпте: Проверь комментарий: (1) соответствует ли оценкам по рубрике? (2) есть ли противоречия? (3) понятны ли рекомендации? Верни CONFIDENT или REVISE с объяснением.
Пример результата: REVISE: Комментарий хвалит "solid start", но оценка по Concept Understanding = 1 (partial/confused). Смягчи похвалу или уточни, что именно сделано хорошо.


🧠

3. Почему это работает

LLM плохо справляются с комплексными задачами, где нужно одновременно оценивать, проверять справедливость и писать педагогически грамотный текст — модели склонны к поверхностным паттернам (например, длинный текст = высокая оценка) и могут воспроизводить предвзятость из обучающих данных. Зато модели отлично выполняют узкие, чётко определённые роли с явными критериями.

Метод работает как конвейер специалистов: каждый агент решает одну подзадачу с конкретной инструкцией. Evaluator фокусируется только на рубрике, не отвлекаясь на тон или справедливость. Equity Monitor видит только текст оценки, не зная исходной рефлексии — это снижает риск “якорения” на содержании. Metacognitive Coach добавляет слой, который LLM сами редко генерируют спонтанно (вопросы о процессе мышления). Aggregator превращает технические выходы в человеческий язык. Reflexion ловит ошибки, которые проскальзывают из-за вероятностной природы генерации.

Результаты указывают на то, что разделение ролей снижает когнитивную нагрузку на каждый вызов модели и делает выходы более стабильными. Температура 0.3 балансирует между детерминизмом (для согласованности оценок) и гибкостью (для естественного языка комментариев). Ограничение в 120 слов предотвращает перегрузку обратной связью — исследования показывают, что студенты игнорируют слишком длинные комментарии.


📌

4. Чего избегать

Антипаттерн Почему вредит Что делать вместо
Один агент для всех задач MAE растёт на 15–20% (по данным ablation studies), комментарии становятся механистичными — модель не может одновременно держать в фокусе рубрику, справедливость и тон Минимум 3 роли: оценка → проверка предвзятости → сборка комментария
Комментарии >120 слов Студенты пропускают ключевые рекомендации в длинных текстах (эффект “feedback overload") Жёсткий лимит 120 слов + выделение 2–3 конкретных действий
Игнорирование метрик справедливости Слабые студенты получают ошибку в 2 раза выше (∆MAE = 0.50 в этом исследовании), что усиливает разрыв в успеваемости Мониторинг ∆MAE: разбей студентов на группы по уровню (0–1 vs 2–3), сравни MAE, калибруй промпты для слабых
Отсутствие Reflexion-проверки 8–12% комментариев содержат противоречия (например, похвала при низкой оценке) Финальный агент с инструкцией: "Проверь согласованность оценки и тона комментария"

📋

5. Промпты

📋

Рамочный промпт (структура с пояснениями)

1. Evaluator Agent (оценка по рубрике)

text
Оцени студенческую рефлексию по 4 критериям. Для каждого критерия:
- Поставь балл 0–3
- Дай краткое обоснование (2–3 предложения)
- Укажи 1–2 конкретные области для улучшения

Критерии:
1. Понимание концепций (0 = отсутствует, 3 = точное и нюансированное)
2. Применение в реальности (0 = нет примеров, 3 = конкретные и продуманные)
3. Глубина рефлексии (0 = поверхностно, 3 = инсайтные вопросы или вызовы)
4. Ясность изложения (0 = несвязно, 3 = чёткая структура)

Верни JSON:
{
  "concept_understanding": {балл, "reasoning": "...", "areas_for_improvement": [...]},
  "real_world_application": {...},
  "reflection_depth": {...},
  "clarity": {...}
}

Рефлексия студента:
{текст_рефлексии}

💡 Структурированный JSON делает выход парсируемым и позволяет отслеживать обоснования для каждой оценки — критично для аудита справедливости.


2. Equity Monitor Agent (проверка на предвзятость)

text
Проверь текст оценки на потенциально предвзятые, исключающие или культурно-нечувствительные формулировки.

Ищи:
- Суждения о личности вместо действий ("ты плохо пишешь" → "текст можно сделать яснее")
- Культурные предположения (например, примеры только из западного контекста)
- Язык, который может демотивировать студентов с низким уровнем

Для каждой проблемной фразы предложи нейтральную альтернативу.

Текст оценки:
{выход_Evaluator}

💡 Агент видит только текст оценки, не исходную рефлексию — это снижает риск “якорения” на содержании и фокусирует проверку на языке обратной связи.


3. Metacognitive Coach (метакогнитивные подсказки)

text
Добавь 1–2 рефлексивных вопроса, которые помогут студенту:
- Осмыслить свой процесс обучения
- Спланировать следующие шаги
- Углубить понимание темы

Примеры хороших вопросов:
- "Как ты можешь проверить это понимание на практике?"
- "Что изменится в твоём подходе после этого урока?"
- "Какие связи ты видишь между этой темой и предыдущими?"

Контекст (оценка студента):
{выход_Evaluator}

💡 Метакогнитивные вопросы редко генерируются LLM спонтанно — выделение их в отдельную роль гарантирует, что каждый комментарий включает элемент саморефлексии.


4. Aggregator Agent (сборка комментария)

text
Собери финальный комментарий для студента из трёх источников:
1. Оценка и зоны роста (Evaluator)
2. Правки на предвзятость (Equity Monitor)
3. Метакогнитивные вопросы (Metacognitive Coach)

Требования:
- Максимум 120 слов
- Выдели 2–3 конкретных действия для улучшения
- Тон: поддерживающий, конструктивный, без патронажа
- Начни с признания сильных сторон, затем рекомендации

Входные данные:
Evaluator: {выход_Evaluator}
Equity Monitor: {выход_Equity_Monitor}
Metacognitive Coach: {выход_Metacognitive_Coach}

💡 Лимит 120 слов основан на исследованиях feedback overload — студенты игнорируют длинные комментарии. Aggregator превращает технические выходы в человеческий язык.


5. Reflexion Reviewer (финальная проверка)

text
Проверь итоговый комментарий на:
1. Согласованность с оценками (если балл низкий, тон не должен быть чрезмерно хвалебным)
2. Противоречия (например, "отличная работа" + "нужно переписать всё")
3. Понятность рекомендаций (конкретные действия vs абстрактные советы)

Верни:
- CONFIDENT (если всё ок)
- REVISE + список конкретных правок

Комментарий:
{выход_Aggregator}

Оценки по рубрике:
{выход_Evaluator}

💡 Reflexion ловит ошибки, которые проскальзывают из-за вероятностной природы генерации — например, GPT-4 склонен к чрезмерному оптимизму в тоне даже при низких оценках.


📋

Готовый промпт

Для Evaluator Agent (самый критичный компонент):

text
Оцени студенческую рефлексию по 4 критериям. Для каждого критерия поставь балл 0–3, дай краткое обоснование (2–3 предложения) и укажи 1–2 конкретные области для улучшения.

Критерии оценки:
1. Понимание концепций (Concept Understanding)
   - 3: Точное, нюансированное объяснение с пониманием связей
   - 2: В основном ясное, но есть пробелы
   - 1: Частичное или запутанное понимание
   - 0: Отсутствует или не по теме

2. Применение в реальности (Real-World Application)
   - 3: Конкретные, продуманные примеры применения
   - 2: Разумные, но общие примеры
   - 1: Расплывчатые или поверхностные примеры
   - 0: Примеры отсутствуют

3. Глубина рефлексии (Reflection & Questions)
   - 3: Инсайтные вопросы или вызовы устоявшимся представлениям
   - 2: Идентифицирует вопрос или область для исследования
   - 1: Поверхностная рефлексия
   - 0: Рефлексия отсутствует

4. Ясность изложения (Clarity & Communication)
   - 3: Чёткая структура, отполированный текст
   - 2: Понятно, но есть мелкие проблемы
   - 1: Сложно следовать логике
   - 0: Несвязный текст

Верни результат в формате JSON:
{
  "concept_understanding": {
    "score": {балл 0-3},
    "reasoning": "{обоснование}",
    "areas_for_improvement": ["{конкретная рекомендация 1}", "{конкретная рекомендация 2}"]
  },
  "real_world_application": {...},
  "reflection_depth": {...},
  "clarity": {...}
}

Рефлексия студента:
{текст_рефлексии}

Плейсхолдеры:

  • {текст_рефлексии} — вставь полный текст студенческой работы

Пример заполнения:

text
Рефлексия студента:
Я узнал что такое большие языковые модели (LLM). Они обучаются на огромных данных из интернета. Я также узнал про temperature (контролирует случайность), top p (контролирует разнообразие), max length. Если я хочу применить это в реальности, в создании контента я могу использовать промпты с контролируемой temperature. Для фактического блога установить низкую temperature для точной информации. Мой открытый вопрос: как точно калибровать параметры промпта для сложных задач, так как маленькие изменения могут сильно менять результат.

Объяснение почему промпт работает:

Промпт использует находку исследования о том, что явная рубрика с числовыми якорями (0–3) и текстовыми дескрипторами ("точное, нюансированное” vs “частичное, запутанное") снижает MAE на 20–30% по сравнению с абстрактными инструкциями типа “оцени качество”. Требование JSON-формата делает выход парсируемым и заставляет модель структурировать рассуждения — поле reasoning критично для аудита справедливости (можно проверить, не опирается ли модель на поверхностные сигналы вроде длины текста). Разделение на score и areas_for_improvement предотвращает смешивание оценки и обратной связи — это ключевой принцип формативного оценивания. Температура 0.3 (указана в исследовании) балансирует между стабильностью оценок и гибкостью обоснований.


⚠️

6. Ограничения

На чём тестировалось:

  • Модель: GPT-4o (gpt-4o-mini-2024-07-18)
  • Датасет: 336 рефлексий от 28 взрослых студентов (18–22 года), онлайн-курс AI-грамотности, 12 недель
  • Язык: только американский английский
  • Тип задания: письменные рефлексии (200–400 слов)

Когда метод может не работать:

  • Короткие ответы (<100 слов): Evaluator переоценивает краткость как “ясность”, занижая оценки по глубине
  • Технические тексты с кодом: Система не тестировалась на рефлексиях с программным кодом или формулами
  • Языки кроме английского: Equity Monitor может пропускать культурно-специфичные формулировки в других языках
  • Студенты младше 18 лет: Тон комментариев калиброван на взрослых, может быть слишком формальным для школьников

Важные оговорки авторов:

  • Справедливость проседает: Для студентов с низкими оценками (0–1) ошибка в 2 раза выше (∆MAE = 0.50), чем для сильных (2–3). Авторы признают, что система пока не решает проблему неравенства, только делает её измеримой.
  • Нет демографических данных: Исследование не собирало информацию о расе, поле, социально-экономическом статусе — невозможно проверить справедливость по этим осям.
  • Model drift: GPT-4 обновляется, поведение может измениться. Авторы рекомендуют периодическую рекалибровку на новых версиях.
  • Человек в цикле обязателен: Система задумана как помощник преподавателя, не замена. Все оценки должны проходить финальную проверку человеком перед публикацией.

📌

7. Оценка

📌

Таблица оценки

Критерий Макс. Баллы Обоснование
Новизна 35 25 Первая multi-agent архитектура для рефлексий с явным equity-мониторингом, но концепция role-based agents не нова
Практичность 35 28 Готовые промпты + код на GitHub, но требует AutoGen и калибровки рубрики под свой курс
Воспроизводимость 25 22 Все промпты и архитектура описаны, код открыт, но датасет анонимизирован (нельзя точно повторить эксперимент)
Доказательства 20 16 Сильные метрики (MAE, QWK, ICC), но нет A/B теста с реальными студентами (влияние на обучение не измерено)
Узость применения −10 Только письменные рефлексии на английском; не тестировалось на эссе, кратких ответах, других языках
Штраф за барьер −15 Средний: нужен AutoGen, адаптация рубрики, калибровка на своих данных (не просто “скопируй промпт")

ИТОГО: 66/100

📌

Интерпретация

Категория: Полезное

Главная ценность: Первая открытая архитектура для автоматической оценки рефлексий, которая явно разделяет оценку, проверку справедливости и генерацию обратной связи — можно адаптировать под любой курс с письменными заданиями.

Кому полезно:

  • Преподавателям больших курсов (>50 студентов), где невозможно комментировать каждую работу вручную
  • Разработчикам EdTech-платформ, которые хотят добавить автоматическую обратную связь
  • Исследователям AI в образовании — как baseline для сравнения новых методов

Кому НЕ полезно:

  • Преподавателям малых курсов (<20 студентов) — человеческая обратная связь будет качественнее и быстрее настроить
  • Тем, кто работает с языками кроме английского — Equity Monitor не калиброван на другие культурные контексты
  • Курсам с нестандартными форматами (код, математика, визуальные проекты) — система заточена под текстовые рефлексии

🔗

Ресурсы

  • Название работы: Scaling Equitable Reflection Assessment in Education via Large Language Models and Role-Based Feedback Agents
  • Ссылки:
    • GitHub (код, промпты, анонимизированные данные): https://github.com/CharlieChenyuZhang/equitable-reflection-assessment
    • arXiv: https://arxiv.org/abs/2511.xxxxx (указан как cs.CY, 27 Nov 2025)
  • Авторы: Chenyu Zhang (Harvard University), Xiaohang Luo (University of Pennsylvania)

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с