TL;DR
EduMod-LLM — исследовательский фреймворк для ответов на вопросы студентов, разбитый на три независимых модуля: выбор функций (какой источник информации использовать), поиск (как найти релевантный контент), генерация ответа (какая модель отвечает). Суть — изолировать каждый компонент и понять, где система ломается.
Главная находка для практики: LLM-оценка по рубрикам работает. Модели без «reasoning» (DeepSeek-V3) точнее следуют критериям оценки, чем модели с глубоким рассуждением. Для образовательных задач важнее следование инструкциям, чем «думать дольше». Ещё один инсайт: иерархическая структура документов (оглавление → главы → разделы) даёт +30% к точности поиска по сравнению с обычным векторным поиском.
Практическая ценность для пользователя чата: два принципа — (1) используй рубрики для оценки качества ответов, (2) структурируй контекст иерархически. Остальная часть исследования — про построение систем с API и кодом, не про промптинг.
Схема метода
МОДУЛЬ 1: Выбор функции (какой источник использовать)
├── qa_retrieval — поиск по прошлым вопросам/ответам
├── textbook_retrieval — поиск по учебнику
├── assignment_retrieval — поиск по заданиям
└── logistics_retrieval — поиск по политикам курса
МОДУЛЬ 2: Поиск (как найти контент)
├── Иерархический — дерево: оглавление → главы → разделы → чанки
└── Векторный — эмбеддинги + семантическая близость
МОДУЛЬ 3: Генерация ответа (какая LLM отвечает)
МОДУЛЬ 4: LLM-оценка (проверка качества)
├── Factuality (1-5) — фактическая точность
├── Relevance (1-5) — релевантность вопросу
└── Style (1-3) — стиль и педагогичность
Это архитектура системы, а не промпт-техника. Пользователь чата может взять только принцип LLM-оценки и структурирования контекста.
Пример применения
Принцип 1: LLM-оценка по рубрике
Задача: Ты написал черновик ответа клиенту и хочешь проверить качество перед отправкой.
Промпт:
Ты — эксперт по оценке клиентских коммуникаций.
Оцени этот ответ по трём критериям:
1. Фактическая точность (1-5): верна ли информация?
2. Релевантность (1-5): отвечает ли на вопрос клиента?
3. Тон (1-3): вежливый, профессиональный, без агрессии?
Вопрос клиента:
"Почему заказ задерживается? Обещали доставку 15-го, сегодня 18-е."
Мой черновик ответа:
"Добрый день! Извиняемся за задержку. Ваш заказ был отправлен 16-го числа, текущий статус — в пути. Ожидаемая доставка — 19-20 января. Отслеживание: [ссылка]. Если не придёт до 21-го — напишите, оформим компенсацию."
Выдай оценку в формате:
{"factuality": X, "relevance": X, "style": X}
Затем кратко объясни каждую оценку.
Результат: Модель выдаст числовые оценки по каждому критерию и объяснение. Ты увидишь слабые места до отправки.
Принцип 2: Иерархическая структура контекста
Задача: Даёшь Claude длинный документ (договор, регламент, техзадание) и хочешь точный ответ на вопрос.
Промпт:
Вот структура документа (оглавление):
## Оглавление
1. Предмет договора
2. Права и обязанности сторон
2.1. Права Заказчика
2.2. Обязанности Исполнителя
3. Сроки и порядок оплаты
4. Ответственность сторон
5. Форс-мажор
---
## Полный текст
[Весь текст договора с теми же заголовками]
---
Вопрос: Какие штрафы предусмотрены за нарушение сроков со стороны Исполнителя?
Результат: Модель сначала определит релевантный раздел (4. Ответственность сторон), затем найдёт конкретный пункт про штрафы. Точность выше, чем если дать «стену текста» без структуры.
Почему это работает
LLM-оценка по рубрикам работает потому, что модели хорошо следуют структурированным инструкциям. Когда есть чёткие критерии и шкала, модель не «придумывает» — она сопоставляет текст с критериями. Исследование показало: модели без «reasoning» (DeepSeek-V3) лучше справляются с такой оценкой, чем reasoning-модели. Причина — им не нужно «думать», им нужно сравнивать.
Иерархическая структура помогает потому, что LLM обрабатывает текст последовательно. Оглавление в начале — это «карта» для модели. Она сначала понимает структуру, потом находит нужный раздел. Без структуры модель сканирует весь текст линейно и может пропустить релевантный фрагмент в середине.
Рычаги управления:
- Детализация рубрики — чем конкретнее критерии, тем точнее оценка
- Шкала — 1-5 даёт гранулярность, 1-3 проще для субъективных критериев
- Глубина иерархии — для коротких документов достаточно 2 уровня, для длинных — 3-4
Шаблон промпта
LLM-оценка
Ты — эксперт по оценке {тип контента}.
Оцени этот {объект оценки} по критериям:
1. {Критерий 1} ({шкала}): {что измеряет}
2. {Критерий 2} ({шкала}): {что измеряет}
3. {Критерий 3} ({шкала}): {что измеряет}
{Контекст / вопрос}:
{текст}
{Оцениваемый объект}:
{текст}
Выдай оценку в формате:
{"{критерий_1}": X, "{критерий_2}": X, "{критерий_3}": X}
Затем кратко объясни каждую оценку.
Подстановки:
{тип контента}— «клиентских коммуникаций», «технической документации», «маркетинговых текстов»{критерии}— конкретные аспекты качества для твоей задачи{шкала}— 1-5 для объективных, 1-3 для субъективных критериев
Ограничения
⚠️ Не для обычного пользователя чата: Основная часть исследования — про построение систем с function calling API, индексацией документов, пайплайнами. Требует кода и инфраструктуры.
⚠️ Узкий контекст: Тестировали на одном курсе по data science в одном университете. Переносимость на другие домены не проверена.
⚠️ Proprietary API: Эксперименты с GPT-4o, GPT-4.1, DeepSeek — результаты могут измениться с обновлением моделей.
Как исследовали
Команда из Berkeley и CMU взяла 1000 реальных вопросов студентов с форума EdSTEM курса по data science. Вопросы охватывали 17 недель: от концептуальных («что такое градиентный спуск») до логистических («когда дедлайн»).
Дизайн эксперимента: изолировали каждый модуль и меняли только один компонент. Например, фиксировали retrieval и LLM, меняли только стратегию function calling — и сравнивали результаты.
Валидация LLM-судьи: 180 ответов оценили два эксперта-TA (магистр и PhD с многолетним опытом). Достигли 70-85% согласия между экспертами. Затем сравнили оценки разных LLM с экспертными — DeepSeek-V3 показал 90% совпадение по критерию «фактичность».
Главный сюрприз: иерархический retrieval обогнал топовые embedding-модели из бенчмарка MTEB на ~30%. Структура документа оказалась важнее семантической близости эмбеддингов. Ещё один инсайт: reasoning-модели (DeepSeek-R1, o4-mini) НЕ превзошли обычные LLM в генерации ответов — для образовательного QA важнее следование контексту, чем «глубокое думание».
Ресурсы
Работа: EduMod-LLM: A Modular Approach for Designing Flexible and Transparent Educational Assistants
Авторы: Meenakshi Mittal, Rishi Khare, Mihran Miroyan (UC Berkeley), Chancharik Mitra (CMU), Narges Norouzi (UC Berkeley)
Сайт проекта: https://chancharikmitra.github.io/EduMod-LLM-website/
