TL;DR
Reference Aided Evaluation — метод автоматической оценки текстовых ответов, где LLM получает не только вопрос и ответ студента, но и образец правильного ответа как ориентир. Работает через единственный промпт с чёткими критериями оценки по шкале 0-4.
Главная находка: LLM плохо оценивает текстовые ответы без опоры. Без эталона модель либо выдумывает своё решение (которое может быть неверным), либо судит по форме, а не по сути — награждает красивую фразу вместо правильного содержания. В эксперименте оценки без референса отклонялись от человека в среднем на 1.8 балла (почти половина шкалы 0-4). С референсом — всего 0.9 балла.
Суть метода: LLM получает связку из трёх элементов: учебный материал (контекст задачи) + эталонный ответ + ответ для проверки. Модель сверяет ответ студента с эталоном, опираясь на универсальные критерии глубины понимания — от простого упоминания темы (балл 1) до полного объяснения с примерами (балл 4). Всё в одном запросе.
Схема метода
ВХОД:
├─ Учебный материал (контекст вопроса)
├─ Вопрос
├─ Эталонный ответ
├─ Ответ студента
└─ Критерии оценки 0-4
↓ [один промпт в чат]
ВЫХОД:
├─ Балл (0-4)
└─ Объяснение (что учтено, чего не хватает)
Пример применения
Задача: Ты готовишь статью для клиента про маркетплейсы. Хочешь проверить, насколько твой текст раскрывает ключевую мысль про алгоритмы ранжирования.
Промпт:
Оцени текст по критериям глубины раскрытия темы. Шкала 0-4:
- 0: тема не затронута
- 1: упомянута поверхностно
- 2: объяснены ключевые моменты
- 3: полное объяснение
- 4: плюс примеры и детали
КОНТЕКСТ (учебный материал):
Алгоритмы ранжирования на маркетплейсах определяют видимость товаров. Учитывают: цену, отзывы, скорость доставки, конверсию карточки. Продавцы оптимизируют эти факторы, чтобы попасть в топ выдачи.
ЭТАЛОННЫЙ ОТВЕТ:
Алгоритмы ранжирования — это системы, которые решают, какие товары показывать покупателю первыми. Они анализируют десятки факторов: от цены до скорости отклика продавца. Для бизнеса это критично — товар на первой странице получает в 10 раз больше показов, чем на третьей.
МОЙ ТЕКСТ ДЛЯ ПРОВЕРКИ:
Ранжирование на Wildberries зависит от многих факторов. Продавцы должны следить за ценами и отзывами, чтобы их товары были видны покупателям. Это влияет на продажи.
---
Оцени мой текст по шкале выше. Дай балл и объясни: что есть, чего не хватает для более высокой оценки.
Результат:
Модель выдаст балл (вероятно, 2-3) и объяснение. Например: "Балл 2. Текст упоминает факторы (цены, отзывы) и связь с видимостью — это ключевые моменты. Но нет объяснения, КАК именно это работает, и почему важно. Для балла 3 добавь механику: почему алгоритм выбирает одни товары, а не другие. Для балла 4 — конкретный пример или цифру (как в эталоне: 'в 10 раз больше показов')."
Ты сразу видишь: твой текст поверхностный. Нужно углубить объяснение механики и добавить конкретику.
Почему это работает
Слабость LLM: Модели плохо различают «правильный ответ» от «красиво сформулированного». Без эталона LLM может наградить пустую фразу за грамотность или занизить верный ответ за непривычную формулировку. В исследовании модель без референса ставила 0 баллов правильным решениям, потому что не узнавала решение в другой форме записи (студент написал O(log10(n)) вместо словесного объяснения — модель решила, что это «бессмысленно»).
Сильная сторона LLM: Модели отлично сравнивают тексты и выделяют, что совпадает, а чего не хватает. Если дать образец, LLM видит: студент упомянул тему? Объяснил связи? Привёл примеры? Это чисто языковая задача — её модель решает хорошо.
Как метод использует это: Эталонный ответ превращает субъективную задачу («оцени глубину понимания») в конкретное сравнение. LLM не изобретает, каким должен быть ответ — она сверяет проверяемый текст с образцом. Плюс контекст (учебный материал) подсказывает что вообще важно в этой теме, а критерии 0-4 задают чёткую шкалу глубины.
Рычаги управления:
- Строгость эталона: Чем детальнее эталон, тем строже оценка. Хочешь мягче — дай краткий эталон, оставляющий простор для вариаций.
- Критерии 0-4: Можешь переписать уровни под свою задачу. Например, для креативных текстов балл 4 = оригинальность, для технических = точность терминов.
- Контекст: Добавь больше материала → LLM лучше поймёт тему. Убери → оценка станет формальнее (только сверка с эталоном).
- Формат объяснения: Попроси «дай 3 конкретных совета для улучшения» вместо общего разбора — получишь actionable-фидбек.
Шаблон промпта
Оцени текст по критериям глубины раскрытия темы. Шкала 0-4:
- 0: тема не затронута или ответ бессмыслен
- 1: тема упомянута, но поверхностно, без объяснений
- 2: объяснены ключевые моменты темы
- 3: полное объяснение с правильной логикой
- 4: плюс примеры, детали, связь с контекстом
КОНТЕКСТ (материал по теме):
{учебный_материал_или_базовая_информация}
ЭТАЛОННЫЙ ОТВЕТ (образец хорошего ответа):
{правильный_ответ_на_вопрос}
ТЕКСТ ДЛЯ ПРОВЕРКИ:
{проверяемый_ответ}
---
Оцени текст по шкале выше. Дай балл и объясни: что есть, чего не хватает.
Что подставлять:
{учебный_материал}— контекст задачи: статья, инструкция, база знаний, из которой должен исходить ответ{правильный_ответ}— твоя версия идеального ответа или взятая из авторитетного источника{проверяемый_ответ}— текст, который нужно оценить
Адаптация шкалы: Критерии 0-4 можно переписать под задачу. Для оценки кода: 0 = не работает, 1 = работает с багами, 2 = работает корректно, 3 = чистый код, 4 = оптимизирован + комментарии. Для оценки питчей: 0 = идея непонятна, 1 = идея ясна, 2 = есть обоснование, 3 = обоснование убедительно, 4 = плюс цифры/кейсы.
Ограничения
⚠️ Жёсткая привязка к эталону: Если правильный ответ можно дать по-разному, а ты дал только один вариант в эталоне — LLM может занизить другие верные подходы. Студент ответил через формулу, эталон — словами? Модель может не признать это правильным.
Решение: Либо дай несколько эталонов (для задач с вариативностью), либо в контексте явно укажи: "Правильный ответ может быть сформулирован по-разному, главное — суть."
⚠️ Модель судит не содержание, а сходство: LLM оценивает насколько проверяемый текст похож на эталон, а не истинность мысли. Если эталон неполный или ошибочный — оценка будет кривой.
Решение: Проверяй эталон сам или генерируй его через LLM + перепроверку.
⚠️ Короткие ответы страдают: Для кратких ответов (1-2 предложения) метод может быть слишком строгим — модель ищет детали из эталона, которых в коротком формате физически нет. В исследовании короткие, но верные ответы получали заниженные баллы.
Решение: Для коротких форматов (определения, факты) используй упрощённую шкалу 0-2: 0 = неверно, 1 = частично верно, 2 = полностью верно. Или вообще бинарную: верно/неверно.
Как исследовали
Команда взяла 110 реальных ответов студентов (бакалавры, магистранты, PhD) на 10 вопросов по Python и Computer Science из курса MIT. Вопросы типа: "Что такое сложность алгоритма?", "В чём суть ООП?" — классические текстовые задачи без единственного правильного ответа.
Сравнивали 5 подходов к оценке этих ответов:
- JudgeLM — специально обученная модель-судья (но провалилась из-за лимита токенов)
- Reference Aided — с эталонным ответом (наш герой)
- No Reference — без эталона, только контекст
- Additive — чек-лист из 3 критериев (правильность, ясность, объяснение)
- Adaptive — генерация критериев под каждый вопрос
Каждый подход тестировали на Llama-3.1-8B и DeepSeek-R1-Distill-8B. Эталоном служила оценка человека (преподавателя).
Метрика успеха: Насколько оценка LLM близка к человеческой. Считали MAD (средняя абсолютная разница) и RMSE (корень из среднеквадратичной ошибки). Чем ниже — тем лучше модель повторяет человеческое суждение.
Почему Reference Aided выиграл:
- MAD = 0.945 (меньше 1 балла разницы с человеком) vs 1.8+ у других методов
- RMSE = 1.214 — самый низкий показатель
- Llama-3.1 обыграл DeepSeek-R1, хотя последний умеет рассуждать через Chain-of-Thought — видимо, для простой задачи сравнения CoT избыточен
Что провалилось:
- No Reference: Модель выдумывала своё решение задачи → ошибалась → ставила 0 правильным ответам
- Additive (чек-лист): LLM не умеет в атомарные критерии — ставил всё или ничего. Из 110 ответов только 4-6 признаны правильными (при том, что человек поставил высокие баллы 60% ответов!)
- Adaptive: Генерация критериев под каждый вопрос усилила привязку к эталону вместо гибкости — оценки стали ещё строже
Интересный инсайт: Модели строже людей. Человек ставил средний балл 2.6 из 4, Llama с Reference Aided — 1.8. Но разброс оценок у LLM меньше (стандартное отклонение 0.94 vs 1.17 у человека) — модель более консистентна, хоть и суровее.
Оригинал из исследования
Контекст: Исследователи использовали этот промпт для Llama-3.1 и DeepSeek-R1 в методе Reference Aided Evaluation. Вот полная версия на английском:
You are a knowledgeable and fair evaluator. Your task is to assess a student's
answer to a question based on the lesson content and a reference answer.
Use the following grading scale:
**0**: The answer is nonsensical or unrelated to the question.
**1**: The answer shows minimal understanding of the relevant knowledge.
**2**: The answer shows partial understanding of the relevant knowledge.
The answer is not complete or contains wrong information.
**3**: The answer shows a complete and correct understanding of the concepts.
**4**: The answer shows a thorough and nuanced understanding of the concept,
providing additional context, examples, or explanations beyond the basics.
**Lesson Content**:
{lesson_content}
**Question**:
{question}
**Reference Answer**:
{reference_answer}
**Student's Answer**:
{student_answer}
Evaluate the student's answer and provide:
1. A score (0-4) based on the grading scale.
2. A brief explanation of why you assigned that score, referencing specific parts
of the student's answer and how they align with or deviate from the reference answer.
Важная деталь: Оригинал требует две вещи в ответе — балл + объяснение. Это ключевое отличие от просто числовой оценки: модель должна обосновать решение, что делает результат прозрачным и полезным для обучения.
Адаптации и экстраполяции
💡 Адаптация для саморедактуры текстов
Метод работает не только для оценки чужих ответов, но и для самопроверки своих текстов. Хочешь понять, насколько твоя статья раскрывает тему? Создай эталон (идеальную версию или возьми образец от эксперта) и попроси LLM сравнить.
Пример промпта:
Оцени МОЙ черновик статьи, сравнив с эталонной структурой. Шкала 0-4:
- 0: не раскрыта тема
- 1: поверхностно
- 2: основные пункты есть
- 3: всё раскрыто
- 4: плюс инсайты/примеры
ЭТАЛОН (как должна выглядеть хорошая статья):
[Вставь образец статьи на похожую тему или структуру из брифа]
МОЙ ЧЕРНОВИК:
[Твой текст]
Оцени по шкале + скажи: какие части слабые, что добавить для балла 4.
Это превращает LLM в критика с конкретным стандартом, а не абстрактного советчика.
🔧 Техника: несколько эталонов → гибкая оценка
Что меняем: Вместо одного эталона даём 2-3 варианта правильного ответа.
Какой эффект: Модель видит, что тема может быть раскрыта по-разному — через разные примеры, формулировки, углы зрения. Это снижает жёсткую привязку к единственному образцу.
Пример изменённого промпта:
ЭТАЛОННЫЕ ОТВЕТЫ (все верные, но с разных сторон):
Вариант 1 (через определение):
{определение_концепции}
Вариант 2 (через пример):
{пример_применения}
Вариант 3 (через аналогию):
{метафора_или_сравнение}
ТЕКСТ ДЛЯ ПРОВЕРКИ:
{проверяемый_ответ}
Оцени: покрывает ли ответ СУТЬ хотя бы одного из эталонов? Не обязан повторять формулировку — главное идея.
Когда применять: Для творческих задач (эссе, питчи, объяснения концепций), где правильных подходов много. Для технических задач с единственным решением (формулы, код) — избыточно.
🔧 Техника: балл + actionable-советы
Что меняем: Добавляем требование дать конкретные шаги для улучшения, а не общий разбор.
Какой эффект: Вместо «ответ неполный» получаешь «добавь X, убери Y, усиль Z» — это сразу план работы.
Пример:
[весь промпт Reference Aided как выше]
В объяснении дай:
1. Балл и причину
2. ТРИ конкретных действия для повышения балла: что добавить, убрать, изменить
Результат: LLM выдаст: "Балл 2. Для балла 3: (1) добавь объяснение, КАК работает алгоритм, (2) убери повтор слова 'эффективность', (3) приведи один числовой пример." — это уже чек-лист правок.
🔧 Техника: эталон = твой прошлый успех
Что меняем: В качестве эталона берёшь свой же текст, который когда-то хорошо сработал (статья с высоким откликом, успешный питч, удачное объяснение).
Какой эффект: LLM оценивает не по абстрактному стандарту, а по твоему собственному лучшему уровню. Это создаёт персонализированную планку качества.
Пример:
ЭТАЛОН (моя статья, которая набрала 10k просмотров):
[текст успешной статьи]
МОЙ НОВЫЙ ЧЕРНОВИК:
[текст для проверки]
Оцени черновик, сравнивая с эталоном. В чём новый текст **слабее** старого? Что взять из старой статьи в новую?
Когда применять: Когда хочешь сохранить свой стиль, но поднять качество до прошлых пиков. Или когда учишься писать — берёшь эталоны от тех, кого уважаешь, и сравниваешь свои попытки.
Ресурсы
Analysis of instruction-based LLMs' capabilities to score and judge text-input problems in an academic setting
Valeria Ramirez-Garcia, David de-Fitero-Dominguez, Antonio Garcia-Cabot, Eva Garcia-Lopez
Universidad de Alcalá
Статья исследует 5 методов автоматической оценки текстовых ответов студентов через LLM. Основной вклад — систематическое сравнение подходов с человеческой оценкой и выявление ключевой роли эталонного ответа в качестве оценки.
