arXiv:2509.20982 85 25 сент. 2025 г. FREE

Reference Aided Evaluation: эталонный ответ как компас для LLM-оценки

КЛЮЧЕВАЯ СУТЬ

LLM катастрофически плохо оценивает тексты без опоры — отклонение от человека почти половину шкалы (1.8 балла из 4). Модель либо изобретает своё решение (которое может быть неверным), либо награждает красивую фразу вместо правильного содержания. Reference Aided Evaluation решает это через эталонный ответ как компас — LLM перестаёт гадать и начинает сравнивать. Даёшь модели связку: контекст + образец правильного ответа + проверяемый текст. Она сверяет с эталоном по шкале 0-4 — отклонение падает с 1.8 до 0.9 балла.

Адаптировать под запрос

⚡

TL;DR

Reference Aided Evaluation — метод автоматической оценки текстовых ответов, где LLM получает не только вопрос и ответ студента, но и образец правильного ответа как ориентир. Работает через единственный промпт с чёткими критериями оценки по шкале 0-4.

Главная находка: LLM плохо оценивает текстовые ответы без опоры. Без эталона модель либо выдумывает своё решение (которое может быть неверным), либо судит по форме, а не по сути — награждает красивую фразу вместо правильного содержания. В эксперименте оценки без референса отклонялись от человека в среднем на 1.8 балла (почти половина шкалы 0-4). С референсом — всего 0.9 балла.

Суть метода: LLM получает связку из трёх элементов: учебный материал (контекст задачи) + эталонный ответ + ответ для проверки. Модель сверяет ответ студента с эталоном, опираясь на универсальные критерии глубины понимания — от простого упоминания темы (балл 1) до полного объяснения с примерами (балл 4). Всё в одном запросе.

🔬

Схема метода

ВХОД:
├─ Учебный материал (контекст вопроса)
├─ Вопрос
├─ Эталонный ответ
├─ Ответ студента
└─ Критерии оценки 0-4

↓ [один промпт в чат]

ВЫХОД:
├─ Балл (0-4)
└─ Объяснение (что учтено, чего не хватает)

🚀

Пример применения

Задача: Ты готовишь статью для клиента про маркетплейсы. Хочешь проверить, насколько твой текст раскрывает ключевую мысль про алгоритмы ранжирования.

Промпт:

Оцени текст по критериям глубины раскрытия темы. Шкала 0-4:
- 0: тема не затронута
- 1: упомянута поверхностно
- 2: объяснены ключевые моменты
- 3: полное объяснение
- 4: плюс примеры и детали

КОНТЕКСТ (учебный материал):
Алгоритмы ранжирования на маркетплейсах определяют видимость товаров. Учитывают: цену, отзывы, скорость доставки, конверсию карточки. Продавцы оптимизируют эти факторы, чтобы попасть в топ выдачи.

ЭТАЛОННЫЙ ОТВЕТ:
Алгоритмы ранжирования — это системы, которые решают, какие товары показывать покупателю первыми. Они анализируют десятки факторов: от цены до скорости отклика продавца. Для бизнеса это критично — товар на первой странице получает в 10 раз больше показов, чем на третьей.

МОЙ ТЕКСТ ДЛЯ ПРОВЕРКИ:
Ранжирование на Wildberries зависит от многих факторов. Продавцы должны следить за ценами и отзывами, чтобы их товары были видны покупателям. Это влияет на продажи.

---

Оцени мой текст по шкале выше. Дай балл и объясни: что есть, чего не хватает для более высокой оценки.

Результат:

Модель выдаст балл (вероятно, 2-3) и объяснение. Например: "Балл 2. Текст упоминает факторы (цены, отзывы) и связь с видимостью — это ключевые моменты. Но нет объяснения, КАК именно это работает, и почему важно. Для балла 3 добавь механику: почему алгоритм выбирает одни товары, а не другие. Для балла 4 — конкретный пример или цифру (как в эталоне: 'в 10 раз больше показов')."

Ты сразу видишь: твой текст поверхностный. Нужно углубить объяснение механики и добавить конкретику.

🧠

Почему это работает

Слабость LLM: Модели плохо различают «правильный ответ» от «красиво сформулированного». Без эталона LLM может наградить пустую фразу за грамотность или занизить верный ответ за непривычную формулировку. В исследовании модель без референса ставила 0 баллов правильным решениям, потому что не узнавала решение в другой форме записи (студент написал O(log10(n)) вместо словесного объяснения — модель решила, что это «бессмысленно»).

Сильная сторона LLM: Модели отлично сравнивают тексты и выделяют, что совпадает, а чего не хватает. Если дать образец, LLM видит: студент упомянул тему? Объяснил связи? Привёл примеры? Это чисто языковая задача — её модель решает хорошо.

Как метод использует это: Эталонный ответ превращает субъективную задачу («оцени глубину понимания») в конкретное сравнение. LLM не изобретает, каким должен быть ответ — она сверяет проверяемый текст с образцом. Плюс контекст (учебный материал) подсказывает что вообще важно в этой теме, а критерии 0-4 задают чёткую шкалу глубины.

Рычаги управления:

Строгость эталона: Чем детальнее эталон, тем строже оценка. Хочешь мягче — дай краткий эталон, оставляющий простор для вариаций.
Критерии 0-4: Можешь переписать уровни под свою задачу. Например, для креативных текстов балл 4 = оригинальность, для технических = точность терминов.
Контекст: Добавь больше материала → LLM лучше поймёт тему. Убери → оценка станет формальнее (только сверка с эталоном).
Формат объяснения: Попроси «дай 3 конкретных совета для улучшения» вместо общего разбора — получишь actionable-фидбек.

📋

Шаблон промпта

Оцени текст по критериям глубины раскрытия темы. Шкала 0-4:
- 0: тема не затронута или ответ бессмыслен
- 1: тема упомянута, но поверхностно, без объяснений
- 2: объяснены ключевые моменты темы
- 3: полное объяснение с правильной логикой
- 4: плюс примеры, детали, связь с контекстом

КОНТЕКСТ (материал по теме):
{учебный_материал_или_базовая_информация}

ЭТАЛОННЫЙ ОТВЕТ (образец хорошего ответа):
{правильный_ответ_на_вопрос}

ТЕКСТ ДЛЯ ПРОВЕРКИ:
{проверяемый_ответ}

---

Оцени текст по шкале выше. Дай балл и объясни: что есть, чего не хватает.

Что подставлять:

{учебный_материал} — контекст задачи: статья, инструкция, база знаний, из которой должен исходить ответ
{правильный_ответ} — твоя версия идеального ответа или взятая из авторитетного источника
{проверяемый_ответ} — текст, который нужно оценить

Адаптация шкалы: Критерии 0-4 можно переписать под задачу. Для оценки кода: 0 = не работает, 1 = работает с багами, 2 = работает корректно, 3 = чистый код, 4 = оптимизирован + комментарии. Для оценки питчей: 0 = идея непонятна, 1 = идея ясна, 2 = есть обоснование, 3 = обоснование убедительно, 4 = плюс цифры/кейсы.

⚠️

Ограничения

⚠️ Жёсткая привязка к эталону: Если правильный ответ можно дать по-разному, а ты дал только один вариант в эталоне — LLM может занизить другие верные подходы. Студент ответил через формулу, эталон — словами? Модель может не признать это правильным.

Решение: Либо дай несколько эталонов (для задач с вариативностью), либо в контексте явно укажи: "Правильный ответ может быть сформулирован по-разному, главное — суть."

⚠️ Модель судит не содержание, а сходство: LLM оценивает насколько проверяемый текст похож на эталон, а не истинность мысли. Если эталон неполный или ошибочный — оценка будет кривой.

Решение: Проверяй эталон сам или генерируй его через LLM + перепроверку.

⚠️ Короткие ответы страдают: Для кратких ответов (1-2 предложения) метод может быть слишком строгим — модель ищет детали из эталона, которых в коротком формате физически нет. В исследовании короткие, но верные ответы получали заниженные баллы.

Решение: Для коротких форматов (определения, факты) используй упрощённую шкалу 0-2: 0 = неверно, 1 = частично верно, 2 = полностью верно. Или вообще бинарную: верно/неверно.

🔍

Как исследовали

Команда взяла 110 реальных ответов студентов (бакалавры, магистранты, PhD) на 10 вопросов по Python и Computer Science из курса MIT. Вопросы типа: "Что такое сложность алгоритма?", "В чём суть ООП?" — классические текстовые задачи без единственного правильного ответа.

Сравнивали 5 подходов к оценке этих ответов:

JudgeLM — специально обученная модель-судья (но провалилась из-за лимита токенов)
Reference Aided — с эталонным ответом (наш герой)
No Reference — без эталона, только контекст
Additive — чек-лист из 3 критериев (правильность, ясность, объяснение)
Adaptive — генерация критериев под каждый вопрос

Каждый подход тестировали на Llama-3.1-8B и DeepSeek-R1-Distill-8B. Эталоном служила оценка человека (преподавателя).

Метрика успеха: Насколько оценка LLM близка к человеческой. Считали MAD (средняя абсолютная разница) и RMSE (корень из среднеквадратичной ошибки). Чем ниже — тем лучше модель повторяет человеческое суждение.

Почему Reference Aided выиграл:

MAD = 0.945 (меньше 1 балла разницы с человеком) vs 1.8+ у других методов
RMSE = 1.214 — самый низкий показатель
Llama-3.1 обыграл DeepSeek-R1, хотя последний умеет рассуждать через Chain-of-Thought — видимо, для простой задачи сравнения CoT избыточен

Что провалилось:

No Reference: Модель выдумывала своё решение задачи → ошибалась → ставила 0 правильным ответам
Additive (чек-лист): LLM не умеет в атомарные критерии — ставил всё или ничего. Из 110 ответов только 4-6 признаны правильными (при том, что человек поставил высокие баллы 60% ответов!)
Adaptive: Генерация критериев под каждый вопрос усилила привязку к эталону вместо гибкости — оценки стали ещё строже

Интересный инсайт: Модели строже людей. Человек ставил средний балл 2.6 из 4, Llama с Reference Aided — 1.8. Но разброс оценок у LLM меньше (стандартное отклонение 0.94 vs 1.17 у человека) — модель более консистентна, хоть и суровее.

📄

Оригинал из исследования

Контекст: Исследователи использовали этот промпт для Llama-3.1 и DeepSeek-R1 в методе Reference Aided Evaluation. Вот полная версия на английском:

You are a knowledgeable and fair evaluator. Your task is to assess a student's 
answer to a question based on the lesson content and a reference answer. 
Use the following grading scale:

**0**: The answer is nonsensical or unrelated to the question.
**1**: The answer shows minimal understanding of the relevant knowledge.
**2**: The answer shows partial understanding of the relevant knowledge. 
 The answer is not complete or contains wrong information.
**3**: The answer shows a complete and correct understanding of the concepts.
**4**: The answer shows a thorough and nuanced understanding of the concept, 
 providing additional context, examples, or explanations beyond the basics.

**Lesson Content**:
{lesson_content}

**Question**:
{question}

**Reference Answer**:
{reference_answer}

**Student's Answer**:
{student_answer}

Evaluate the student's answer and provide:
1. A score (0-4) based on the grading scale.
2. A brief explanation of why you assigned that score, referencing specific parts 
 of the student's answer and how they align with or deviate from the reference answer.

Важная деталь: Оригинал требует две вещи в ответе — балл + объяснение. Это ключевое отличие от просто числовой оценки: модель должна обосновать решение, что делает результат прозрачным и полезным для обучения.

💡

Адаптации и экстраполяции

📌

💡 Адаптация для саморедактуры текстов

Метод работает не только для оценки чужих ответов, но и для самопроверки своих текстов. Хочешь понять, насколько твоя статья раскрывает тему? Создай эталон (идеальную версию или возьми образец от эксперта) и попроси LLM сравнить.

Пример промпта:

Оцени МОЙ черновик статьи, сравнив с эталонной структурой. Шкала 0-4:
- 0: не раскрыта тема
- 1: поверхностно
- 2: основные пункты есть
- 3: всё раскрыто
- 4: плюс инсайты/примеры

ЭТАЛОН (как должна выглядеть хорошая статья):
[Вставь образец статьи на похожую тему или структуру из брифа]

МОЙ ЧЕРНОВИК:
[Твой текст]

Оцени по шкале + скажи: какие части слабые, что добавить для балла 4.

Это превращает LLM в критика с конкретным стандартом, а не абстрактного советчика.

📌

🔧 Техника: несколько эталонов → гибкая оценка

Что меняем: Вместо одного эталона даём 2-3 варианта правильного ответа.

Какой эффект: Модель видит, что тема может быть раскрыта по-разному — через разные примеры, формулировки, углы зрения. Это снижает жёсткую привязку к единственному образцу.

Пример изменённого промпта:

ЭТАЛОННЫЕ ОТВЕТЫ (все верные, но с разных сторон):

Вариант 1 (через определение):
{определение_концепции}

Вариант 2 (через пример):
{пример_применения}

Вариант 3 (через аналогию):
{метафора_или_сравнение}

ТЕКСТ ДЛЯ ПРОВЕРКИ:
{проверяемый_ответ}

Оцени: покрывает ли ответ СУТЬ хотя бы одного из эталонов? Не обязан повторять формулировку — главное идея.

Когда применять: Для творческих задач (эссе, питчи, объяснения концепций), где правильных подходов много. Для технических задач с единственным решением (формулы, код) — избыточно.

📌

🔧 Техника: балл + actionable-советы

Что меняем: Добавляем требование дать конкретные шаги для улучшения, а не общий разбор.

Какой эффект: Вместо «ответ неполный» получаешь «добавь X, убери Y, усиль Z» — это сразу план работы.

Пример:

[весь промпт Reference Aided как выше]

В объяснении дай:
1. Балл и причину
2. ТРИ конкретных действия для повышения балла: что добавить, убрать, изменить

Результат: LLM выдаст: "Балл 2. Для балла 3: (1) добавь объяснение, КАК работает алгоритм, (2) убери повтор слова 'эффективность', (3) приведи один числовой пример." — это уже чек-лист правок.

📌

🔧 Техника: эталон = твой прошлый успех

Что меняем: В качестве эталона берёшь свой же текст, который когда-то хорошо сработал (статья с высоким откликом, успешный питч, удачное объяснение).

Какой эффект: LLM оценивает не по абстрактному стандарту, а по твоему собственному лучшему уровню. Это создаёт персонализированную планку качества.

Пример:

ЭТАЛОН (моя статья, которая набрала 10k просмотров):
[текст успешной статьи]

МОЙ НОВЫЙ ЧЕРНОВИК:
[текст для проверки]

Оцени черновик, сравнивая с эталоном. В чём новый текст **слабее** старого? Что взять из старой статьи в новую?

Когда применять: Когда хочешь сохранить свой стиль, но поднять качество до прошлых пиков. Или когда учишься писать — берёшь эталоны от тех, кого уважаешь, и сравниваешь свои попытки.

🔗

Ресурсы

Analysis of instruction-based LLMs' capabilities to score and judge text-input problems in an academic setting

Valeria Ramirez-Garcia, David de-Fitero-Dominguez, Antonio Garcia-Cabot, Eva Garcia-Lopez

Universidad de Alcalá

Статья исследует 5 методов автоматической оценки текстовых ответов студентов через LLM. Основной вклад — систематическое сравнение подходов с человеческой оценкой и выявление ключевой роли эталонного ответа в качестве оценки.

📋 Дайджест исследования

Ключевая суть

Принцип работы

Вместо субъективного "оцени глубину понимания" → конкретное "сравни с образцом". Эталон превращает оценку качества в языковую задачу сравнения: что из образца есть в тексте? Что упущено? Насколько полно раскрыто? LLM не изобретает критерии из головы — она сверяет факты, термины, логику с образцом правильного ответа. Плюс контекст (учебный материал) подсказывает что вообще важно в теме.

Почему работает

LLM плохо различает "правильный ответ" от "красиво сформулированного" — без опоры может наградить пустую фразу за грамотность. В исследовании модель ставила 0 баллов правильным решениям, потому что не узнавала другую форму записи: студент написал O(log10(n)) вместо словесного объяснения — модель решила что это "бессмысленно". Но модели отлично сравнивают тексты и выделяют что совпадает, а чего не хватает. Эталон даёт точку отсчёта — теперь это не "придумай правильный ответ и сравни", а "вот образец, найди совпадения".

Когда применять

Оценка контента → проверка статей для клиентов, самопроверка текстов, оценка глубины раскрытия темы в обучающих материалах. Особенно когда нужна объективная оценка без человека-эксперта (массовая проверка студенческих работ, автоматическая оценка качества контента). НЕ подходит для креативных задач где правильных ответов десятки — метод сверяет с одним эталоном, альтернативные подходы может занизить.

Мини-рецепт

1. Подготовь эталонный ответ: Напиши идеальный ответ на вопрос или возьми экспертный образец. Чем детальнее эталон — тем строже оценка.
2. Собери промпт: Контекст задачи (учебный материал) + эталонный ответ + проверяемый текст + шкала 0-4 с критериями глубины (0 = не затронуто, 1 = упомянуто, 2 = объяснено, 3 = полное объяснение, 4 = плюс примеры).
3. Получи балл + объяснение: LLM выдаст оценку и разбор — что есть, чего не хватает для более высокого балла. Используй как action-план для улучшения текста.

Примеры

[ПЛОХО] :

Оцени этот текст про алгоритмы ранжирования на маркетплейсах. Хороший ли он?

— модель либо наградит красивую формулировку (игнорируя пустоту), либо занизит верный ответ в непривычной форме.

[ХОРОШО] :

Оцени текст по шкале 0-4 (0 = не затронуто, 4 = полное объяснение + примеры). КОНТЕКСТ: Алгоритмы ранжирования учитывают цену, отзывы, конверсию. ЭТАЛОН: Алгоритмы решают какие товары показывать первыми, анализируя десятки факторов — для бизнеса критично, товар на первой странице получает в 10 раз больше показов. МОЙ ТЕКСТ: Ранжирование зависит от цены и отзывов, это влияет на продажи.

— модель сверит с эталоном и скажет: "Балл 2. Упомянуты факторы, но нет объяснения КАК работает и почему важно. Добавь механику и конкретику."

Источник: Analysis of instruction-based LLMs' capabilities to score and judge text-input problems in an academic setting

ArXiv ID: 2509.20982 | Сгенерировано: 2026-01-12 01:20

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

Выберите модель ИИ:

Ваш запрос:

0 / 2000

~0.5-2 N-токенов ~10-30с

~0.3-1 N-токенов ~5-15с

Меню