3,583 papers
arXiv:2602.08672 74 9 фев. 2026 г. FREE

GER-Eval: двухэтапная оценка — модель сама создаёт критерии

КЛЮЧЕВАЯ СУТЬ
Даёшь модели готовые критерии оценки («связность», «точность») — она трактует их по-своему. Просишь оценить «связность текста» — для GPT это грамматические связки, для тебя — логический поток мысли. Результат: оценки есть, но непонятно на основе чего. GER-Eval позволяет получать прозрачные оценки текста — видно по каким именно параметрам модель судит, а не чёрный ящик с итоговой цифрой. Фишка: модель СНАЧАЛА формулирует свои критерии под задачу (название + описание + шкала), потом применяет их. Вместо человеческого «оцени по связности» модель создаёт «глубина аргументов», «новизна идей», «структурная ясность» — критерии которые она реально понимает. Согласованность 70-90% при применении своих критериев vs размытые оценки при использовании чужих.
Адаптировать под запрос

TL;DR

GER-Eval — метод оценки текстов в два шага: сначала LLM создаёт критерии оценки под задачу (название, описание, шкалу), потом оценивает по ним выход. Вместо готовых человеческих критериев ("оцени по связности и точности") модель формулирует свои ("оцени по глубине аргументов, новизне идей, структурной ясности"), которые лучше соответствуют её внутреннему представлению о качестве текста.

Обычно мы даём модели готовые критерии оценки, которые придумали люди. Но модель может понимать "связность" или "точность" не так, как мы. Исследование показало: модели стабильно применяют свои критерии (согласованность 70-90% между разными промптами), но плохо согласуются с человеческими оценками в фактических задачах. На диалогах и эмпатии — отлично (корреляция с людьми 0.8-0.9), на биомедицинских текстах — провал (корреляция 0.2-0.3). Критерии одной модели плохо работают в другой — каждая "понимает" качество по-своему.

Метод решает через явное разделение этапов: сначала модель артикулирует что именно она будет оценивать (создаёт список критериев с описаниями), потом применяет их к текстам. Это делает оценку прозрачнее — видно по каким именно параметрам модель судит, а не чёрный ящик с итоговой оценкой.


🔬

Схема метода

ШАГ 1 (Генерация критериев): 
Промпт с описанием задачи → Модель создаёт список критериев
Каждый критерий = [название + описание + шкала оценки]

ШАГ 2 (Применение): 
Промпт с критерием + текст для оценки → Модель даёт оценку по шкале + объяснение

Оба шага — отдельные запросы. Сначала получаешь набор критериев, потом прогоняешь через них каждый текст.


🚀

Пример применения

Задача: Ты пишешь тексты для Telegram-канала про стартапы. Нужно оценить три черновика поста про новый раунд Skillbox — какой лучше зайдёт аудитории?

ШАГ 1 — Создаём критерии:

Промпт:

Задача: оценка постов для Telegram-канала про российские стартапы и венчур.

Аудитория: основатели, инвесторы, люди из tech-индустрии. Читают в метро, между встречами.

Создай критерии оценки таких постов. Для каждого критерия укажи:
- Название
- Описание (что именно оцениваем)
- Шкалу (от 1 до 5, где 5 — отлично)

Результат: Модель выдаст 5-7 критериев, например: "Хукность первой строки", "Плотность инсайта", "Конкретика вместо общих слов", "Мемность/вирусность формулировок", "Релевантность для российского рынка". Каждый с описанием что именно проверять.

ШАГ 2 — Оцениваем черновики:

Промпт (для каждого черновика):

Критерий: Плотность инсайта
Описание: Сколько неочевидных мыслей на 100 слов. Пост должен давать новое понимание, а не пересказывать новость.
Шкала: 1-5 (5 = каждый абзац — новый угол зрения)

Оцени черновик:
[вставить текст поста]

Дай оценку и объясни почему.

Результат: Для каждого черновика получишь оценки по всем критериям с объяснениями. Увидишь не просто "этот лучше", а "этот проигрывает по хукности (2/5), но выигрывает по конкретике (5/5)".


🧠

Почему это работает

Проблема статичных критериев: Когда мы даём LLM человеческие критерии ("оцени по связности"), модель может трактовать их не так, как мы задумали. "Связность" для GPT может означать грамматические связки, а для нас — логический поток мысли. Мы получаем оценки, но не понимаем на основе чего модель их выставила.

Сильная сторона LLM: Модели хорошо артикулируют свои внутренние паттерны — если попросить сформулировать критерий, они опишут что конкретно будут проверять. Это превращает неявное "ощущение качества" в явный чек-лист.

Как метод использует это: Разделение на два этапа заставляет модель сначала объяснить себе что такое хороший текст для этой задачи, потом применить эти объяснения. Первый этап работает как калибровка — модель формулирует набор проверок, второй — как последовательное применение этих проверок.

Рычаги управления:

  • Контекст при генерации критериев → добавь примеры хороших/плохих текстов в первый промпт — критерии станут специфичнее под домен
  • Количество критериев → скажи "не больше 3 критериев" для быстрой оценки или "7-10 критериев" для детального разбора
  • Few-shot в применении → во втором шаге покажи пример "текст X получил 4/5 потому что..." — модель точнее откалибрует шкалу
  • Формат вывода → попроси в первом шаге "критерии в формате таблицы" или "критерии с примерами" для разной степени детализации

📋

Шаблон промпта

📌

ШАГ 1 — Генерация критериев

Задача: {описание_задачи}

Аудитория/Контекст: {для_кого_текст}

Создай критерии оценки для этой задачи. Для каждого критерия укажи:
- Название (кратко, суть)
- Описание (что конкретно проверяем)
- Шкалу оценки (например, 1-5 или высокий/средний/низкий)

[Опционально — добавь примеры:]
Вот пример хорошего результата: {пример_хорошего}
Вот пример плохого результата: {пример_плохого}

Что подставлять: - {описание_задачи} — что оцениваем: "посты в соцсетях", "тексты холодных писем", "ответы саппорта" - {для_кого_текст} — кто читает, в каком контексте, какие ожидания - Примеры (опционально) — реальные тексты с пометками что в них хорошо/плохо

Модель вернёт список критериев. Сохрани их для второго шага.


🚀

ШАГ 2 — Применение критериев

Критерий: {название_критерия}
Описание: {описание_критерия}
Шкала: {шкала_оценки}

Оцени следующий текст по этому критерию:

{текст_для_оценки}

Дай оценку по шкале и объясни почему.

[Опционально — few-shot:]
Пример: текст "{пример_текста}" получил {оценка} потому что {объяснение}.

Что подставлять: - {название_критерия}, {описание_критерия}, {шкала_оценки} — копируешь из вывода первого шага - {текст_для_оценки} — текст который оцениваешь - Few-shot пример (опционально) — если нужна калибровка шкалы

Повтори этот промпт для каждого критерия и каждого текста.


🚀 Быстрый старт — вставь в чат:

Я хочу использовать двухэтапную оценку: сначала ты создашь критерии, потом оценишь по ним мои тексты.

Вот шаблон:

[вставить ШАГ 1 выше]

Задай мне вопросы, чтобы заполнить {описание_задачи}, {для_кого_текст} и понять нужны ли примеры.

LLM спросит что именно ты оцениваешь, для какой аудитории, какие есть примеры — чтобы сгенерировать релевантные критерии. После получения критериев скажи "теперь оцени вот этот текст по первому критерию" — модель возьмёт паттерн из ШАГа 2 и применит.


⚠️

Ограничения

⚠️ Фактические задачи: Для текстов где важна точность фактов (биомедицина, технические тексты, дата-ориентированные отчёты) метод проваливается. Корреляция с человеческими оценками падает до 0.2-0.3. Модель создаст критерий "медицинская точность", но не сможет надёжно его применить — у неё нет базы знаний для проверки фактов.

⚠️ Разные модели = разные оценки: Критерии созданные в GPT-4o, не работают в Claude или Llama. Каждая модель "понимает" качество текста по-своему. Если создал критерии в одной модели — применяй их в той же. Переносить на другую — получишь другие оценки.

⚠️ Два запроса минимум: Для полной оценки нужен минимум один запрос на генерацию критериев + по запросу на каждый критерий для каждого текста. Оценить 3 текста по 5 критериям = 16 запросов (1 для генерации + 15 для применения). Расход токенов выше чем простая оценка "в лоб".

⚠️ Субъективные домены — сильная зона: Метод отлично работает там где важны стиль, тон, вовлечённость, креативность (посты, диалоги, креативы). На таких задачах согласованность 80-90%. Но на объективных критериях (грамматика, факты, числовая точность) — слабее.


🔍

Как исследовали

Команда из Амстердамского университета взяла четыре бенчмарка с человеческими оценками: диалоги (USR), новостные саммари (SummEval), биомедицинские саммари (SumPubMed) и instruction-following (HelpSteer2). Всего тысячи текстов с оценками людей по критериям вроде "связность", "точность", "вовлечённость".

Протестировали пять моделей: GPT-4o, GPT-4o-mini, Llama-3.3-70B, Mixtral-8x22B, Qwen2.5-72B. Каждую модель попросили сгенерировать критерии оценки для каждого датасета (три варианта промпта: только описание задачи, описание + примеры контекста, описание + хорошие/плохие примеры), потом оценить тексты по этим критериям (zero-shot и few-shot с демонстрациями).

Что измеряли: (1) Сколько критериев создаёт модель и насколько они уникальны, (2) совпадают ли сгенерированные критерии с человеческими (alignment), (3) насколько стабильно модель применяет свои критерии (согласованность между zero-shot и few-shot), (4) насколько оценки модели коррелируют с человеческими.

Главный инсайт: Модели создают 5-7 критериев на задачу, 80-90% уникальных (не повторяются). GPT-4o показал 100% совпадение с человеческими критериями на диалогах при few-shot промптинге, но на биомедицинских текстах согласие упало до 60% и ниже.

Что удивило: Критерии не переносятся между моделями. Когда критерии созданные GPT-4o применяли через Llama — корреляция оценок проваливалась почти до нуля на биомедицине (ICC < 0.2), но держалась на диалогах (ICC ≈ 0.7-0.8). Это значит каждая модель "видит" качество текста через свои паттерны — что для GPT "хорошая связность", для Llama может быть средней.

Практический вывод: Двухэтапная оценка работает, но только внутри одной модели и лучше всего на субъективных критериях (тон, стиль, вовлечённость). На фактах и специализированных доменах — ненадёжно.


💡

Адаптации и экстраполяции

🔧 Техника: Создание персонализированных чек-листов

Вместо одноразовой оценки используй первый шаг для создания многоразового чек-листа. Сгенерировал критерии для оценки постов в соцсетях? Сохрани их как промпт-шаблон и применяй к каждому новому посту. Это превращает GER-Eval в фабрику персональных рубрик под твои задачи.

Измени в ШАГе 1:

После создания критериев выведи их в формате готового промпта:
"Оцени следующий {тип_контента} по критериям:
1. [Критерий 1]: [описание] (шкала: [шкала])
2. [Критерий 2]: [описание] (шкала: [шкала])
..."

Получишь готовый промпт для копипаста — больше не нужен двухшаговый процесс, сразу оцениваешь новые тексты.

🔧 Техника: Сравнительная оценка вместо абсолютной

Вместо оценки одного текста по шкале попроси модель сравнить два варианта по каждому критерию. LLM лучше справляются с относительными суждениями ("этот лучше того") чем с абсолютными шкалами ("это 4 из 5").

В ШАГе 2 замени:

Критерий: {название_критерия}

Сравни два варианта по этому критерию:

Вариант А: {текст_А}
Вариант Б: {текст_Б}

Какой лучше и насколько (незначительно / заметно / сильно)?

Это снижает проблему калибровки шкалы — модели не нужно понимать "что такое 4 из 5", только "который из двух сильнее".

🔧 Техника: Генерация критериев из негативных кейсов

Если у тебя есть примеры провальных текстов, используй их в ШАГе 1 для создания более острых критериев. Модель увидит конкретные косяки и сформулирует критерии против них.

Добавь в ШАГ 1:

Вот примеры неудачных текстов и что в них не так:

Текст 1: {плохой_пример_1}
Проблема: {что_не_так}

Текст 2: {плохой_пример_2}
Проблема: {что_не_так}

Создай критерии которые **ловят эти косяки**.

Критерии станут специфичнее — не абстрактная "ясность", а "отсутствие канцелярита" или "конкретные цифры вместо 'много'".


🔗

Ресурсы

Learning to Judge: LLMs Designing and Applying Evaluation Rubrics • Бенчмарки: USR (Mehri & Eskenazi, 2020), SummEval (Fabbri et al., 2021), SumPubMed (Gupta et al., 2021), HelpSteer2 (Wang et al., 2024) • Код и сгенерированные рубрики: https://github.com/Clemenciah/llm-generated-rubrics • Авторы: Clemencia Siro (CWI Amsterdam), Pourya Aliannejadi (Shahid Beheshti University), Mohammad Aliannejadi (University of Amsterdam)


📋 Дайджест исследования

Ключевая суть

Даёшь модели готовые критерии оценки («связность», «точность») — она трактует их по-своему. Просишь оценить «связность текста» — для GPT это грамматические связки, для тебя — логический поток мысли. Результат: оценки есть, но непонятно на основе чего. GER-Eval позволяет получать прозрачные оценки текста — видно по каким именно параметрам модель судит, а не чёрный ящик с итоговой цифрой. Фишка: модель СНАЧАЛА формулирует свои критерии под задачу (название + описание + шкала), потом применяет их. Вместо человеческого «оцени по связности» модель создаёт «глубина аргументов», «новизна идей», «структурная ясность» — критерии которые она реально понимает. Согласованность 70-90% при применении своих критериев vs размытые оценки при использовании чужих.

Принцип работы

Не пытайся впихнуть создание критериев и оценку в один промпт. Разделяй на два запроса: первый — модель генерирует список критериев, второй — применяет их к текстам. Первый этап работает как калибровка — модель артикулирует что такое «хороший текст» для конкретной задачи (посты в Telegram, cold emails, ответы саппорта). Получаешь 5-7 критериев с чёткими описаниями. Второй этап — последовательное применение. Берёшь каждый критерий, прогоняешь через него текст, получаешь оценку + объяснение почему. Это превращает размытое «нравится/не нравится» в структурированный разбор.

Почему работает

Модели отлично формулируют свои внутренние паттерны — если попросить описать критерий, они чётко объяснят что конкретно будут проверять. Первый шаг заставляет модель превратить неявное "ощущение качества" в явный чек-лист — она объясняет себе что важно, потом применяет эти объяснения. На субъективных задачах (диалоги, креативы, посты) это даёт корреляцию с людьми 0.8-0.9. Прикол: на фактических текстах (биомедицина, техдоки) — провал до 0.2-0.3. Модель создаст критерий «медицинская точность», но не сможет его надёжно применить — у неё нет базы знаний для проверки фактов. Ещё момент: критерии созданные в GPT-4o не работают в Claude. Каждая модель понимает качество по-своему — создал в одной, применяй в той же.

Когда применять

Субъективные оценки текстов → конкретно для постов в соцсетях, диалогов с клиентами, креативов, писем, описаний продуктов. Особенно когда важны стиль, тон, вовлечённость — там где нет единственно правильного ответа. НЕ подходит для фактических задач: биомедицинские тексты, технические отчёты, дата-ориентированные материалы. Модель плывёт на проверке фактов — корреляция с экспертами падает в пол.

Мини-рецепт

1. Генерация критериев (первый запрос):
Дай контекст: Задача: оценка постов для Telegram-канала про стартапы. Аудитория: основатели, инвесторы, читают между встречами. Создай 5-7 критериев оценки. Для каждого: название, описание (что проверяем), шкалу 1-5.

Опционально добавь примеры хорошего/плохого текста — критерии станут специфичнее.

2. Применение критериев (по запросу на каждый критерий):
Возьми один критерий из списка: Критерий: Плотность инсайта. Описание: сколько неочевидных мыслей на 100 слов. Шкала: 1-5. Оцени черновик: [текст поста]. Дай оценку и объясни.

Повтори для каждого критерия и каждого текста.

3. Соберёшь оценки:
Получишь структурированный разбор — не просто «этот лучше», а «этот проигрывает по хукности (2/5), но выигрывает по конкретике (5/5)».

Примеры

[ПЛОХО] : Оцени три черновика поста про Skillbox по связности, полезности и вовлечённости. Поставь баллы. (Модель выдаст оценки, но ты не поймёшь что для неё «связность» — грамматика или логика)
[ХОРОШО] : Шаг 1: Создай критерии для постов про российские стартапы. Аудитория: основатели и инвесторы, читают в метро. Дай 5 критериев с описаниями и шкалой. → получишь «Хукность первой строки», «Плотность инсайта», «Конкретика вместо общих слов». Шаг 2: Оцени черновик по критерию "Плотность инсайта": [текст] → получишь оценку 3/5 с объяснением «две мысли на 150 слов, остальное — пересказ новости».
Источник: Learning to Judge: LLMs Designing and Applying Evaluation Rubrics
ArXiv ID: 2602.08672 | Сгенерировано: 2026-02-10 08:35

Проблемы LLM

ПроблемаСутьКак обойти
Готовые критерии оценки модель понимает не так как людиДаёшь критерий "оцени связность текста". Модель проверяет грамматические связки. Ты имел в виду логический поток мысли. Получаешь оценку, но непонятно на основе чего. Модель трактует слова по-своему. Особенно проблемно для абстрактных критериев: "вовлечённость", "точность", "качество"Попроси модель сначала сформулировать что именно она будет проверять. Вместо "оцени по связности" "опиши критерии оценки связности, потом примени их". Модель артикулирует свою трактовку, ты видишь что она проверяет

Методы

МетодСуть
Двухэтапная оценка — модель создаёт критерии перед применениемШаг 1: Промпт с описанием задачи модель генерирует список критериев (каждый = название + описание + шкала). Шаг 2: Для каждого критерия отдельный запрос с текстом оценка по шкале + объяснение. Почему работает: Разделение заставляет модель сначала объяснить себе что такое качество для этой задачи (создать явный чек-лист), потом последовательно применить каждую проверку. Превращает неявное "ощущение" в прозрачный процесс. Рычаги: добавь примеры хороших/плохих текстов в шаг 1 критерии специфичнее; ограничь количество критериев (3 для быстрой оценки, 7-10 для детальной); добавь few-shot в шаг 2 точнее калибрует шкалу. Когда работает: субъективные критерии (стиль, тон, вовлечённость), креативные тексты, нужна прозрачность оценки. Не работает: факт-чекинг, технические тексты с проверяемыми данными

Тезисы

ТезисКомментарий
Каждая модель понимает качество текста по-своемуКритерии созданные в GPT-4 дают другие оценки в Claude или Llama. Причина: разные внутренние представления о "хорошем тексте". Одна модель при слове "связность" активирует паттерны грамматики, другая — логической структуры. Применяй: Создал критерии в одной модели — используй их только в ней. Переключаешь модель — генерируй критерии заново
Модели хорошо оценивают субъективное, плохо объективноеНа задачах со стилем, тоном, эмпатией, креативностью — модель согласуется с людьми сильно. На фактах, технической точности, проверяемых данных — слабо. Механизм: модель опирается на языковые паттерны (они хорошо отражают субъективное восприятие), но не имеет базы знаний для проверки фактов. Применяй: Оценка постов соцсетей, диалогов, креативов — LLM подходит. Оценка медицинских текстов, технических отчётов — нужна человеческая проверка или внешние источники
📖 Простыми словами

Learning to Judge:LLMsDesigning and Applying Evaluation Rubrics

arXiv: 2602.08672

Когда мы просим нейронку оценить текст, мы обычно даем ей готовую линейку: «проверь на грамотность и логику». Но проблема в том, что LLM понимает слова иначе, чем человек. Для тебя «логика» — это когда одно следует из другого, а для модели это может быть просто наличие союзов «потому что» и «следовательно». В итоге получается глухой телефон: ты просишь одно, она измеряет другое, и результат выходит пальцем в небо. Метод GER-Eval меняет правила игры: он заставляет модель сначала саму придумать критерии оценки под конкретную задачу, а уже потом по ним судить.

Это как если бы ты нанял шеф-повара оценить блюдо. Вместо того чтобы давать ему анкету из столовой с пунктами «соленое/несоленое», ты говоришь: «Сначала напиши, что делает этот суп идеальным, а потом проверь, соответствует ли он твоим же стандартам». Повар сам выделит текстуру, баланс кислотности и аромат, потому что он эксперт в этой среде. Так и нейронка: когда она сама формулирует, что такое «хороший текст» в её понимании, она перестает гадать, что имел в виду человек, и начинает использовать свои внутренние веса и логику на полную катушку.

Вместо абстрактной «связности» модель выкатывает четкие параметры вроде глубины аргументации или структурной ясности. Работает это в два хода: сначала этап генерации рубрик, где LLM создает детальное описание каждого критерия и шкалу баллов, а затем — сама оценка. Исследование показывает, что такие «самодельные» критерии работают точнее, чем навязанные извне. Модель как бы настраивает свой внутренний микроскоп под конкретный образец, и внезапно оказывается, что она видит нюансы, которые обычный промпт просто игнорирует.

Этот подход — не просто фишка для ученых, он универсален для любого контента. Тестировали на сложных текстах, но принцип применим везде: от проверки постов в Telegram до оценки кода или ответов техподдержки. Если тебе нужно понять, какой из трех вариантов письма клиенту лучше, не навязывай нейронке свои критерии. Дай ей волю составить собственный чек-лист, и ты увидишь, что её вердикт станет в разы адекватнее. SEO-подход к оценке сдыхает, уступая место глубокому семантическому анализу, где модель сама решает, что важно.

Короче, хватит работать за нейронку и пытаться объяснить ей человеческие понятия на пальцах. Используй двухэтапную проверку: пусть модель сама строит систему координат, в которой она профи. Это убирает эффект «черного ящика», когда оценка есть, а логики за ней не видно. Либо ты позволяешь LLM дизайнить критерии, либо продолжаешь получать рандомные цифры, которые вроде как похожи на правду, но на деле — полная фигня. Кто перейдет на самообучающиеся рубрики, тот получит контроль над качеством, остальные будут и дальше воевать с галлюцинациями.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с