arXiv:2602.08672 74 9 фев. 2026 г. FREE

GER-Eval: двухэтапная оценка — модель сама создаёт критерии

КЛЮЧЕВАЯ СУТЬ

Даёшь модели готовые критерии оценки («связность», «точность») — она трактует их по-своему. Просишь оценить «связность текста» — для GPT это грамматические связки, для тебя — логический поток мысли. Результат: оценки есть, но непонятно на основе чего. GER-Eval позволяет получать прозрачные оценки текста — видно по каким именно параметрам модель судит, а не чёрный ящик с итоговой цифрой. Фишка: модель СНАЧАЛА формулирует свои критерии под задачу (название + описание + шкала), потом применяет их. Вместо человеческого «оцени по связности» модель создаёт «глубина аргументов», «новизна идей», «структурная ясность» — критерии которые она реально понимает. Согласованность 70-90% при применении своих критериев vs размытые оценки при использовании чужих.

Адаптировать под запрос

⚡

TL;DR

GER-Eval — метод оценки текстов в два шага: сначала LLM создаёт критерии оценки под задачу (название, описание, шкалу), потом оценивает по ним выход. Вместо готовых человеческих критериев ("оцени по связности и точности") модель формулирует свои ("оцени по глубине аргументов, новизне идей, структурной ясности"), которые лучше соответствуют её внутреннему представлению о качестве текста.

Обычно мы даём модели готовые критерии оценки, которые придумали люди. Но модель может понимать "связность" или "точность" не так, как мы. Исследование показало: модели стабильно применяют свои критерии (согласованность 70-90% между разными промптами), но плохо согласуются с человеческими оценками в фактических задачах. На диалогах и эмпатии — отлично (корреляция с людьми 0.8-0.9), на биомедицинских текстах — провал (корреляция 0.2-0.3). Критерии одной модели плохо работают в другой — каждая "понимает" качество по-своему.

Метод решает через явное разделение этапов: сначала модель артикулирует что именно она будет оценивать (создаёт список критериев с описаниями), потом применяет их к текстам. Это делает оценку прозрачнее — видно по каким именно параметрам модель судит, а не чёрный ящик с итоговой оценкой.

🔬

Схема метода

ШАГ 1 (Генерация критериев): 
Промпт с описанием задачи → Модель создаёт список критериев
Каждый критерий = [название + описание + шкала оценки]

ШАГ 2 (Применение): 
Промпт с критерием + текст для оценки → Модель даёт оценку по шкале + объяснение

Оба шага — отдельные запросы. Сначала получаешь набор критериев, потом прогоняешь через них каждый текст.

🚀

Пример применения

Задача: Ты пишешь тексты для Telegram-канала про стартапы. Нужно оценить три черновика поста про новый раунд Skillbox — какой лучше зайдёт аудитории?

ШАГ 1 — Создаём критерии:

Промпт:

Задача: оценка постов для Telegram-канала про российские стартапы и венчур.

Аудитория: основатели, инвесторы, люди из tech-индустрии. Читают в метро, между встречами.

Создай критерии оценки таких постов. Для каждого критерия укажи:
- Название
- Описание (что именно оцениваем)
- Шкалу (от 1 до 5, где 5 — отлично)

Результат: Модель выдаст 5-7 критериев, например: "Хукность первой строки", "Плотность инсайта", "Конкретика вместо общих слов", "Мемность/вирусность формулировок", "Релевантность для российского рынка". Каждый с описанием что именно проверять.

ШАГ 2 — Оцениваем черновики:

Промпт (для каждого черновика):

Критерий: Плотность инсайта
Описание: Сколько неочевидных мыслей на 100 слов. Пост должен давать новое понимание, а не пересказывать новость.
Шкала: 1-5 (5 = каждый абзац — новый угол зрения)

Оцени черновик:
[вставить текст поста]

Дай оценку и объясни почему.

Результат: Для каждого черновика получишь оценки по всем критериям с объяснениями. Увидишь не просто "этот лучше", а "этот проигрывает по хукности (2/5), но выигрывает по конкретике (5/5)".

🧠

Почему это работает

Проблема статичных критериев: Когда мы даём LLM человеческие критерии ("оцени по связности"), модель может трактовать их не так, как мы задумали. "Связность" для GPT может означать грамматические связки, а для нас — логический поток мысли. Мы получаем оценки, но не понимаем на основе чего модель их выставила.

Сильная сторона LLM: Модели хорошо артикулируют свои внутренние паттерны — если попросить сформулировать критерий, они опишут что конкретно будут проверять. Это превращает неявное "ощущение качества" в явный чек-лист.

Как метод использует это: Разделение на два этапа заставляет модель сначала объяснить себе что такое хороший текст для этой задачи, потом применить эти объяснения. Первый этап работает как калибровка — модель формулирует набор проверок, второй — как последовательное применение этих проверок.

Рычаги управления:

Контекст при генерации критериев → добавь примеры хороших/плохих текстов в первый промпт — критерии станут специфичнее под домен
Количество критериев → скажи "не больше 3 критериев" для быстрой оценки или "7-10 критериев" для детального разбора
Few-shot в применении → во втором шаге покажи пример "текст X получил 4/5 потому что..." — модель точнее откалибрует шкалу
Формат вывода → попроси в первом шаге "критерии в формате таблицы" или "критерии с примерами" для разной степени детализации

📋

Шаблон промпта

📌

ШАГ 1 — Генерация критериев

Задача: {описание_задачи}

Аудитория/Контекст: {для_кого_текст}

Создай критерии оценки для этой задачи. Для каждого критерия укажи:
- Название (кратко, суть)
- Описание (что конкретно проверяем)
- Шкалу оценки (например, 1-5 или высокий/средний/низкий)

[Опционально — добавь примеры:]
Вот пример хорошего результата: {пример_хорошего}
Вот пример плохого результата: {пример_плохого}

Что подставлять: - {описание_задачи} — что оцениваем: "посты в соцсетях", "тексты холодных писем", "ответы саппорта" - {для_кого_текст} — кто читает, в каком контексте, какие ожидания - Примеры (опционально) — реальные тексты с пометками что в них хорошо/плохо

Модель вернёт список критериев. Сохрани их для второго шага.

🚀

ШАГ 2 — Применение критериев

Критерий: {название_критерия}
Описание: {описание_критерия}
Шкала: {шкала_оценки}

Оцени следующий текст по этому критерию:

{текст_для_оценки}

Дай оценку по шкале и объясни почему.

[Опционально — few-shot:]
Пример: текст "{пример_текста}" получил {оценка} потому что {объяснение}.

Что подставлять: - {название_критерия}, {описание_критерия}, {шкала_оценки} — копируешь из вывода первого шага - {текст_для_оценки} — текст который оцениваешь - Few-shot пример (опционально) — если нужна калибровка шкалы

Повтори этот промпт для каждого критерия и каждого текста.

🚀 Быстрый старт — вставь в чат:

Я хочу использовать двухэтапную оценку: сначала ты создашь критерии, потом оценишь по ним мои тексты.

Вот шаблон:

[вставить ШАГ 1 выше]

Задай мне вопросы, чтобы заполнить {описание_задачи}, {для_кого_текст} и понять нужны ли примеры.

LLM спросит что именно ты оцениваешь, для какой аудитории, какие есть примеры — чтобы сгенерировать релевантные критерии. После получения критериев скажи "теперь оцени вот этот текст по первому критерию" — модель возьмёт паттерн из ШАГа 2 и применит.

⚠️

Ограничения

⚠️ Фактические задачи: Для текстов где важна точность фактов (биомедицина, технические тексты, дата-ориентированные отчёты) метод проваливается. Корреляция с человеческими оценками падает до 0.2-0.3. Модель создаст критерий "медицинская точность", но не сможет надёжно его применить — у неё нет базы знаний для проверки фактов.

⚠️ Разные модели = разные оценки: Критерии созданные в GPT-4o, не работают в Claude или Llama. Каждая модель "понимает" качество текста по-своему. Если создал критерии в одной модели — применяй их в той же. Переносить на другую — получишь другие оценки.

⚠️ Два запроса минимум: Для полной оценки нужен минимум один запрос на генерацию критериев + по запросу на каждый критерий для каждого текста. Оценить 3 текста по 5 критериям = 16 запросов (1 для генерации + 15 для применения). Расход токенов выше чем простая оценка "в лоб".

⚠️ Субъективные домены — сильная зона: Метод отлично работает там где важны стиль, тон, вовлечённость, креативность (посты, диалоги, креативы). На таких задачах согласованность 80-90%. Но на объективных критериях (грамматика, факты, числовая точность) — слабее.

🔍

Как исследовали

Команда из Амстердамского университета взяла четыре бенчмарка с человеческими оценками: диалоги (USR), новостные саммари (SummEval), биомедицинские саммари (SumPubMed) и instruction-following (HelpSteer2). Всего тысячи текстов с оценками людей по критериям вроде "связность", "точность", "вовлечённость".

Протестировали пять моделей: GPT-4o, GPT-4o-mini, Llama-3.3-70B, Mixtral-8x22B, Qwen2.5-72B. Каждую модель попросили сгенерировать критерии оценки для каждого датасета (три варианта промпта: только описание задачи, описание + примеры контекста, описание + хорошие/плохие примеры), потом оценить тексты по этим критериям (zero-shot и few-shot с демонстрациями).

Что измеряли: (1) Сколько критериев создаёт модель и насколько они уникальны, (2) совпадают ли сгенерированные критерии с человеческими (alignment), (3) насколько стабильно модель применяет свои критерии (согласованность между zero-shot и few-shot), (4) насколько оценки модели коррелируют с человеческими.

Главный инсайт: Модели создают 5-7 критериев на задачу, 80-90% уникальных (не повторяются). GPT-4o показал 100% совпадение с человеческими критериями на диалогах при few-shot промптинге, но на биомедицинских текстах согласие упало до 60% и ниже.

Что удивило: Критерии не переносятся между моделями. Когда критерии созданные GPT-4o применяли через Llama — корреляция оценок проваливалась почти до нуля на биомедицине (ICC < 0.2), но держалась на диалогах (ICC ≈ 0.7-0.8). Это значит каждая модель "видит" качество текста через свои паттерны — что для GPT "хорошая связность", для Llama может быть средней.

Практический вывод: Двухэтапная оценка работает, но только внутри одной модели и лучше всего на субъективных критериях (тон, стиль, вовлечённость). На фактах и специализированных доменах — ненадёжно.

💡

Адаптации и экстраполяции

🔧 Техника: Создание персонализированных чек-листов

Вместо одноразовой оценки используй первый шаг для создания многоразового чек-листа. Сгенерировал критерии для оценки постов в соцсетях? Сохрани их как промпт-шаблон и применяй к каждому новому посту. Это превращает GER-Eval в фабрику персональных рубрик под твои задачи.

Измени в ШАГе 1:
После создания критериев выведи их в формате готового промпта:
"Оцени следующий {тип_контента} по критериям:
1. [Критерий 1]: [описание] (шкала: [шкала])
2. [Критерий 2]: [описание] (шкала: [шкала])
..."
Получишь готовый промпт для копипаста — больше не нужен двухшаговый процесс, сразу оцениваешь новые тексты.

🔧 Техника: Сравнительная оценка вместо абсолютной

Вместо оценки одного текста по шкале попроси модель сравнить два варианта по каждому критерию. LLM лучше справляются с относительными суждениями ("этот лучше того") чем с абсолютными шкалами ("это 4 из 5").

В ШАГе 2 замени:
Критерий: {название_критерия}

Сравни два варианта по этому критерию:

Вариант А: {текст_А}
Вариант Б: {текст_Б}

Какой лучше и насколько (незначительно / заметно / сильно)?
Это снижает проблему калибровки шкалы — модели не нужно понимать "что такое 4 из 5", только "который из двух сильнее".

🔧 Техника: Генерация критериев из негативных кейсов

Если у тебя есть примеры провальных текстов, используй их в ШАГе 1 для создания более острых критериев. Модель увидит конкретные косяки и сформулирует критерии против них.

Добавь в ШАГ 1:
Вот примеры неудачных текстов и что в них не так:

Текст 1: {плохой_пример_1}
Проблема: {что_не_так}

Текст 2: {плохой_пример_2}
Проблема: {что_не_так}

Создай критерии которые **ловят эти косяки**.
Критерии станут специфичнее — не абстрактная "ясность", а "отсутствие канцелярита" или "конкретные цифры вместо 'много'".

🔗

Ресурсы

Learning to Judge: LLMs Designing and Applying Evaluation Rubrics • Бенчмарки: USR (Mehri & Eskenazi, 2020), SummEval (Fabbri et al., 2021), SumPubMed (Gupta et al., 2021), HelpSteer2 (Wang et al., 2024) • Код и сгенерированные рубрики: https://github.com/Clemenciah/llm-generated-rubrics • Авторы: Clemencia Siro (CWI Amsterdam), Pourya Aliannejadi (Shahid Beheshti University), Mohammad Aliannejadi (University of Amsterdam)

📋 Дайджест исследования

Ключевая суть

Принцип работы

Не пытайся впихнуть создание критериев и оценку в один промпт. Разделяй на два запроса: первый — модель генерирует список критериев, второй — применяет их к текстам. Первый этап работает как калибровка — модель артикулирует что такое «хороший текст» для конкретной задачи (посты в Telegram, cold emails, ответы саппорта). Получаешь 5-7 критериев с чёткими описаниями. Второй этап — последовательное применение. Берёшь каждый критерий, прогоняешь через него текст, получаешь оценку + объяснение почему. Это превращает размытое «нравится/не нравится» в структурированный разбор.

Почему работает

Модели отлично формулируют свои внутренние паттерны — если попросить описать критерий, они чётко объяснят что конкретно будут проверять. Первый шаг заставляет модель превратить неявное "ощущение качества" в явный чек-лист — она объясняет себе что важно, потом применяет эти объяснения. На субъективных задачах (диалоги, креативы, посты) это даёт корреляцию с людьми 0.8-0.9. Прикол: на фактических текстах (биомедицина, техдоки) — провал до 0.2-0.3. Модель создаст критерий «медицинская точность», но не сможет его надёжно применить — у неё нет базы знаний для проверки фактов. Ещё момент: критерии созданные в GPT-4o не работают в Claude. Каждая модель понимает качество по-своему — создал в одной, применяй в той же.

Когда применять

Субъективные оценки текстов → конкретно для постов в соцсетях, диалогов с клиентами, креативов, писем, описаний продуктов. Особенно когда важны стиль, тон, вовлечённость — там где нет единственно правильного ответа. НЕ подходит для фактических задач: биомедицинские тексты, технические отчёты, дата-ориентированные материалы. Модель плывёт на проверке фактов — корреляция с экспертами падает в пол.

Мини-рецепт

1. Генерация критериев (первый запрос):
Дай контекст:

Задача: оценка постов для Telegram-канала про стартапы. Аудитория: основатели, инвесторы, читают между встречами. Создай 5-7 критериев оценки. Для каждого: название, описание (что проверяем), шкалу 1-5.

Опционально добавь примеры хорошего/плохого текста — критерии станут специфичнее.

2. Применение критериев (по запросу на каждый критерий):
Возьми один критерий из списка:

Критерий: Плотность инсайта. Описание: сколько неочевидных мыслей на 100 слов. Шкала: 1-5. Оцени черновик: [текст поста]. Дай оценку и объясни.

Повтори для каждого критерия и каждого текста.

3. Соберёшь оценки:
Получишь структурированный разбор — не просто «этот лучше», а «этот проигрывает по хукности (2/5), но выигрывает по конкретике (5/5)».

Примеры

[ПЛОХО] :

Оцени три черновика поста про Skillbox по связности, полезности и вовлечённости. Поставь баллы.

(Модель выдаст оценки, но ты не поймёшь что для неё «связность» — грамматика или логика)

[ХОРОШО] :

Шаг 1: Создай критерии для постов про российские стартапы. Аудитория: основатели и инвесторы, читают в метро. Дай 5 критериев с описаниями и шкалой.

→ получишь «Хукность первой строки», «Плотность инсайта», «Конкретика вместо общих слов». Шаг 2: Оцени черновик по критерию "Плотность инсайта": [текст] → получишь оценку 3/5 с объяснением «две мысли на 150 слов, остальное — пересказ новости».

Источник: Learning to Judge: LLMs Designing and Applying Evaluation Rubrics

ArXiv ID: 2602.08672 | Сгенерировано: 2026-02-10 08:35

Проблемы LLM

Проблема	Суть	Как обойти
Готовые критерии оценки модель понимает не так как люди	Даёшь критерий "оцени связность текста". Модель проверяет грамматические связки. Ты имел в виду логический поток мысли. Получаешь оценку, но непонятно на основе чего. Модель трактует слова по-своему. Особенно проблемно для абстрактных критериев: "вовлечённость", "точность", "качество"	Попроси модель сначала сформулировать что именно она будет проверять. Вместо "оцени по связности" → "опиши критерии оценки связности, потом примени их". Модель артикулирует свою трактовку, ты видишь что она проверяет

Методы

Метод	Суть
Двухэтапная оценка — модель создаёт критерии перед применением	Шаг 1: Промпт с описанием задачи → модель генерирует список критериев (каждый = название + описание + шкала). Шаг 2: Для каждого критерия отдельный запрос с текстом → оценка по шкале + объяснение. Почему работает: Разделение заставляет модель сначала объяснить себе что такое качество для этой задачи (создать явный чек-лист), потом последовательно применить каждую проверку. Превращает неявное "ощущение" в прозрачный процесс. Рычаги: добавь примеры хороших/плохих текстов в шаг 1 → критерии специфичнее; ограничь количество критериев (3 для быстрой оценки, 7-10 для детальной); добавь few-shot в шаг 2 → точнее калибрует шкалу. Когда работает: субъективные критерии (стиль, тон, вовлечённость), креативные тексты, нужна прозрачность оценки. Не работает: факт-чекинг, технические тексты с проверяемыми данными

Метод

Суть

Двухэтапная оценка — модель создаёт критерии перед применением

Шаг 1: Промпт с описанием задачи → модель генерирует список критериев (каждый = название + описание + шкала). Шаг 2: Для каждого критерия отдельный запрос с текстом → оценка по шкале + объяснение. Почему работает: Разделение заставляет модель сначала объяснить себе что такое качество для этой задачи (создать явный чек-лист), потом последовательно применить каждую проверку. Превращает неявное "ощущение" в прозрачный процесс. Рычаги: добавь примеры хороших/плохих текстов в шаг 1 → критерии специфичнее; ограничь количество критериев (3 для быстрой оценки, 7-10 для детальной); добавь few-shot в шаг 2 → точнее калибрует шкалу. Когда работает: субъективные критерии (стиль, тон, вовлечённость), креативные тексты, нужна прозрачность оценки. Не работает: факт-чекинг, технические тексты с проверяемыми данными

Тезисы

Тезис	Комментарий
Каждая модель понимает качество текста по-своему	Критерии созданные в GPT-4 дают другие оценки в Claude или Llama. Причина: разные внутренние представления о "хорошем тексте". Одна модель при слове "связность" активирует паттерны грамматики, другая — логической структуры. Применяй: Создал критерии в одной модели — используй их только в ней. Переключаешь модель — генерируй критерии заново
Модели хорошо оценивают субъективное, плохо объективное	На задачах со стилем, тоном, эмпатией, креативностью — модель согласуется с людьми сильно. На фактах, технической точности, проверяемых данных — слабо. Механизм: модель опирается на языковые паттерны (они хорошо отражают субъективное восприятие), но не имеет базы знаний для проверки фактов. Применяй: Оценка постов соцсетей, диалогов, креативов — LLM подходит. Оценка медицинских текстов, технических отчётов — нужна человеческая проверка или внешние источники

Тезис

Комментарий

Каждая модель понимает качество текста по-своему

Критерии созданные в GPT-4 дают другие оценки в Claude или Llama. Причина: разные внутренние представления о "хорошем тексте". Одна модель при слове "связность" активирует паттерны грамматики, другая — логической структуры. Применяй: Создал критерии в одной модели — используй их только в ней. Переключаешь модель — генерируй критерии заново

Модели хорошо оценивают субъективное, плохо объективное

На задачах со стилем, тоном, эмпатией, креативностью — модель согласуется с людьми сильно. На фактах, технической точности, проверяемых данных — слабо. Механизм: модель опирается на языковые паттерны (они хорошо отражают субъективное восприятие), но не имеет базы знаний для проверки фактов. Применяй: Оценка постов соцсетей, диалогов, креативов — LLM подходит. Оценка медицинских текстов, технических отчётов — нужна человеческая проверка или внешние источники

📖 Простыми словами

Learning to Judge:LLMsDesigning and Applying Evaluation Rubrics

arXiv: 2602.08672

Когда мы просим нейронку оценить текст, мы обычно даем ей готовую линейку: «проверь на грамотность и логику». Но проблема в том, что LLM понимает слова иначе, чем человек. Для тебя «логика» — это когда одно следует из другого, а для модели это может быть просто наличие союзов «потому что» и «следовательно». В итоге получается глухой телефон: ты просишь одно, она измеряет другое, и результат выходит пальцем в небо. Метод GER-Eval меняет правила игры: он заставляет модель сначала саму придумать критерии оценки под конкретную задачу, а уже потом по ним судить.

Это как если бы ты нанял шеф-повара оценить блюдо. Вместо того чтобы давать ему анкету из столовой с пунктами «соленое/несоленое», ты говоришь: «Сначала напиши, что делает этот суп идеальным, а потом проверь, соответствует ли он твоим же стандартам». Повар сам выделит текстуру, баланс кислотности и аромат, потому что он эксперт в этой среде. Так и нейронка: когда она сама формулирует, что такое «хороший текст» в её понимании, она перестает гадать, что имел в виду человек, и начинает использовать свои внутренние веса и логику на полную катушку.

Вместо абстрактной «связности» модель выкатывает четкие параметры вроде глубины аргументации или структурной ясности. Работает это в два хода: сначала этап генерации рубрик, где LLM создает детальное описание каждого критерия и шкалу баллов, а затем — сама оценка. Исследование показывает, что такие «самодельные» критерии работают точнее, чем навязанные извне. Модель как бы настраивает свой внутренний микроскоп под конкретный образец, и внезапно оказывается, что она видит нюансы, которые обычный промпт просто игнорирует.

Этот подход — не просто фишка для ученых, он универсален для любого контента. Тестировали на сложных текстах, но принцип применим везде: от проверки постов в Telegram до оценки кода или ответов техподдержки. Если тебе нужно понять, какой из трех вариантов письма клиенту лучше, не навязывай нейронке свои критерии. Дай ей волю составить собственный чек-лист, и ты увидишь, что её вердикт станет в разы адекватнее. SEO-подход к оценке сдыхает, уступая место глубокому семантическому анализу, где модель сама решает, что важно.

Короче, хватит работать за нейронку и пытаться объяснить ей человеческие понятия на пальцах. Используй двухэтапную проверку: пусть модель сама строит систему координат, в которой она профи. Это убирает эффект «черного ящика», когда оценка есть, а логики за ней не видно. Либо ты позволяешь LLM дизайнить критерии, либо продолжаешь получать рандомные цифры, которые вроде как похожи на правду, но на деле — полная фигня. Кто перейдет на самообучающиеся рубрики, тот получит контроль над качеством, остальные будут и дальше воевать с галлюцинациями.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

Выберите модель ИИ:

Ваш запрос:

0 / 2000

~0.5-2 N-токенов ~10-30с

~0.3-1 N-токенов ~5-15с

Меню