3,583 papers
arXiv:2507.10906 95 14 июля 2025 г. FREE

LLM умеет не только писать — он умеет судить.

КЛЮЧЕВАЯ СУТЬ
LLM умеет не только писать — он умеет судить. Причём бьёт все существующие автоматические метрики оценки текста и почти не уступает живому эксперту. Метод позволяет превратить LLM в 'экспертного критика' для любого типа текста — без дообучения и найма специалистов. Фишка: комбинация пошаговых рассуждений (CoT) и примеров-эталонов (few-shot) заставляет модель не угадывать оценку, а последовательно её обосновывать — качество разбора резко растёт.
Адаптировать под запрос

Исследователи задались вопросом: может ли Большая Языковая Модель (LLM) оценивать качество текста (на примере сообщений к коммитам в коде) так же хорошо, как это делает опытный человек? Они обнаружили, что LLM не просто может, а превосходит все существующие автоматические метрики, приближаясь по качеству оценки к человеку.

Ключевой результат: Наилучших результатов LLM достигает, когда в промпте используется комбинация двух техник: Chain-of-Thought (просьба рассуждать по шагам) и Few-Shot (предоставление нескольких примеров хороших и плохих ответов).

Суть метода заключается в том, чтобы превратить LLM из простого "собеседника" в "эксперта-оценщика", который может анализировать текст по вашим правилам. Вместо того чтобы спрашивать у LLM "хороший ли это текст?", вы создаете промпт, который учит модель, что именно вы считаете хорошим текстом, и заставляет ее аргументировать свою оценку.

Методика строится на трех китах:

  1. Декомпозиция задачи: Вместо общей оценки "хорошо/плохо", вы разбиваете ее на конкретные, понятные критерии. В исследовании это "Что изменилось?" (What) и "Почему это изменилось?" (Why). Для оценки делового письма это могут быть "Вежливость", "Четкость цели", "Призыв к действию".

  2. Принуждение к рассуждению (Chain-of-Thought, CoT): Вы прямо приказываете модели в промпте: "Сначала предоставь свои рассуждения по каждому критерию, и только потом выстави итоговую оценку". Это заставляет LLM не угадывать ответ, а последовательно анализировать текст, что драматически повышает качество и объективность оценки.

  3. Калибровка через примеры (Few-Shot Learning): Вы даете модели 2-3 примера того, что вы считаете "отличным" и "плохим" текстом по вашим критериям, с кратким объяснением. Это как показать новому сотруднику образцы хорошо и плохо выполненной работы. Модель "калибруется" под ваши ожидания и начинает оценивать новый текст, опираясь на предоставленные эталоны.

Комбинация этих трех элементов позволяет получить от LLM не просто оценку, а детальный, аргументированный разбор, который по качеству сопоставим с анализом от живого эксперта.

  • Прямая применимость: Любой пользователь может немедленно использовать этот подход для создания "персонального критика" или "редактора". Можно оценивать что угодно: рабочие имейлы, посты для соцсетей, резюме, маркетинговые тексты, студенческие эссе. Достаточно определить критерии, добавить в промпт фразу "Думай шаг за шагом" и привести пару примеров. Это готовый шаблон для решения сотен практических задач.

  • Концептуальная ценность: Исследование дает три ключевых инсайта:

    1. LLM как инструмент второго порядка: Его главная сила не только в генерации контента, но и в его анализе и оценке.
    2. Процесс важнее результата: Заставляя LLM показывать процесс рассуждения (CoT), мы получаем более качественный итоговый результат.
    3. Контекст решает всё: Предоставляя примеры (few-shot), мы задаем нужный контекст и стандарт качества, делая оценку не абстрактной, а релевантной нашей задаче.
  • Потенциал для адаптации: Метод абсолютно универсален. Вместо "сообщения коммита" можно подставить любой тип текста. Механизм адаптации прост:

    1. Определите объект оценки (например, "ответ службы поддержки").
    2. Сформулируйте 2-4 ключевых критерия оценки (например, "эмпатия", "полнота ответа", "скорость решения").
    3. Найдите или напишите 1-2 примера "идеального" и "плохого" ответа.
    4. Соберите все это в один промпт по шаблону из примера ниже.
Ты — опытный HR-специалист и карьерный консультант. Твоя задача — оценить сопроводительное письмо кандидата на вакансию "Менеджер по маркетингу".

Оцени письмо по 10-балльной шкале на основе трех ключевых критериев:
1.  **Релевантность:** Насколько письмо адаптировано под конкретную вакансию и компанию.
2.  **Структура и ясность:** Легко ли читать письмо, есть ли четкая логика.
3.  **Мотивация:** Насколько убедительно кандидат демонстрирует свою заинтересованность и ценность для компании.

**ИНСТРУКЦИЯ ПО ВЫПОЛНЕНИЮ:**
Сначала проведи пошаговый анализ (Chain-of-Thought). В разделе "Рассуждения" подробно разбери письмо по каждому из трех критериев. Только после этого, в разделе "Итог", выведи оценки в числовом формате.

---
**Примеры для калибровки (Few-Shot):**

<Пример_ПЛОХОГО_письма>
"Здравствуйте. Увидел вашу вакансию на сайте. У меня есть опыт в маркетинге 5 лет. Мое резюме в приложении. Готов к собеседованию."
*   **Анализ плохого примера:** Релевантность - 1/10 (шаблонное, не упоминает компанию), Структура - 4/10 (слишком короткое), Мотивация - 1/10 (не выражена).


<Пример_ХОРОШЕГО_письма>
"Уважаемая команда [Название компании], я с большим интересом слежу за вашими проектами, особенно за запуском [Название продукта]. Мой 5-летний опыт в B2B-маркетинге, включая успешное ведение кампаний с ROI >200%, позволит мне эффективно решать задачи, указанные в описании вакансии менеджера по маркетингу. Уверен, что мои навыки в контент-стратегии помогут усилить ваше присутствие на рынке. Подробнее о моих кейсах — в резюме."
*   **Анализ хорошего примера:** Релевантность - 9/10 (упомянута компания и продукт), Структура - 10/10 (четко и по делу), Мотивация - 9/10 (показана ценность для компании).

---

**ПИСЬМО ДЛЯ ОЦЕНКИ:**
"Добрый день! Меня заинтересовала ваша вакансия менеджера по маркетингу. Я давно работаю в этой сфере и считаю, что мой опыт будет вам полезен. Я хорошо умею работать в команде и быстро учусь новому. Хотел бы применить свои знания в вашей компании. Спасибо."

Этот промпт эффективен, потому что он не просто просит LLM дать оценку, а создает для нее полноценную рабочую среду: * Роль ("HR-специалист"): Задает модели нужный контекст и "профессиональную оптику" для анализа. * Декомпозиция ("Релевантность, Структура, Мотивация"): Разбивает сложную задачу на простые, понятные и измеримые части. Модели не нужно гадать, что такое "хорошее письмо", у нее есть четкие критерии. * Chain-of-Thought ("Сначала проведи пошаговый анализ"): Эта инструкция заставляет модель явно проговорить логику своих выводов, что снижает вероятность случайных или поверхностных суждений и делает результат проверяемым. * Few-Shot ("Примеры для калибровки"): Примеры плохого и хорошего писем работают как эталоны. Они "показывают" модели, какой уровень качества соответствует оценке "1/10", а какой — "9/10", калибруя ее внутреннюю шкалу под ваши требования.

Ты — опытный SMM-менеджер, специализирующийся на вовлекающем контенте для Instagram. Твоя задача — оценить идею для поста в блог о путешествиях.

Оцени идею по 10-балльной шкале по трем критериям:
1.  **Оригинальность:** Насколько идея свежая и не избитая.
2.  **Потенциал вовлечения:** Насколько вероятно, что пост соберет лайки, комментарии и сохранения.
3.  **Визуальная привлекательность:** Легко ли представить, какие фото или видео можно снять для этого поста.

**ПОРЯДОК РАБОТЫ:**
1.  **Рассуждения (Chain-of-Thought):** Напиши краткий анализ идеи по каждому из трех критериев. Укажи сильные и слабые стороны.
2.  **Рекомендации:** Дай 1-2 совета, как можно улучшить эту идею.
3.  **Итог:** Выведи финальные оценки по каждому критерию.

---
**Примеры для понимания задачи (Few-Shot):**

<Пример_СЛАБОЙ_идеи>
Идея: "Пост про Эйфелеву башню."
*   **Анализ:** Оригинальность - 2/10 (банально), Вовлечение - 3/10 (слишком общо), Визуал - 5/10 (стандартные фото).


<Пример_СИЛЬНОЙ_идеи>
Идея: "Пост: 3 малоизвестных места в Париже, откуда открывается лучший вид на Эйфелеву башню без толп туристов. Сравнение фото с каждого ракурса."
*   **Анализ:** Оригинальность - 9/10 (полезный и нишевый контент), Вовлечение - 10/10 (побуждает сохранять и комментировать), Визуал - 10/10 (понятная и интересная серия фото).

---

**ИДЕЯ ДЛЯ ОЦЕНКИ:**
"Сделать пост о том, как вкусно поесть в Риме."

Механизм работы этого промпта идентичен предыдущему и основан на тех же принципах, доказанных в исследовании: * Конкретизация через роль и критерии: Роль "SMM-менеджер" и критерии "Оригинальность, Вовлечение, Визуал" переводят абстрактный запрос "оцени идею" в конкретную, профессиональную задачу. Модель знает, с какой точки зрения смотреть и на что обращать внимание. * Структурированное мышление (CoT): Требование сначала провести анализ, а потом дать оценку, заставляет модель активировать свои аналитические способности. Она не может просто выдать ответ "идея хорошая", ей нужно обосновать это по пунктам, что повышает глубину анализа. * Установка планки качества (Few-Shot): Сравнение банальной идеи ("пост про Эйфелеву башню") с креативной ("3 малоизвестных места для фото") дает модели четкое понимание, что именно вы цените. Она учится отличать поверхностный контент от полезного и вовлекающего, и применяет этот стандарт к новой идее. В результате оценка становится не общей, а сфокусированной на создании эффективного контента для соцсетей.

📌

Основные критерии оценки

  • A. Релевантность техникам промтинга: Очень высокая. Исследование напрямую сравнивает и доказывает эффективность ключевых техник промптинга: Chain-of-Thought (CoT) и Few-Shot. Оно показывает, что их комбинация дает наилучший результат.
  • B. Улучшение качества диалоговых ответов: Высокая. Хотя исследование сфокусировано на задаче оценки, а не генерации диалога, оно доказывает, что с помощью правильного промта можно заставить LLM выполнять сложные когнитивные задачи (анализ, оценка по критериям) на уровне человека. Этот принцип напрямую переносится на генерацию качественных, аргументированных ответов в чате.
  • C. Прямая практическая применимость: Очень высокая. Пользователь может немедленно применить выводы без какого-либо кода или специальных инструментов. Техника "CoT + Few-shot" для оценки или анализа текста — это готовый паттерн для использования в любом чат-боте.
  • D. Концептуальная ценность: Исключительно высокая. Исследование дает пользователю мощную ментальную модель: LLM — это не просто генератор текста, а движок для рассуждений и оценки, который можно "программировать" с помощью промтов. Оно также подсвечивает важные ограничения (нестабильность, недетерминированность), о которых должен знать каждый пользователь.
  • E. Новая полезная практика (кластеризация): Работа попадает сразу в несколько ключевых кластеров:
    • Кластер 1 (Техники формулирования): Является прямым доказательством эффективности CoT и few-shot.
    • Кластер 2 (Поведенческие закономерности): Раскрывает "семантическую дивергенцию" (одно и то же можно описать по-разному) и объясняет, почему LLM лучше старых метрик.
    • Кластер 7 (Надежность и стабильность): Целый раздел (RQ3) посвящен анализу стабильности, воспроизводимости и справедливости LLM-оценщика, что дает ценные знания об ограничениях.
  • Чек-лист практичности: Да, исследование дает готовые концептуальные конструкции (CoT, few-shot), показывает, как структурировать сложные запросы (декомпозиция на критерии "What" и "Why"), раскрывает неочевидные особенности (LLM как оценщик) и предлагает способы улучшить точность (комбинация техник). Получает +15 баллов к базовой оценке.
📌

Цифровая оценка полезности

Аргументы за высокую оценку (95/100): Эта работа — золотая жила для продвинутого пользователя LLM. Она эмпирически доказывает эффективность двух самых мощных техник промпт-инжиниринга (CoT и Few-shot) и, что более важно, предлагает новый, чрезвычайно полезный сценарий их применения: использование LLM в качестве кастомизируемого эксперта-оценщика. Это не просто улучшение промптов, это открытие нового способа взаимодействия с моделью. Концептуальная ценность (понимание ограничений, семантической дивергенции) огромна и напрямую влияет на то, как пользователь будет формулировать запросы и интерпретировать ответы.

Контраргументы (почему оценка могла бы быть ниже): * Узкая предметная область: Исследование сфокусировано на сообщениях коммитов в разработке ПО. Неопытный пользователь может увидеть заголовок и решить, что это "не для него", пропустив универсальные принципы, скрытые внутри. * Академический язык: Статья написана сложным научным языком. Чтобы извлечь из нее практическую пользу, пользователю нужно либо прочитать ее внимательно, либо получить вот такой адаптированный пересказ. Прямое чтение может быть затруднительным.

Контраргументы (почему оценка могла бы быть выше): Оценка 95 уже очень высока. Повышение до 98-100 было бы возможно, если бы исследование изначально было написано как гайд для широкой аудитории с примерами из разных сфер, а не только из IT. Однако по своей сути и по универсальности выводов оно является одним из самых полезных для практики промпт-инжиниринга.


📋 Дайджест исследования

Ключевая суть

LLM умеет не только писать — он умеет судить. Причём бьёт все существующие автоматические метрики оценки текста и почти не уступает живому эксперту. Метод позволяет превратить LLM в 'экспертного критика' для любого типа текста — без дообучения и найма специалистов. Фишка: комбинация пошаговых рассуждений (CoT) и примеров-эталонов (few-shot) заставляет модель не угадывать оценку, а последовательно её обосновывать — качество разбора резко растёт.

Принцип работы

Не спрашивай 'это хороший текст?'. Скажи: вот мои критерии, вот примеры хорошего и плохого, думай по шагам — и только потом ставь оценку. Это как инструктаж нового сотрудника: сначала показываешь что считается браком, что — эталоном, и требуешь объяснить решение вслух. Просто 'оцени по шкале 1 до 10' даёт мусор. Структурированный промпт — даёт разбор уровня эксперта.

Почему работает

CoT не даёт модели угадывать. Без него LLM часто выплёвывает результат, а потом подгоняет логику под него — это встроенная проблема авторегрессии. Требование 'сначала рассуждай' ломает этот порядок: модель строит аргументы до вывода. Few-shot эталоны работают как внутренний компас: модель видит что '2/10' выглядит вот так, а '9/10' — вот так, и перестаёт плавать в абстракциях. Две техники вместе закрывают оба слабых места сразу — именно поэтому комбинация обгоняет каждую по отдельности.

Когда применять

Везде, где нужно оценивать текст по заданным стандартам → разработка (сообщения коммитов, документация), особенно когда нужно автоматизировать ревью без найма ревьюера → HR (сопроводительные письма, ответы кандидатов) → маркетинг (посты, рассылки, описания продуктов) → образование (эссе, задания) → поддержка клиентов (ответы операторов). НЕ подходит для проверки фактической точности — тут LLM не надёжнее обычных методов.

Мини-рецепт

1. Определи объект: что именно оцениваешь — письмо, пост, ответ поддержки, сообщение к коммиту.
2. Сформулируй 2-4 критерия: конкретных, измеримых. Не 'качество', а 'релевантность вакансии' или 'объясняет ли причину изменения'.
3. Найди эталоны: по одному примеру плохого и хорошего текста по твоим критериям. С кратким объяснением почему плохой — плохой.
4. Собери промпт: роль эксперта + критерии + примеры + инструкция 'сначала рассуждай по каждому критерию, потом ставь оценку'.
5. Подай текст для оценки: получи аргументированный разбор, а не просто цифру.

Примеры

[ПЛОХО] : Оцени это сообщение к коммиту: 'fix bug'. Хорошее или плохое?
[ХОРОШО] : Ты — опытный разработчик. Оцени сообщение к коммиту по двум критериям: 1) объясняет ли ЧТО изменилось, 2) объясняет ли ПОЧЕМУ. Пример плохого: 'fix' — 0/10, ничего не объясняет. Пример хорошего: 'Fix null pointer in auth to prevent crash on login' — 9/10, ясно что и зачем. Сначала разбери каждый критерий отдельно, только потом ставь итоговую оценку. Текст для оценки: 'fix bug'
Источник: Evaluating Generated Commit Messages with Large Language Models
ArXiv ID: 2507.10906 | Сгенерировано: 2026-03-02 18:06

Методы

МетодСуть
LLM как оценщик текста — подход с валидациейНужно проверить качество текстов (письма, посты, документация)? Используй LLM вместо автоматических метрик. Структура запроса: (1) дай роль ("ты опытный редактор"), (2) разбей оценку на 2–4 конкретных критерия ("структура", "ясность"), (3) дай примеры плохого и хорошего текста с оценками, (4) потребуй сначала разбор по критериям, потом итоговую оценку. Почему работает: модель не гадает что такое "хорошо" — у неё есть примеры-эталоны и конкретные оси оценки. Рассуждение до оценки снижает случайные ответы. Когда применять: много текстов для оценки, нужна воспроизводимая шкала. Когда не работает: оценка сугубо субъективная, без критериев которые можно сформулировать словами
📖 Простыми словами

Оценка сгенерированных сообщений коммитов с помощью больших языковых моделей

arXiv: 2507.10906

Суть в том, что LLM — это не просто генераторы текста, а вполне вменяемые судьи и контролеры, если их правильно настроить. Когда мы просим нейронку оценить качество работы, она не гадает на кофейной гуще, а использует профессиональную оптику. Если ты даешь ей роль HR-специалиста, она перестает искать запятые и начинает смотреть на текст как на инструмент найма. Это фундаментальный сдвиг: модель оценивает не «красоту» слов, а их функциональную пригодность для конкретной задачи.

Это как нанять опытного шеф-повара, чтобы он оценил блюдо новичка. Если ты просто спросишь «ну как?», он ответит «норм». Но если ты дашь ему чек-лист — прожарка, баланс соли, подача — и покажешь пример идеального стейка, он разложит это блюдо на атомы. Калибровка через примеры превращает субъективное мнение в четкую экспертизу, где каждый балл обоснован фактами, а не настроением.

Чтобы эта схема не лажала, используется декомпозиция критериев и метод Chain-of-Thought. Мы заставляем модель сначала «думать вслух», разбирая релевантность, структуру и мотивацию по отдельности, и только потом выносить вердикт. Это исключает ситуацию, когда модель ставит высокую оценку просто потому, что текст написан вежливо. Когда LLM проговаривает логику, она сама ловит свои ошибки — формально всё на месте, но мотивации ноль, а значит, итоговый балл летит вниз.

Хотя в исследовании мучили коммит-сообщения, этот универсальный паттерн применим к чему угодно: от проверки кода до анализа холодных писем в продажах. Принцип везде один: задаешь роль, даешь четкие весы для измерения и показываешь эталон. LLM-as-a-Judge работает стабильнее любого живого ассистента, потому что у нейронки не замыливается глаз после сотого текста, а критерии оценки не меняются в зависимости от того, пила она кофе или нет.

Короче, хватит оценивать контент «на глаз» или просить нейронку просто «сделать хорошо». Нужно строить систему из роли, критериев и примеров, которая превращает хаотичный текст в измеримые данные. Кто научится так калибровать модели, тот получит автоматический контроль качества, который не спит и не ошибается. Остальные так и будут получать от AI рандомную фигню и жаловаться на отсутствие логики.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с