TL;DR
Когда просишь LLM сравнить два варианта текста, питча или письма — она оценивает «в воздухе», без точки отсчёта. RefEval решает это в лоб: добавляешь в промпт высококачественный эталон и явно объясняешь модели, как именно его использовать при оценке. Один дополнительный блок в промпте — и оценка становится заметно острее.
Главная находка: LLM без ориентира оценивает по размытым внутренним критериям — у каждой модели они немного свои. Когда просишь «скажи, какой текст лучше», она может выбрать более длинный, более уверенный или просто первый. Это нестабильно: попроси снова — получишь другой ответ. Эталон даёт общую точку отсчёта: вместо «лучше вообще» модель решает «ближе к образцу». Это конкретно, измеримо, воспроизводимо.
RefEval работает в одном промпте: задача → два варианта → эталонный ответ → явная инструкция «оцени, какой вариант ближе к уровню эталона по качеству и содержанию». Ключевое слово — явная инструкция. Просто вставить эталон без объяснения «зачем он здесь» почти не помогает — нужно прямо сказать модели, что делать с этим примером.
Схема метода
(Один промпт, один запрос)
ШАГ 1: Задача → формулируешь что оценивается
ШАГ 2: Эталон → вставляешь образец "хорошего" с меткой «Эталон»
ШАГ 3: Варианты → два текста/ответа/питча для сравнения
ШАГ 4: Инструкция → явно говоришь КАК использовать эталон при оценке
ШАГ 5: Вердикт → модель называет победителя + объясняет разрыв
Пример применения
Задача: Ты пишешь два варианта поста для Телеграм-канала про запуск нового продукта. Хочешь понять какой зашёл бы Максиму Спиридонову (основатель Нетологии) — конкретный, без воды, с аргументами для аудитории предпринимателей.
Промпт:
Ты — эксперт по контенту для предпринимателей.
**Задача:** оцени два варианта поста про запуск продукта для Телеграм-канала.
**Эталонный пост** (пример высокого качества — пост Спиридонова про запуск онлайн-курса):
«Мы три месяца переписывали программу. Убрали всё, что "интересно, но не нужно".
Оставили только то, что меняет результат за 6 недель. Стартуем 15 апреля.
Первые 50 мест — по цене прошлого набора.»
**Вариант A:**
{вариант_а}
**Вариант B:**
{вариант_б}
Оцени оба варианта, опираясь на эталон выше как образец стиля и качества.
Определи, какой вариант точнее соответствует этому уровню:
— конкретность вместо общих слов
— аргументы для занятых людей
— структура, которую читают до конца
Объясни ключевые различия. Вынеси финальный вердикт: A или B.
Результат: Модель разберёт оба варианта по критериям из эталона — покажет конкретно, где «провисает» каждый. Вердикт будет обоснованным, а не интуитивным: «Вариант A теряет читателя на третьем предложении — эталон держит темп через глаголы действия, здесь их нет».
Почему это работает
Слабость LLM при оценке — модель не знает твой стандарт «хорошего». Она знает свой усреднённый. Когда просишь «какой текст лучше» без контекста — она выдаёт ответ на основе внутренних паттернов, которые могут не совпадать с тем, что нужно тебе. Особенно плохо это работает для субъективных критериев: «живо», «убедительно», «по-деловому».
Сильная сторона LLM — она отлично умеет сравнивать конкретное с конкретным. Когда есть образец, задача превращается в «найди ближайшее» — это модель делает хорошо и стабильно.
Как метод использует это: Эталон переводит размытый вопрос «что лучше вообще» в точный «что ближе к этому образцу и почему». Модель перестаёт угадывать твои критерии — они прямо перед ней. Плюс явная инструкция убирает двусмысленность: модель не гадает, зачем нужен пример в промпте.
Рычаги управления: - Качество эталона → чем сильнее образец, тем точнее оценка. Возьми реальный текст, который тебя восхищает — не выдумывай «идеальный» - Количество критериев → можно дать 2-3 явных критерия в инструкции или оставить открытым — модель сама найдёт параметры из эталона - Источник эталона → свой старый удачный текст, пример конкурента, пост любимого автора — всё работает - Режим RefMatch → если нужна максимально строгая оценка близости к эталону, добавь: «Определи, какой вариант стилистически и смыслово ближе всего к эталону». Менее гибко, зато очень фокусированно
Шаблон промпта
Ты — эксперт по {область}.
**Задача:** оцени два варианта {что оцениваем}.
**Эталон** (образец высокого качества):
{эталонный_текст}
**Вариант A:**
{вариант_а}
**Вариант B:**
{вариант_б}
Оцени оба варианта, используя эталон как точку отсчёта.
Определи, какой вариант точнее соответствует уровню эталона по:
— {критерий_1}
— {критерий_2}
— {критерий_3}
Укажи конкретные различия между вариантами.
Вынеси финальный вердикт: A или B. Объясни почему.
Что подставлять:
- {область} — маркетинг, юридические тексты, деловая переписка, UX-копирайтинг
- {что оцениваем} — поста, письма клиенту, питча, описания продукта
- {эталонный_текст} — реальный текст, который тебя впечатлил. Не выдумывай
- {критерий_1-3} — можно убрать весь список и написать вместо него: «используй критерии, которые явно выражены в эталоне» — модель сама их извлечёт
🚀 Быстрый старт — вставь в чат:
Вот шаблон RefEval для оценки текстов с эталоном.
Адаптируй под мою задачу: [твоя задача].
Задавай вопросы, чтобы заполнить нужные поля.
[вставить шаблон выше]
LLM спросит какой эталон использовать и что именно сравниваем — потому что без конкретного образца метод теряет свою силу. Она возьмёт структуру из шаблона и соберёт промпт под твою задачу.
Ограничения
⚠️ Нет эталона — нет метода: Если нет высококачественного примера для сравнения, метод не работает. Для задач, где «хорошо» принципиально ново или субъективно — нужен другой подход.
⚠️ Слабый эталон = слабая оценка: Модель ориентируется на то, что ты дашь. Плохой образец сместит оценку в неправильную сторону. Эталон должен быть действительно хорошим — не «сойдёт», а «именно так».
⚠️ Не для полностью открытых задач: Если задача «придумай что-то принципиально новое» — эталон будет мешать, а не помогать. Метод для оценки и выбора, не для генерации с нуля.
⚠️ Явность инструкции обязательна: Просто добавить эталон в промпт без объяснения «как использовать» почти не даёт эффекта — исследование это прямо показало. Нужно явно написать что делать с примером.
Ресурсы
Статья: "References Improve LLM Alignment in Non-Verifiable Domains" — ICLR 2026
Авторы: Kejian Shi, Yixin Liu, Peifeng Wang, Alexander R. Fabbri, Shafiq Joty, Arman Cohan
Организации: Yale University, Meta, Scale AI, Salesforce Research, Nanyang Technological University
