3,583 papers
arXiv:2602.16802 76 18 фев. 2026 г. FREE

RefEval: якорная оценка через эталонный ответ — LLM судит точнее, когда видит образец «хорошего»

КЛЮЧЕВАЯ СУТЬ
Просто вставить хороший пример в промпт — почти не работает. Исследование проверило это напрямую: без явной инструкции «используй эталон вот так» модель почти игнорирует образец. RefEval позволяет получать стабильные, обоснованные вердикты при сравнении текстов, писем и питчей — там, где обычный «какой текст лучше?» каждый раз даёт разный ответ. Фишка: нужны две части — сам эталон ПЛЮС явная инструкция как его применять. Модель перестаёт опираться на размытые внутренние критерии и решает конкретную задачу: «что из двух вариантов ближе к образцу и почему».
Адаптировать под запрос

TL;DR

Когда просишь LLM сравнить два варианта текста, питча или письма — она оценивает «в воздухе», без точки отсчёта. RefEval решает это в лоб: добавляешь в промпт высококачественный эталон и явно объясняешь модели, как именно его использовать при оценке. Один дополнительный блок в промпте — и оценка становится заметно острее.

Главная находка: LLM без ориентира оценивает по размытым внутренним критериям — у каждой модели они немного свои. Когда просишь «скажи, какой текст лучше», она может выбрать более длинный, более уверенный или просто первый. Это нестабильно: попроси снова — получишь другой ответ. Эталон даёт общую точку отсчёта: вместо «лучше вообще» модель решает «ближе к образцу». Это конкретно, измеримо, воспроизводимо.

RefEval работает в одном промпте: задача → два варианта → эталонный ответ → явная инструкция «оцени, какой вариант ближе к уровню эталона по качеству и содержанию». Ключевое слово — явная инструкция. Просто вставить эталон без объяснения «зачем он здесь» почти не помогает — нужно прямо сказать модели, что делать с этим примером.


🔬

Схема метода

(Один промпт, один запрос)

ШАГ 1: Задача → формулируешь что оценивается
ШАГ 2: Эталон → вставляешь образец "хорошего" с меткой «Эталон»
ШАГ 3: Варианты → два текста/ответа/питча для сравнения
ШАГ 4: Инструкция → явно говоришь КАК использовать эталон при оценке
ШАГ 5: Вердикт → модель называет победителя + объясняет разрыв

🚀

Пример применения

Задача: Ты пишешь два варианта поста для Телеграм-канала про запуск нового продукта. Хочешь понять какой зашёл бы Максиму Спиридонову (основатель Нетологии) — конкретный, без воды, с аргументами для аудитории предпринимателей.

Промпт:

Ты — эксперт по контенту для предпринимателей.

**Задача:** оцени два варианта поста про запуск продукта для Телеграм-канала.

**Эталонный пост** (пример высокого качества — пост Спиридонова про запуск онлайн-курса):
«Мы три месяца переписывали программу. Убрали всё, что "интересно, но не нужно". 
Оставили только то, что меняет результат за 6 недель. Стартуем 15 апреля. 
Первые 50 мест — по цене прошлого набора.»

**Вариант A:**
{вариант_а}

**Вариант B:**
{вариант_б}

Оцени оба варианта, опираясь на эталон выше как образец стиля и качества. 
Определи, какой вариант точнее соответствует этому уровню: 
— конкретность вместо общих слов
— аргументы для занятых людей
— структура, которую читают до конца

Объясни ключевые различия. Вынеси финальный вердикт: A или B.

Результат: Модель разберёт оба варианта по критериям из эталона — покажет конкретно, где «провисает» каждый. Вердикт будет обоснованным, а не интуитивным: «Вариант A теряет читателя на третьем предложении — эталон держит темп через глаголы действия, здесь их нет».


🧠

Почему это работает

Слабость LLM при оценке — модель не знает твой стандарт «хорошего». Она знает свой усреднённый. Когда просишь «какой текст лучше» без контекста — она выдаёт ответ на основе внутренних паттернов, которые могут не совпадать с тем, что нужно тебе. Особенно плохо это работает для субъективных критериев: «живо», «убедительно», «по-деловому».

Сильная сторона LLM — она отлично умеет сравнивать конкретное с конкретным. Когда есть образец, задача превращается в «найди ближайшее» — это модель делает хорошо и стабильно.

Как метод использует это: Эталон переводит размытый вопрос «что лучше вообще» в точный «что ближе к этому образцу и почему». Модель перестаёт угадывать твои критерии — они прямо перед ней. Плюс явная инструкция убирает двусмысленность: модель не гадает, зачем нужен пример в промпте.

Рычаги управления: - Качество эталона → чем сильнее образец, тем точнее оценка. Возьми реальный текст, который тебя восхищает — не выдумывай «идеальный» - Количество критериев → можно дать 2-3 явных критерия в инструкции или оставить открытым — модель сама найдёт параметры из эталона - Источник эталона → свой старый удачный текст, пример конкурента, пост любимого автора — всё работает - Режим RefMatch → если нужна максимально строгая оценка близости к эталону, добавь: «Определи, какой вариант стилистически и смыслово ближе всего к эталону». Менее гибко, зато очень фокусированно


📋

Шаблон промпта

Ты — эксперт по {область}.

**Задача:** оцени два варианта {что оцениваем}.

**Эталон** (образец высокого качества):
{эталонный_текст}

**Вариант A:**
{вариант_а}

**Вариант B:**
{вариант_б}

Оцени оба варианта, используя эталон как точку отсчёта. 
Определи, какой вариант точнее соответствует уровню эталона по:
— {критерий_1}
— {критерий_2}
— {критерий_3}

Укажи конкретные различия между вариантами. 
Вынеси финальный вердикт: A или B. Объясни почему.

Что подставлять: - {область} — маркетинг, юридические тексты, деловая переписка, UX-копирайтинг - {что оцениваем} — поста, письма клиенту, питча, описания продукта - {эталонный_текст} — реальный текст, который тебя впечатлил. Не выдумывай - {критерий_1-3} — можно убрать весь список и написать вместо него: «используй критерии, которые явно выражены в эталоне» — модель сама их извлечёт


🚀 Быстрый старт — вставь в чат:

Вот шаблон RefEval для оценки текстов с эталоном. 
Адаптируй под мою задачу: [твоя задача].
Задавай вопросы, чтобы заполнить нужные поля.

[вставить шаблон выше]

LLM спросит какой эталон использовать и что именно сравниваем — потому что без конкретного образца метод теряет свою силу. Она возьмёт структуру из шаблона и соберёт промпт под твою задачу.


⚠️

Ограничения

⚠️ Нет эталона — нет метода: Если нет высококачественного примера для сравнения, метод не работает. Для задач, где «хорошо» принципиально ново или субъективно — нужен другой подход.

⚠️ Слабый эталон = слабая оценка: Модель ориентируется на то, что ты дашь. Плохой образец сместит оценку в неправильную сторону. Эталон должен быть действительно хорошим — не «сойдёт», а «именно так».

⚠️ Не для полностью открытых задач: Если задача «придумай что-то принципиально новое» — эталон будет мешать, а не помогать. Метод для оценки и выбора, не для генерации с нуля.

⚠️ Явность инструкции обязательна: Просто добавить эталон в промпт без объяснения «как использовать» почти не даёт эффекта — исследование это прямо показало. Нужно явно написать что делать с примером.


🔗

Ресурсы

Статья: "References Improve LLM Alignment in Non-Verifiable Domains" — ICLR 2026

Авторы: Kejian Shi, Yixin Liu, Peifeng Wang, Alexander R. Fabbri, Shafiq Joty, Arman Cohan

Организации: Yale University, Meta, Scale AI, Salesforce Research, Nanyang Technological University

Код: github.com/yale-nlp/RLRR


📋 Дайджест исследования

Ключевая суть

Просто вставить хороший пример в промпт — почти не работает. Исследование проверило это напрямую: без явной инструкции «используй эталон вот так» модель почти игнорирует образец. RefEval позволяет получать стабильные, обоснованные вердикты при сравнении текстов, писем и питчей — там, где обычный «какой текст лучше?» каждый раз даёт разный ответ. Фишка: нужны две части — сам эталон ПЛЮС явная инструкция как его применять. Модель перестаёт опираться на размытые внутренние критерии и решает конкретную задачу: «что из двух вариантов ближе к образцу и почему».

Принцип работы

Обычный запрос «скажи, какой текст лучше» — это задача без точки отсчёта. Модель выбирает по усреднённым паттернам из обучения. У GPT-4 они одни, у Claude другие. Попроси ещё раз — получишь другой ответ. RefEval меняет саму задачу. Вместо «что лучше вообще» — «что ближе вот к этому конкретному примеру». Это как разница между «найди нам хорошего кандидата» и «найди того, кто максимально похож на вот этого человека». Второе — точнее, воспроизводимее, объяснимее. Структура промпта: задача → эталон с меткой → два варианта → инструкция как использовать эталон → запрос вердикта. Уберёшь последний пункт — вся схема рассыпается. Это подтверждено экспериментально.

Почему работает

LLM хорошо умеет одно: сравнивать конкретное с конкретным. Плохо умеет другое: оценивать по размытым критериям вроде «живо», «убедительно», «профессионально». Это не баг — просто так устроена модель. Когда просишь «что лучше» без контекста, она угадывает твой стандарт. И угадывает по-своему. Когда есть эталон, задача меняется: «найди ближайшее» — это то, с чем модель справляется стабильно и точно. Твои критерии больше не нужно угадывать — они прямо перед ней, в виде образца. Добавь явную инструкцию — и модель точно знает что с этим образцом делать.

Когда применять

Любая задача выбора и оценки в субъективных областях: варианты текстов, писем клиентам, постов, питчей, описаний продукта — особенно когда критерий «хорошего» важен именно твой, а не усреднённый. НЕ подходит: если задача — придумать что-то принципиально новое. Эталон будет тянуть к копированию образца, а не к поиску нового. Метод для оценки и выбора, не для генерации с нуля.

Мини-рецепт

1. Найди настоящий эталон: возьми текст, который тебя по-настоящему впечатляет — пост любимого автора, удачное письмо, сильный питч. Не придумывай «идеальный» с нуля — бери реальный.
2. Вставь с меткой: добавь блок «Эталон (образец высокого качества):» — пусть модель видит, что это особый элемент, а не просто ещё один текст.
3. Добавь оба варианта: блоки «Вариант A:» и «Вариант B:» с тем, что хочешь сравнить.
4. Напиши явную инструкцию: «Оцени оба варианта, используя эталон как точку отсчёта. Определи, какой вариант ближе к уровню эталона по [критерий 1], [критерий 2].» Без этой части метод не работает — исследование показало это прямо.
5. Запроси вердикт с объяснением: попроси назвать победителя и показать конкретные различия — не просто «A», а где именно один вариант проигрывает другому и почему.

Примеры

[ПЛОХО] : Вот два варианта поста. Какой лучше?
[ХОРОШО] : Ты — эксперт по контенту для предпринимателей. Эталон (образец высокого качества): «Мы три месяца переписывали программу. Убрали всё, что интересно, но не нужно. Оставили только то, что меняет результат за 6 недель. Стартуем 15 апреля. Первые 50 мест — по цене прошлого набора.» Вариант A: [текст] Вариант B: [текст] Оцени оба варианта, используя эталон как точку отсчёта. Определи, какой вариант ближе к уровню эталона по: — конкретности вместо общих слов — темпу подачи — структуре для занятых читателей Назови победителя и объясни где именно второй вариант проигрывает. Результат: модель разберёт оба текста по критериям из образца — покажет конкретно где «провисает» каждый. Вердикт будет обоснованным, а не интуитивным.
Источник: References Improve LLM Alignment in Non-Verifiable Domains
ArXiv ID: 2602.16802 | Сгенерировано: 2026-02-20 10:42

Проблемы LLM

ПроблемаСутьКак обойти
Модель оценивает по своим внутренним критериям, не по твоимПросишь "какой вариант лучше". Модель отвечает по усреднённым паттернам из обучения. Её "хорошо" — не твоё "хорошо". Особенно плохо работает для размытых критериев: "живо", "убедительно", "по-деловому". Каждый вызов может дать другой ответДай конкретный образец "хорошего" и явно скажи как его использовать. Задача из "что лучше вообще" превращается в "что ближе к этому примеру" — это модель решает стабильно

Методы

МетодСуть
Якорная оценка — точка отсчёта вместо абстрактного сужденияДобавь в запрос блок с меткой «Эталон» — реальный текст, который тебя восхищает. Затем явно напиши: «оцени оба варианта, используя эталон как точку отсчёта». Можно добавить 2–3 критерия из эталона или написать «используй критерии, которые явно выражены в эталоне» — модель сама их извлечёт. Структура: задача эталон варианты инструкция как использовать эталон вердикт. Почему работает: модель хорошо сравнивает конкретное с конкретным. Плохо — судит абстрактно. Эталон превращает второе в первое. Когда применять: оценка вариантов текста, выбор письма или питча, сравнение черновиков. Не работает: задача на генерацию чего-то принципиально нового — эталон будет тянуть назад
📖 Простыми словами

References ImproveLLMAlignment in Non-Verifiable Domains

arXiv: 2602.16802

Когда ты просишь нейронку оценить текст или выбрать лучший вариант письма, она делает это «на ощупь». У модели нет встроенного мерила крутости, поэтому она опирается на свои усредненные галлюцинации о том, что такое хорошо. В итоге ты получаешь ответ в духе «оба варианта нормальные», что абсолютно бесполезно. Метод RefEval меняет саму механику оценки: вместо того чтобы гадать, модель получает высококачественный эталон и четкую инструкцию, как с ним сверяться. Это превращает LLM из сомневающегося дилетанта в жесткого цензора с четким ТЗ.

Это как если бы ты пришел к дизайнеру и сказал: «сделай мне красиво». Он нарисует что-то на свой вкус, и тебе, скорее всего, не понравится. Но если ты положишь перед ним работу топовой студии и скажешь: «сделай не хуже вот этого по композиции и цветам», результат будет в разы точнее. RefEval — это тот самый референс, который не дает модели уйти в творческий запой и заставляет её придерживаться конкретных стандартов качества. Без точки отсчета нейронка просто «льет воду», с эталоном — она видит каждый косяк и несоответствие.

Работает это максимально просто: в промпт вшивается блок Reference-based Evaluation. Ты не просто кидаешь два текста на сравнение, а добавляешь третий — «идеальный» — и просишь модель использовать его как линейку. Исследование показывает, что один такой блок делает оценку в субъективных доменах (где нет однозначно правильного ответа) в разы острее. Модель начинает замечать нюансы в стиле, подаче и аргументации, которые раньше просто игнорировала, потому что теперь у неё есть явный критерий сравнения.

Хотя метод тестировали на текстах, принцип RefEval применим везде, где нужно выбрать лучшее из нескольких зол. Это работает для оценки кода, маркетинговых стратегий, ответов техподдержки и даже личных сообщений. Если тебе нужно, чтобы нейронка оценила пост в стиле конкретного блогера, дай ей его лучший пост как эталон. Принцип универсален: качество оценки напрямую зависит от наличия примера, а не от мощности самой модели.

Короче, хватит ждать от нейронки телепатии — она не знает, что у тебя в голове. Если хочешь получить адекватный фидбек, всегда давай эталонный образец и заставляй модель сравнивать с ним. RefEval доказывает, что один правильный пример в промпте заменяет часы дообучения и тонны уточнений. Либо ты даешь модели линейку, либо она продолжает мерить «на глаз», и результат всегда будет посредственным.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с