3,583 papers
arXiv:2606.05122 72 3 июня 2026 г. FREE

Встроенный судья: LLM уже умеет оценивать свои ответы — нужно только попросить правильно

КЛЮЧЕВАЯ СУТЬ
Модель уже знает, какой из её ответов лучше — просто молчит об этом. Без какого-либо дообучения правильная оценка качества попадает в топ-5 предположений модели в 77% случаев — это скрытая способность, сформированная при обучении на огромных текстах. Метод [SELF_EVAL] даёт возможность автоматически отбирать лучший из нескольких вариантов без ручного перечитывания каждого. Фишка: попросишь «оцени свой ответ» без структуры — получишь дипломатические оговорки. Добавишь параметры и шкалу 0–9 — числа, которые можно сравнивать между вариантами. Это не учит модель оценивать — это даёт ей формат, в котором внутренняя оценка становится явной.
Адаптировать под запрос

TL;DR

У языковых моделей уже есть скрытая способность предсказывать качество собственных ответов — до любого дополнительного обучения. Если попросить модель оценить свой ответ по конкретным параметрам (полезность, корректность, связность) сразу после генерации, она делает это удивительно точно: правильная оценка попадает в топ-5 предположений модели в 77% случаев — без какой-либо специальной подготовки.

Проблема: когда модель выдаёт ответ, пользователь не знает, хороший он или нет. Особенно больно при генерации нескольких вариантов — непонятно, который выбрать. Можно перечитать все три и выбрать глазами, но это медленно и субъективно. Абстрактная просьба «оцени свой ответ» даёт размытый результат — модель склонна хвалить себя без чёткой шкалы.

Решение — структурированный блок самооценки прямо в том же ответе: пять конкретных параметров по шкале 0–9, инлайн (встроенно) после текста ответа. Это превращает внутреннее «ощущение качества» модели в числа, которые можно сравнивать между несколькими вариантами и использовать как сигнал для перегенерации.


🔬

Схема метода

Всё происходит в одном промпте:

ШАГ 1: Запрос → Модель генерирует ответ на вопрос
ШАГ 2: Модель добавляет [SELF_EVAL] блок → числа 0–9 по 5 параметрам
ШАГ 3 (опционально): Повтори 2–3 раза → сравни суммарные баллы → выбери лучший

Параметры самооценки из исследования: - Helpfulness (полезность) — насколько ответ решает задачу - Correctness (корректность) — фактическая точность - Coherence (связность) — логика и структура изложения - Complexity (сложность) — насколько глубоко проработан ответ - Verbosity (многословность) — соответствие желаемому объёму


🚀

Пример применения

Задача: Ты готовишь питч для инвесторов на 500+ тысяч ₽ в свой EdTech-стартап. Нужно открывающее предложение — то, которое цепляет с первых слов.

Промпт:

Ты помогаешь писать питч для инвесторов. 
Напиши три варианта открывающего предложения для EdTech-стартапа 
«онлайн-репетиторы по подписке для школьников 5–9 классов».

После каждого варианта добавь блок:
[SELF_EVAL]
Полезность: X/9
Корректность: X/9
Связность: X/9
Сложность: X/9
Объём: X/9
Итог: XX/45
[/SELF_EVAL]

Оценивай строго — не ставь всем одинаково высокие баллы.
После всех трёх вариантов укажи, какой рекомендуешь и почему.

Результат: Модель выдаст три варианта с разными тональностями (провокационный / статистический / нарративный). Каждый получит числовые оценки по пяти параметрам — скорее всего, варианты разойдутся в баллах, особенно по «Полезности» и «Связности». Финальный итоговый балл покажет, какой вариант сама модель считает сильнейшим. Можно проверить: попроси объяснить, почему один вариант получил 7/9, а другой — 5/9.


🧠

Почему это работает

Слабость LLM в лоб: попросишь «оцени ответ» — модель напишет два абзаца комплиментов с оговорками. Числа не появятся, сравнить варианты невозможно.

Сильная сторона LLM: модель в процессе генерации уже внутренне «взвешивает» качество своего текста. Исследование показало: до какого-либо специального обучения модель угадывает оценку внешнего судьи в топ-5 вариантов в 77% случаев. Это не случайность — нужная способность формируется при предобучении на огромных текстах, где качество текста неявно маркировано.

Как метод использует это: структурированный блок [SELF_EVAL] с конкретными параметрами и шкалой 0–9 убирает двусмысленность. Модель не нужно учить оценивать — нужно дать ей формат, в котором внутренняя оценка становится явной. Числа вместо слов убирают пространство для «вежливых» обходных фраз.

Рычаги управления:

Что менять Эффект
Оценивай строго, не давай всем 8–9 Принудительная дифференциация между вариантами
Добавь/убери параметры Фокус на том, что важно тебе: убери «сложность», добавь «убедительность»
Итог: XX/45 Автоматический ранжир для сравнения
Попроси объяснить, почему 5, а не 8 Выявляет конкретные слабые места

📋

Шаблон промпта

{Постановка задачи и контекст}

Напиши {число} вариантов {тип контента}.

После каждого варианта добавь:

[SELF_EVAL]
Полезность: X/9 — {насколько решает задачу}
Корректность: X/9 — {фактическая точность}
Связность: X/9 — {логика и структура}
{Дополнительный параметр}: X/9 — {описание}
Итог: XX/36
[/SELF_EVAL]

Оценивай строго — варианты должны различаться по баллам.
После всех вариантов: укажи лучший и объясни разрыв в оценках.

Что подставлять: - {Постановка задачи} — контекст: кому, зачем, в каком формате - {число} — 2–4 варианта (больше — теряется фокус сравнения) - {тип контента} — письмо, заголовок, аргумент, объяснение - {Дополнительный параметр} — убедительность, краткость, тон — всё что важно именно тебе - Итог: пересчитай XY под своё количество параметров (4 параметра × 9 = 36)

🚀 Быстрый старт — вставь в чат:

Вот шаблон для inline-самооценки ответов. Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит: сколько вариантов нужно, какой контент, какие параметры важны — потому что без этого она не сможет настроить блок [SELF_EVAL] под твою конкретную цель.


⚠️

Ограничения

⚠️ Самооценка ≠ идеальный судья: Модель лучше оценивает структурные параметры (связность, объём), хуже — фактическую корректность в узких областях. Если тебе нужна проверка фактов по медицине или праву — самооценка не заменяет экспертизу.

⚠️ Работает лучше на среднем и высоком качестве: Если ответ заведомо плохой, модель может это слабо распознать — способность работает лучше в зоне «хорошего vs отличного», не «ужасного vs хорошего».

⚠️ Без давления — баллы сползают вверх: Без инструкции «оценивай строго» модель тяготеет к 7–8/9 для всего. Фраза «варианты должны различаться по баллам» обязательна.

⚠️ SEE как система требует инфраструктуры: Полный метод из исследования (обучение с подкреплением + маскированная дистилляция) — это тренировка модели, недоступная в обычном чате. Промпт-техника выше — это адаптация ключевого принципа, не воспроизведение SEE.


🔗

Ресурсы

Статья: Self-Evaluation Is Already There: Eliciting Latent Judge Calibration in Base LLMs with Minimal Data

Авторы: XiuYu Zhang, Yi Shan, Junfeng Fang, Zhenkai Liang

Организации: National University of Singapore, Beijing University of Technology

Связанные идеи из статьи: HelpSteer2 (5-атрибутная шкала оценки качества LLM), GRPO (метод обучения с подкреплением), RLCR (baseline-метод сравнения)


📋 Дайджест исследования

Ключевая суть

Модель уже знает, какой из её ответов лучше — просто молчит об этом. Без какого-либо дообучения правильная оценка качества попадает в топ-5 предположений модели в 77% случаев — это скрытая способность, сформированная при обучении на огромных текстах. Метод [SELF_EVAL] даёт возможность автоматически отбирать лучший из нескольких вариантов без ручного перечитывания каждого. Фишка: попросишь «оцени свой ответ» без структуры — получишь дипломатические оговорки. Добавишь параметры и шкалу 0–9 — числа, которые можно сравнивать между вариантами. Это не учит модель оценивать — это даёт ей формат, в котором внутренняя оценка становится явной.

Принцип работы

Абстрактный вопрос «оцени себя» — и модель пишет два абзаца с натяжкой на «достаточно полно». Конкретный блок с параметрами и шкалой — и она вынуждена ставить числа. Прикол: без инструкции «оценивай строго, не ставь всем одинаково» баллы неизбежно сползают к 7–8 из 9 для каждого варианта. Добавь одну фразу — «варианты должны различаться по баллам» — и модель начинает реально делить хорошее от отличного. Формула: генерация → самооценка → отбор. Три варианта ответа с итоговым баллом XX/45 — выбор лучшего занимает секунду, не пять минут перечитывания.

Почему работает

При предобучении модель видела бесчисленные примеры текстов, где качество было неявно закодировано: рецензии, редакторские правки, критика, оценки. Способность различать хорошее от посредственного сформировалась сама — исследование просто нашло ключ к ней. Ключевой инсайт: модель не учится оценивать — она уже умеет. Структурированный формат убирает двусмысленность, которая мешала ей это показать. Написать «скорее неплохо» проще, чем поставить 6 из 9. И это разные вещи — слово размывается, число остаётся. Числовой отклик лишает модель пространства для вежливых обходных фраз.

Когда применять

Любой контент, где нужно выбрать лучший из нескольких вариантов: заголовки, письма, питч-предложения, аргументы, объяснения — особенно когда нет времени перечитывать каждый вариант вручную. Работает хуже для проверки фактической точности в узких областях — медицина, право, специализированная техника. Модель оценивает структуру и связность лучше, чем содержательную правоту.

Мини-рецепт

1. Задай задачу и количество вариантов: попроси 2–4 варианта (больше — теряется фокус сравнения).
2. Вставь блок после каждого варианта:
[SELF_EVAL]
Полезность: X/9
Корректность: X/9
Связность: X/9
{Свой параметр}: X/9
Итог: XX/36
[/SELF_EVAL]

3. Добавь инструкцию дифференциации: без неё баллы сползут к 7–8 для всех. Пиши прямо: Оценивай строго — варианты должны различаться по баллам.
4. Попроси объяснить разрыв: добавь в конце Укажи лучший вариант и объясни разницу в оценках — это выявляет конкретные слабые места, не просто ранжир.
5. Настрой параметры под себя: убери «Сложность», добавь «Убедительность» или «Тон» — итог пересчитай под своё количество параметров (4 параметра × 9 = 36).

Примеры

[ПЛОХО] : Напиши 3 варианта открывающего предложения для питча и оцени их
[ХОРОШО] : Напиши 3 варианта открывающего предложения для питча EdTech-стартапа инвесторам. После каждого варианта добавь: [SELF_EVAL] Полезность: X/9 Корректность: X/9 Связность: X/9 Убедительность: X/9 Итог: XX/36 [/SELF_EVAL] Оценивай строго — варианты должны различаться по баллам. После всех трёх вариантов укажи лучший и объясни разрыв в оценках.
Источник: Self-Evaluation Is Already There: Eliciting Latent Judge Calibration in Base LLMs with Minimal Data
ArXiv ID: 2606.05122 | Сгенерировано: 2026-06-04 07:40

Проблемы LLM

ПроблемаСутьКак обойти
Просьба «оцени свой ответ» даёт похвалу вместо чиселПросишь модель оценить ответ. Получаешь два абзаца: «ответ охватывает ключевые аспекты, однако можно добавить...». Сравнить варианты невозможно. Нет числа — нет ранжира. Без явного давления модель ставит всему 7–8 из 9. Никакой разницы между вариантамиДай формат с конкретными параметрами и шкалой 0–9. Добавь в запрос: «оценивай строго — варианты должны различаться по баллам». Тогда получаешь числа, которые можно сравнить

Методы

МетодСуть
Встроенный блок самооценки — авторанжир вариантовПопроси модель сгенерировать 2–4 варианта. После каждого — блок оценки прямо в том же ответе. Синтаксис: [SELF_EVAL] Полезность: X/9 / Корректность: X/9 / Связность: X/9 / Итог: XX/27 [/SELF_EVAL]. Обязательно добавь: «варианты должны различаться по баллам». Попроси указать лучший и объяснить разрыв в оценках. Почему работает: модель в процессе генерации уже внутренне взвешивает качество текста. Структурированный блок с числовой шкалой убирает пространство для расплывчатых слов — числа либо разные, либо нет. Параметры меняй под задачу: убери «связность», добавь «убедительность» или «тон». Пересчитай итог: параметров × 9. Когда не работает: фактическая точность в узких областях (медицина, право) — там нужен внешний эксперт, не самооценка
📖 Простыми словами

Self-Evaluation Is Already There: Eliciting Latent Judge Calibration in BaseLLMswith Minimal Data

arXiv: 2606.05122

Языковые модели — это не просто генераторы текста, это системы, которые в процессе обучения невольно научились понимать, когда они несут чушь. Фундаментальная механика тут в том, что скрытая самооценка уже зашита в нейронку на уровне вероятностей. Когда модель выдает ответ, она «внутри себя» прекрасно видит, насколько логичным и точным получается результат. Проблема лишь в том, что мы обычно не даем ей шанса признаться в ошибке, требуя просто выдать текст, а не проанализировать его качество.

Это как если бы ты попросил пьяного друга дойти до дома: он может спотыкаться и заговариваться, но если в процессе спросить его «ты сейчас ровно идешь?», он на секунду сфокусируется и честно ответит, что его заносит влево. Базовая калибровка в LLM работает так же — модель может выдать посредственный текст, но если заставить её выставить себе оценку по конкретным шкалам сразу после генерации, она внезапно становится честным критиком. Формально она может ошибаться в фактах, но отлично чувствует, где её аргументация проседает.

Чтобы вытащить эту правду, не нужно никакого дообучения или сложных костылей. Работает метод извлечения скрытой оценки: ты просишь модель сгенерировать ответ, а затем в этом же окне требуешь оценить его по параметрам вроде полезности или корректности. Оказывается, что в 77% случаев правильная, адекватная оценка уже сидит в «голове» модели в топе вероятных вариантов. Нужно просто перестать ждать от неё вежливых отписок и заставить её работать со своими же внутренними метриками здесь и сейчас.

Этот принцип универсален и применим везде, где важна точность — от написания кода до подготовки питчей для инвесторов. Тестировали это на базовых моделях, но логика работает для любого серьезного текста: вместо того чтобы плодить десять вариантов и выбирать самому, заставь AI проранжировать свои же черновики. Self-evaluation превращает модель из слепого писателя в редактора, который видит свои косяки еще до того, как ты нажмешь кнопку «отправить».

Короче: хватит верить модели на слово, у неё внутри уже есть встроенный детектор лажи. Главный вывод исследования в том, что нам не нужны гигантские датасеты для обучения моделей «честности» — эта честность уже там, просто она заблокирована форматом диалога. Добавь в промпт этап самопроверки по шкале от 1 до 10, и ты увидишь, как качество контента вырастет просто за счет того, что модель перестанет потакать своим же галлюцинациям.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с