TL;DR
У языковых моделей уже есть скрытая способность предсказывать качество собственных ответов — до любого дополнительного обучения. Если попросить модель оценить свой ответ по конкретным параметрам (полезность, корректность, связность) сразу после генерации, она делает это удивительно точно: правильная оценка попадает в топ-5 предположений модели в 77% случаев — без какой-либо специальной подготовки.
Проблема: когда модель выдаёт ответ, пользователь не знает, хороший он или нет. Особенно больно при генерации нескольких вариантов — непонятно, который выбрать. Можно перечитать все три и выбрать глазами, но это медленно и субъективно. Абстрактная просьба «оцени свой ответ» даёт размытый результат — модель склонна хвалить себя без чёткой шкалы.
Решение — структурированный блок самооценки прямо в том же ответе: пять конкретных параметров по шкале 0–9, инлайн (встроенно) после текста ответа. Это превращает внутреннее «ощущение качества» модели в числа, которые можно сравнивать между несколькими вариантами и использовать как сигнал для перегенерации.
Схема метода
Всё происходит в одном промпте:
ШАГ 1: Запрос → Модель генерирует ответ на вопрос
ШАГ 2: Модель добавляет [SELF_EVAL] блок → числа 0–9 по 5 параметрам
ШАГ 3 (опционально): Повтори 2–3 раза → сравни суммарные баллы → выбери лучший
Параметры самооценки из исследования: - Helpfulness (полезность) — насколько ответ решает задачу - Correctness (корректность) — фактическая точность - Coherence (связность) — логика и структура изложения - Complexity (сложность) — насколько глубоко проработан ответ - Verbosity (многословность) — соответствие желаемому объёму
Пример применения
Задача: Ты готовишь питч для инвесторов на 500+ тысяч ₽ в свой EdTech-стартап. Нужно открывающее предложение — то, которое цепляет с первых слов.
Промпт:
Ты помогаешь писать питч для инвесторов.
Напиши три варианта открывающего предложения для EdTech-стартапа
«онлайн-репетиторы по подписке для школьников 5–9 классов».
После каждого варианта добавь блок:
[SELF_EVAL]
Полезность: X/9
Корректность: X/9
Связность: X/9
Сложность: X/9
Объём: X/9
Итог: XX/45
[/SELF_EVAL]
Оценивай строго — не ставь всем одинаково высокие баллы.
После всех трёх вариантов укажи, какой рекомендуешь и почему.
Результат: Модель выдаст три варианта с разными тональностями (провокационный / статистический / нарративный). Каждый получит числовые оценки по пяти параметрам — скорее всего, варианты разойдутся в баллах, особенно по «Полезности» и «Связности». Финальный итоговый балл покажет, какой вариант сама модель считает сильнейшим. Можно проверить: попроси объяснить, почему один вариант получил 7/9, а другой — 5/9.
Почему это работает
Слабость LLM в лоб: попросишь «оцени ответ» — модель напишет два абзаца комплиментов с оговорками. Числа не появятся, сравнить варианты невозможно.
Сильная сторона LLM: модель в процессе генерации уже внутренне «взвешивает» качество своего текста. Исследование показало: до какого-либо специального обучения модель угадывает оценку внешнего судьи в топ-5 вариантов в 77% случаев. Это не случайность — нужная способность формируется при предобучении на огромных текстах, где качество текста неявно маркировано.
Как метод использует это: структурированный блок [SELF_EVAL] с конкретными параметрами и шкалой 0–9 убирает двусмысленность. Модель не нужно учить оценивать — нужно дать ей формат, в котором внутренняя оценка становится явной. Числа вместо слов убирают пространство для «вежливых» обходных фраз.
Рычаги управления:
| Что менять | Эффект |
|---|---|
| Оценивай строго, не давай всем 8–9 | Принудительная дифференциация между вариантами |
| Добавь/убери параметры | Фокус на том, что важно тебе: убери «сложность», добавь «убедительность» |
Итог: XX/45 |
Автоматический ранжир для сравнения |
| Попроси объяснить, почему 5, а не 8 | Выявляет конкретные слабые места |
Шаблон промпта
{Постановка задачи и контекст}
Напиши {число} вариантов {тип контента}.
После каждого варианта добавь:
[SELF_EVAL]
Полезность: X/9 — {насколько решает задачу}
Корректность: X/9 — {фактическая точность}
Связность: X/9 — {логика и структура}
{Дополнительный параметр}: X/9 — {описание}
Итог: XX/36
[/SELF_EVAL]
Оценивай строго — варианты должны различаться по баллам.
После всех вариантов: укажи лучший и объясни разрыв в оценках.
Что подставлять:
- {Постановка задачи} — контекст: кому, зачем, в каком формате
- {число} — 2–4 варианта (больше — теряется фокус сравнения)
- {тип контента} — письмо, заголовок, аргумент, объяснение
- {Дополнительный параметр} — убедительность, краткость, тон — всё что важно именно тебе
- Итог: пересчитай XY под своё количество параметров (4 параметра × 9 = 36)
🚀 Быстрый старт — вставь в чат:
Вот шаблон для inline-самооценки ответов. Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит: сколько вариантов нужно, какой контент, какие параметры важны — потому что без этого она не сможет настроить блок [SELF_EVAL] под твою конкретную цель.
Ограничения
⚠️ Самооценка ≠ идеальный судья: Модель лучше оценивает структурные параметры (связность, объём), хуже — фактическую корректность в узких областях. Если тебе нужна проверка фактов по медицине или праву — самооценка не заменяет экспертизу.
⚠️ Работает лучше на среднем и высоком качестве: Если ответ заведомо плохой, модель может это слабо распознать — способность работает лучше в зоне «хорошего vs отличного», не «ужасного vs хорошего».
⚠️ Без давления — баллы сползают вверх: Без инструкции «оценивай строго» модель тяготеет к 7–8/9 для всего. Фраза «варианты должны различаться по баллам» обязательна.
⚠️ SEE как система требует инфраструктуры: Полный метод из исследования (обучение с подкреплением + маскированная дистилляция) — это тренировка модели, недоступная в обычном чате. Промпт-техника выше — это адаптация ключевого принципа, не воспроизведение SEE.
Ресурсы
Статья: Self-Evaluation Is Already There: Eliciting Latent Judge Calibration in Base LLMs with Minimal Data
Авторы: XiuYu Zhang, Yi Shan, Junfeng Fang, Zhenkai Liang
Организации: National University of Singapore, Beijing University of Technology
Связанные идеи из статьи: HelpSteer2 (5-атрибутная шкала оценки качества LLM), GRPO (метод обучения с подкреплением), RLCR (baseline-метод сравнения)
