TL;DR
SCOPE — метод парных оценок через LLM, который позволяет модели воздерживаться от оценки при высокой неопределённости и гарантирует, что процент ошибок среди выданных оценок не превысит заданный порог (например, не более 10% ошибок). Работает в связке с BPE (Bidirectional Preference Entropy) — техникой оценки неопределённости, которая запрашивает модель дважды: сначала "А лучше Б?", потом "Б лучше А?", усредняет вероятности и превращает в оценку уверенности.
Проблема: LLM-судьи страдают position bias — систематически предпочитают ответ в определённой позиции (первый или второй). Обычная confidence (максимальная вероятность ответа) может быть высокой, но ложно уверенной из-за позиционного смещения. Модель может с уверенностью 90% выбрать вариант А, но если поменять местами — с той же уверенностью выбрать Б. Это не настоящая уверенность, это артефакт подачи.
Решение: BPE делает два запроса (прямой и обратный порядок), усредняет вероятности предпочтения и считает энтропию. Если модель даёт противоречивые оценки при перестановке — высокая неопределённость, воздержаться. Если согласованные — низкая неопределённость, можно доверять. SCOPE использует BPE-оценки для калибровки порога: на размеченных данных находит такой уровень неопределённости, при котором математически гарантируется заданный процент ошибок.
Схема метода
SCOPE (полная система — требует калибровки на данных):
КАЛИБРОВКА (один раз, нужен датасет с правильными ответами):
1. Для каждой пары вычисли BPE-неопределённость
2. Найди порог λ, при котором ошибок ≤ α среди принятых оценок
ПРИМЕНЕНИЕ (на новых парах):
1. Вычисли BPE для новой пары → получи неопределённость s(x)
2. Если s(x) ≤ λ → выдай оценку
3. Если s(x) > λ → воздержись
BPE (применимо вручную в чате):
1. Запроси оценку в прямом порядке: "А или Б?" → вероятность p_fwd
2. Запроси оценку в обратном порядке: "Б или А?" → вероятность p_rev
3. Усредни: p̄ = (p_fwd + p_rev) / 2
4. Вычисли энтропию: s(x) = −[p̄·log(p̄) + (1−p̄)·log(1−p̄)]
→ Высокая энтропия (≈0.69) = противоречие = не доверяй
→ Низкая энтропия (≈0) = согласованность = можно доверять
Пример применения
Задача: Ты выбираешь между двумя вариантами описания продукта для Wildberries. Оба написал копирайтер, нужно выбрать лучший. Боишься, что LLM выберет просто более длинный текст или тот, что идёт первым в промпте.
Промпт (вариант 1 — прямой порядок):
Оцени два описания беспроводных наушников для маркетплейса.
Какое лучше привлечёт покупателя?
Вариант А:
"Наушники TWS с активным шумоподавлением. Время работы 8 часов.
Быстрая зарядка USB-C. Влагозащита IPX4."
Вариант Б:
"Почувствуй разницу! Эти наушники TWS погружают в музыку благодаря
активному шумоподавлению. Целый рабочий день без подзарядки — 8 часов
автономности. Попал под дождь? IPX4 защитит. Быстрая зарядка через USB-C."
Ответь одним словом: "А" или "Б". Затем укажи уверенность в процентах.
Промпт (вариант 2 — обратный порядок):
[Тот же текст, но Вариант Б идёт первым, Вариант А — вторым]
Результат:
Модель выдаст два ответа с вероятностями. Например: - Прямой порядок: "Б" (80%) - Обратный порядок: "А" (65%) — что означает "Б лучше А" с вероятностью 35%
BPE усреднит: (80% + 35%) / 2 = 57.5% — предпочтение Б. Энтропия ≈ 0.68 — высокая неопределённость. Модель противоречит сама себе при перестановке → воздержаться от оценки, запросить третье мнение (коллегу, A/B-тест).
Если бы оба ответа были "Б" (85% и 82%), энтропия была бы низкой → можно доверять выбору.
Почему это работает
Слабость LLM: Модели чувствительны к порядку подачи вариантов. Это не баг, это особенность архитектуры — токены обрабатываются последовательно, контекст влияет на вероятности. Первый вариант получает "преимущество первого хода", последний — "эффект свежести". Модель может с высокой confidence выбрать вариант, не потому что он лучше, а потому что он первый/последний.
Сильная сторона LLM: Модели хорошо генерируют согласованные вероятности в рамках одного контекста. Если задать один и тот же вопрос дважды в разном обрамлении — расхождение покажет, насколько решение зависит от формы подачи, а не от сути.
Механика BPE: Два запроса в разном порядке раскрывают позиционное смещение. Усреднение вероятностей нейтрализует его — если модель предпочла А просто потому что он первый, в обратном запросе она предпочтёт Б по той же причине, усреднение даст ~50/50. Энтропия превращает вероятность в меру неопределённости: 50/50 → максимальная энтропия, 95/5 → минимальная. SCOPE использует этот сигнал для порогового решения: доверять или воздержаться.
Рычаги управления: - Уровень риска α — снизь до 0.05 для критичных решений (меньше покрытие, больше воздержаний), подними до 0.20 для массовых оценок (больше покрытие, больше ошибок в допуске) - Калибровочный датасет — чем больше размеченных примеров, тем точнее порог - Число перестановок — можно расширить до 3+ порядков, но два уже хорошо работают
Шаблон промпта
BPE (ручное применение без калибровки):
# Шаг 1: Прямой порядок
Оцени два варианта: {описание задачи}.
Вариант А:
{вариант_А}
Вариант Б:
{вариант_Б}
Какой вариант лучше: А или Б?
Ответь одним словом, затем укажи уверенность в процентах (0-100%).
---
# Шаг 2: Обратный порядок
[Тот же промпт, но Вариант Б идёт первым, Вариант А — вторым]
---
# Шаг 3: Анализ
Сравни свои два ответа:
- Прямой порядок: {ответ_1}
- Обратный порядок: {ответ_2}
Если выбор и уверенность совпадают → финальное решение.
Если противоречат → высокая неопределённость, воздержись от оценки.
Плейсхолдеры:
- {описание_задачи} — что сравниваешь (тексты, идеи, варианты дизайна)
- {вариант_А}, {вариант_Б} — конкретные варианты для оценки
Почему не нужен "Быстрый старт"
Метод двухэтапный: BPE применим вручную (два промпта, сравнение), SCOPE требует калибровки на данных (код/API). Для ручного использования достаточно принципа: запроси дважды, сравни, при противоречии воздержись. Адаптация под задачу очевидна — подставь свои варианты А и Б.
Ограничения
⚠️ Требует размеченных данных для калибровки: Полная SCOPE-система нуждается в датасете с правильными ответами для настройки порога. Без калибровки можно применять только BPE-принцип вручную, но без математических гарантий уровня ошибок.
⚠️ Только парные сравнения: Метод работает для задач формата "А или Б". Не подходит для ранжирования 3+ вариантов, генерации с нуля или оценки единственного варианта.
⚠️ Двойной расход токенов: BPE требует двух запросов на каждую пару. Для массовых оценок (тысячи пар) это удваивает стоимость API и время.
⚠️ Position bias — не единственный bias: BPE нейтрализует позиционное смещение, но не защищает от других искажений: предпочтение более длинных текстов, формальных стилей, определённых форматов. Если оба варианта подвержены другому bias — BPE не поможет.
Оригинал из исследования
Авторы калибровали SCOPE на трёх бенчмарках (MT-Bench, RewardBench, Chatbot Arena) с моделями Qwen-2.5 (7B, 14B, 32B) и Llama-3.1-70B.
Формула BPE:
p_fwd = P(A ≻ B | прямой_порядок)
p_rev = P(A ≻ B | обратный_порядок) # внимание: это P(B) в обратном промпте
p̄ = (p_fwd + p_rev) / 2
s(x) = −[p̄·log(p̄) + (1−p̄)·log(1−p̄)] # энтропия
Калибровка порога λ: Используется conformal prediction — метод статистической калибровки, который на размеченных данных находит такой порог неопределённости, при котором выполняется:
Ошибки среди принятых оценок / Всего принятых оценок ≤ α
С конечно-выборочной коррекцией для гарантии на новых данных.
Результаты: - При α = 0.10 (не более 10% ошибок), SCOPE достиг покрытия 0.89 на RewardBench с Qwen-14B и 0.98 с Qwen-32B - Эмпирический риск стабильно 0.097–0.099 (ниже целевого 0.10) на всех бенчмарках - BPE превзошёл predictive probability и verbalized confidence по калибровке (ECE) и дискриминации (AUROC/AUPRC)
Как исследовали
Исследователи сравнили 4 метода оценки неопределённости: - Predictive probability — максимальная softmax-вероятность - Verbalized confidence — модель напрямую называет процент уверенности - Simulated annotators — генерация 5 персон с few-shot демонстрациями, согласованность через мажоритарное голосование - BPE (предложенный) — двунаправленная энтропия
Метрики калибровки: ECE (Expected Calibration Error), AUROC (площадь под ROC-кривой), AUPRC (площадь под Precision-Recall).
Валидация SCOPE: 1000 случайных разбиений каждого датасета (50% калибровка, 50% тест), проверка что эмпирический риск остаётся ниже целевого α на всех разбиениях.
Сравнение с базовыми линиями: - Vanilla — всегда выдаёт оценку (100% покрытие, высокий риск) - Heuristic — порог = 1 − α без калибровки - Naïve — эмпирический подбор порога на валидации без конечно-выборочной коррекции
BPE показал лучшую калибровку (ECE) и различительную способность (AUROC/AUPRC) почти во всех конфигурациях. SCOPE с BPE удвоил покрытие по сравнению с Naïve на MT-Bench с Qwen-7B (0.246 vs 0.102) при том же целевом риске 0.10.
Ресурсы
SCOPE: Selective Conformal Optimized Pairwise LLM Judging
Sher Badshah (Dalhousie University), Ali Emami (Emory University), Hassan Sajjad (Dalhousie University)
Preprint, February 2026
Методы из исследования: - Conformal prediction (Angelopoulos & Bates, 2023) - Risk control (Angelopoulos et al., 2024; Wang et al., 2025a) - Selective prediction (Geifman & El-Yaniv, 2017; Chen et al., 2023)
Бенчмарки: - MT-Bench (Zheng et al., 2023) - RewardBench (Lambert et al., 2025) - Chatbot Arena (Chiang et al., 2024)
