3,583 papers
arXiv:2602.13110 74 13 фев. 2026 г. FREE

SCOPE: контроль ошибок LLM-судьи через селективное воздержание

КЛЮЧЕВАЯ СУТЬ
Парадокс: LLM может с уверенностью 90% выбрать вариант А первым, но при перестановке с той же уверенностью выберет Б. Это не настоящая уверенность — это позиционное смещение (position bias). Модель систематически предпочитает вариант в определённой позиции просто потому что он там стоит. Метод SCOPE позволяет выявлять такие противоречия и воздерживаться от оценки при высокой неопределённости, гарантируя что среди выданных оценок не более N% ошибок (настраиваешь сам). Фишка: два запроса в разном порядке раскрывают позиционное смещение. Если модель даёт противоречивые оценки («А лучше Б» → меняешь местами → «Б лучше А») — высокая энтропия, воздержись от оценки. Если согласованные — низкая энтропия, можно доверять. На размеченных данных SCOPE калибрует порог, при котором математически гарантируется заданный процент ошибок.
Адаптировать под запрос

TL;DR

SCOPE — метод парных оценок через LLM, который позволяет модели воздерживаться от оценки при высокой неопределённости и гарантирует, что процент ошибок среди выданных оценок не превысит заданный порог (например, не более 10% ошибок). Работает в связке с BPE (Bidirectional Preference Entropy) — техникой оценки неопределённости, которая запрашивает модель дважды: сначала "А лучше Б?", потом "Б лучше А?", усредняет вероятности и превращает в оценку уверенности.

Проблема: LLM-судьи страдают position bias — систематически предпочитают ответ в определённой позиции (первый или второй). Обычная confidence (максимальная вероятность ответа) может быть высокой, но ложно уверенной из-за позиционного смещения. Модель может с уверенностью 90% выбрать вариант А, но если поменять местами — с той же уверенностью выбрать Б. Это не настоящая уверенность, это артефакт подачи.

Решение: BPE делает два запроса (прямой и обратный порядок), усредняет вероятности предпочтения и считает энтропию. Если модель даёт противоречивые оценки при перестановке — высокая неопределённость, воздержаться. Если согласованные — низкая неопределённость, можно доверять. SCOPE использует BPE-оценки для калибровки порога: на размеченных данных находит такой уровень неопределённости, при котором математически гарантируется заданный процент ошибок.


🔬

Схема метода

SCOPE (полная система — требует калибровки на данных):

КАЛИБРОВКА (один раз, нужен датасет с правильными ответами):
1. Для каждой пары вычисли BPE-неопределённость
2. Найди порог λ, при котором ошибок ≤ α среди принятых оценок

ПРИМЕНЕНИЕ (на новых парах):
1. Вычисли BPE для новой пары → получи неопределённость s(x)
2. Если s(x) ≤ λ → выдай оценку
3. Если s(x) > λ → воздержись

BPE (применимо вручную в чате):

1. Запроси оценку в прямом порядке: "А или Б?"  → вероятность p_fwd
2. Запроси оценку в обратном порядке: "Б или А?" → вероятность p_rev
3. Усредни: p̄ = (p_fwd + p_rev) / 2
4. Вычисли энтропию: s(x) = −[p̄·log(p̄) + (1−p̄)·log(1−p̄)]

→ Высокая энтропия (≈0.69) = противоречие = не доверяй
→ Низкая энтропия (≈0) = согласованность = можно доверять

🚀

Пример применения

Задача: Ты выбираешь между двумя вариантами описания продукта для Wildberries. Оба написал копирайтер, нужно выбрать лучший. Боишься, что LLM выберет просто более длинный текст или тот, что идёт первым в промпте.

Промпт (вариант 1 — прямой порядок):

Оцени два описания беспроводных наушников для маркетплейса. 
Какое лучше привлечёт покупателя?

Вариант А:
"Наушники TWS с активным шумоподавлением. Время работы 8 часов. 
Быстрая зарядка USB-C. Влагозащита IPX4."

Вариант Б:
"Почувствуй разницу! Эти наушники TWS погружают в музыку благодаря 
активному шумоподавлению. Целый рабочий день без подзарядки — 8 часов 
автономности. Попал под дождь? IPX4 защитит. Быстрая зарядка через USB-C."

Ответь одним словом: "А" или "Б". Затем укажи уверенность в процентах.

Промпт (вариант 2 — обратный порядок):

[Тот же текст, но Вариант Б идёт первым, Вариант А — вторым]

Результат:

Модель выдаст два ответа с вероятностями. Например: - Прямой порядок: "Б" (80%) - Обратный порядок: "А" (65%) — что означает "Б лучше А" с вероятностью 35%

BPE усреднит: (80% + 35%) / 2 = 57.5% — предпочтение Б. Энтропия ≈ 0.68 — высокая неопределённость. Модель противоречит сама себе при перестановке → воздержаться от оценки, запросить третье мнение (коллегу, A/B-тест).

Если бы оба ответа были "Б" (85% и 82%), энтропия была бы низкой → можно доверять выбору.


🧠

Почему это работает

Слабость LLM: Модели чувствительны к порядку подачи вариантов. Это не баг, это особенность архитектуры — токены обрабатываются последовательно, контекст влияет на вероятности. Первый вариант получает "преимущество первого хода", последний — "эффект свежести". Модель может с высокой confidence выбрать вариант, не потому что он лучше, а потому что он первый/последний.

Сильная сторона LLM: Модели хорошо генерируют согласованные вероятности в рамках одного контекста. Если задать один и тот же вопрос дважды в разном обрамлении — расхождение покажет, насколько решение зависит от формы подачи, а не от сути.

Механика BPE: Два запроса в разном порядке раскрывают позиционное смещение. Усреднение вероятностей нейтрализует его — если модель предпочла А просто потому что он первый, в обратном запросе она предпочтёт Б по той же причине, усреднение даст ~50/50. Энтропия превращает вероятность в меру неопределённости: 50/50 → максимальная энтропия, 95/5 → минимальная. SCOPE использует этот сигнал для порогового решения: доверять или воздержаться.

Рычаги управления: - Уровень риска α — снизь до 0.05 для критичных решений (меньше покрытие, больше воздержаний), подними до 0.20 для массовых оценок (больше покрытие, больше ошибок в допуске) - Калибровочный датасет — чем больше размеченных примеров, тем точнее порог - Число перестановок — можно расширить до 3+ порядков, но два уже хорошо работают


📋

Шаблон промпта

BPE (ручное применение без калибровки):

# Шаг 1: Прямой порядок
Оцени два варианта: {описание задачи}.

Вариант А:
{вариант_А}

Вариант Б:
{вариант_Б}

Какой вариант лучше: А или Б? 
Ответь одним словом, затем укажи уверенность в процентах (0-100%).

---

# Шаг 2: Обратный порядок
[Тот же промпт, но Вариант Б идёт первым, Вариант А — вторым]

---

# Шаг 3: Анализ
Сравни свои два ответа:
- Прямой порядок: {ответ_1}
- Обратный порядок: {ответ_2}

Если выбор и уверенность совпадают → финальное решение.
Если противоречат → высокая неопределённость, воздержись от оценки.

Плейсхолдеры: - {описание_задачи} — что сравниваешь (тексты, идеи, варианты дизайна) - {вариант_А}, {вариант_Б} — конкретные варианты для оценки


📌

Почему не нужен "Быстрый старт"

Метод двухэтапный: BPE применим вручную (два промпта, сравнение), SCOPE требует калибровки на данных (код/API). Для ручного использования достаточно принципа: запроси дважды, сравни, при противоречии воздержись. Адаптация под задачу очевидна — подставь свои варианты А и Б.


⚠️

Ограничения

⚠️ Требует размеченных данных для калибровки: Полная SCOPE-система нуждается в датасете с правильными ответами для настройки порога. Без калибровки можно применять только BPE-принцип вручную, но без математических гарантий уровня ошибок.

⚠️ Только парные сравнения: Метод работает для задач формата "А или Б". Не подходит для ранжирования 3+ вариантов, генерации с нуля или оценки единственного варианта.

⚠️ Двойной расход токенов: BPE требует двух запросов на каждую пару. Для массовых оценок (тысячи пар) это удваивает стоимость API и время.

⚠️ Position bias — не единственный bias: BPE нейтрализует позиционное смещение, но не защищает от других искажений: предпочтение более длинных текстов, формальных стилей, определённых форматов. Если оба варианта подвержены другому bias — BPE не поможет.


📄

Оригинал из исследования

Авторы калибровали SCOPE на трёх бенчмарках (MT-Bench, RewardBench, Chatbot Arena) с моделями Qwen-2.5 (7B, 14B, 32B) и Llama-3.1-70B.

Формула BPE:

p_fwd = P(A ≻ B | прямой_порядок)
p_rev = P(A ≻ B | обратный_порядок)  # внимание: это P(B) в обратном промпте
p̄ = (p_fwd + p_rev) / 2
s(x) = −[p̄·log(p̄) + (1−p̄)·log(1−p̄)]  # энтропия

Калибровка порога λ: Используется conformal prediction — метод статистической калибровки, который на размеченных данных находит такой порог неопределённости, при котором выполняется:

Ошибки среди принятых оценок / Всего принятых оценок ≤ α

С конечно-выборочной коррекцией для гарантии на новых данных.

Результаты: - При α = 0.10 (не более 10% ошибок), SCOPE достиг покрытия 0.89 на RewardBench с Qwen-14B и 0.98 с Qwen-32B - Эмпирический риск стабильно 0.097–0.099 (ниже целевого 0.10) на всех бенчмарках - BPE превзошёл predictive probability и verbalized confidence по калибровке (ECE) и дискриминации (AUROC/AUPRC)


🔍

Как исследовали

Исследователи сравнили 4 метода оценки неопределённости: - Predictive probability — максимальная softmax-вероятность - Verbalized confidence — модель напрямую называет процент уверенности - Simulated annotators — генерация 5 персон с few-shot демонстрациями, согласованность через мажоритарное голосование - BPE (предложенный) — двунаправленная энтропия

Метрики калибровки: ECE (Expected Calibration Error), AUROC (площадь под ROC-кривой), AUPRC (площадь под Precision-Recall).

Валидация SCOPE: 1000 случайных разбиений каждого датасета (50% калибровка, 50% тест), проверка что эмпирический риск остаётся ниже целевого α на всех разбиениях.

Сравнение с базовыми линиями: - Vanilla — всегда выдаёт оценку (100% покрытие, высокий риск) - Heuristic — порог = 1 − α без калибровки - Naïve — эмпирический подбор порога на валидации без конечно-выборочной коррекции

BPE показал лучшую калибровку (ECE) и различительную способность (AUROC/AUPRC) почти во всех конфигурациях. SCOPE с BPE удвоил покрытие по сравнению с Naïve на MT-Bench с Qwen-7B (0.246 vs 0.102) при том же целевом риске 0.10.


🔗

Ресурсы

SCOPE: Selective Conformal Optimized Pairwise LLM Judging

Sher Badshah (Dalhousie University), Ali Emami (Emory University), Hassan Sajjad (Dalhousie University)

Preprint, February 2026

Методы из исследования: - Conformal prediction (Angelopoulos & Bates, 2023) - Risk control (Angelopoulos et al., 2024; Wang et al., 2025a) - Selective prediction (Geifman & El-Yaniv, 2017; Chen et al., 2023)

Бенчмарки: - MT-Bench (Zheng et al., 2023) - RewardBench (Lambert et al., 2025) - Chatbot Arena (Chiang et al., 2024)


📋 Дайджест исследования

Ключевая суть

Парадокс: LLM может с уверенностью 90% выбрать вариант А первым, но при перестановке с той же уверенностью выберет Б. Это не настоящая уверенность — это позиционное смещение (position bias). Модель систематически предпочитает вариант в определённой позиции просто потому что он там стоит. Метод SCOPE позволяет выявлять такие противоречия и воздерживаться от оценки при высокой неопределённости, гарантируя что среди выданных оценок не более N% ошибок (настраиваешь сам). Фишка: два запроса в разном порядке раскрывают позиционное смещение. Если модель даёт противоречивые оценки («А лучше Б» → меняешь местами → «Б лучше А») — высокая энтропия, воздержись от оценки. Если согласованные — низкая энтропия, можно доверять. На размеченных данных SCOPE калибрует порог, при котором математически гарантируется заданный процент ошибок.

Принцип работы

Техника BPE (энтропия двунаправленного предпочтения): 1. Запроси модель: «А или Б?» → получи вероятность выбора 2. Запроси ещё раз с перестановкой: «Б или А?» → получи вторую вероятность 3. Усредни обе вероятности → вычисли энтропию Если модель противоречит сама себе при перестановке — энтропия высокая (~0.69), воздержись. Если выбор стабильный в обоих порядках — энтропия низкая (~0), можно доверять. Полная система SCOPE находит порог на калибровочных данных: при какой энтропии отсекать оценки, чтобы среди принятых было не более α% ошибок (например, не более 10%).

Почему работает

Позиционное смещение — не баг, а особенность архитектуры. Токены обрабатываются последовательно, контекст влияет на вероятности. Первый вариант получает «преимущество первого хода», последний — «эффект свежести». Модель может выбрать вариант не потому что он лучше, а потому что он первый или последний. Два запроса в разном порядке нейтрализуют этот артефакт через усреднение: если модель предпочла А просто потому что он первый, в обратном запросе она предпочтёт Б по той же причине — усреднение даст ~50/50. Энтропия превращает эту вероятность в сигнал: высокое расхождение = зависимость от формы подачи, а не от сути → не доверяй. Низкое расхождение = стабильное предпочтение → можно доверять.

Когда применять

Парные сравнения → особенно когда боишься что модель выберет вариант не по сути, а по позиции в промпте. Конкретно для: выбор между двумя описаниями товара, сравнение двух текстов/идей/дизайнов, оценка качества двух ответов на один вопрос. НЕ подходит для: ранжирования 3+ вариантов (только пары), генерации с нуля, оценки единственного варианта. Если нужна массовая оценка тысяч пар — учти двойной расход токенов (два запроса на каждую пару).

Мини-рецепт

BPE вручную (без калибровки, основан на принципе):

1. Прямой запрос: Оцени два варианта. Вариант А: [текст_А]. Вариант Б: [текст_Б]. Какой лучше: А или Б? Ответь одним словом + уверенность в %.
2. Обратный запрос: Тот же промпт, но Вариант Б идёт первым, А — вторым.
3. Сравни ответы: Если выбор и уверенность совпадают (оба раза «Б», 80-85%) → доверяй. Если противоречат (прямой «Б 80%», обратный «А 65%») → высокая неопределённость, воздержись от оценки, запроси третье мнение.

Для полной SCOPE с гарантиями: нужна калибровка на размеченных данных (код/API), где настраиваешь порог энтропии под желаемый уровень ошибок (5%, 10%, 20%).

Примеры

[ПЛОХО] : Оцени два описания наушников для Wildberries. Вариант А: [короткий текст]. Вариант Б: [длинный текст]. Какой лучше? — один запрос, модель может выбрать первый/последний/более длинный просто из-за позиции.
[ХОРОШО] : Оцени два описания. Вариант А: [текст_А]. Вариант Б: [текст_Б]. Какой лучше: А или Б? Уверенность %. → Получил «Б, 80%». Теперь второй запрос с перестановкой: Вариант А: [текст_Б]. Вариант Б: [текст_А]. Какой лучше? → Получил «А, 65%» (что означает Б лучше А только на 35%). Усреднил: (80% + 35%) / 2 = 57.5% за Б, но высокая энтропия ~0.68 → модель противоречит сама себе → воздержись, запроси A/B-тест или мнение коллеги.
Источник: SCOPE: Selective Conformal Optimized Pairwise LLM Judging
ArXiv ID: 2602.13110 | Сгенерировано: 2026-02-16 15:35

Проблемы LLM

ПроблемаСутьКак обойти
Позиционное смещение при выборе из парыМодель предпочитает вариант в определённой позиции. Спрашиваешь "А или Б лучше" — выбирает А с уверенностью 85%. Меняешь местами "Б или А лучше" — выбирает Б с той же уверенностью. Модель реагирует не на качество вариантов, а на порядок подачи. Уверенность высокая, но ложная — это артефакт позиции, не оценка содержанияЗадай вопрос дважды с разным порядком: "А или Б?" и "Б или А?". Если ответы совпадают (оба раза выбирает А) — доверяй. Если противоречат (сначала А, потом Б) — воздержись, это сигнал высокой неопределённости

Методы

МетодСуть
Двойной запрос с перестановкой — проверка надёжности выбораЗапроси оценку два раза с разным порядком вариантов. Шаг 1: "Вариант А: {...} Вариант Б: {...} Какой лучше?" Шаг 2: Поменяй местами — Б идёт первым, А вторым, задай тот же вопрос. Шаг 3: Сравни ответы. Совпадают — низкая неопределённость, можно доверять. Противоречат — высокая неопределённость, воздержись от решения. Почему работает: Позиционное смещение раскрывается при перестановке. Если модель выбирает по позиции, а не по качеству — даст разные ответы. Согласованность показывает что выбор устойчив к форме подачи. Применяй для: критичных решений (найм, покупки >100k₽, финальный выбор дизайна), выбора между близкими вариантами. Не применяй: массовые оценки (дорого — два запроса на пару), очевидные различия, нужна скорость

Тезисы

ТезисКомментарий
Согласованность при перестановке порядка — индикатор надёжности выбораМодель даёт один ответ при порядке "А, Б" и другой при "Б, А" — это сигнал что выбор зависит от формы, не от сути. Высокая уверенность в одном запросе ничего не значит если при перестановке меняется выбор. Противоречие раскрывает ложную уверенность. Механизм: позиционное смещение создаёт системную ошибку — модель обрабатывает токены последовательно, контекст влияет на вероятности. Первый вариант получает "преимущество первого хода", последний — "эффект свежести". Применяй: для важных парных сравнений делай два запроса с перестановкой. При противоречии (выбор меняется) — ищи третье мнение, дополнительные критерии или A/B-тест. При согласованности (выбор устойчив) — доверяй
📖 Простыми словами

SCOPE: Selective Conformal Optimized PairwiseLLMJudging

arXiv: 2602.13110

Суть в том, что когда мы просим нейронку сравнить два текста и выбрать лучший, она постоянно нам врет, причем делает это уверенно. Проблема в позиционном смещении: модели тупо нравится тот вариант, который стоит первым в списке, или тот, что идет последним. Это не объективная оценка, а баг архитектуры. Метод SCOPE решает эту проблему радикально — он заставляет модель признаться, что она «плавает» в теме, и позволяет ей просто промолчать, если риск ошибиться слишком велик.

Это как если бы ты выбирал между двумя сортами вина, не разбираясь в них, и просто тыкал в ту бутылку, которая ближе к правой руке. Формально выбор сделан, но ценности в нем ноль. SCOPE в этой ситуации — это внутренний голос, который бьет по рукам и говорит: «Слушай, ты в этом ни черта не смыслишь, лучше вообще не выбирай, чем посоветуешь фигню». Система вводит жесткий фильтр, который гарантирует, что процент лажи в итоговых оценках не превысит, скажем, 10% ошибок.

Технически это работает через BPE (Bidirectional Preference Entropy). Метод заставляет нейронку пройти проверку на вшивость: сначала ее спрашивают «А лучше Б?», а потом меняют их местами и спрашивают «Б лучше А?». Если модель в обоих случаях уверенно тыкает в первый попавшийся вариант, значит, она не оценивает качество, а просто реагирует на порядок слов. В таком случае SCOPE вычисляет уровень неопределенности и, если он зашкаливает, модель просто воздерживается от ответа.

Хотя метод тестировали на оценке ответов чат-ботов, принцип универсален для любого бизнеса, где нужно автоматизировать выбор. Будь то описания товаров для маркетплейсов, рекламные заголовки или ответы техподдержки — везде, где вы используете одну LLM для проверки другой. Вместо того чтобы слепо доверять «мнению» алгоритма, вы получаете систему, которая умеет говорить «я не знаю», сохраняя высокую точность там, где она реально уверена.

Короче, хватит надеяться на авось при парных сравнениях — без калибровки нейронка всегда будет подсуживать тому тексту, который ей удобнее прочитать. SCOPE превращает сомнительную гадалку в строгого судью, который лучше промолчит, чем выдаст рандомный результат. Кто внедрит такой подход, перестанет плодить посредственный контент, который просто понравился модели, и начнет выбирать реально рабочие варианты.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с