3,583 papers

Меню

arXiv:2602.02219 74 2 фев. 2026 г. PRO

Balanced Permutation: устранение позиционного смещения в рубричных оценках LLM

КЛЮЧЕВАЯ СУТЬ
Обнаружено: LLM выбирает баллы не только по смыслу критерия, но и по его позиции в списке — первая и последняя позиции получают на 5-7% больше выборов, чем средние. Это позиционное смещение замаскировано в обычной практике: хорошие тексты правда заслуживают 4-5, и ты не видишь, где модель выбрала балл по содержанию, а где — потому что критерий стоит первым. Метод позволяет получить объективную оценку без позиционного искажения — критично для content review, оценки идей, HR-скрининга, где точность до десятых балла влияет на решение. Balanced permutation отделяет смысл от позиции: даёшь одну задачу 10 раз с разными порядками критериев (1-2-3-4-5, потом 5-4-3-2-1, потом 2-3-4-5-1...), каждый балл побывал на каждой позиции равное число раз — усредняешь результаты, позиционный эффект взаимоуничтожается. Корреляция с человеческими оценками выросла на 2-5%.
Адаптировать под запрос
📋 Дайджест исследования

Контент доступен только для PRO подписчиков

Чтобы получить доступ к дайджесту этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Контент доступен только для PRO подписчиков

Чтобы получить доступ к концептам этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO
📖 Простыми словами

Контент доступен только для PRO подписчиков

Чтобы получить доступ к упрощённому объяснению этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с