3,583 papers
arXiv:2606.15610 76 14 июня 2026 г. FREE

Judge Datasheet: как обнаружить, что LLM выбирает текст по расположению, а не по качеству

КЛЮЧЕВАЯ СУТЬ
Парадокс: дай модели два одинаковых текста — она выберет «лучший» в 67-100% случаев (у слабых моделей почти всегда). Это называют тёмным током: судья генерирует предпочтение из ничего, а аргументы звучат убедительно. Тест двойного прохода позволяет отличить реальную оценку от позиционного смещения — без дообучения и смены модели. Оцени A→B, потом B→A в новом чате. Если победитель меняется вместе с позицией — это реакция на место в очереди, не на качество. Без этой проверки честная оценка и случайный выбор выглядят одинаково — объяснения в обоих случаях звучат разумно.
Адаптировать под запрос

TL;DR

Когда просишь LLM сравнить два текста — модель втайне реагирует на то, где расположен текст, а не насколько он хорош. Исследователи назвали это позиционным смещением: судья выбирает Text A просто потому что он стоит первым, и точно так же выберет Text B, если поставить его первым.

Проблема глубже, чем кажется. Если спросить LLM оценить два одинаковых текста — она всё равно выберет «победителя» в 67-100% случаев (у слабых моделей). Это называют тёмным током (dark current): судья генерирует предпочтение даже там, где его нет. При этом высокое число ложных выборов на одинаковых текстах может означать две принципиально разные вещи: модель стабильно реагирует на стиль/форматирование — или просто слепо голосует за первую позицию. Это не одно и то же, но без проверки не отличить.

Решение — тест двойного прохода. Оцени тексты в порядке A→B, потом B→A. Если предпочтение устойчиво к смене порядка — это реакция на содержание. Если переворачивается — это позиционное смещение. И отдельно: добавь инструкцию «предпочти только при явном превосходстве» — убирает ложные выборы, но ценой пропуска тонких различий.


🔬

Схема метода

(Все шаги — в чате, отдельными запросами)

ШАГ 1 — Тест тёмного тока
  Отправь модели два ОДИНАКОВЫХ текста → она должна ответить "одинаково"
  Если выбирает — судья ненадёжен для этой задачи

ШАГ 2 — Первый проход оценки
  [Текст A] vs [Текст B] → зафиксируй результат

ШАГ 3 — Обратный проход (в новом сообщении)
  [Текст B] vs [Текст A] → зафиксируй результат

ШАГ 4 — Интерпретация
  Оба прохода выбрали один контент → реакция на содержание ✅
  Прошли по-разному → позиционное смещение ⚠️
  Оба выбрали "ничья" → судья слишком осторожен

ШАГ 5 (опционально) — Строгий критерий
  Добавь в промпт: "выбирай только при явном превосходстве, иначе — ничья"
  Результат: меньше ложных выборов, но теряются тонкие различия

🚀

Пример применения

Задача: Ты делаешь питч-дек для инвесторов и просишь Claude выбрать лучший вариант описания продукта из двух. Хочешь убедиться, что оценка честная — а не просто «кто первый».

Промпт — Тест тёмного тока:

Оцени два описания продукта. Выбери лучшее. Если одинаковые — скажи "ничья".

[Описание 1]
Мы автоматизируем возврат НДС для малого бизнеса. 
Экономим бухгалтеру 8 часов в месяц. Работаем с ФНС напрямую.

[Описание 2]
Мы автоматизируем возврат НДС для малого бизнеса. 
Экономим бухгалтеру 8 часов в месяц. Работаем с ФНС напрямую.

Тексты идентичны. Если модель выбирает "победителя" — она генерирует предпочтение из воздуха.


Промпт — Первый проход:

Оцени два описания продукта для питч-дека. Выбери лучшее для инвестора 
на ранней стадии. Объясни выбор.

[Вариант A]
Мы автоматизируем возврат НДС для малого бизнеса. 
Экономим бухгалтеру 8 часов в месяц. Работаем с ФНС напрямую. 
Уже 340 клиентов, ARR 4,2 млн рублей.

[Вариант B]
Налоговый автопилот для малого бизнеса: подключил — забыл. 
8 часов бухгалтера в месяц возвращаем в бизнес. 
ФНС, всё легально, 340 компаний доверяют.

Промпт — Обратный проход (новое сообщение):

Оцени два описания продукта для питч-дека. Выбери лучшее для инвестора 
на ранней стадии. Объясни выбор.

[Вариант A]
Налоговый автопилот для малого бизнеса: подключил — забыл. 
8 часов бухгалтера в месяц возвращаем в бизнес. 
ФНС, всё легально, 340 компаний доверяют.

[Вариант B]
Мы автоматизируем возврат НДС для малого бизнеса. 
Экономим бухгалтеру 8 часов в месяц. Работаем с ФНС напрямую. 
Уже 340 клиентов, ARR 4,2 млн рублей.

Результат: Модель покажет причины выбора в каждом проходе. Если в первом выиграл «Вариант A», а во втором — тоже «Вариант A» (хотя теперь он под другим номером) — это стабильный сигнал, судье можно доверять. Если победитель каждый раз тот, кто стоит первым — это позиционное смещение. Аргументы будут звучать убедительно в обоих случаях, поэтому тест важен: без проверки порядком не отличить реальную оценку от случайного выбора.


🧠

Почему это работает

LLM не «читает» тексты как человек. Она генерирует токен за токеном слева направо. Когда нужно сравнить два варианта, первый текст обрабатывается раньше — он становится «якорем». Второй оценивается уже на фоне первого. Это создаёт структурное преимущество первой позиции, особенно у небольших моделей.

Модель не может сказать «одинаково», если не разрешить ей это явно. По умолчанию задача оценки сформулирована как «выбери лучшее» — и модель генерирует победителя, даже когда реального различия нет. Это не ложь и не ошибка — это следование инструкции буквально. Тёмный ток существует потому, что инструкция не предусматривает равенства.

Тест двойного прохода раскрывает механизм. Если предпочтение держится при смене порядка — модель реагирует на что-то в содержании. Если переворачивается — она реагирует на позицию. Это разные проблемы с разными решениями: первая говорит «содержание различается, но не так как ты думаешь», вторая — «судья ненадёжен».

Рычаги управления: - Уточни критерий — вместо "выбери лучшее" пиши "выбери только если превосходство очевидно, иначе — ничья". Убирает ложные выборы на похожих текстах, но мелкие различия начнёт пропускать - Задай конкретный критерий оценки — "оцени по убедительности для инвестора" вместо абстрактного "лучшее". Снижает вероятность реакции на форматирование - Попроси оценить отдельно — сначала оцени Вариант A по шкале 1-10, потом Вариант B, потом сравни числа. Обходит эффект якоря частично


📋

Шаблон промпта

Базовый тест надёжности судьи (тёмный ток):

Сравни два {тип_контента} и выбери лучший. 
Если они одинаковые или практически неразличимы — скажи "ничья".

[Вариант 1]
{контент_1}

[Вариант 2]
{контент_1}

Критерий оценки: {критерий}

Подставь одинаковый контент в оба блока. Если модель выбирает победителя — тест провален.


Двойной проход для реальной оценки:

Первый запрос:
Оцени два {тип_контента}. Выбери лучший с точки зрения {критерий}.
{если хочешь строгий режим} Предпочитай только при явном превосходстве, иначе — ничья.

[Вариант A]
{контент_A}

[Вариант B]
{контент_B}

---

Второй запрос (новое сообщение):
Оцени два {тип_контента}. Выбери лучший с точки зрения {критерий}.
{если хочешь строгий режим} Предпочитай только при явном превосходстве, иначе — ничья.

[Вариант A]
{контент_B}  ← поменяй местами

[Вариант B]
{контент_A}  ← поменяй местами

Что подставлять: - {тип_контента} — текста, описания, аргумента, заголовка - {критерий} — конкретный: "убедительности для покупателя", "ясности мысли", "соответствия ТЗ" - Строгий режим — добавь когда тексты похожи и хочешь меньше ложных выборов (но потеряешь тонкие различия)


🚀 Быстрый старт — вставь в чат:

Вот шаблон теста надёжности LLM-судьи. 
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит какие тексты сравниваешь и по какому критерию — потому что без конкретного критерия оценки судья склонен реагировать на форматирование и стиль вместо содержания.


⚠️

Ограничения

⚠️ Строгий режим убивает чувствительность к тонким различиям: Добавление "предпочитай только при явном превосходстве" убирает ложные выборы, но хорошая модель начинает возвращать "ничья" даже там, где реальное различие есть. Мелкие, но значимые улучшения становятся невидимыми.

⚠️ Тест работает для сравнений, не для абсолютных оценок: Двойной проход проверяет позиционное смещение при сравнении двух вариантов. Если просишь дать абстрактную оценку одному тексту — метод не применим.

⚠️ Тёмный ток зависит от модели: Крупные модели (аналог Qwen32B) почти не генерируют предпочтение при одинаковых входах. Более слабые — почти всегда. Не переноси результаты теста с одной модели на другую.

⚠️ Метод не убирает смещение, а выявляет его: Если позиционное смещение обнаружено — нет автоматического способа его исправить кроме смены модели или усреднения обоих проходов вручную.


🔍

Как исследовали

Идея была элегантной: прежде чем доверять LLM судить другие модели, проверь саму LLM как измерительный прибор. Команда взяла три открытые модели (Llama-3.1-8B, Qwen2.5-14B, Qwen2.5-32B) и прогнала каждую через серию контролируемых тестов.

Сначала — тест тёмного тока: давали модели пустые тексты, пробелы, идентичные ответы — и смотрели, будет ли она выбирать победителя. Llama-8B выбирала в 67% случаев. Qwen14B и Qwen32B держались — тёмного тока нет.

Потом — тест на позиционное смещение: те же пары текстов в порядке A→B и B→A. Откровение пришло от Llama-8B: она давала какое-то предпочтение в 100% случаев, но при разборе оказалось — 97% из этих выборов были позиционными. Модель просто голосовала за первый слот. Qwen32B был значительно чище: 26% ложных выборов на одинаковых парах, и почти все — не позиционные, а стабильные реакции на форматирование.

Финальный эксперимент проверил строгий критерий на Qwen32B: промпт с "выбирай только при явном превосходстве". Результат точечный — ложные выборы упали до нуля, но тонкие реальные различия (∆Q=1) судья перестал замечать в 50% случаев. Грубые различия (∆Q=5) остались хорошо различимы. Это подтвердило центральный тезис: промпт смещает порог срабатывания, но не улучшает остроту зрения судьи.


🔗

Ресурсы

LLM Judges Have Dark Current: A Psychometric Datasheet for LLM-as-a-Judge Evaluation

Hiroyasu Usami, Keisuke Hara, Ayato Tsuboi — Chubu University, Kasugai, Aichi, Japan

Naohiko Matsuda — Mitsubishi Heavy Industries, Research & Innovation Center

Контакт: usami@fsc.chubu.ac.jp | https://usamilab.org

Опубликовано: июнь 2026

Связанные работы: MT-Bench / Chatbot Arena (Zheng et al.), AlpacaEval (Li et al.), HELM, BIG-Bench


📋 Дайджест исследования

Ключевая суть

Парадокс: дай модели два одинаковых текста — она выберет «лучший» в 67-100% случаев (у слабых моделей почти всегда). Это называют тёмным током: судья генерирует предпочтение из ничего, а аргументы звучат убедительно. Тест двойного прохода позволяет отличить реальную оценку от позиционного смещения — без дообучения и смены модели. Оцени A→B, потом B→A в новом чате. Если победитель меняется вместе с позицией — это реакция на место в очереди, не на качество. Без этой проверки честная оценка и случайный выбор выглядят одинаково — объяснения в обоих случаях звучат разумно.

Принцип работы

Не проси «выбери лучший» и не верь ответу с первого раза. Стандартная инструкция «выбери лучший» не предусматривает ничьей — и модель генерирует победителя буквально. Это не ошибка. Это следование инструкции. Два рычага управления: добавь «ничья» как вариант ответа и всегда проверяй смену порядка. Первый рычаг убирает ложные выборы на похожих текстах. Второй раскрывает — на что судья реально реагирует: на содержание или на то, кто идёт первым.

Почему работает

LLM генерирует токены слева направо. Первый текст обрабатывается раньше — он становится якорем. Второй оценивается уже на его фоне. Первая позиция структурно выигрывает — и у слабых моделей это превращается в почти гарантированный ложный выбор. Крупные модели держатся лучше: тёмный ток у них слабее. Но это не значит что его нет — и тест нужно делать заново для каждой новой модели. Результаты не переносятся.

Когда применять

Везде, где просишь LLM сравнить два варианта: выбор описания продукта, оценка двух стратегий, сравнение писем, заголовков, аргументов. Особенно важно когда тексты похожи по уровню — именно тут тёмный ток и позиционное смещение влияют сильнее всего. НЕ подходит для абсолютной оценки одного текста по шкале или критериям — метод работает только при сравнении двух вариантов между собой.

Мини-рецепт

1. Тест тёмного тока первым делом: Отправь модели два одинаковых текста. Попроси выбрать лучший, добавив «если одинаковые — скажи ничья». Если выбирает победителя — судья ненадёжен для твоей задачи.
2. Первый проход: Оцени тексты в порядке A→B. Зафиксируй какой контент выиграл (не номер, а сам текст).
3. Второй проход в новом чате: Оцени те же тексты в порядке B→A. Зафиксируй результат.
4. Разбор: Оба прохода выбрали один и тот же контент — сигнал надёжный, доверяй. Победитель менялся вместе с позицией — позиционное смещение, результаты брось.
5. Строгий режим (если тексты похожи): Добавь в промпт фразу «выбирай только при явном превосходстве, иначе — ничья». Убирает ложные выборы, но мелкие реальные различия начнёт пропускать — компромисс, выбирай осознанно.

Примеры

[ПЛОХО] : Сравни два варианта описания продукта и выбери лучший.
[ХОРОШО] : Сначала тест тёмного тока: Сравни два описания. Выбери лучшее с точки зрения убедительности для инвестора. Если тексты одинаковые — скажи «ничья». [Вариант A] Мы автоматизируем возврат НДС. Экономим 8 часов бухгалтера в месяц. [Вариант B] Мы автоматизируем возврат НДС. Экономим 8 часов бухгалтера в месяц. — подставь одинаковый текст в оба блока. Выбирает победителя — судья генерирует предпочтение из воздуха. Потом двойной проход: Оцени два описания продукта. Выбери лучшее с точки зрения убедительности для инвестора на ранней стадии. [Вариант A] {текст 1} [Вариант B] {текст 2} — зафиксируй. Потом в новом чате: то же самое, но A и B поменяй местами. Сверь — одно содержание победило оба раза или победитель переехал вместе с позицией.
Источник: LLM Judges Have Dark Current: A Psychometric Datasheet for LLM-as-a-Judge Evaluation
ArXiv ID: 2606.15610 | Сгенерировано: 2026-06-16 05:28

Проблемы LLM

ПроблемаСутьКак обойти
Модель выбирает победителя даже между одинаковыми текстамиПросишь сравнить два варианта. Тексты идентичны. Модель всё равно называет один «лучшим». Это не ложь — она просто следует инструкции «выбери лучшее» буквально. Реального различия нет, но победитель появляется. Слабые модели делают это в 67–100% случаевДобавь явное разрешение на равенство. Пиши: «если варианты неразличимы — отвечай "ничья"». Без этой фразы модель не может вернуть равенство — её этому не разрешили
Модель выбирает по расположению, а не по содержаниюПросишь сравнить A и B. Модель выбирает A. Меняешь порядок — теперь A — это бывший B. Модель снова выбирает A. Победитель меняется вместе с позицией. Аргументы звучат убедительно в обоих случаях. Без проверки порядком не заметишьПроведи двойной проход: оцени AB, потом BA в новом сообщении. Если победитель не меняется — модель реагирует на содержание. Если меняется — реагирует на позицию

Методы

МетодСуть
Двойной проход — проверка честности сравненияСделай два отдельных запроса. Первый: [Вариант A] vs [Вариант B]. Второй: [Вариант B] vs [Вариант A]. Зафиксируй выбор в каждом. Интерпретация: оба раза выбрал один контент — реагирует на содержание ✅. Каждый раз выбирает первую позицию — позиционное смещение ⚠️. Почему работает: позиционное смещение зависит от порядка. Содержание — нет. Смена порядка разделяет эти два эффекта. Когда применять: любое сравнение двух вариантов когда важна честная оценка. Не работает: для оценки одного текста без пары
Тест тёмного тока — проверка базовой надёжности судьиОтправь модели два одинаковых текста. Попроси выбрать лучший. Добавь: «если одинаковые — скажи "ничья"». Если выбирает победителя — модель генерирует предпочтение из ничего. Такой судья ненадёжен для твоей задачи. Если отвечает "ничья" — базовый уровень надёжности есть. Делай это перед любым важным сравнением. Результат не переносится между моделями.

Тезисы

ТезисКомментарий
Без явного разрешения на равенство модель всегда выбирает победителяИнструкция «выбери лучшее» не предусматривает ответ «одинаково». Модель следует ей буквально — и называет победителя даже там где его нет. Это не ошибка рассуждений. Это точное следование заданию. Применяй: всегда добавляй «если варианты неразличимы — отвечай "ничья"». Без этой фразы оценка между похожими текстами ненадёжна
📖 Простыми словами

LLMJudges Have Dark Current: A Psychometric Datasheet forLLM-as-a-Judge Evaluation

arXiv: 2606.15610

Суть проблемы в том, что когда ты просишь нейронку сравнить два текста и выбрать лучший, она ведет себя не как объективный эксперт, а как ленивый охранник на проходной. Исследователи обнаружили позиционное смещение: модель подсознательно отдает предпочтение тому варианту, который стоит первым в списке. Это фундаментальный баг архитектуры — LLM генерирует ответ токен за токеном слева направо, поэтому первый текст неизбежно становится «якорем», а второй оценивается уже через призму первого. В итоге объективность катится к чертям, потому что выбор зависит от верстки промпта, а не от качества контента.

Это как если бы на дегустации вин судья всегда ставил высший балл первому бокалу просто потому, что он еще не устал и его рецепторы свежие. Формально он оценивает букет, но на деле первый образец задает планку, которую второму перепрыгнуть почти нереально. Если поменять их местами, судья с тем же восторгом выберет бывшее «плохое» вино, просто потому что теперь оно стоит в начале очереди. Это структурное преимущество, которое превращает честное соревнование в лотерею.

В исследовании этот эффект назвали темным током (Dark Current) по аналогии с шумами в электронике. Чтобы поймать модель на вранье, используют метод зеркального тестирования: подают одни и те же тексты, меняя их местами. Если в первом случае модель выбрала Вариант А, а после перестановки — Вариант Б, значит, перед тобой не судья, а генератор случайных чисел. Особенно сильно этим грешат небольшие модели, которые просто не вывозят длинный контекст и «забывают» детали второго текста, фокусируясь на том, что прочитали вначале.

Тестировали это на задачах оценки текстов, но принцип применим к любому LLM-as-a-Judge сценарию. Будь то выбор лучшего рекламного заголовка, проверка кода или сравнение ответов техподдержки — если ты просишь нейронку выбрать «один из двух», ты в зоне риска. Позиционное смещение искажает результаты везде, где есть конкуренция вариантов. Это значит, что любые автоматические рейтинги, построенные на базе LLM без учета этого бага, — это просто красивые цифры без смысла.

Короче: никогда не верь модели на слово, если она сравнивает два объекта за один проход. Чтобы получить адекватный результат, нужно либо прогонять тест дважды, меняя варианты местами, либо использовать рандомизацию позиций. Если ты просто закидываешь два текста в ChatGPT и спрашиваешь «какой лучше», ты с вероятностью 60-80% получишь одобрение первого варианта просто по инерции. Хочешь честности — заставляй модель работать в обе стороны, иначе самообман станет частью твоего рабочего процесса.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с