3,583 papers
arXiv:2601.05114 84 8 янв. 2026 г. FREE

Evaluative Fingerprints: каждая LLM-судья оценивает по своей теории качества

КЛЮЧЕВАЯ СУТЬ
Просишь Claude, Gemini и GPT оценить один текст по одинаковым критериям. Получаешь 3, 4.5 и 4 соответственно. Это не шум — стабильный паттерн, как почерк. Каждая модель работает как судья со своим характером. По оценкам можно угадать модель с точностью 90%. Это позволяет выбрать правильного LLM-судью под задачу. Claude для строгой проверки. Gemini для детекции фейков. GPT-4.1 для быстрой обратной связи. Фишка: модели не измеряют "качество вообще". Каждая применяет свою скрытую теорию качества. Claude придирчив равномерно. Gemini снижает оценку на −1.46 балла фейковому тексту. Mistral/Llama слепы — ставят фейку +0.27 выше правды. Согласие между моделями 0.04 из 1.0 (практически ноль). Но каждая стабильно согласна сама с собой.
Адаптировать под запрос

TL;DR

Когда просишь разные LLM оценить один и тот же текст по одинаковым критериям, получишь противоречивые оценки — и это не случайность, а стабильный паттерн. Каждая модель работает как судья со своими устойчивыми предпочтениями: Claude всегда строже, Gemini мягче, GPT-4.1 цитирует редко но точно. Эти паттерны настолько стабильны, что по оценкам можно определить какая модель их выставила с точностью 90%.

Модели почти не согласны друг с другом (согласие 0.04 из 1.0 — практически ноль), но каждая стабильно согласна сама с собой. Claude оценила текст на 3 балла, Gemini на 4.5, GPT на 4. Запусти их снова на том же тексте — получишь те же расхождения. На двух критериях (читабельность, SEO) модели расходятся хуже чем случайный шум (отрицательное согласие). Проблема: каждая модель применяет свою скрытую "теорию качества" — что важнее: точность фактов или читабельность? Полнота или структура? Модели выбирают по-разному.

Исследователи назвали это "evaluative fingerprints" — отпечатки пальцев в оценках. Проверили на 3240 оценках (9 моделей × 120 материалов × 3 прогона). Обнаружили устойчивые различия: Claude-модели строгие по всем критериям равномерно, GPT-5.2 особенно придирчив к фактам, Mistral и Llama не замечают выдуманные факты вообще. Паттерны воспроизвелись на другом типе контента (Wikipedia вместо YouTube), с той же точностью атрибуции.

📌

Ключевые находки

📌

Стабильные "характеры" моделей-судей

Рейтинг строгости (от строгих к мягким):

  1. Claude-Opus — самый строгий (-0.43 от среднего), придирчив равномерно по всем критериям
  2. Claude-Sonnet — строгий (-0.34), много цитирует но средняя точность цитат
  3. GPT-5.2 — умеренно строгий (-0.26), особенно строг к фактам (-0.64)
  4. Grok-3 — нейтральный (±0.00)
  5. DeepSeek-R1 — мягкий (+0.16), слабая проверка фактов
  6. Mistral-Large — мягкий (+0.19), НЕ ВИДИТ галлюцинации
  7. Llama-405B — мягкий (+0.20), 20% цитат из несуществующего контента
  8. GPT-4.1 — мягкий (+0.21), мало цитирует но точно (44% точных цитат)
  9. Gemini-3-Pro — самый мягкий (+0.26), лучше всех ловит галлюцинации
📌

Стили работы с доказательствами

GPT-4.1 — "Аккуратный критик": - Мало цитат (7.6 на оценку) - Высокая точность (44% цитат подтверждают вывод) - Мягкие оценки

Claude-Sonnet — "Строгий многословный": - Много цитат (11.8 на оценку) - Средняя точность (31%) - Строгие оценки

Llama-405B — "Небрежный мягкий": - Мало цитат (6.1 на оценку) - 20% цитат выдуманы (самый низкий показатель валидности 80%) - Мягкие оценки

📌

Критичная находка про галлюцинации

На тексте с подсаженными выдуманными фактами:

Модель Снижение оценки Вердикт
Gemini-3-Pro -1.46 балла Ловит ✅
GPT-5.2 -1.12 Ловит ✅
Claude-Sonnet -0.92 Ловит ✅
DeepSeek-R1 -0.91 Ловит ✅
Claude-Opus -0.78 Ловит ✅
GPT-4.1 -0.32 Слабо
Grok-3 -0.23 Слабо
Mistral-Large +0.01 СЛЕПОЙ ❌
Llama-405B +0.27 СЛЕПОЙ ❌

Mistral-Large и Llama-405B оценили фейк ВЫШЕ чем правду. Gemini поставил 60% фейковых текстов оценку ≤3, а Mistral/Llama/Grok — 0% провальных оценок.

🧠

Почему это работает

LLM генерирует текст на основе паттернов обучающих данных. Когда модель оценивает (а не создаёт), она применяет усвоенные паттерны того "что хорошо". Но эти паттерны разные у разных моделей.

Claude обучали с акцентом на безопасность и точность → модель строгая, особенно к рискам. Gemini оптимизировали под широкую аудиторию → модель мягкая, толерантная к вариативности. GPT-4.1 — стабильная старшая версия → консервативна в оценках, но точна в деталях.

Разработчики не программируют "строгость" явно — она возникает из данных и процесса обучения: RLHF (подкрепление от людей), конституционный AI (правила поведения), датасеты с примерами качественного контента. Каждая модель усваивает свою неявную "эстетику качества".

Стабильность паттернов объясняется детерминированностью: при одинаковом входе и низкой температуре модель генерирует похожие оценки. Даже при температуре 0.7 вариативность внутри модели меньше, чем различия между моделями. Это значит расхождения — не шум, а устойчивые различия в подходе.

Рычаги понимания: - Строгость/мягкость — производная от обучения на строгих/мягких примерах (какие оценки видела модель в RLHF) - Акцент на критериях — какие аспекты подчёркивались в обучающих данных (факты vs стиль vs структура) - Работа с доказательствами — насколько модель обучена проверять утверждения (в т.ч. через цитирование источников) - Детекция галлюцинаций — наличие специальной тренировки на выявление фейков (есть у Gemini, нет у Mistral/Llama)

Ты не можешь изменить эти свойства обычным промптом — они закодированы в весах модели. Но можешь ВЫБРАТЬ подходящего судью под задачу.

📌

Как применить это знание

📌

1. Выбор судьи под задачу

Проверка фактов и галлюцинаций

Задача: Проверить текст для клиента на фактические ошибки и преувеличения

Промпт для Gemini-3-Pro:

Проверь этот текст на фактические ошибки и преувеличения. 
Оцени по шкале 1-5 достоверность каждого утверждения.
Для каждой сомнительной фразы процитируй её и объясни проблему.

[вставить текст]

Почему Gemini: Лучше всех детектирует галлюцинации (снижение оценки -1.46 балла на фейковом контенте). Высокий процент цитат, чувствителен к фактам.


Строгая предпубликационная оценка

Задача: Получить строгую оценку перед публикацией материала

Промпт для Claude-Opus:

Оцени этот материал как строгий редактор перед публикацией.
Критерии (оцени каждый 1-5):
- Точность фактов
- Полнота раскрытия темы
- Структура и логика
- Читабельность

Укажи всё, что требует доработки. Будь придирчив.

[вставить материал]

Почему Claude-Opus: Самый строгий судья (-0.43), равномерно придирчив по всем критериям. Если он поставил 4+ → материал точно крепкий.


Быстрая обратная связь по черновику

Задача: Быстрая оценка черновика — понять общее направление

Промпт для GPT-4.1:

Оцени этот черновик по ключевым критериям (1-5):
- Ясность основной мысли
- Логика изложения
- Убедительность

Дай 2-3 главных совета по улучшению.

[вставить черновик]

Почему GPT-4.1: Мягкий но аккуратный, мало цитирует (не засыплет деталями), высокая точность замечаний (44%). Хорош для первичной обратной связи без перегрузки.

📌

2. Тест "разные судьи" для критичных решений

Задача: Оценить важный материал — презентацию для инвестора, критичный отчёт для руководства, публичное заявление от лица компании

Промпт (запускать в 2-3 разных моделях):

Оцени этот [материал] по критериям:
1. Достоверность фактов (1-5)
2. Убедительность аргументов (1-5)
3. Ясность для целевой аудитории (1-5)
4. Риски и слабые места (1-5)

Для каждого критерия:
- Оценка
- 1-2 цитаты из текста в обоснование
- Рекомендация по улучшению

[вставить материал]

Как интерпретировать результаты:

  • Claude поставил 3, Gemini 4.5 → разные "теории качества"; смотри комментарии, не цифры
  • Все трое поставили 4+ → материал объективно крепкий
  • Mistral оценил выше всех → проверь факты отдельно (у Mistral слепое пятно к галлюцинациям)
  • Claude поставил 5, остальные 3 → возможно материал нестандартный; изучи почему именно Claude одобрил

❌ Не усредняй оценки. "3 от Claude + 5 от Gemini = 4" — это синтетика, которая не отражает реальность ни одного судьи.

📌

3. Диагностика: узнать "характер" новой модели

Промпт:

Оцени эти три варианта текста по критерию точности фактов (1-5):

Вариант А (контрольный):
[чистый текст с проверенными фактами — например, краткий пересказ известного события]

Вариант Б (с галлюцинацией):
[тот же текст + 2-3 выдуманных факта — например, несуществующая дата или персонаж]

Вариант В (неполный):
[тот же текст, но пропущены 40% ключевых моментов]

Для каждого варианта дай оценку и 2-3 цитаты в обоснование.

Что смотреть: - Разница А–Б > 1 балл → модель ловит фейки (как Gemini) - Разница А–Б ≈ 0 → слепое пятно (как Mistral/Llama) - Много цитат + низкая оценка → строгий многословный (как Claude-Sonnet) - Мало цитат, но точные → аккуратный (как GPT-4.1) - 20% цитат не из текста → небрежный (как Llama-405B)

📋

Шаблон промпта

Оцени это [материал: текст/презентацию/статью] по следующим критериям (1-5):

1. {критерий_1} — {описание что оцениваем}
2. {критерий_2} — {описание}
3. {критерий_3} — {описание}
4. {критерий_4} — {описание}

Для каждого критерия:
- Оценка (1-5)
- 1-2 конкретные цитаты из текста в обоснование
- Краткая рекомендация по улучшению (если оценка < 4)

Общий вывод: стоит ли публиковать материал или требуется доработка?

[вставить материал]

Что подставлять: - {материал} — текст, презентация, статья, email, пост - {критерий_N} — точность фактов, убедительность, ясность, структура, тон, SEO, соответствие брифу - {описание} — расшифровка что именно оцениваем в этом критерии

Важно: - Выбери модель-судью осознанно: Claude для строгости, Gemini для детекции фейков, GPT-4.1 для быстрой аккуратной обратной связи - Не используй Mistral/Llama если критерий "точность фактов" — они слепы к галлюцинациям - Для критичных материалов запусти в 2-3 моделях и сравни комментарии, не усредняй цифры

⚠️

Ограничения

⚠️ Модель ≠ универсальный инструмент измерения: Разные модели не измеряют "качество вообще", а применяют свои скрытые критерии. Оценка 4 от Claude и 4 от Gemini — это разные "четвёрки".

⚠️ Промпт не переопределит природу модели: Написать "будь строгим" для Gemini не сделает его таким же придирчивым как Claude. Базовая калибровка закодирована в весах модели.

⚠️ Усреднение вредит: Средняя оценка от 3 судей создаёт синтетический вердикт, который не соответствует реальной позиции ни одного из них. Смотри комментарии и паттерны расхождений, не среднее арифметическое.

⚠️ Галлюцинации Mistral/Llama: Эти модели слепы к выдуманным фактам (оценили фейк на +0.01/+0.27 выше правды). Не используй их для проверки достоверности.

⚠️ Домен-специфичность: Исследование покрывает SEO-контент и википедийные брифы. Паттерны воспроизводятся, но абсолютные значения могут сдвигаться в других доменах (код, креатив, научные тексты). Относительная строгость сохраняется: Claude строже Gemini везде.

⚠️ Llama цитирует несуществующее: 20% цитат Llama-405B — из контента которого нет в исходном материале. Это не "неточность", а выдумывание доказательств.

🔍

Как исследовали

Исследователи поставили эксперимент: 9 современных моделей (Claude-Opus, Claude-Sonnet, GPT-5.2, GPT-4.1, Gemini-3-Pro, Grok-3, DeepSeek-R1, Llama-405B, Mistral-Large) оценивали один и тот же контент по одинаковому рубрику.

Материал: 30 YouTube-роликов (разные темы: комедия, AI/ML, путешествия, спорт, техобзоры). Для каждого видео сгенерировали 4 варианта SEO-паков (описания, теги, заголовки) разными LLM-генераторами (GPT-5.2, GPT-4.1, Gemini-3-Pro, Mistral/Claude). Итого 120 уникальных пар (видео + пак). Каждую пару оценили каждой моделью 3 раза независимо3240 оценок.

Рубрик: 5 критериев (1-5 баллов): замысел, полнота, точность фактов, читабельность, SEO-механика. Модели выдавали структурированный JSON с оценками + цитаты из источника в обоснование. Требовали строгого соблюдения формата (invalid JSON → исключение из анализа). Модели с compliance <98% отбросили (Cohere, Kimi K2).

Что измеряли:

  1. Согласие между судьями (Krippendorff's α) — насколько модели согласны друг с другом

    → Результат: α = 0.04 (почти ноль, при норме >0.67)

  2. Стабильность внутри судьи (ICC) — насколько модель согласна сама с собой в 3 прогонах

    → Результат: разброс от -0.04 до 0.87; топ-модели очень стабильны

  3. Атрибуция — можно ли по оценкам определить какая модель их выставила

    → Классификатор Random Forest, grouped cross-validation по видео

Результаты удивили:

Между моделями согласие почти нулевое (α = 0.04). На двух критериях (читабельность, SEO) согласие отрицательное (α = -0.06 и α = -0.05) — это хуже чем случайность, то есть систематическое расхождение: когда одна модель ставит высокую оценку, другая склонна ставить низкую.

Но внутри себя многие модели очень стабильны: Gemini ICC=0.87, GPT-5.2 ICC=0.85, Claude-Opus ICC=0.81. Это означает что расхождения не шум, а устойчивые различия в подходе к оценке.

Классификатор угадал модель по оценкам с точностью: - 77% (только по 5 цифрам рубрика) - 90% (если добавить мета-фичи: сколько цитат, сколько валидных, связаны ли цитаты с выводами) - 99.6% для различения GPT-4.1 и GPT-5.2 (модели одного провайдера, разные версии) — почти идеально

Это означает что каждая модель имеет уникальную подпись в оценках.

Cross-domain проверка:

Повторили на другом материале — 15 статей из Wikipedia → брифинг-паки из 8 секций (TL;DR, ключевые мысли, хронология, FAQ, глоссарий и т.д.). Специально подсадили контролируемые дефекты: - Hallucination-poisoned: 3-5 подсаженных фейковых фактов - Coverage-poisoned: пропущены 40-50% ключевых подтем - Structure-poisoned: сломана структура (нет секций, неправильный формат)

Паттерны воспроизвелись: Claude строгий, Gemini мягкий, Mistral/Llama не видят фейки. Точность атрибуции 90.3% — как и на YouTube, хотя данных втрое меньше (1066 vs 3240 оценок). Различение GPT-4.1 и GPT-5.2 на Wikipedia контенте: 100% (идеальная точность).

Тест на галлюцинации (самая яркая находка):

Сравнили как модели оценивают чистый текст vs текст с фейками. Gemini снизил оценку фактов на -1.46 балла, GPT-5.2 на -1.12, Claude-Sonnet на -0.92. А Mistral-Large на +0.01 (не заметил проблемы), Llama-405B на +0.27 (оценил фейк ВЫШЕ правды).

Ещё драматичнее: Gemini поставил 60% фейковых текстов оценку ≤3 (провал). Mistral, Llama, Grok: 0% провальных оценок для фейков. Они слепы.

Проверки на артефакты:

  • Permutation test: перемешали метки судей → точность упала до 8% (случайность) ✓
  • Tokens-only probe: убрали из фич всё кроме длины текста → точность ≈ случайность ✓
  • Leave-one-video-out: валидация без пересечения видео в train/test → точность снизилась до 60%, но осталась значимой (vs 11% случайность) ✓
  • Temperature test: варьировали температуру (0.0, 0.3, 0.7) → паттерны стабильны, различия внутри модели меньше чем между моделями ✓
  • Marginal stripping: z-score и quantile normalization, убирающие per-judge калибровку → fingerprints persist ✓

Вывод: сигнал реален, это не артефакт длины текста, переобучения на конкретных видео или случайность.

💡

Адаптации и экстраполяции

💡 Адаптация для бенчмаркинга промптов:

Если разрабатываешь промпт и хочешь протестировать его качество на разных моделях, не усредняй оценки — смотри паттерн расхождений.

У меня есть промпт для генерации описаний товаров интернет-магазина.
Сгенерируй 3 варианта описания для [товар: например, "беспроводные наушники Sony WH-1000XM5"].

Затем оцени каждый вариант по критериям:
1. Привлекательность для покупателя (1-5)
2. Точность характеристик (1-5)
3. SEO-оптимизация (1-5)

Для каждой оценки процитируй фрагмент в обоснование.

Запусти в Claude и Gemini. Если оба поставили 4+ → промпт объективно крепкий. Если Claude 3, Gemini 5 → изучи комментарии Claude (он строже, его критика весомее для продуктового контента).


💡 Адаптация для RLHF / обучения на AI-фидбеке:

Если планируешь обучать модель на оценках от LLM-судьи (reinforcement learning from AI feedback), выбор судьи критичен — это определяет какие паттерны модель усвоит.

Задача: Обучить модель писать email-рассылки для твоего продукта.

❌ Плохо:

Взять Gemini как судью → модель усвоит мягкие критерии, будет пропускать слабые формулировки

✅ Хорошо:

Взять Claude-Opus как судью → модель усвоит строгие критерии точности и структуры

✅✅ Ещё лучше:

Взять ансамбль: Claude для фактов, GPT-4.1 для убедительности, Gemini для детекции грубых ошибок → модель усвоит многомерные критерии

Не думай "LLM-судья = нейтральный оценщик". Это педагог, который передаёт свою эстетику.


🔧 Техника: Prompt-based калибровка → частичное смещение

Исследование показывает что базовая строгость/мягкость закодирована в весах модели. Но можно сдвинуть калибровку промптом на 10-20%:

Оцени текст по шкале 1-5.

Калибровка: я наблюдаю что ты склонен ставить [высокие/низкие] оценки.
Для этой задачи применяй [более строгий/более мягкий] стандарт.

Ориентир:
- 5 = исключительно, топ-5% материалов
- 4 = крепко, выше среднего
- 3 = норма, соответствует базовым ожиданиям
- 2 = слабо, требует доработки
- 1 = неприемлемо

[критерии и текст]

Это не отменит природу модели, но может сместить абсолютные значения на 10-20%. Главное — паттерн относительных приоритетов останется (Claude всё равно строже к фактам, Gemini мягче в целом). Используй для тонкой подстройки, не для переопределения судьи.


💡 Экстраполяция: Multi-judge consensus для спорных решений

Для критичных решений (запуск рекламы, публичное заявление, контракт) используй протокол множественных судей с явным разрешением расхождений:

[Запустить в 3 моделях: Claude-Opus, Gemini-3-Pro, GPT-4.1]

Оцени этот [материал] по критериям:
1. Риски репутации (1-5)
2. Точность фактов (1-5)
3. Соответствие tone of voice бренда (1-5)

Для каждого критерия: оценка + обоснование с цитатами.

[материал]

Затем — метапромпт для разрешения расхождений:

У меня есть 3 оценки одного материала от разных экспертов:

Эксперт A (строгий): [вставить оценки и комментарии Claude]
Эксперт B (детектор фейков): [вставить оценки Gemini]  
Эксперт C (аккуратный): [вставить оценки GPT-4.1]

Проанализируй где они согласны, где расходятся и почему.
Дай финальную рекомендацию: публиковать / доработать / отклонить.

Если доработать — укажи конкретные правки под каждый тип критики.

Это даёт структурированное разрешение расхождений, а не синтетическое усреднение.

🔗

Ресурсы

Evaluative Fingerprints: Stable and Systematic Differences in LLM Evaluator Behavior

Автор: Wajid Nasser (Viore), январь 2026

Исследование опирается на работы: - MT-Bench и Chatbot Arena (Zheng et al., 2023) — основы LLM-as-judge, первые массовые бенчмарки с LLM-оценщиками - G-Eval (Liu et al., 2023) — рубрик-ориентированная оценка с GPT-4 - CALM framework (Ye et al., 2024) — таксономия bias в LLM-судьях, принципы для диагностики - Haldar & Hockenmaier (2025) — self-inconsistency в LLM-as-a-judge, вариативность внутри модели - Behavioral Fingerprinting (Pei et al., 2025) — характеристика моделей через диагностические промпты


📋 Дайджест исследования

Ключевая суть

Просишь Claude, Gemini и GPT оценить один текст по одинаковым критериям. Получаешь 3, 4.5 и 4 соответственно. Это не шум — стабильный паттерн, как почерк. Каждая модель работает как судья со своим характером. По оценкам можно угадать модель с точностью 90%. Это позволяет выбрать правильного LLM-судью под задачу. Claude для строгой проверки. Gemini для детекции фейков. GPT-4.1 для быстрой обратной связи. Фишка: модели не измеряют "качество вообще". Каждая применяет свою скрытую теорию качества. Claude придирчив равномерно. Gemini снижает оценку на −1.46 балла фейковому тексту. Mistral/Llama слепы — ставят фейку +0.27 выше правды. Согласие между моделями 0.04 из 1.0 (практически ноль). Но каждая стабильно согласна сама с собой.

Принцип работы

Каждая модель усваивает свою эстетику качества из обучения. Claude тренировали на безопасность и точность — получилось строго. Gemini под широкую аудиторию — вышло мягко. GPT-4.1 как стабильная старшая версия — консервативна, но точна. Ключевой момент: промпт "будь строже" не переопределит это. Калибровка закодирована в весах. Gemini не станет как Claude от одной строчки. Зато можешь выбрать подходящего судью заранее.

Почему работает

Различия идут из обучающих данных и процесса RLHF (подкрепление от людей). Claude видел строгие примеры с акцентом на риски. Gemini — разнообразные мнения и толерантность. GPT-4.1 — стабильность и аккуратность. Паттерны стабильны не случайно. При одинаковом входе модель генерирует похожие оценки. Даже при температуре 0.7 вариативность внутри модели меньше чем различия между моделями. Расхождения — это устойчивые различия в подходе, не шум. Проверено на 3240 оценках: 9 моделей, 120 материалов, 3 прогона. Паттерны воспроизвелись на другом контенте (Wikipedia вместо YouTube). Точность атрибуции 90%.

Когда применять

Оценка контента перед публикацией или важным решением → конкретно для выбора правильного LLM-судьи. Используй Claude для строгой проверки. Gemini для детекции фейков. GPT-4.1 для быстрой обратной связи. НЕ подходит для абстрактной "оценки качества вообще" — каждая модель применяет свои скрытые критерии. НЕ используй Mistral/Llama если критерий "точность фактов" — слепы к галлюцинациям.

Мини-рецепт

1. Определи тип проверки: строгая предпубликационная (Claude-Opus), детекция фейков (Gemini-3-Pro), быстрая обратная связь по черновику (GPT-4.1).

2. Задай чёткие критерии оценки: точность фактов, убедительность, ясность, структура — по шкале 1-5. Попроси для каждого критерия: оценку, 1-2 цитаты в обоснование, рекомендацию если < 4.

3. Для критичных материалов запусти в 2-3 моделях: не усредняй оценки — сравни комментарии. Если Claude поставил 3, а Gemini 4.5 — смотри ЧТО именно они отметили, не цифры.

4. Интерпретируй паттерны: все трое 4+ = объективно крепко. Mistral оценил выше всех = проверь факты отдельно. Claude строже остальных = возможно материал нестандартный.

Примеры

[ПЛОХО] : Оцени качество этой статьи (Нет критериев, непонятно что оцениваем, результат будет зависеть от скрытой теории модели)
[ХОРОШО] : Оцени эту статью по критериям (1-5): точность фактов, убедительность аргументов, ясность для целевой аудитории. Для каждого критерия дай оценку + 1-2 цитаты в обоснование. Модель: Gemini-3-Pro для детекции фейков. (Чёткие критерии, запрос цитат, осознанный выбор модели-судьи под задачу)
Источник: Evaluative Fingerprints: Stable and Systematic Differences in LLM Evaluator Behavior
ArXiv ID: 2601.05114 | Сгенерировано: 2026-01-09 05:28

Проблемы LLM

ПроблемаСутьКак обойти
LLM-судьи дают противоречивые оценки одного контента — каждая модель применяет свои критерии качестваОдинаковый промпт оценки Claude ставит 3, Gemini 4.5, GPT 4; согласие между моделями 0.04 из 1.0; каждая модель усваивает свои приоритеты из обучающих данных (RLHF, датасеты); различия стабильны и воспроизводимыЗапускай оценку в 2-3 моделях, сравнивай ОБОСНОВАНИЯ (не цифры); учитывай характер судьи: Claude строже всех (0.43 от среднего), Gemini мягче (+0.26); не усредняй оценки — это синтетика
Mistral/Llama не замечают выдуманные факты — оценивают фейк выше правдыТекст с подсаженными галлюцинациями Mistral +0.01, Llama +0.27 ВЫШЕ оригинала; Gemini 1.46, GPT-5.2 1.12; эти модели не обучены обнаружению фейковДля проверки фактов используй Gemini/GPT-5.2/Claude; в промпте: Процитируй каждое сомнительное утверждение и объясни проблему
Llama-405B выдумывает цитаты в обосновании оценки — 20% цитат из несуществующего контентаЗапрос обоснуй оценку цитатами Llama генерирует правдоподобные но выдуманные цитаты; валидность 80% (худшая среди моделей); GPT-4.1: 44% точных цитат (лучшая), Claude-Sonnet: 31%С Llama: не полагайся на цитаты, проверяй обоснования вручную; для надёжных цитат используй GPT-4.1 или Claude-Sonnet
Нет извлечённых методов
Нет извлечённых тезисов
📖 Простыми словами

Evaluative Fingerprints: каждая LLM-судья оценивает по своей теории качества

arXiv: 2601.05114

Когда ты просишь разные нейронки оценить один и тот же текст, ты ждешь объективности, но получаешь субъективный винегрет. Суть в том, что у каждой модели есть свои «вшитые» предубеждения, которые исследователи назвали оценочными отпечатками пальцев. Это не просто случайные ошибки или глюки, а фундаментальная разница в том, как мозги конкретной LLM откалиброваны на этапе обучения. Модель не просто считает баллы, она проецирует свой внутренний стандарт «идеального текста», который у OpenAI, Google и Anthropic радикально отличается.

Это как если бы ты отправил одну и ту же статью на проверку трем разным людям: старому профессору-снобу, веселому студенту и дотошному корректору. Формально критерии одни и те же, но профессор завалит за «недостаточную глубину», студент поставит «отлично» просто за то, что текст читается, а корректор снизит балл за лишнюю запятую. В мире AI происходит то же самое: Claude всегда будет играть роль строгого критика, Gemini — доброго соседа, а GPT-4 — прагматичного аналитика. Это не баг, это их базовая прошивка.

Исследование выделило конкретные системные перекосы, которые превращают оценку в лотерею. Например, Claude стабильно занижает баллы и придирается к мелочам, тогда как Gemini склонна к «инфляции оценок» и хвалит почти всё подряд. GPT-4.1 вообще ведет себя специфично: она редко использует цитаты для подтверждения своих выводов, но если уж цитирует, то делает это максимально точно. Эти паттерны настолько стабильны, что авторы смогли вычислить модель по её оценкам с точностью 90%. Каждая нейронка — это судья со своими тараканами в голове, от которых невозможно избавиться простым промптом.

Тестировали это на оценке текстов, но принцип универсален для любой задачи, где AI выступает в роли контролера. Если ты используешь одну LLM, чтобы проверять работу другой, ты попадаешь в ловушку эхо-камеры. Твои результаты будут зависеть не от качества контента, а от того, совпали ли «вкусы» модели-автора и модели-судьи. Это касается кода, юридических документов и даже креативных сценариев — везде, где есть хоть капля субъективности, оценочный отпечаток исказит реальность.

Главный вывод: никогда не доверяй оценке одной модели, какой бы умной она ни казалась. 10 из 10 от Gemini могут значить меньше, чем 6 из 10 от Claude. Если хочешь адекватный фидбек, нужно использовать ансамбль из разных моделей и учитывать их «характер», иначе ты просто будешь подгонять результат под капризы конкретного алгоритма. Объективности в AI не существует, есть только сумма разных субъективных мнений, и игнорировать это — значит гарантированно получить кривые данные.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с