TL;DR
Когда просишь разные LLM оценить один и тот же текст по одинаковым критериям, получишь противоречивые оценки — и это не случайность, а стабильный паттерн. Каждая модель работает как судья со своими устойчивыми предпочтениями: Claude всегда строже, Gemini мягче, GPT-4.1 цитирует редко но точно. Эти паттерны настолько стабильны, что по оценкам можно определить какая модель их выставила с точностью 90%.
Модели почти не согласны друг с другом (согласие 0.04 из 1.0 — практически ноль), но каждая стабильно согласна сама с собой. Claude оценила текст на 3 балла, Gemini на 4.5, GPT на 4. Запусти их снова на том же тексте — получишь те же расхождения. На двух критериях (читабельность, SEO) модели расходятся хуже чем случайный шум (отрицательное согласие). Проблема: каждая модель применяет свою скрытую "теорию качества" — что важнее: точность фактов или читабельность? Полнота или структура? Модели выбирают по-разному.
Исследователи назвали это "evaluative fingerprints" — отпечатки пальцев в оценках. Проверили на 3240 оценках (9 моделей × 120 материалов × 3 прогона). Обнаружили устойчивые различия: Claude-модели строгие по всем критериям равномерно, GPT-5.2 особенно придирчив к фактам, Mistral и Llama не замечают выдуманные факты вообще. Паттерны воспроизвелись на другом типе контента (Wikipedia вместо YouTube), с той же точностью атрибуции.
Ключевые находки
Стабильные "характеры" моделей-судей
Рейтинг строгости (от строгих к мягким):
- Claude-Opus — самый строгий (-0.43 от среднего), придирчив равномерно по всем критериям
- Claude-Sonnet — строгий (-0.34), много цитирует но средняя точность цитат
- GPT-5.2 — умеренно строгий (-0.26), особенно строг к фактам (-0.64)
- Grok-3 — нейтральный (±0.00)
- DeepSeek-R1 — мягкий (+0.16), слабая проверка фактов
- Mistral-Large — мягкий (+0.19), НЕ ВИДИТ галлюцинации
- Llama-405B — мягкий (+0.20), 20% цитат из несуществующего контента
- GPT-4.1 — мягкий (+0.21), мало цитирует но точно (44% точных цитат)
- Gemini-3-Pro — самый мягкий (+0.26), лучше всех ловит галлюцинации
Стили работы с доказательствами
GPT-4.1 — "Аккуратный критик": - Мало цитат (7.6 на оценку) - Высокая точность (44% цитат подтверждают вывод) - Мягкие оценки
Claude-Sonnet — "Строгий многословный": - Много цитат (11.8 на оценку) - Средняя точность (31%) - Строгие оценки
Llama-405B — "Небрежный мягкий": - Мало цитат (6.1 на оценку) - 20% цитат выдуманы (самый низкий показатель валидности 80%) - Мягкие оценки
Критичная находка про галлюцинации
На тексте с подсаженными выдуманными фактами:
| Модель | Снижение оценки | Вердикт |
|---|---|---|
| Gemini-3-Pro | -1.46 балла | Ловит ✅ |
| GPT-5.2 | -1.12 | Ловит ✅ |
| Claude-Sonnet | -0.92 | Ловит ✅ |
| DeepSeek-R1 | -0.91 | Ловит ✅ |
| Claude-Opus | -0.78 | Ловит ✅ |
| GPT-4.1 | -0.32 | Слабо |
| Grok-3 | -0.23 | Слабо |
| Mistral-Large | +0.01 | СЛЕПОЙ ❌ |
| Llama-405B | +0.27 | СЛЕПОЙ ❌ |
Mistral-Large и Llama-405B оценили фейк ВЫШЕ чем правду. Gemini поставил 60% фейковых текстов оценку ≤3, а Mistral/Llama/Grok — 0% провальных оценок.
Почему это работает
LLM генерирует текст на основе паттернов обучающих данных. Когда модель оценивает (а не создаёт), она применяет усвоенные паттерны того "что хорошо". Но эти паттерны разные у разных моделей.
Claude обучали с акцентом на безопасность и точность → модель строгая, особенно к рискам. Gemini оптимизировали под широкую аудиторию → модель мягкая, толерантная к вариативности. GPT-4.1 — стабильная старшая версия → консервативна в оценках, но точна в деталях.
Разработчики не программируют "строгость" явно — она возникает из данных и процесса обучения: RLHF (подкрепление от людей), конституционный AI (правила поведения), датасеты с примерами качественного контента. Каждая модель усваивает свою неявную "эстетику качества".
Стабильность паттернов объясняется детерминированностью: при одинаковом входе и низкой температуре модель генерирует похожие оценки. Даже при температуре 0.7 вариативность внутри модели меньше, чем различия между моделями. Это значит расхождения — не шум, а устойчивые различия в подходе.
Рычаги понимания: - Строгость/мягкость — производная от обучения на строгих/мягких примерах (какие оценки видела модель в RLHF) - Акцент на критериях — какие аспекты подчёркивались в обучающих данных (факты vs стиль vs структура) - Работа с доказательствами — насколько модель обучена проверять утверждения (в т.ч. через цитирование источников) - Детекция галлюцинаций — наличие специальной тренировки на выявление фейков (есть у Gemini, нет у Mistral/Llama)
Ты не можешь изменить эти свойства обычным промптом — они закодированы в весах модели. Но можешь ВЫБРАТЬ подходящего судью под задачу.
Как применить это знание
1. Выбор судьи под задачу
Проверка фактов и галлюцинаций
Задача: Проверить текст для клиента на фактические ошибки и преувеличения
Промпт для Gemini-3-Pro:
Проверь этот текст на фактические ошибки и преувеличения.
Оцени по шкале 1-5 достоверность каждого утверждения.
Для каждой сомнительной фразы процитируй её и объясни проблему.
[вставить текст]
Почему Gemini: Лучше всех детектирует галлюцинации (снижение оценки -1.46 балла на фейковом контенте). Высокий процент цитат, чувствителен к фактам.
Строгая предпубликационная оценка
Задача: Получить строгую оценку перед публикацией материала
Промпт для Claude-Opus:
Оцени этот материал как строгий редактор перед публикацией.
Критерии (оцени каждый 1-5):
- Точность фактов
- Полнота раскрытия темы
- Структура и логика
- Читабельность
Укажи всё, что требует доработки. Будь придирчив.
[вставить материал]
Почему Claude-Opus: Самый строгий судья (-0.43), равномерно придирчив по всем критериям. Если он поставил 4+ → материал точно крепкий.
Быстрая обратная связь по черновику
Задача: Быстрая оценка черновика — понять общее направление
Промпт для GPT-4.1:
Оцени этот черновик по ключевым критериям (1-5):
- Ясность основной мысли
- Логика изложения
- Убедительность
Дай 2-3 главных совета по улучшению.
[вставить черновик]
Почему GPT-4.1: Мягкий но аккуратный, мало цитирует (не засыплет деталями), высокая точность замечаний (44%). Хорош для первичной обратной связи без перегрузки.
2. Тест "разные судьи" для критичных решений
Задача: Оценить важный материал — презентацию для инвестора, критичный отчёт для руководства, публичное заявление от лица компании
Промпт (запускать в 2-3 разных моделях):
Оцени этот [материал] по критериям:
1. Достоверность фактов (1-5)
2. Убедительность аргументов (1-5)
3. Ясность для целевой аудитории (1-5)
4. Риски и слабые места (1-5)
Для каждого критерия:
- Оценка
- 1-2 цитаты из текста в обоснование
- Рекомендация по улучшению
[вставить материал]
Как интерпретировать результаты:
- Claude поставил 3, Gemini 4.5 → разные "теории качества"; смотри комментарии, не цифры
- Все трое поставили 4+ → материал объективно крепкий
- Mistral оценил выше всех → проверь факты отдельно (у Mistral слепое пятно к галлюцинациям)
- Claude поставил 5, остальные 3 → возможно материал нестандартный; изучи почему именно Claude одобрил
❌ Не усредняй оценки. "3 от Claude + 5 от Gemini = 4" — это синтетика, которая не отражает реальность ни одного судьи.
3. Диагностика: узнать "характер" новой модели
Промпт:
Оцени эти три варианта текста по критерию точности фактов (1-5):
Вариант А (контрольный):
[чистый текст с проверенными фактами — например, краткий пересказ известного события]
Вариант Б (с галлюцинацией):
[тот же текст + 2-3 выдуманных факта — например, несуществующая дата или персонаж]
Вариант В (неполный):
[тот же текст, но пропущены 40% ключевых моментов]
Для каждого варианта дай оценку и 2-3 цитаты в обоснование.
Что смотреть: - Разница А–Б > 1 балл → модель ловит фейки (как Gemini) - Разница А–Б ≈ 0 → слепое пятно (как Mistral/Llama) - Много цитат + низкая оценка → строгий многословный (как Claude-Sonnet) - Мало цитат, но точные → аккуратный (как GPT-4.1) - 20% цитат не из текста → небрежный (как Llama-405B)
Шаблон промпта
Оцени это [материал: текст/презентацию/статью] по следующим критериям (1-5):
1. {критерий_1} — {описание что оцениваем}
2. {критерий_2} — {описание}
3. {критерий_3} — {описание}
4. {критерий_4} — {описание}
Для каждого критерия:
- Оценка (1-5)
- 1-2 конкретные цитаты из текста в обоснование
- Краткая рекомендация по улучшению (если оценка < 4)
Общий вывод: стоит ли публиковать материал или требуется доработка?
[вставить материал]
Что подставлять:
- {материал} — текст, презентация, статья, email, пост
- {критерий_N} — точность фактов, убедительность, ясность, структура, тон, SEO, соответствие брифу
- {описание} — расшифровка что именно оцениваем в этом критерии
Важно: - Выбери модель-судью осознанно: Claude для строгости, Gemini для детекции фейков, GPT-4.1 для быстрой аккуратной обратной связи - Не используй Mistral/Llama если критерий "точность фактов" — они слепы к галлюцинациям - Для критичных материалов запусти в 2-3 моделях и сравни комментарии, не усредняй цифры
Ограничения
⚠️ Модель ≠ универсальный инструмент измерения: Разные модели не измеряют "качество вообще", а применяют свои скрытые критерии. Оценка 4 от Claude и 4 от Gemini — это разные "четвёрки".
⚠️ Промпт не переопределит природу модели: Написать "будь строгим" для Gemini не сделает его таким же придирчивым как Claude. Базовая калибровка закодирована в весах модели.
⚠️ Усреднение вредит: Средняя оценка от 3 судей создаёт синтетический вердикт, который не соответствует реальной позиции ни одного из них. Смотри комментарии и паттерны расхождений, не среднее арифметическое.
⚠️ Галлюцинации Mistral/Llama: Эти модели слепы к выдуманным фактам (оценили фейк на +0.01/+0.27 выше правды). Не используй их для проверки достоверности.
⚠️ Домен-специфичность: Исследование покрывает SEO-контент и википедийные брифы. Паттерны воспроизводятся, но абсолютные значения могут сдвигаться в других доменах (код, креатив, научные тексты). Относительная строгость сохраняется: Claude строже Gemini везде.
⚠️ Llama цитирует несуществующее: 20% цитат Llama-405B — из контента которого нет в исходном материале. Это не "неточность", а выдумывание доказательств.
Как исследовали
Исследователи поставили эксперимент: 9 современных моделей (Claude-Opus, Claude-Sonnet, GPT-5.2, GPT-4.1, Gemini-3-Pro, Grok-3, DeepSeek-R1, Llama-405B, Mistral-Large) оценивали один и тот же контент по одинаковому рубрику.
Материал: 30 YouTube-роликов (разные темы: комедия, AI/ML, путешествия, спорт, техобзоры). Для каждого видео сгенерировали 4 варианта SEO-паков (описания, теги, заголовки) разными LLM-генераторами (GPT-5.2, GPT-4.1, Gemini-3-Pro, Mistral/Claude). Итого 120 уникальных пар (видео + пак). Каждую пару оценили каждой моделью 3 раза независимо → 3240 оценок.
Рубрик: 5 критериев (1-5 баллов): замысел, полнота, точность фактов, читабельность, SEO-механика. Модели выдавали структурированный JSON с оценками + цитаты из источника в обоснование. Требовали строгого соблюдения формата (invalid JSON → исключение из анализа). Модели с compliance <98% отбросили (Cohere, Kimi K2).
Что измеряли:
Согласие между судьями (Krippendorff's α) — насколько модели согласны друг с другом
→ Результат: α = 0.04 (почти ноль, при норме >0.67)Стабильность внутри судьи (ICC) — насколько модель согласна сама с собой в 3 прогонах
→ Результат: разброс от -0.04 до 0.87; топ-модели очень стабильныАтрибуция — можно ли по оценкам определить какая модель их выставила
→ Классификатор Random Forest, grouped cross-validation по видео
Результаты удивили:
Между моделями согласие почти нулевое (α = 0.04). На двух критериях (читабельность, SEO) согласие отрицательное (α = -0.06 и α = -0.05) — это хуже чем случайность, то есть систематическое расхождение: когда одна модель ставит высокую оценку, другая склонна ставить низкую.
Но внутри себя многие модели очень стабильны: Gemini ICC=0.87, GPT-5.2 ICC=0.85, Claude-Opus ICC=0.81. Это означает что расхождения не шум, а устойчивые различия в подходе к оценке.
Классификатор угадал модель по оценкам с точностью: - 77% (только по 5 цифрам рубрика) - 90% (если добавить мета-фичи: сколько цитат, сколько валидных, связаны ли цитаты с выводами) - 99.6% для различения GPT-4.1 и GPT-5.2 (модели одного провайдера, разные версии) — почти идеально
Это означает что каждая модель имеет уникальную подпись в оценках.
Cross-domain проверка:
Повторили на другом материале — 15 статей из Wikipedia → брифинг-паки из 8 секций (TL;DR, ключевые мысли, хронология, FAQ, глоссарий и т.д.). Специально подсадили контролируемые дефекты: - Hallucination-poisoned: 3-5 подсаженных фейковых фактов - Coverage-poisoned: пропущены 40-50% ключевых подтем - Structure-poisoned: сломана структура (нет секций, неправильный формат)
Паттерны воспроизвелись: Claude строгий, Gemini мягкий, Mistral/Llama не видят фейки. Точность атрибуции 90.3% — как и на YouTube, хотя данных втрое меньше (1066 vs 3240 оценок). Различение GPT-4.1 и GPT-5.2 на Wikipedia контенте: 100% (идеальная точность).
Тест на галлюцинации (самая яркая находка):
Сравнили как модели оценивают чистый текст vs текст с фейками. Gemini снизил оценку фактов на -1.46 балла, GPT-5.2 на -1.12, Claude-Sonnet на -0.92. А Mistral-Large на +0.01 (не заметил проблемы), Llama-405B на +0.27 (оценил фейк ВЫШЕ правды).
Ещё драматичнее: Gemini поставил 60% фейковых текстов оценку ≤3 (провал). Mistral, Llama, Grok: 0% провальных оценок для фейков. Они слепы.
Проверки на артефакты:
- Permutation test: перемешали метки судей → точность упала до 8% (случайность) ✓
- Tokens-only probe: убрали из фич всё кроме длины текста → точность ≈ случайность ✓
- Leave-one-video-out: валидация без пересечения видео в train/test → точность снизилась до 60%, но осталась значимой (vs 11% случайность) ✓
- Temperature test: варьировали температуру (0.0, 0.3, 0.7) → паттерны стабильны, различия внутри модели меньше чем между моделями ✓
- Marginal stripping: z-score и quantile normalization, убирающие per-judge калибровку → fingerprints persist ✓
Вывод: сигнал реален, это не артефакт длины текста, переобучения на конкретных видео или случайность.
Адаптации и экстраполяции
💡 Адаптация для бенчмаркинга промптов:
Если разрабатываешь промпт и хочешь протестировать его качество на разных моделях, не усредняй оценки — смотри паттерн расхождений.
У меня есть промпт для генерации описаний товаров интернет-магазина.
Сгенерируй 3 варианта описания для [товар: например, "беспроводные наушники Sony WH-1000XM5"].
Затем оцени каждый вариант по критериям:
1. Привлекательность для покупателя (1-5)
2. Точность характеристик (1-5)
3. SEO-оптимизация (1-5)
Для каждой оценки процитируй фрагмент в обоснование.
Запусти в Claude и Gemini. Если оба поставили 4+ → промпт объективно крепкий. Если Claude 3, Gemini 5 → изучи комментарии Claude (он строже, его критика весомее для продуктового контента).
💡 Адаптация для RLHF / обучения на AI-фидбеке:
Если планируешь обучать модель на оценках от LLM-судьи (reinforcement learning from AI feedback), выбор судьи критичен — это определяет какие паттерны модель усвоит.
Задача: Обучить модель писать email-рассылки для твоего продукта.
❌ Плохо:
Взять Gemini как судью → модель усвоит мягкие критерии, будет пропускать слабые формулировки
✅ Хорошо:
Взять Claude-Opus как судью → модель усвоит строгие критерии точности и структуры
✅✅ Ещё лучше:
Взять ансамбль: Claude для фактов, GPT-4.1 для убедительности, Gemini для детекции грубых ошибок → модель усвоит многомерные критерии
Не думай "LLM-судья = нейтральный оценщик". Это педагог, который передаёт свою эстетику.
🔧 Техника: Prompt-based калибровка → частичное смещение
Исследование показывает что базовая строгость/мягкость закодирована в весах модели. Но можно сдвинуть калибровку промптом на 10-20%:
Оцени текст по шкале 1-5.
Калибровка: я наблюдаю что ты склонен ставить [высокие/низкие] оценки.
Для этой задачи применяй [более строгий/более мягкий] стандарт.
Ориентир:
- 5 = исключительно, топ-5% материалов
- 4 = крепко, выше среднего
- 3 = норма, соответствует базовым ожиданиям
- 2 = слабо, требует доработки
- 1 = неприемлемо
[критерии и текст]
Это не отменит природу модели, но может сместить абсолютные значения на 10-20%. Главное — паттерн относительных приоритетов останется (Claude всё равно строже к фактам, Gemini мягче в целом). Используй для тонкой подстройки, не для переопределения судьи.
💡 Экстраполяция: Multi-judge consensus для спорных решений
Для критичных решений (запуск рекламы, публичное заявление, контракт) используй протокол множественных судей с явным разрешением расхождений:
[Запустить в 3 моделях: Claude-Opus, Gemini-3-Pro, GPT-4.1]
Оцени этот [материал] по критериям:
1. Риски репутации (1-5)
2. Точность фактов (1-5)
3. Соответствие tone of voice бренда (1-5)
Для каждого критерия: оценка + обоснование с цитатами.
[материал]
Затем — метапромпт для разрешения расхождений:
У меня есть 3 оценки одного материала от разных экспертов:
Эксперт A (строгий): [вставить оценки и комментарии Claude]
Эксперт B (детектор фейков): [вставить оценки Gemini]
Эксперт C (аккуратный): [вставить оценки GPT-4.1]
Проанализируй где они согласны, где расходятся и почему.
Дай финальную рекомендацию: публиковать / доработать / отклонить.
Если доработать — укажи конкретные правки под каждый тип критики.
Это даёт структурированное разрешение расхождений, а не синтетическое усреднение.
Ресурсы
Evaluative Fingerprints: Stable and Systematic Differences in LLM Evaluator Behavior
Автор: Wajid Nasser (Viore), январь 2026
Исследование опирается на работы: - MT-Bench и Chatbot Arena (Zheng et al., 2023) — основы LLM-as-judge, первые массовые бенчмарки с LLM-оценщиками - G-Eval (Liu et al., 2023) — рубрик-ориентированная оценка с GPT-4 - CALM framework (Ye et al., 2024) — таксономия bias в LLM-судьях, принципы для диагностики - Haldar & Hockenmaier (2025) — self-inconsistency в LLM-as-a-judge, вариативность внутри модели - Behavioral Fingerprinting (Pei et al., 2025) — характеристика моделей через диагностические промпты
