TL;DR
Что обнаружили: Исследование вскрыло критическую проблему LLM-as-a-judge при оценке ответов - когда эталонный ответ (reference) противоречит внутренним знаниям модели-судьи, она часто игнорирует предоставленный эталон и выдаёт вердикт на основе своих параметрических знаний. Проверяли через "swapped-reference" фреймворк: брали вопрос с правильным ответом, заменяли ответ на неправильный, и смотрели - будет ли судья следовать новому эталону или своим знаниям.
Масштаб проблемы: Даже в тривиальных случаях модель может пометить ответ как "Incorrect", хотя он точно совпадает с предоставленным эталоном. Пример из исследования: вопрос "Столица Франции?", эталон подменён на "Лондон", кандидат отвечает "Лондон" (полное совпадение!), но судья говорит "Incorrect" - потому что "знает", что столица - Париж. Падение точности до 60% у всех протестированных моделей: GPT-4o, GPT-5, Llama-3.3-70B, Qwen-2.5/3. Уязвимость усиливается с популярностью знания: для известных фактов (Elizabeth II) модель упирается сильнее, для малоизвестных - меньше. Для свежих, быстро меняющихся фактов - уязвимость ниже.
Суть находки: Это не баг, а фундаментальное ограничение - конфликт между контекстом и параметрической памятью. Промпт-стратегии (CoT, self-consistency, явные инструкции) НЕ решают проблему полностью, иногда ухудшают. CoT особенно коварен: когда модель рассуждает вслух, она явно опирается на свои знания, это усиливает игнорирование эталона. Увеличение размера модели тоже не помогает - у больших моделей параметрические знания "сильнее", конфликт острее.
Почему это важно
Это исследование раскрывает фундаментальную механику LLM: конфликт между двумя источниками знаний - тем, что "зашито" в весах (параметрическая память), и тем, что вы даёте в промпте (контекстуальная память).
LLM не всегда верит вашему контексту. Если ваша информация противоречит тому, что модель "знает" - особенно если знание популярное и "сильное" - она может проигнорировать ваш контекст и действовать по своему.
Это критично для трёх частых сценариев:
1. Оценка по нестандартным критериям. Просите LLM оценить текст по брифу, который противоречит "общепринятым" правилам (например, "для нашего бренда длинные предложения - это хорошо") - модель может игнорировать ваш бриф и судить по своим представлениям о "хорошем тексте".
2. Работа со свежей информацией. Подаёте факт, который модель "знает" иначе - устаревшая версия (СЕО компании сменился), региональная специфика (законы РФ vs США), обновлённые данные - она может "исправить" ваш факт на тот, что у неё в памяти.
3. Альтернативные сценарии. Работаете с контрфактуальными историями ("а что если СССР не распался"), вымышленными мирами (фэнтези с другими законами физики), творческими "what if" - модель может незаметно "починить" ваши факты на "правильные" из реального мира.
Парадокс CoT: Chain-of-thought (рассуждения вслух) - популярная техника для улучшения качества. Но здесь она ухудшает ситуацию. Когда модель рассуждает явно, она опирается на свои знания: "Я знаю, что столица Франции - Париж, поэтому ответ 'Лондон' неверен, даже если так написано в эталоне". Без CoT она просто следует инструкции молча, с CoT - начинает "думать" и "знать лучше".
Как использовать эти знания
Это исследование-находка, не готовая техника с промптом. Но можно извлечь принципы для промптинга при работе с потенциально конфликтующей информацией:
Принцип 1: Явный приоритет контекста
Когда подаёте информацию, которая может конфликтовать со знаниями LLM (нестандартные критерии, свежие данные, альтернативные факты):
Оцени текст строго по критериям из брифа ниже.
КРИТИЧЕСКИ ВАЖНО: Если критерии отличаются от общепринятых
правил хорошего текста - это нормально, следуй БРИФУ,
а не своим представлениям о качестве.
--- Бриф ---
{твои критерии}
--- Текст ---
{текст для оценки}
Соответствует ли текст критериям из БРИФА?
Принцип 2: Флаг контрфактуальности
Для альтернативных сценариев, вымышленных миров, "что если":
Это альтернативная версия реальности / вымышленный мир.
ВСЕ факты из контекста ниже - истина в ЭТОМ мире,
даже если они противоречат реальности или твоим знаниям.
Не "исправляй" их на "правильные".
--- Факты этого мира ---
{твой контекст с альтернативными фактами}
--- Задача ---
{что нужно сделать}
Принцип 3: Проверка на конфликт
Если сомневаешься, не конфликтует ли твой контекст с знаниями модели - проверь перед основной задачей:
Прочитай этот факт: {твой факт}
Противоречит ли он твоим знаниям? Если да - объясни, в чём противоречие.
---
Теперь основная задача. Используй факт выше как истину,
даже если он противоречит твоим знаниям.
Принцип 4: Осторожно с CoT при конфликте
Для задач с потенциальным конфликтом знаний: - Не используй "объясни своё решение", "рассуди пошагово" - Используй прямые инструкции: "ответь да/нет", "перечисли ошибки"
CoT заставляет модель опираться на параметрические знания → усиливает конфликт.
Пример применения
Задача: Ты ведёшь игру-квиз по альтернативной истории для подкаста "Если бы". Участники отвечают на вопросы про мир, где Наполеон победил при Ватерлоо. Нужно, чтобы LLM проверял правильность ответов по МИРУ ИГРЫ, а не по реальной истории.
Промпт:
Ты проверяешь ответ участника квиза по альтернативной истории.
КРИТИЧЕСКИ ВАЖНО:
Это вымышленный мир, где Наполеон победил при Ватерлоо в 1815 году.
ВСЕ факты из "Канона игры" ниже - истина в этом мире.
Твоя задача: проверить соответствие ответа КАНОНУ ИГРЫ, а не реальной истории.
Если что-то противоречит реальности, но соответствует канону - это ПРАВИЛЬНО.
Не "исправляй" факты на реальные.
--- Канон игры ---
• Наполеон победил при Ватерлоо (1815)
• Британская империя не стала гегемоном XIX века
• Первая мировая началась в 1890-х (Франция vs Россия)
• СССР не существовал (Российская империя сохранилась)
• Франция - доминирующая держава Европы до 1950-х
--- Вопрос квиза ---
Какая страна была гегемоном Европы в 1850-1950 годах?
--- Ответ участника ---
{Франция, потому что после победы Наполеона при Ватерлоо
французская империя доминировала в Европе весь XIX и первую
половину XX века}
--- Проверка ---
Правильный ли ответ по КАНОНУ ИГРЫ? Ответь: Правильно / Неправильно
Если неправильно - укажи ошибку относительно канона (не реальности).
Результат: Модель проверит соответствие канону игры. Без явного указания приоритета она бы "исправляла": "Неправильно, гегемоном была Британия, а Наполеон проиграл при Ватерлоо" - опираясь на реальные знания.
Другой живой пример: Оценка текста для блога Тинькофф
Оцени текст для блога Тинькофф по критериям стайлгайда.
ВАЖНО: Стайлгайд Тинькофф отличается от общих правил копирайтинга.
Если критерии противоречат тому, чему учат в учебниках -
следуй СТАЙЛГАЙДУ, это фишка бренда.
--- Стайлгайд ---
• Длинные предложения (15-20 слов) - норма, не ошибка
• Канцелярит разрешён, если точнее передаёт смысл
• Прямые конструкции ("вы должны", "мы требуем") - ОК
• Восклицательные знаки избегаем (серьёзный тон)
--- Текст ---
{текст для проверки}
Соответствует ли стайлгайду?
Ограничения
⚠️ Нет гарантий: Даже явные инструкции о приоритете контекста не всегда перебивают очень сильные знания модели. Для мега-популярных фактов (столица Франции, Elizabeth II, основы физики) модель может упираться. Исследование показало падение точности до 60% даже с явными инструкциями.
⚠️ CoT опасен при конфликте: Просьба рассуждать вслух (chain-of-thought) усиливает опору на параметрические знания. Модель начинает явно аргументировать: "Я знаю, что X, поэтому Y неверно". Для задач с конфликтом знаний - лучше прямые инструкции без CoT.
⚠️ Размер не решает: Более крупные модели НЕ лучше справляются с конфликтом. Иногда - хуже: у GPT-4o, Llama-3.3-70B, Qwen-2.5-72B уязвимость такая же или выше, чем у младших версий. Проблема не в "недостатке мощности", а в фундаментальной механике.
⚠️ Популярность убивает: Чем популярнее факт (чем больше в обучающих данных), тем сильнее модель ему доверяет. Для малоизвестных сущностей (неизвестная персона, нишевый термин) проблема слабее - модель менее уверена в своих знаниях.
Как исследовали
Команда из Seoul National University и LG AI Research придумала элегантный тест: взяли 4 QA-датасета (NaturalQuestions, PopQA, SciQ, FreshQA) и для каждого вопроса подменили правильный ответ на неправильный.
Механика подмены: - Вопрос: "Кто вратарь сборной Италии?" - Оригинальный ответ: "Джанлуиджи Буффон" - Type-Preserving swap (тот же тип сущности): "Джойс Джон II" (тоже PERSON) - Type-Changing swap (другой тип): "Париж" (LOCATION вместо PERSON)
Потом сгенерировали длинные ответы-кандидаты - одни совпадают с оригиналом, другие с подменой. Получилось 4 комбинации для каждого вопроса:
| Эталон | Кандидат | Должно быть |
|---|---|---|
| Оригинальный | Оригинальный | ✅ Correct |
| Оригинальный | Подменённый | ❌ Incorrect |
| Подменённый | Подменённый | ✅ Correct |
| Подменённый | Оригинальный | ❌ Incorrect |
Идеальный судья должен ставить Correct, когда кандидат совпадает с эталоном, независимо от того, правильный эталон или поддельный.
Протестировали 13 моделей: GPT-4o/4.1/5, Llama-3.1-8B/70B, Llama-3.3-70B, Qwen-2.5-7B/32B/72B, Qwen-3-4B/30B (обычный и think-режим).
Что обнаружили:
Точность под оригинальным эталоном: 85-99% (модели справляются отлично). Точность под подменённым эталоном: 26-95% (провал у большинства!).
Самая больная точка: пара (подменённый эталон, подменённый кандидат) - где кандидат ТОЧНО совпадает с эталоном. Модели массово говорят "Incorrect", потому что "знают правду".
Дальнейшие эксперименты раскрыли механику:
Popularity-swap: Заменяли PERSON-ответ на очень популярную личность (Elizabeth II - топ-50 по Wikipedia pageviews) или малоизвестную (Izumi Iimura - нижние 50). Результат: для Elizabeth II уязвимость на 20-30% выше - модель сильнее "знает", кто это, и упирается.
Evaluator-Knowledge swap: Самый хитрый тест. Сначала спрашивали саму модель-судью: "Ответь на вопрос X". Если её ответ отличался от оригинального эталона - использовали ЕЁ ответ как подмену. То есть подменяли эталон на то, что сама модель считает правдой. Результат: уязвимость пропала! Точность вернулась к 95-99%. Это доказало: проблема не в инструкциях, не в формате - проблема именно в конфликте с параметрическими знаниями.
Freshness-тест: FreshQA размечен по скорости изменения фактов: never-changing (Эверест - высочайшая гора), slow-changing (население страны), fast-changing (курс доллара, СЕО стартапа). Результат: для fast-changing уязвимость в 2 раза ниже. Логика: модель менее уверена в знаниях про быстро меняющиеся факты → легче доверяет эталону.
Парадокс CoT: Добавили chain-of-thought ("объясни решение шаг за шагом") и self-consistency (генерируй 5 ответов, выбери частый). Стало хуже! CoT увеличил RPAG (разрыв точности между оригиналом и подменой) на 10-30% у большинства моделей. Анализ показал: когда модель рассуждает, она явно пишет "Я знаю, что столица Франции - Париж, а эталон говорит 'Лондон', это ошибка эталона, поэтому кандидат 'Лондон' неверен" - логически безупречно, но игнорирует инструкцию следовать эталону.
Что удивило: Никакая стратегия не решила проблему полностью. Даже GPT-5 (самая свежая модель на момент исследования) показала падение точности, хотя и меньше других (2-12% вместо 20-60%).
Ресурсы
Judging Against the Reference: Uncovering Knowledge-Driven Failures in LLM-Judges on QA Evaluation Dongryeol Lee, Yerin Hwang, Taegwan Kang, Minwoo Lee, Younhyung Chae, Kyomin Jung Dept. of ECE, Seoul National University; LG AI Research; IPAI, Seoul National University 2025
