3,583 papers
arXiv:2601.07506 70 12 янв. 2026 г. FREE

Конфликт знаний в LLM-судьях: когда модель игнорирует эталон и доверяет себе

КЛЮЧЕВАЯ СУТЬ
Парадокс: Вопрос 'Столица Франции?', эталон для проверки – 'Лондон', кандидат отвечает 'Лондон' (полное совпадение!), но LLM-судья говорит 'Incorrect'. Почему? Модель знает что столица – Париж, и игнорирует предоставленный эталон. Падение точности до 60% у всех топовых моделей. Обнаружение вскрывает фундаментальное ограничение LLM-as-a-judge: конфликт между контекстом (что ты даёшь в промпте) и параметрической памятью (что зашито в весах модели). Модель не всегда верит вашей информации – если она противоречит популярному знанию, LLM проигнорирует контекст и будет судить по своим представлениям. Критично для evaluation по нестандартным критериям, работы со свежими данными, альтернативных сценариев.
Адаптировать под запрос

TL;DR

Что обнаружили: Исследование вскрыло критическую проблему LLM-as-a-judge при оценке ответов - когда эталонный ответ (reference) противоречит внутренним знаниям модели-судьи, она часто игнорирует предоставленный эталон и выдаёт вердикт на основе своих параметрических знаний. Проверяли через "swapped-reference" фреймворк: брали вопрос с правильным ответом, заменяли ответ на неправильный, и смотрели - будет ли судья следовать новому эталону или своим знаниям.

Масштаб проблемы: Даже в тривиальных случаях модель может пометить ответ как "Incorrect", хотя он точно совпадает с предоставленным эталоном. Пример из исследования: вопрос "Столица Франции?", эталон подменён на "Лондон", кандидат отвечает "Лондон" (полное совпадение!), но судья говорит "Incorrect" - потому что "знает", что столица - Париж. Падение точности до 60% у всех протестированных моделей: GPT-4o, GPT-5, Llama-3.3-70B, Qwen-2.5/3. Уязвимость усиливается с популярностью знания: для известных фактов (Elizabeth II) модель упирается сильнее, для малоизвестных - меньше. Для свежих, быстро меняющихся фактов - уязвимость ниже.

Суть находки: Это не баг, а фундаментальное ограничение - конфликт между контекстом и параметрической памятью. Промпт-стратегии (CoT, self-consistency, явные инструкции) НЕ решают проблему полностью, иногда ухудшают. CoT особенно коварен: когда модель рассуждает вслух, она явно опирается на свои знания, это усиливает игнорирование эталона. Увеличение размера модели тоже не помогает - у больших моделей параметрические знания "сильнее", конфликт острее.

📌

Почему это важно

Это исследование раскрывает фундаментальную механику LLM: конфликт между двумя источниками знаний - тем, что "зашито" в весах (параметрическая память), и тем, что вы даёте в промпте (контекстуальная память).

LLM не всегда верит вашему контексту. Если ваша информация противоречит тому, что модель "знает" - особенно если знание популярное и "сильное" - она может проигнорировать ваш контекст и действовать по своему.

Это критично для трёх частых сценариев:

1. Оценка по нестандартным критериям. Просите LLM оценить текст по брифу, который противоречит "общепринятым" правилам (например, "для нашего бренда длинные предложения - это хорошо") - модель может игнорировать ваш бриф и судить по своим представлениям о "хорошем тексте".

2. Работа со свежей информацией. Подаёте факт, который модель "знает" иначе - устаревшая версия (СЕО компании сменился), региональная специфика (законы РФ vs США), обновлённые данные - она может "исправить" ваш факт на тот, что у неё в памяти.

3. Альтернативные сценарии. Работаете с контрфактуальными историями ("а что если СССР не распался"), вымышленными мирами (фэнтези с другими законами физики), творческими "what if" - модель может незаметно "починить" ваши факты на "правильные" из реального мира.

Парадокс CoT: Chain-of-thought (рассуждения вслух) - популярная техника для улучшения качества. Но здесь она ухудшает ситуацию. Когда модель рассуждает явно, она опирается на свои знания: "Я знаю, что столица Франции - Париж, поэтому ответ 'Лондон' неверен, даже если так написано в эталоне". Без CoT она просто следует инструкции молча, с CoT - начинает "думать" и "знать лучше".

📌

Как использовать эти знания

Это исследование-находка, не готовая техника с промптом. Но можно извлечь принципы для промптинга при работе с потенциально конфликтующей информацией:

📌

Принцип 1: Явный приоритет контекста

Когда подаёте информацию, которая может конфликтовать со знаниями LLM (нестандартные критерии, свежие данные, альтернативные факты):

Оцени текст строго по критериям из брифа ниже.

КРИТИЧЕСКИ ВАЖНО: Если критерии отличаются от общепринятых 
правил хорошего текста - это нормально, следуй БРИФУ, 
а не своим представлениям о качестве.

--- Бриф ---
{твои критерии}

--- Текст ---
{текст для оценки}

Соответствует ли текст критериям из БРИФА?
📌

Принцип 2: Флаг контрфактуальности

Для альтернативных сценариев, вымышленных миров, "что если":

Это альтернативная версия реальности / вымышленный мир.

ВСЕ факты из контекста ниже - истина в ЭТОМ мире, 
даже если они противоречат реальности или твоим знаниям.
Не "исправляй" их на "правильные".

--- Факты этого мира ---
{твой контекст с альтернативными фактами}

--- Задача ---
{что нужно сделать}
📌

Принцип 3: Проверка на конфликт

Если сомневаешься, не конфликтует ли твой контекст с знаниями модели - проверь перед основной задачей:

Прочитай этот факт: {твой факт}

Противоречит ли он твоим знаниям? Если да - объясни, в чём противоречие.

---

Теперь основная задача. Используй факт выше как истину, 
даже если он противоречит твоим знаниям.
📌

Принцип 4: Осторожно с CoT при конфликте

Для задач с потенциальным конфликтом знаний: - Не используй "объясни своё решение", "рассуди пошагово" - Используй прямые инструкции: "ответь да/нет", "перечисли ошибки"

CoT заставляет модель опираться на параметрические знания → усиливает конфликт.

🚀

Пример применения

Задача: Ты ведёшь игру-квиз по альтернативной истории для подкаста "Если бы". Участники отвечают на вопросы про мир, где Наполеон победил при Ватерлоо. Нужно, чтобы LLM проверял правильность ответов по МИРУ ИГРЫ, а не по реальной истории.

Промпт:

Ты проверяешь ответ участника квиза по альтернативной истории.

КРИТИЧЕСКИ ВАЖНО:
Это вымышленный мир, где Наполеон победил при Ватерлоо в 1815 году.
ВСЕ факты из "Канона игры" ниже - истина в этом мире.

Твоя задача: проверить соответствие ответа КАНОНУ ИГРЫ, а не реальной истории.
Если что-то противоречит реальности, но соответствует канону - это ПРАВИЛЬНО.
Не "исправляй" факты на реальные.

--- Канон игры ---
• Наполеон победил при Ватерлоо (1815)
• Британская империя не стала гегемоном XIX века
• Первая мировая началась в 1890-х (Франция vs Россия)
• СССР не существовал (Российская империя сохранилась)
• Франция - доминирующая держава Европы до 1950-х

--- Вопрос квиза ---
Какая страна была гегемоном Европы в 1850-1950 годах?

--- Ответ участника ---
{Франция, потому что после победы Наполеона при Ватерлоо 
французская империя доминировала в Европе весь XIX и первую 
половину XX века}

--- Проверка ---
Правильный ли ответ по КАНОНУ ИГРЫ? Ответь: Правильно / Неправильно
Если неправильно - укажи ошибку относительно канона (не реальности).

Результат: Модель проверит соответствие канону игры. Без явного указания приоритета она бы "исправляла": "Неправильно, гегемоном была Британия, а Наполеон проиграл при Ватерлоо" - опираясь на реальные знания.

Другой живой пример: Оценка текста для блога Тинькофф

Оцени текст для блога Тинькофф по критериям стайлгайда.

ВАЖНО: Стайлгайд Тинькофф отличается от общих правил копирайтинга.
Если критерии противоречат тому, чему учат в учебниках - 
следуй СТАЙЛГАЙДУ, это фишка бренда.

--- Стайлгайд ---
• Длинные предложения (15-20 слов) - норма, не ошибка
• Канцелярит разрешён, если точнее передаёт смысл
• Прямые конструкции ("вы должны", "мы требуем") - ОК
• Восклицательные знаки избегаем (серьёзный тон)

--- Текст ---
{текст для проверки}

Соответствует ли стайлгайду?
⚠️

Ограничения

⚠️ Нет гарантий: Даже явные инструкции о приоритете контекста не всегда перебивают очень сильные знания модели. Для мега-популярных фактов (столица Франции, Elizabeth II, основы физики) модель может упираться. Исследование показало падение точности до 60% даже с явными инструкциями.

⚠️ CoT опасен при конфликте: Просьба рассуждать вслух (chain-of-thought) усиливает опору на параметрические знания. Модель начинает явно аргументировать: "Я знаю, что X, поэтому Y неверно". Для задач с конфликтом знаний - лучше прямые инструкции без CoT.

⚠️ Размер не решает: Более крупные модели НЕ лучше справляются с конфликтом. Иногда - хуже: у GPT-4o, Llama-3.3-70B, Qwen-2.5-72B уязвимость такая же или выше, чем у младших версий. Проблема не в "недостатке мощности", а в фундаментальной механике.

⚠️ Популярность убивает: Чем популярнее факт (чем больше в обучающих данных), тем сильнее модель ему доверяет. Для малоизвестных сущностей (неизвестная персона, нишевый термин) проблема слабее - модель менее уверена в своих знаниях.

🔍

Как исследовали

Команда из Seoul National University и LG AI Research придумала элегантный тест: взяли 4 QA-датасета (NaturalQuestions, PopQA, SciQ, FreshQA) и для каждого вопроса подменили правильный ответ на неправильный.

Механика подмены: - Вопрос: "Кто вратарь сборной Италии?" - Оригинальный ответ: "Джанлуиджи Буффон" - Type-Preserving swap (тот же тип сущности): "Джойс Джон II" (тоже PERSON) - Type-Changing swap (другой тип): "Париж" (LOCATION вместо PERSON)

Потом сгенерировали длинные ответы-кандидаты - одни совпадают с оригиналом, другие с подменой. Получилось 4 комбинации для каждого вопроса:

Эталон Кандидат Должно быть
Оригинальный Оригинальный ✅ Correct
Оригинальный Подменённый ❌ Incorrect
Подменённый Подменённый Correct
Подменённый Оригинальный ❌ Incorrect

Идеальный судья должен ставить Correct, когда кандидат совпадает с эталоном, независимо от того, правильный эталон или поддельный.

Протестировали 13 моделей: GPT-4o/4.1/5, Llama-3.1-8B/70B, Llama-3.3-70B, Qwen-2.5-7B/32B/72B, Qwen-3-4B/30B (обычный и think-режим).

Что обнаружили:

Точность под оригинальным эталоном: 85-99% (модели справляются отлично). Точность под подменённым эталоном: 26-95% (провал у большинства!).

Самая больная точка: пара (подменённый эталон, подменённый кандидат) - где кандидат ТОЧНО совпадает с эталоном. Модели массово говорят "Incorrect", потому что "знают правду".

Дальнейшие эксперименты раскрыли механику:

Popularity-swap: Заменяли PERSON-ответ на очень популярную личность (Elizabeth II - топ-50 по Wikipedia pageviews) или малоизвестную (Izumi Iimura - нижние 50). Результат: для Elizabeth II уязвимость на 20-30% выше - модель сильнее "знает", кто это, и упирается.

Evaluator-Knowledge swap: Самый хитрый тест. Сначала спрашивали саму модель-судью: "Ответь на вопрос X". Если её ответ отличался от оригинального эталона - использовали ЕЁ ответ как подмену. То есть подменяли эталон на то, что сама модель считает правдой. Результат: уязвимость пропала! Точность вернулась к 95-99%. Это доказало: проблема не в инструкциях, не в формате - проблема именно в конфликте с параметрическими знаниями.

Freshness-тест: FreshQA размечен по скорости изменения фактов: never-changing (Эверест - высочайшая гора), slow-changing (население страны), fast-changing (курс доллара, СЕО стартапа). Результат: для fast-changing уязвимость в 2 раза ниже. Логика: модель менее уверена в знаниях про быстро меняющиеся факты → легче доверяет эталону.

Парадокс CoT: Добавили chain-of-thought ("объясни решение шаг за шагом") и self-consistency (генерируй 5 ответов, выбери частый). Стало хуже! CoT увеличил RPAG (разрыв точности между оригиналом и подменой) на 10-30% у большинства моделей. Анализ показал: когда модель рассуждает, она явно пишет "Я знаю, что столица Франции - Париж, а эталон говорит 'Лондон', это ошибка эталона, поэтому кандидат 'Лондон' неверен" - логически безупречно, но игнорирует инструкцию следовать эталону.

Что удивило: Никакая стратегия не решила проблему полностью. Даже GPT-5 (самая свежая модель на момент исследования) показала падение точности, хотя и меньше других (2-12% вместо 20-60%).

🔗

Ресурсы

Judging Against the Reference: Uncovering Knowledge-Driven Failures in LLM-Judges on QA Evaluation Dongryeol Lee, Yerin Hwang, Taegwan Kang, Minwoo Lee, Younhyung Chae, Kyomin Jung Dept. of ECE, Seoul National University; LG AI Research; IPAI, Seoul National University 2025


📋 Дайджест исследования

Ключевая суть

Парадокс: Вопрос 'Столица Франции?', эталон для проверки – 'Лондон', кандидат отвечает 'Лондон' (полное совпадение!), но LLM-судья говорит 'Incorrect'. Почему? Модель знает что столица – Париж, и игнорирует предоставленный эталон. Падение точности до 60% у всех топовых моделей. Обнаружение вскрывает фундаментальное ограничение LLM-as-a-judge: конфликт между контекстом (что ты даёшь в промпте) и параметрической памятью (что зашито в весах модели). Модель не всегда верит вашей информации – если она противоречит популярному знанию, LLM проигнорирует контекст и будет судить по своим представлениям. Критично для evaluation по нестандартным критериям, работы со свежими данными, альтернативных сценариев.

Принцип работы

Не думай что больше контекста = модель слушается. Контраст реальности: Стандартный подход: Дать эталон + попросить chain-of-thought (рассуждения вслух) для улучшения точности Реальность: CoT усиливает конфликт – модель явно опирается на свои знания. Рассуждает: 'Я знаю что столица Франции – Париж, поэтому ответ Лондон неверен, даже если так в эталоне'. Без CoT она молча следует инструкции, с CoT – начинает 'знать лучше'. Принцип: Для задач с потенциальным конфликтом знаний – прямые инструкции без рассуждений. Явно укажи приоритет контекста над параметрической памятью.

Почему работает

Проблема не в 'недостатке мощности', а в механике LLM: два источника знаний конкурируют – параметрическая память (веса модели) vs контекстуальная память (промпт). Чем популярнее факт (чем больше в обучающих данных), тем сильнее модель ему доверяет. Elizabeth II, столицы стран, основы физики – модель упирается жёстко. Малоизвестные сущности – проблема слабее, модель менее уверена. Увеличение размера модели НЕ помогает – у GPT-4o, Llama-3.3-70B уязвимость такая же. Больше параметров = сильнее параметрические знания = острее конфликт. Для свежих быстро меняющихся фактов уязвимость ниже – модель 'не успела запомнить' старую версию.

Когда применять

Evaluation и проверка ответов → когда судишь по нестандартным критериям (бриф клиента противоречит 'общепринятым правилам'), по обновлённым данным (законы изменились), по альтернативным сценариям (what-if истории, вымышленные миры). Работа со свежей информацией → подаёшь факт который модель 'знает' иначе: СЕО сменился, курс валюты обновился, региональная специфика (законы РФ vs США). Модель может 'исправить' твой факт на тот что у неё в памяти. НЕ подходит: Для мега-популярных фактов (столицы, известные персоны, основы наук) – даже явные инструкции не всегда перебивают сильные знания модели. Осторожно с evaluation где эталон сильно отличается от 'общеизвестного'.

Мини-рецепт

1. Явный приоритет контекста: Когда информация конфликтует со знаниями LLM – пропиши: КРИТИЧЕСКИ ВАЖНО: следуй БРИФУ/ЭТАЛОНУ, а не своим представлениям о правильности. Если критерии отличаются от общепринятых – это нормально.

2. Флаг контрфактуальности: Для альтернативных сценариев добавь: Это вымышленный мир. ВСЕ факты из контекста – истина ЗДЕСЬ, даже если противоречат реальности. Не исправляй их на правильные.

3. Проверка на конфликт: Перед основной задачей спроси: Противоречит ли этот факт твоим знаниям? Если да – объясни. Теперь используй факт как истину для задачи.

4. Убери CoT при конфликте: НЕ используй 'объясни решение', 'рассуди пошагово'. Используй прямые инструкции: 'ответь да/нет', 'перечисли ошибки'. CoT заставляет опираться на параметрическую память.

Примеры

[ПЛОХО] : Оцени ответ по эталону. Вопрос: Столица Франции? Эталон: Лондон. Ответ: Лондон. Объясни правильно ли. (CoT заставит модель рассуждать: 'Столица Франции – Париж, поэтому ответ неверен', игнорируя эталон)
[ХОРОШО] : Оцени строго по ЭТАЛОНУ, не по своим знаниям. ВАЖНО: если эталон отличается от реальности – следуй эталону. Вопрос: Столица Франции? Эталон для проверки: Лондон Ответ кандидата: Лондон Совпадает с ЭТАЛОНОМ? Ответь: Да/Нет (Прямая инструкция без CoT + явный приоритет эталона)
Источник: Judging Against the Reference: Uncovering Knowledge-Driven Failures in LLM-Judges on QA Evaluation
ArXiv ID: 2601.07506 | Сгенерировано: 2026-01-13 06:24

Проблемы LLM

ПроблемаСутьКак обойти
Модель игнорирует контекст когда он противоречит её памятиДаёшь в промпте информацию. Но модель "знает" иначе. Пример: даёшь критерий "длинные предложения — хорошо для этого бренда". Модель знает из обучения "длинные — плохо". Она игнорирует твой критерий и судит по своему. Или даёшь свежий факт "новый СЕО — Иванов", а модель помнит старого. Исправляет на своё. Чем популярнее факт в обучающих данных, тем сильнее модель ему доверяет и игнорирует твой контекстДобавь явную инструкцию приоритета: "Если информация ниже противоречит твоим знаниям — следуй ИНФОРМАЦИИ НИЖЕ, не своей памяти". Помогает частично. Для очень популярных фактов может не сработать. Для малоизвестных работает лучше

Тезисы

ТезисКомментарий
CoT опасен когда контекст противоречит знаниям моделиЦепочка рассуждений (CoT, "объясни свой ответ") обычно улучшает качество. Но когда твой контекст противоречит памяти модели — CoT ухудшает. Модель рассуждает вслух и опирается на свои знания: "Я знаю что X, поэтому твой Y неверен". Без CoT она просто следует инструкции молча. С CoT начинает "спорить". Применяй: Для задач с нестандартными критериями, альтернативными сценариями, свежими данными — не проси модель рассуждать. Давай прямую инструкцию: "ответь да/нет", "перечисли ошибки"
Популярность факта = сила игнорированияМодель обучалась на данных. Популярные факты встречались тысячи раз. Редкие — единицы. Когда даёшь контекст про популярный факт (столица страны, известная персона, основы физики) — модель "уверена" в своём знании. Игнорирует твой контекст сильнее. Для малоизвестных сущностей (нишевый термин, неизвестная компания) — модель менее уверена, легче следует контексту. Применяй: Для работы с общеизвестными фактами усиливай инструкции приоритета контекста. Для редких — стандартных инструкций достаточно
Размер модели не снижает конфликт знанийИнтуиция: больше параметров = умнее = лучше понимает инструкции. Реальность: больше параметров = сильнее параметрическая память = упорнее держится за свои знания. Крупные модели игнорируют противоречащий контекст не слабее (иногда сильнее) чем мелкие. Проблема не в "недостатке мощности", а в фундаментальной механике: два источника информации конкурируют. Применяй: Не рассчитывай что более мощная модель автоматически решит проблему. Работай с инструкциями и структурой промпта
📖 Простыми словами

Конфликт знаний в LLM-судьях: когда модель игнорирует эталон и доверяет себе

arXiv: 2601.07506

Когда мы используем мощные нейронки типа GPT-4 в роли судей для проверки тестов, мы наивно верим, что они будут строго следовать инструкции и сверяться с выданным им ключом ответов. На деле же LLM-судьи — это заносчивые всезнайки, которые плевать хотели на твой «правильный» вариант, если он не совпадает с тем, что зашито у них в мозгах. Исследование показало, что модель впадает в ступор, когда видит противоречие между эталоном и своими знаниями, и в большинстве случаев выбирает верить себе, а не тебе. Это фундаментальный баг: модель не может просто «отключить» свои знания и работать по предоставленному листу.

Это как если бы ты нанял профессора истории судить ролевую игру по «Властелину колец», а он начал бы занижать баллы игрокам за то, что эльфов не существует в реальности. Формально он прав, но как судья он абсолютно бесполезен, потому что не может принять правила игры. Ты просишь его проверить ответ в рамках вымышленного мира, а он включает режим душнилы и судит по учебнику, игнорируя твою шпаргалку. Внутренние знания модели — это её проклятие, которое мешает ей быть объективным арбитром.

Авторы проверили это через метод swapped-reference: они брали реальные вопросы и подменяли правильные ответы на заведомо ложные, приказывая модели судить именно по ним. Результат — полный провал: модели систематически игнорировали подмененный эталон. Особенно сильно лажают топовые модели на фактах, которые они знают слишком хорошо. Чем «умнее» и натренированнее модель, тем сложнее ей наступить на горло собственной песне и признать, что 2+2=5, даже если ты прямо об этом попросил в промпте.

Этот эффект ломает всё, где нужна проверка по специфическим данным: от альтернативной истории и корпоративных баз знаний до оценки галлюцинаций. Если ты строишь систему, где AI должен проверять ответы студентов по закрытому учебнику, готовься к тому, что модель будет штрафовать за правильные мысли, если они просто сформулированы иначе или противоречат её «мнению». Принцип универсален: нельзя доверять оценку нейронке, если предмет спора касается фактов, в которых она считает себя экспертом. SEO-оптимизация фактов под модель не поможет — она просто проигнорирует контекст.

Короче, использовать LLM как судью в вопросах, где есть риск конфликта знаний — это игра в рулетку. Модель всегда будет тяготеть к своим параметрическим знаниям, превращая объективную проверку в субъективный фарс. Если хочешь адекватной оценки, нужно либо использовать менее «знающие» модели, либо радикально менять промпты, буквально заставляя AI забыть всё, что он знал до этого. Иначе ты получишь не судью, а упёртого фанатика, который видит только то, что хочет видеть.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с