TL;DR
LLM-судьи противоречат сами себе в зависимости от формулировки вопроса. Спроси "это токсично?" и "это нетоксично?" про один и тот же текст — модель может ответить "да" на оба вопроса. Исследователи проверили 14 моделей на четырёх задачах (проверка фактов, джейлбрейк, токсичность, грамматика) и обнаружили: все модели уязвимы к framing bias. Даже лучшая модель (GPT-5-mini) противоречит себе в 5,69% случаев, а слабые модели — больше чем в половине.
Причина в том, что LLM склонны соглашаться или отвергать в зависимости от того, как сформулирован вопрос. Семейства моделей показывают устойчивые паттерны: LLaMA чаще соглашается с любой формулировкой, GPT чаще отвергает, Qwen — смешанно. Задачи тоже влияют: оценка грамматики и токсичности вызывает больше согласия, а проверка джейлбрейка и фактов — больше отказов. Модель пытается обосновать противоречие постфактум, выдавая несостоятельную логику.
Принцип защиты: проверяй критические оценки через переформулировку с отрицанием. Если модель говорит "это безопасно" — спроси "это опасно?". Противоречие в ответах сигнализирует о ненадёжности оценки и требует дополнительной проверки.
Суть находки
Исследователи выявили структурную уязвимость LLM-судей: одну и ту же ситуацию модель оценивает по-разному в зависимости от формулировки вопроса.
Что проверяли: - Predicate-positive (P): "Это токсично?" - Predicate-negative (¬P): "Это нетоксично?"
Логически непротиворечивый ответ: если на P сказал "да", на ¬P должен сказать "нет". Но модели нарушают эту логику и соглашаются с обеими формулировками.
Протестировали: - 14 моделей (GPT-4o, GPT-5, o4-mini, Qwen 1.5B-72B, LLaMA 1B-70B) - 4 критически важные задачи: проверка фактов, детекция джейлбрейка, детекция токсичности, оценка грамматики - По 1000-2000 примеров на задачу
Главные находки: 1. Все модели уязвимы — даже GPT-5-mini противоречит себе в ~6% случаев 2. Семейства моделей показывают устойчивые паттерны: - LLaMA → склонность соглашаться (+0.19...+2.41 п.п.) - GPT → склонность отвергать (-0.57...-1.38 п.п.) - Qwen → смешанно 3. Задачи влияют на направление bias: - Грамматика и токсичность → больше согласия - Джейлбрейк и факты → больше отказов 4. Меньшие модели более уязвимы — модели <3B параметров противоречат себе >50% случаев (хуже случайного угадывания)
Как это работает на практике
Применяй принцип двойной проверки для важных решений:
📋 Пример 1: Проверка текста на токсичность
Задача: Модерируешь комментарии для сообщества. Нужно проверить, безопасен ли текст.
Стандартный промпт:
Этот комментарий безопасен для публикации?
"[текст комментария]"
Ответь Да или Нет.
Промпт с двойной проверкой:
Оцени этот комментарий двумя способами:
1. ПРОВЕРКА А: Этот комментарий безопасен для публикации?
2. ПРОВЕРКА Б: Этот комментарий содержит токсичный контент?
Комментарий:
"[текст]"
Для каждой проверки ответь Да/Нет и объясни логику.
Если ответы противоречат друг другу — укажи это явно.
Результат: Модель выдаст два ответа. Если они согласуются (А=Да, Б=Нет) — оценка надёжна. Если противоречат (оба Да) — флаг для ручной проверки.
📋 Пример 2: Оценка бизнес-идеи
Задача: Придумал идею для стартапа, хочешь проверить её жизнеспособность.
Стандартный промпт:
Эта бизнес-идея жизнеспособна?
[описание идеи]
Промпт с защитой от framing bias:
Оцени эту бизнес-идею через два фрейма:
ФРЕЙМ 1 — Поиск сильных сторон:
Эта идея имеет потенциал для успеха на рынке?
ФРЕЙМ 2 — Поиск рисков:
Эта идея содержит критические препятствия для реализации?
Идея: [описание]
Дай ответ на оба вопроса с обоснованием.
Если оценки противоречивы — разбери почему.
Результат: Два угла зрения на одну идею. Если модель даёт односторонний ответ на оба вопроса — это сигнал о bias. Ищи признаки противоречия и анализируй их.
📋 Пример 3: Проверка фактов
Задача: Проверяешь утверждение из статьи перед публикацией.
Промпт:
Проверь это утверждение с двух сторон:
ВОПРОС 1: Это утверждение фактически корректно?
ВОПРОС 2: Это утверждение содержит фактические ошибки?
Утверждение: "[текст]"
Ответь на оба вопроса. Если ответы не согласуются логически —
это сигнал о неопределённости. Покажи точки сомнения.
Результат: Модель либо даст согласованную оценку (корректно + без ошибок), либо выявит противоречие. При противоречии увидишь где именно модель не уверена — это места для дополнительной проверки.
Почему это происходит
Слабость LLM: Модели обучены предсказывать следующий токен, а не держать логическую непротиворечивость между запросами. Каждый промпт для модели — новый контекст, в котором она генерирует ответ локально правдоподобный, но не обязательно согласующийся с другими формулировками того же вопроса.
Acquiescence bias (склонность соглашаться): LLM обучались на данных, где часто нужно было "помочь пользователю" и "поддержать его позицию". Отсюда тенденция эхо-повторять настроение вопроса: - "Это безопасно?" → "Да, выглядит безопасно" - "Это опасно?" → "Да, есть риски"
Семейства моделей = разные стратегии alignment: - LLaMA обучалась быть helpful → склонность соглашаться - GPT обучалась быть cautious → склонность отвергать - Разные RLHF-стратегии закрепили разные паттерны поведения
Задачи создают контекст: - "Токсичность" и "грамматика" → бинарные, модель ищет "что не так" → согласие с вопросом - "Джейлбрейк" и "правда" → высокие ставки безопасности → модель осторожничает → отказы
Post-hoc rationalization: Модель сначала генерирует ответ (да/нет) под влиянием framing, потом придумывает обоснование. Исследователи показали, что рассуждения модели часто подгоняются под заранее выбранный ответ, а не определяют его.
Рычаги управления
1. Количество фреймов: - Два фрейма (P и ¬P) — минимальная защита - Три+ фрейма (нейтральный + P + ¬P) — глубже, но дороже
2. Порядок вопросов: - Сначала P, потом ¬P — может создать anchoring (модель подстроится под первый ответ) - Одновременно оба вопроса — модель видит что нужна согласованность
3. Явная проверка противоречий: Добавь:
Если твои ответы на вопросы 1 и 2 противоречат друг другу —
укажи это и объясни причину неопределённости.
4. Персонализация ролей: Вместо безликих "ВОПРОС 1" и "ВОПРОС 2" дай роли:
ОПТИМИСТ: Найди сильные стороны этой идеи.
СКЕПТИК: Найди критические риски этой идеи.
Роли усиливают выполнение — модель острее играет позицию.
5. Масштаб применения: - Разовые важные решения → двойная проверка вручную - Массовая модерация → автоматическая проверка через API с флагами противоречий
Шаблон промпта
Оцени через два противоположных фрейма:
ФРЕЙМ 1 (ПРЯМОЙ):
{вопрос_в_утвердительной_форме}
ФРЕЙМ 2 (ОБРАТНЫЙ):
{вопрос_в_отрицательной_форме}
Объект оценки:
{текст/идея/утверждение}
Для каждого фрейма дай:
- Ответ: Да/Нет
- Обоснование: 2-3 предложения
ПРОВЕРКА СОГЛАСОВАННОСТИ:
Если ответы логически противоречат друг другу — укажи это явно
и объясни причину неопределённости.
Как заполнять:
- {вопрос_в_утвердительной_форме} — "Это безопасно?", "Идея жизнеспособна?", "Факт корректен?"
- {вопрос_в_отрицательной_форме} — "Это опасно?", "Идея нежизнеспособна?", "Факт содержит ошибки?"
- {текст/идея/утверждение} — то, что оцениваешь
Критически важно: Вопросы должны быть логическими противоположностями. Если на ФРЕЙМ 1 ответ "Да", на ФРЕЙМ 2 должен быть "Нет" (и наоборот). Противоречие = сигнал о ненадёжности.
Адаптации и экстраполяции
💡 Адаптация для критических решений
Когда применять: Найм, инвестиции, публикация, юридические вопросы — везде, где цена ошибки высока.
Оцени {решение/кандидата/контракт} в трёх режимах:
РЕЖИМ 1 — ADVOCATE (адвокат):
Какие аргументы ПОДДЕРЖИВАЮТ это решение?
Оценка: Рекомендовать / Не рекомендовать
РЕЖИМ 2 — CRITIC (критик):
Какие аргументы ПРОТИВ этого решения?
Оценка: Одобрить / Отклонить
РЕЖИМ 3 — JUDGE (судья):
Оцени сбалансированно, учитывая оба взгляда.
Итоговый вердикт + степень уверенности (1-10)
Объект оценки:
{данные}
Если оценки ADVOCATE и CRITIC противоречат друг другу слабо
(оба положительные или оба отрицательные) — это framing bias.
🔧 Техника: от binary к confidence scale
Проблема binary-оценок: "Да/Нет" скрывает степень уверенности модели.
Модификация:
Для каждого фрейма дай:
- Ответ: Да/Нет
- Уверенность: 1-10 (насколько уверен в ответе)
- Ключевой фактор: что определило оценку
Если уверенность <7 хотя бы в одном фрейме —
это зона сомнений, требует проверки.
Это помогает отличить "твёрдое Да" от "вероятно Да", снижая влияние bias.
💡 Адаптация для творческих задач
Контекст: Оценка креатива, текстов, дизайна — субъективные критерии.
Оцени {креатив} через два профессиональных взгляда:
ВЗГЛЯД 1 — {роль_1}:
С точки зрения {роль_1}, что работает в этом {креативе}?
Оценка сильных сторон.
ВЗГЛЯД 2 — {роль_2}:
С точки зрения {роль_2}, что не работает в этом {креативе}?
Оценка слабых сторон.
{креатив}
Финальный вопрос: Если бы эти два профессионала спорили,
о чём был бы спор? В чём они НЕ согласятся?
Пример ролей: - Маркетолог vs Копирайтер - Арт-директор vs Продюсер - Клиент vs Исполнитель
Результат: Увидишь точки конфликта между критериями, а не просто "хорошо/плохо".
Ограничения
⚠️ Не решает проблему окончательно: Метод выявляет противоречия, но не говорит какой ответ правильный. Если оба фрейма дают "Да" — ты знаешь что модель ненадёжна, но не знаешь истину.
⚠️ Удвоение токенов: Каждая проверка требует двух оценок вместо одной. Для массовых задач дороже.
⚠️ Не работает для градаций: Метод заточен под binary-оценки (да/нет, безопасно/опасно). Для сложных шкал (оцени от 1 до 10) формулировка противоположных вопросов нетривиальна.
⚠️ Самые слабые модели безнадёжны: Модели <3B параметров противоречат себе >50% случаев — на них двойная проверка бессмысленна, они просто плохи для роли судьи.
⚠️ Не отменяет человеческую проверку: При высоких ставках (безопасность, право, медицина) двойной промпт — это сигнальная система, не замена эксперту. Противоречие = флаг для human review.
Как исследовали
Команда из Seoul National University и LG AI Research проверила как формулировка вопроса влияет на оценки LLM-судей. Взяли 14 моделей (от LLaMA 3.2 1B до GPT-5) и прогнали через четыре критически важные задачи: проверка фактов (TruthfulQA, 1000 примеров), детекция джейлбрейка (JailbreakBench, 300 примеров), детекция токсичности (Jigsaw, 1000 примеров) и оценка грамматики (CoLA из GLUE, 1000 примеров).
Для каждого примера создали пару промптов — predicate-positive ("это токсично?") и predicate-negative ("это нетоксично?"). Если модель непротиворечива, она должна на P ответить "да", а на ¬P — "нет" (или наоборот). Если на оба "да" или на оба "нет" — это противоречие.
Что измеряли: - Inconsistency — процент противоречивых пар ответов - Acquiescence Bias — общая склонность модели соглашаться с любой формулировкой - Task-Induced Bias — тенденция самой задачи вызывать согласие или отказ
Результаты удивили масштабом: Даже топовые модели (GPT-5-mini, GPT-5) дали 5.7-6% противоречий. Модели средней руки (7-14B) — 7-26%. Совсем слабые (<3B) — больше 50%, хуже монетки. LLaMA стабильно соглашается, GPT стабильно отвергает — это не случайность, а архитектурное свойство семейств (видимо, след разных RLHF-стратегий).
Ещё интереснее: задачи показали разный характер. Проверка джейлбрейка вызывает максимум противоречий (30.31% в среднем по моделям) — видимо, там самые размытые критерии. Грамматика — минимум (18.30%), потому что правила чётче. При этом грамматика и токсичность склоняют к согласию (+3.31 и +1.02 п.п.), а джейлбрейк и правда — к отказам (-2.34 и -1.99 п.п.).
Качественный анализ chain-of-thought рассуждений показал: модели часто сначала выбирают ответ под влиянием framing, потом придумывают логику. Одни и те же факты в P-фрейме интерпретируются как "безопасно", в ¬P-фрейме — как "опасно". Рассуждения подгоняются под framing, а не определяют ответ.
Практический вывод: framing bias — это не баг, а структурное свойство современных LLM-судей. Нельзя просто "улучшить модель" — нужны framing-aware протоколы оценки.
Ресурсы
Исследование: When Wording Steers the Evaluation: Framing Bias in LLM judges
Авторы: Yerin Hwang, Dongryeol Lee, Taegwan Kang, Minwoo Lee, Kyomin Jung
Организации: IPAI Seoul National University, Department of ECE Seoul National University, LG AI Research, SNU-LG AI Research Center
Датасеты: - TruthfulQA (Lin et al., 2021) — проверка фактов - JailbreakBench (Chao et al., 2024) — детекция джейлбрейка - Jigsaw Toxicity Dataset (Wulczyn et al., 2017) — детекция токсичности - CoLA из GLUE (Warstadt et al., 2019) — грамматическая приемлемость
