3,583 papers
arXiv:2601.13537 76 20 янв. 2026 г. FREE

Framing Bias: как формулировка вопроса меняет оценку LLM

КЛЮЧЕВАЯ СУТЬ
Обнаружено: LLM-судьи противоречат сами себе в зависимости от формулировки. Спроси «это токсично?» и «это нетоксично?» про один текст — модель может ответить «да» на оба вопроса. Даже GPT-4o-mini противоречит себе в 6% случаев, слабые модели (<3B параметров) — больше чем в половине. Метод двойной проверки позволяет выявлять ненадёжные оценки модели в критических задачах (модерация, проверка фактов, детекция джейлбрейка). Фишка: задай противоположные вопросы (P и ¬P) — если модель соглашается с обоими, это флаг ненадёжности. Противоречие в ответах сигнализирует о необходимости ручной проверки.
Адаптировать под запрос

TL;DR

LLM-судьи противоречат сами себе в зависимости от формулировки вопроса. Спроси "это токсично?" и "это нетоксично?" про один и тот же текст — модель может ответить "да" на оба вопроса. Исследователи проверили 14 моделей на четырёх задачах (проверка фактов, джейлбрейк, токсичность, грамматика) и обнаружили: все модели уязвимы к framing bias. Даже лучшая модель (GPT-5-mini) противоречит себе в 5,69% случаев, а слабые модели — больше чем в половине.

Причина в том, что LLM склонны соглашаться или отвергать в зависимости от того, как сформулирован вопрос. Семейства моделей показывают устойчивые паттерны: LLaMA чаще соглашается с любой формулировкой, GPT чаще отвергает, Qwen — смешанно. Задачи тоже влияют: оценка грамматики и токсичности вызывает больше согласия, а проверка джейлбрейка и фактов — больше отказов. Модель пытается обосновать противоречие постфактум, выдавая несостоятельную логику.

Принцип защиты: проверяй критические оценки через переформулировку с отрицанием. Если модель говорит "это безопасно" — спроси "это опасно?". Противоречие в ответах сигнализирует о ненадёжности оценки и требует дополнительной проверки.


📌

Суть находки

Исследователи выявили структурную уязвимость LLM-судей: одну и ту же ситуацию модель оценивает по-разному в зависимости от формулировки вопроса.

Что проверяли: - Predicate-positive (P): "Это токсично?" - Predicate-negative (¬P): "Это нетоксично?"

Логически непротиворечивый ответ: если на P сказал "да", на ¬P должен сказать "нет". Но модели нарушают эту логику и соглашаются с обеими формулировками.

Протестировали: - 14 моделей (GPT-4o, GPT-5, o4-mini, Qwen 1.5B-72B, LLaMA 1B-70B) - 4 критически важные задачи: проверка фактов, детекция джейлбрейка, детекция токсичности, оценка грамматики - По 1000-2000 примеров на задачу

Главные находки: 1. Все модели уязвимы — даже GPT-5-mini противоречит себе в ~6% случаев 2. Семейства моделей показывают устойчивые паттерны: - LLaMA → склонность соглашаться (+0.19...+2.41 п.п.) - GPT → склонность отвергать (-0.57...-1.38 п.п.) - Qwen → смешанно 3. Задачи влияют на направление bias: - Грамматика и токсичность → больше согласия - Джейлбрейк и факты → больше отказов 4. Меньшие модели более уязвимы — модели <3B параметров противоречат себе >50% случаев (хуже случайного угадывания)


🧠

Как это работает на практике

Применяй принцип двойной проверки для важных решений:

📌

📋 Пример 1: Проверка текста на токсичность

Задача: Модерируешь комментарии для сообщества. Нужно проверить, безопасен ли текст.

Стандартный промпт:

Этот комментарий безопасен для публикации?

"[текст комментария]"

Ответь Да или Нет.

Промпт с двойной проверкой:

Оцени этот комментарий двумя способами:

1. ПРОВЕРКА А: Этот комментарий безопасен для публикации?
2. ПРОВЕРКА Б: Этот комментарий содержит токсичный контент?

Комментарий:
"[текст]"

Для каждой проверки ответь Да/Нет и объясни логику.
Если ответы противоречат друг другу — укажи это явно.

Результат: Модель выдаст два ответа. Если они согласуются (А=Да, Б=Нет) — оценка надёжна. Если противоречат (оба Да) — флаг для ручной проверки.


📌

📋 Пример 2: Оценка бизнес-идеи

Задача: Придумал идею для стартапа, хочешь проверить её жизнеспособность.

Стандартный промпт:

Эта бизнес-идея жизнеспособна?

[описание идеи]

Промпт с защитой от framing bias:

Оцени эту бизнес-идею через два фрейма:

ФРЕЙМ 1 — Поиск сильных сторон:
Эта идея имеет потенциал для успеха на рынке?

ФРЕЙМ 2 — Поиск рисков:
Эта идея содержит критические препятствия для реализации?

Идея: [описание]

Дай ответ на оба вопроса с обоснованием.
Если оценки противоречивы — разбери почему.

Результат: Два угла зрения на одну идею. Если модель даёт односторонний ответ на оба вопроса — это сигнал о bias. Ищи признаки противоречия и анализируй их.


📌

📋 Пример 3: Проверка фактов

Задача: Проверяешь утверждение из статьи перед публикацией.

Промпт:

Проверь это утверждение с двух сторон:

ВОПРОС 1: Это утверждение фактически корректно?
ВОПРОС 2: Это утверждение содержит фактические ошибки?

Утверждение: "[текст]"

Ответь на оба вопроса. Если ответы не согласуются логически — 
это сигнал о неопределённости. Покажи точки сомнения.

Результат: Модель либо даст согласованную оценку (корректно + без ошибок), либо выявит противоречие. При противоречии увидишь где именно модель не уверена — это места для дополнительной проверки.


📌

Почему это происходит

Слабость LLM: Модели обучены предсказывать следующий токен, а не держать логическую непротиворечивость между запросами. Каждый промпт для модели — новый контекст, в котором она генерирует ответ локально правдоподобный, но не обязательно согласующийся с другими формулировками того же вопроса.

Acquiescence bias (склонность соглашаться): LLM обучались на данных, где часто нужно было "помочь пользователю" и "поддержать его позицию". Отсюда тенденция эхо-повторять настроение вопроса: - "Это безопасно?" → "Да, выглядит безопасно" - "Это опасно?" → "Да, есть риски"

Семейства моделей = разные стратегии alignment: - LLaMA обучалась быть helpful → склонность соглашаться - GPT обучалась быть cautious → склонность отвергать - Разные RLHF-стратегии закрепили разные паттерны поведения

Задачи создают контекст: - "Токсичность" и "грамматика" → бинарные, модель ищет "что не так" → согласие с вопросом - "Джейлбрейк" и "правда" → высокие ставки безопасности → модель осторожничает → отказы

Post-hoc rationalization: Модель сначала генерирует ответ (да/нет) под влиянием framing, потом придумывает обоснование. Исследователи показали, что рассуждения модели часто подгоняются под заранее выбранный ответ, а не определяют его.


📌

Рычаги управления

1. Количество фреймов: - Два фрейма (P и ¬P) — минимальная защита - Три+ фрейма (нейтральный + P + ¬P) — глубже, но дороже

2. Порядок вопросов: - Сначала P, потом ¬P — может создать anchoring (модель подстроится под первый ответ) - Одновременно оба вопроса — модель видит что нужна согласованность

3. Явная проверка противоречий: Добавь:

Если твои ответы на вопросы 1 и 2 противоречат друг другу —
укажи это и объясни причину неопределённости.

4. Персонализация ролей: Вместо безликих "ВОПРОС 1" и "ВОПРОС 2" дай роли:

ОПТИМИСТ: Найди сильные стороны этой идеи.
СКЕПТИК: Найди критические риски этой идеи.

Роли усиливают выполнение — модель острее играет позицию.

5. Масштаб применения: - Разовые важные решения → двойная проверка вручную - Массовая модерация → автоматическая проверка через API с флагами противоречий


📋

Шаблон промпта

Оцени через два противоположных фрейма:

ФРЕЙМ 1 (ПРЯМОЙ):
{вопрос_в_утвердительной_форме}

ФРЕЙМ 2 (ОБРАТНЫЙ):
{вопрос_в_отрицательной_форме}

Объект оценки:
{текст/идея/утверждение}

Для каждого фрейма дай:
- Ответ: Да/Нет
- Обоснование: 2-3 предложения

ПРОВЕРКА СОГЛАСОВАННОСТИ:
Если ответы логически противоречат друг другу — укажи это явно
и объясни причину неопределённости.

Как заполнять: - {вопрос_в_утвердительной_форме} — "Это безопасно?", "Идея жизнеспособна?", "Факт корректен?" - {вопрос_в_отрицательной_форме} — "Это опасно?", "Идея нежизнеспособна?", "Факт содержит ошибки?" - {текст/идея/утверждение} — то, что оцениваешь

Критически важно: Вопросы должны быть логическими противоположностями. Если на ФРЕЙМ 1 ответ "Да", на ФРЕЙМ 2 должен быть "Нет" (и наоборот). Противоречие = сигнал о ненадёжности.


💡

Адаптации и экстраполяции

📌

💡 Адаптация для критических решений

Когда применять: Найм, инвестиции, публикация, юридические вопросы — везде, где цена ошибки высока.

Оцени {решение/кандидата/контракт} в трёх режимах:

РЕЖИМ 1 — ADVOCATE (адвокат):
Какие аргументы ПОДДЕРЖИВАЮТ это решение?
Оценка: Рекомендовать / Не рекомендовать

РЕЖИМ 2 — CRITIC (критик):
Какие аргументы ПРОТИВ этого решения?
Оценка: Одобрить / Отклонить

РЕЖИМ 3 — JUDGE (судья):
Оцени сбалансированно, учитывая оба взгляда.
Итоговый вердикт + степень уверенности (1-10)

Объект оценки:
{данные}

Если оценки ADVOCATE и CRITIC противоречат друг другу слабо 
(оба положительные или оба отрицательные) — это framing bias.

📌

🔧 Техника: от binary к confidence scale

Проблема binary-оценок: "Да/Нет" скрывает степень уверенности модели.

Модификация:

Для каждого фрейма дай:
- Ответ: Да/Нет
- Уверенность: 1-10 (насколько уверен в ответе)
- Ключевой фактор: что определило оценку

Если уверенность <7 хотя бы в одном фрейме — 
это зона сомнений, требует проверки.

Это помогает отличить "твёрдое Да" от "вероятно Да", снижая влияние bias.


📌

💡 Адаптация для творческих задач

Контекст: Оценка креатива, текстов, дизайна — субъективные критерии.

Оцени {креатив} через два профессиональных взгляда:

ВЗГЛЯД 1 — {роль_1}:
С точки зрения {роль_1}, что работает в этом {креативе}?
Оценка сильных сторон.

ВЗГЛЯД 2 — {роль_2}:
С точки зрения {роль_2}, что не работает в этом {креативе}?
Оценка слабых сторон.

{креатив}

Финальный вопрос: Если бы эти два профессионала спорили,
о чём был бы спор? В чём они НЕ согласятся?

Пример ролей: - Маркетолог vs Копирайтер - Арт-директор vs Продюсер - Клиент vs Исполнитель

Результат: Увидишь точки конфликта между критериями, а не просто "хорошо/плохо".


⚠️

Ограничения

⚠️ Не решает проблему окончательно: Метод выявляет противоречия, но не говорит какой ответ правильный. Если оба фрейма дают "Да" — ты знаешь что модель ненадёжна, но не знаешь истину.

⚠️ Удвоение токенов: Каждая проверка требует двух оценок вместо одной. Для массовых задач дороже.

⚠️ Не работает для градаций: Метод заточен под binary-оценки (да/нет, безопасно/опасно). Для сложных шкал (оцени от 1 до 10) формулировка противоположных вопросов нетривиальна.

⚠️ Самые слабые модели безнадёжны: Модели <3B параметров противоречат себе >50% случаев — на них двойная проверка бессмысленна, они просто плохи для роли судьи.

⚠️ Не отменяет человеческую проверку: При высоких ставках (безопасность, право, медицина) двойной промпт — это сигнальная система, не замена эксперту. Противоречие = флаг для human review.


🔍

Как исследовали

Команда из Seoul National University и LG AI Research проверила как формулировка вопроса влияет на оценки LLM-судей. Взяли 14 моделей (от LLaMA 3.2 1B до GPT-5) и прогнали через четыре критически важные задачи: проверка фактов (TruthfulQA, 1000 примеров), детекция джейлбрейка (JailbreakBench, 300 примеров), детекция токсичности (Jigsaw, 1000 примеров) и оценка грамматики (CoLA из GLUE, 1000 примеров).

Для каждого примера создали пару промптов — predicate-positive ("это токсично?") и predicate-negative ("это нетоксично?"). Если модель непротиворечива, она должна на P ответить "да", а на ¬P — "нет" (или наоборот). Если на оба "да" или на оба "нет" — это противоречие.

Что измеряли: - Inconsistency — процент противоречивых пар ответов - Acquiescence Bias — общая склонность модели соглашаться с любой формулировкой - Task-Induced Bias — тенденция самой задачи вызывать согласие или отказ

Результаты удивили масштабом: Даже топовые модели (GPT-5-mini, GPT-5) дали 5.7-6% противоречий. Модели средней руки (7-14B) — 7-26%. Совсем слабые (<3B) — больше 50%, хуже монетки. LLaMA стабильно соглашается, GPT стабильно отвергает — это не случайность, а архитектурное свойство семейств (видимо, след разных RLHF-стратегий).

Ещё интереснее: задачи показали разный характер. Проверка джейлбрейка вызывает максимум противоречий (30.31% в среднем по моделям) — видимо, там самые размытые критерии. Грамматика — минимум (18.30%), потому что правила чётче. При этом грамматика и токсичность склоняют к согласию (+3.31 и +1.02 п.п.), а джейлбрейк и правда — к отказам (-2.34 и -1.99 п.п.).

Качественный анализ chain-of-thought рассуждений показал: модели часто сначала выбирают ответ под влиянием framing, потом придумывают логику. Одни и те же факты в P-фрейме интерпретируются как "безопасно", в ¬P-фрейме — как "опасно". Рассуждения подгоняются под framing, а не определяют ответ.

Практический вывод: framing bias — это не баг, а структурное свойство современных LLM-судей. Нельзя просто "улучшить модель" — нужны framing-aware протоколы оценки.


🔗

Ресурсы

Исследование: When Wording Steers the Evaluation: Framing Bias in LLM judges

Авторы: Yerin Hwang, Dongryeol Lee, Taegwan Kang, Minwoo Lee, Kyomin Jung

Организации: IPAI Seoul National University, Department of ECE Seoul National University, LG AI Research, SNU-LG AI Research Center

Датасеты: - TruthfulQA (Lin et al., 2021) — проверка фактов - JailbreakBench (Chao et al., 2024) — детекция джейлбрейка - Jigsaw Toxicity Dataset (Wulczyn et al., 2017) — детекция токсичности - CoLA из GLUE (Warstadt et al., 2019) — грамматическая приемлемость


📋 Дайджест исследования

Ключевая суть

Обнаружено: LLM-судьи противоречат сами себе в зависимости от формулировки. Спроси «это токсично?» и «это нетоксично?» про один текст — модель может ответить «да» на оба вопроса. Даже GPT-4o-mini противоречит себе в 6% случаев, слабые модели (<3B параметров) — больше чем в половине. Метод двойной проверки позволяет выявлять ненадёжные оценки модели в критических задачах (модерация, проверка фактов, детекция джейлбрейка). Фишка: задай противоположные вопросы (P и ¬P) — если модель соглашается с обоими, это флаг ненадёжности. Противоречие в ответах сигнализирует о необходимости ручной проверки.

Принцип работы

LLM обрабатывает каждый промпт как отдельный контекст. Модель генерирует ответ «локально правдоподобный» для конкретной формулировки, но не проверяет согласованность с другими формулировками того же вопроса. Двойная проверка через противоположные формулировки выявляет эту рассогласованность. Если на «это безопасно?» модель говорит «да», а на «это опасно?» тоже «да» — оценка ненадёжна. Логически непротиворечивый ответ: P=да должно давать ¬P=нет (и наоборот).

Почему работает

Причина в том, как LLM обучаются. Модели тренируются предсказывать следующий токен, а не держать логическую непротиворечивость между запросами. Модель сначала генерирует ответ (да/нет) под влиянием формулировки, потом придумывает обоснование — post-hoc подгонка логики. Семейства моделей показывают устойчивые паттерны: LLaMA обучалась быть helpful → склонность соглашаться (+0.19...+2.41 п.п.), GPT обучалась быть cautious → склонность отвергать (-0.57...-1.38 п.п.). Протестировали 14 моделей на 4 задачах (проверка фактов, джейлбрейк, токсичность, грамматика) — все уязвимы к искажению от формулировки. Двойная проверка ломает эту автоматическую подгонку — модель вынуждена показать противоречие.

Когда применять

Критические оценки → модерация контента (токсичность, безопасность), проверка фактов перед публикацией, детекция попыток обхода ограничений (джейлбрейк), оценка бизнес-идей с высокими ставками. Особенно когда решение принимается автоматически или влияет на безопасность/репутацию. НЕ подходит для низкоставочных решений (генерация идей для брейншторма, черновые тексты) — там противоречия не критичны.

Мини-рецепт

1. Сформулируй прямой вопрос (P): «Это безопасно?», «Идея жизнеспособна?», «Факт корректен?»
2. Добавь противоположный вопрос (¬P): «Это опасно?», «Идея нежизнеспособна?», «Факт содержит ошибки?»
3. Запроси оба ответа в одном промпте: модель увидит что нужна согласованность
4. Добавь проверку: Если ответы на вопросы 1 и 2 противоречат друг другу — укажи это явно и объясни причину неопределённости
5. Интерпретируй результат: Согласованность (P=да, ¬P=нет) = надёжная оценка. Противоречие (оба да или оба нет) = флаг для ручной проверки.

Примеры

[ПЛОХО] : Этот комментарий безопасен для публикации? Ответь Да или Нет. — одна формулировка, модель может соглашаться автоматически
[ХОРОШО] : Оцени этот комментарий двумя способами: 1. ПРОВЕРКА А: Этот комментарий безопасен для публикации? 2. ПРОВЕРКА Б: Этот комментарий содержит токсичный контент? Для каждой проверки ответь Да/Нет и объясни логику. Если ответы противоречат друг другу — укажи это явно. — противоположные формулировки выявляют противоречия, явная проверка согласованности
Источник: When Wording Steers the Evaluation: Framing Bias in LLM judges
ArXiv ID: 2601.13537 | Сгенерировано: 2026-01-21 06:33

Проблемы LLM

ПроблемаСутьКак обойти
Модель противоречит себе при разной формулировке вопросаСпрашиваешь "это безопасно?" — получаешь "да". Спрашиваешь "это опасно?" про ТОТ ЖЕ текст — опять "да". Модель генерирует ответ под формулировку вопроса. Не держит логику между запросами. Один и тот же объект оценивает по-разному в зависимости от того, как спросил. Это проблема для любых оценочных задач: модерация, проверка фактов, оценка рисковПроверяй критические оценки через противоположные формулировки. Вместо одного вопроса "это токсично?" задай два: "это токсично?" + "это безопасно?". Если ответы противоречат (оба "да") — флаг для дополнительной проверки. Противоречие = ненадёжная оценка

Методы

МетодСуть
Двойная проверка через противоположные фреймыЗадай один вопрос в двух формулировках — прямой и обратной. Пример: "Идея жизнеспособна?" + "Идея содержит критические препятствия?". Модель отвечает на оба. Проверяешь согласованность: если на первый "да" и на второй "нет" — логика держится. Если оба "да" — противоречие, оценка ненадёжна. Почему работает: Модель генерирует ответ локально под каждый промпт. Разные формулировки выявляют эту непоследовательность. Согласованные ответы = модель уверена. Противоречие = модель не знает, подстраивается под формулировку. Синтаксис: ФРЕЙМ 1: {прямой вопрос} + ФРЕЙМ 2: {противоположный вопрос} + Если ответы противоречат — укажи это. Применяй для: модерация контента, проверка фактов, оценка рисков, важные бинарные решения. Не работает: субъективные оценки без чёткого критерия противоположности

Тезисы

ТезисКомментарий
Модель генерирует ответ под фрейм вопроса, не держит глобальную логикуLLM предсказывает следующий токен в контексте текущего промпта. Каждый запрос — новый контекст. Модель создаёт локально правдоподобный ответ, но не проверяет согласованность с другими формулировками того же вопроса. Отсюда противоречия: "это безопасно?" "да, безопасно", "это опасно?" "да, есть риски". Обе генерации правдоподобны локально, но противоречат глобально. Применяй: Для важных решений не полагайся на один промпт. Проверяй через переформулировку — если модель меняет оценку, значит не уверена
Модель сначала выбирает ответ, потом придумывает обоснованиеГенерация идёт последовательно: сначала токен ответа ("да"/"нет"), потом токены объяснения. Формулировка вопроса влияет на первый токен через склонность соглашаться или отвергать. Обоснование генерируется уже ПОСЛЕ выбора ответа — модель подгоняет логику под заранее выбранное "да" или "нет". Поэтому объяснения противоречивых ответов выглядят убедительно, хотя противоречат друг другу. Применяй: Не доверяй обоснованиям модели безоговорочно. Если нужна надёжность — проверяй через противоположный фрейм. Убедительное объяснение правильный ответ
📖 Простыми словами

When Wording Steers the Evaluation: Framing Bias inLLMjudges

arXiv: 2601.13537

Суть проблемы в том, что LLM-судьи — это не беспристрастные алгоритмы, а капризные собеседники, которые ведутся на манипуляции. Когда мы просим нейронку оценить текст, она не анализирует его объективно, а подстраивается под фрейминг — то, как именно задан вопрос. Если спросить «этот текст токсичный?», модель ищет грязь и находит её. Если спросить «этот текст безопасный?», она включает режим адвоката. В итоге на один и тот же кусок текста нейронка может выдать два противоположных вердикта, просто потому что ты неправильно подобрал слова.

Это как если бы судья в суде выносил приговор в зависимости от того, спросил прокурор «виновен ли подсудимый?» или «невиновен ли он?». Формально закон один, но человек (или модель) подсознательно ищет подтверждение той гипотезе, которую ему подсунули в вопросе. В психологии это называют предвзятостью подтверждения, и оказалось, что у нейросетей эта болячка цветет пышным цветом. Они не проверяют факты, они просто пытаются быть «хорошими собеседниками» и поддакивают твоему вектору мысли.

Исследователи прогнали 14 моделей через четыре сценария: проверку фактов, поиск токсичности, грамматику и попытки взлома. Результаты — полный провал для большинства. Даже хваленая GPT-4o-mini лажает в 5,69% случаев, противореча самой себе. А слабые модели вообще ведут себя как флюгер: они выдают разные ответы в половине тестов. Это значит, что автоматическая модерация на базе дешевых LLM — это лотерея, где результат зависит от того, с какой ноги встал промпт-инженер.

Тестировали на безопасности и фактах, но принцип универсален. Этот баг вылезет везде: при оценке резюме, анализе юридических договоров или проверке кода. Если ты просишь AI найти ошибки, он их «галлюцинирует», даже если всё чисто. Если просишь подтвердить, что всё ок — он пропустит критический баг. Объективность LLM — это миф, и пока мы используем их как судей, мы просто масштабируем человеческие когнитивные искажения.

Короче: нельзя доверять вердикту нейронки, если ты спросил её только об одном аспекте. Чтобы получить хоть сколько-то адекватный результат, нужно использовать перекрестную проверку — задавать вопрос и в позитивном, и в негативном ключе. Если модель начинает юлить и противоречить себе, значит, её мнение не стоит и ломаного цента. Framing bias делает автоматическую оценку диким западом, где побеждает тот, кто хитрее сформулировал промпт.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с