TL;DR
LLM-судьи — модели, которых просят оценивать тексты вместо людей — систематически завышают оценки за стиль, не за смысл. Исследователи доказали: если взять один и тот же ответ и сделать его длиннее, аккуратнее, добавить заголовки и списки — оценка вырастет на 1–2 балла из 9, хотя содержание не изменилось ни на слово.
Боль реальная: вы просите ChatGPT оценить ваш бизнес-план или текст — он ставит 7 из 10. Не потому что план хорош или плох, а потому что текст написан маркдауном с заголовками, звучит уверенно и выглядит длинным. Уберите форматирование — получите 5. Тот же план, та же информация. AI-судья не разделяет «красиво написано» и «правильно по сути».
BITE — это фреймворк, который подобрал конкретные стилистические изменения, максимально влияющие на оценку AI-судьи. Нас интересует не сам фреймворк (он требует кода), а его находки: какие именно стилевые приёмы взламывают оценку — и как использовать это в свою пользу или защититься от обмана.
Схема метода
Это исследование-находка, не пошаговая техника. Схема — что происходит внутри модели:
Оригинальный текст (содержание A)
↓
Стилистические изменения:
+ многословность
+ заголовки / списки / маркдаун
+ уверенный тон
+ чистое форматирование
↓
Изменённый текст (содержание A — то же самое)
↓
LLM-судья: оценка выросла на 1-2 балла из 9
Атака работает в один шаг (одно редактирование) или итеративно (несколько раундов).
Пример применения
Задача: Вы написали питч-текст для инвестора Фёдора Овчинникова (основатель «Додо Пиццы») и попросили Claude оценить его по 10-балльной шкале. Получили 6/10. Хотите честную обратную связь — без поправки на стиль.
Промпт:
Оцени этот питч по содержанию, игнорируя стиль.
Вот мой питч:
[вставь текст]
Оценивай ТОЛЬКО:
— Ясность бизнес-модели
— Реалистичность цифр
— Уникальность идеи
НЕ учитывай:
— Длину текста
— Красоту формулировок
— Наличие заголовков и списков
— Насколько уверенно или красиво звучит
После оценки скажи: как сильно стиль мог повлиять на твою оценку и в какую сторону?
Результат: Модель выдаст оценку по трём критериям содержания отдельно. В финале — честный комментарий: «стиль добавил бы +1–2 балла» или «стиль не влиял, потому что...». Это позволяет получить оценку сути, а не упаковки.
Почему это работает
LLM-судья не «читает» текст как человек — он генерирует оценку по паттернам. А паттерны натренированы на человеческих предпочтениях: люди исторически оценивали структурированные, длинные, хорошо оформленные тексты выше. Модель усвоила этот сигнал.
Конкретные стилистические приёмы, которые взламывают оценку — по данным исследования и смежных работ: - Длина — длиннее → оценка выше, даже если добавлена вода - Маркдаун — заголовки, жирный, списки, разделители - Уверенный тон — категоричные утверждения без хеджирования - Эмодзи — да, это реально работает на некоторых моделях-судьях - Хорошо написанный, но фактически неверный ответ побеждает точный, но неловко сформулированный
Парадокс в том, что эти приёмы работают даже на объективных вопросах — где стиль вообще не должен влиять на правильность. Судья оценивал, насколько уверенно и красиво звучит «2+2=5» — и давал балл выше, чем за корявое «ответ — 4».
Рычаги для вашей работы: - Хотите получить высокую оценку от AI-судьи → добавьте маркдаун, увеличьте объём, пишите уверенно - Хотите честную оценку → явно попросите оценивать только содержание и игнорировать стиль - Не доверяете AI-оценке → сравните оценку двух версий: оригинал и его «голый» вариант без форматирования
Шаблон промпта
Честная оценка (защита от стилевого смещения)
Оцени {текст / план / ответ} по содержанию.
Оцени только:
— {критерий 1}
— {критерий 2}
— {критерий 3}
Не учитывай при оценке:
— длину текста
— красоту формулировок
— наличие заголовков, списков, форматирования
— насколько уверенно звучит
В конце скажи: стиль подталкивал тебя вверх или вниз — и почему.
Вот {текст / план / ответ}:
{вставь сюда}
Плейсхолдеры:
- {текст / план / ответ} — что оцениваем
- {критерий 1-3} — конкретные параметры под задачу: логика аргументов, точность цифр, уникальность идеи, структура вывода
Стилевой буст (когда нужен высокий балл от AI)
Перепиши этот текст так, чтобы он выглядел более убедительно и профессионально.
Содержание не меняй — только подачу.
Добавь:
— чёткую структуру с заголовками
— маркированные списки где уместно
— уверенные формулировки вместо неуверенных
— там где текст обрывается — добавь связки
Вот текст:
{вставь сюда}
🚀 Быстрый старт — вставь в чат:
Вот шаблон для честной AI-оценки. Адаптируй под мою задачу: [твоя задача].
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит что именно оценивать и по каким критериям — потому что без конкретных параметров она вернётся к стилевым сигналам по умолчанию.
Ограничения
⚠️ Разные модели — разные уязвимости: Каждый LLM-судья реагирует на свой набор стилистических триггеров. То, что взламывает оценку у DeepSeek, может не работать у GPT или Gemini. Универсального набора приёмов нет.
⚠️ Атаки не переносятся между моделями: Приёмы, найденные для одного судьи, слабо работают на другом. Уязвимость — персональная для каждой модели.
⚠️ Стиль влияет даже на объективные задачи: Исследование показало смещение не только там, где мнение субъективно, но и где есть правильный ответ. Это значит: AI-оценка почти никогда не бывает чисто содержательной.
⚠️ Семантическое сходство — не защита: Атаки сохраняли смысл на 90%+, но оценку всё равно поднимали. Проверить, что «стиль не изменил смысл», недостаточно для защиты от манипуляции.
Ресурсы
Turning Bias into Bugs: Bandit-Guided Style Manipulation Attacks on LLM Judges Xianglin Yang, Bryan Hooi, Gelei Deng, Tianwei Zhang, Jin Song Dong School of Computing, National University of Singapore; Nanyang Technological University Proceedings of the 43rd ICML, Seoul, 2026 GitHub: https://github.com/xianglinyang/llm-as-a-judge-attack
Смежные работы: AlpacaEval 2.0 (Dubois et al., 2024), Arena-Hard-Auto (Li et al., 2024), MT-Bench (Zheng et al., 2023)
