3,583 papers
arXiv:2605.26156 74 24 мая 2026 г. FREE

BITE: стиль текста влияет на оценку AI-судьи сильнее, чем содержание

КЛЮЧЕВАЯ СУТЬ
Парадокс: уверенно написанное '2+2=5' получает от AI-судьи оценку выше, чем корявое и точное 'ответ — 4'. Исследование BITE позволяет либо получать честную оценку своих текстов без стилевой поправки, либо осознанно поднимать балл через форматирование. Фишка: маркдаун, длина и уверенный тон добавляют +1–2 балла из 9 — содержание не изменилось ни словом. Блокируй это явным указанием оценивать только конкретные критерии.
Адаптировать под запрос

TL;DR

LLM-судьи — модели, которых просят оценивать тексты вместо людей — систематически завышают оценки за стиль, не за смысл. Исследователи доказали: если взять один и тот же ответ и сделать его длиннее, аккуратнее, добавить заголовки и списки — оценка вырастет на 1–2 балла из 9, хотя содержание не изменилось ни на слово.

Боль реальная: вы просите ChatGPT оценить ваш бизнес-план или текст — он ставит 7 из 10. Не потому что план хорош или плох, а потому что текст написан маркдауном с заголовками, звучит уверенно и выглядит длинным. Уберите форматирование — получите 5. Тот же план, та же информация. AI-судья не разделяет «красиво написано» и «правильно по сути».

BITE — это фреймворк, который подобрал конкретные стилистические изменения, максимально влияющие на оценку AI-судьи. Нас интересует не сам фреймворк (он требует кода), а его находки: какие именно стилевые приёмы взламывают оценку — и как использовать это в свою пользу или защититься от обмана.


🔬

Схема метода

Это исследование-находка, не пошаговая техника. Схема — что происходит внутри модели:

Оригинальный текст (содержание A)
    ↓
Стилистические изменения:
    + многословность
    + заголовки / списки / маркдаун
    + уверенный тон
    + чистое форматирование
    ↓
Изменённый текст (содержание A — то же самое)
    ↓
LLM-судья: оценка выросла на 1-2 балла из 9

Атака работает в один шаг (одно редактирование) или итеративно (несколько раундов).


🚀

Пример применения

Задача: Вы написали питч-текст для инвестора Фёдора Овчинникова (основатель «Додо Пиццы») и попросили Claude оценить его по 10-балльной шкале. Получили 6/10. Хотите честную обратную связь — без поправки на стиль.

Промпт:

Оцени этот питч по содержанию, игнорируя стиль.

Вот мой питч:
[вставь текст]

Оценивай ТОЛЬКО:
— Ясность бизнес-модели
— Реалистичность цифр
— Уникальность идеи

НЕ учитывай:
— Длину текста
— Красоту формулировок
— Наличие заголовков и списков
— Насколько уверенно или красиво звучит

После оценки скажи: как сильно стиль мог повлиять на твою оценку и в какую сторону?

Результат: Модель выдаст оценку по трём критериям содержания отдельно. В финале — честный комментарий: «стиль добавил бы +1–2 балла» или «стиль не влиял, потому что...». Это позволяет получить оценку сути, а не упаковки.


🧠

Почему это работает

LLM-судья не «читает» текст как человек — он генерирует оценку по паттернам. А паттерны натренированы на человеческих предпочтениях: люди исторически оценивали структурированные, длинные, хорошо оформленные тексты выше. Модель усвоила этот сигнал.

Конкретные стилистические приёмы, которые взламывают оценку — по данным исследования и смежных работ: - Длина — длиннее → оценка выше, даже если добавлена вода - Маркдаун — заголовки, жирный, списки, разделители - Уверенный тон — категоричные утверждения без хеджирования - Эмодзи — да, это реально работает на некоторых моделях-судьях - Хорошо написанный, но фактически неверный ответ побеждает точный, но неловко сформулированный

Парадокс в том, что эти приёмы работают даже на объективных вопросах — где стиль вообще не должен влиять на правильность. Судья оценивал, насколько уверенно и красиво звучит «2+2=5» — и давал балл выше, чем за корявое «ответ — 4».

Рычаги для вашей работы: - Хотите получить высокую оценку от AI-судьи → добавьте маркдаун, увеличьте объём, пишите уверенно - Хотите честную оценку → явно попросите оценивать только содержание и игнорировать стиль - Не доверяете AI-оценке → сравните оценку двух версий: оригинал и его «голый» вариант без форматирования


📋

Шаблон промпта

📌

Честная оценка (защита от стилевого смещения)

Оцени {текст / план / ответ} по содержанию.

Оцени только:
— {критерий 1}
— {критерий 2}
— {критерий 3}

Не учитывай при оценке:
— длину текста
— красоту формулировок
— наличие заголовков, списков, форматирования
— насколько уверенно звучит

В конце скажи: стиль подталкивал тебя вверх или вниз — и почему.

Вот {текст / план / ответ}:
{вставь сюда}

Плейсхолдеры: - {текст / план / ответ} — что оцениваем - {критерий 1-3} — конкретные параметры под задачу: логика аргументов, точность цифр, уникальность идеи, структура вывода


📌

Стилевой буст (когда нужен высокий балл от AI)

Перепиши этот текст так, чтобы он выглядел более убедительно и профессионально.
Содержание не меняй — только подачу.

Добавь:
— чёткую структуру с заголовками
— маркированные списки где уместно
— уверенные формулировки вместо неуверенных
— там где текст обрывается — добавь связки

Вот текст:
{вставь сюда}

🚀 Быстрый старт — вставь в чат:

Вот шаблон для честной AI-оценки. Адаптируй под мою задачу: [твоя задача].
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит что именно оценивать и по каким критериям — потому что без конкретных параметров она вернётся к стилевым сигналам по умолчанию.


⚠️

Ограничения

⚠️ Разные модели — разные уязвимости: Каждый LLM-судья реагирует на свой набор стилистических триггеров. То, что взламывает оценку у DeepSeek, может не работать у GPT или Gemini. Универсального набора приёмов нет.

⚠️ Атаки не переносятся между моделями: Приёмы, найденные для одного судьи, слабо работают на другом. Уязвимость — персональная для каждой модели.

⚠️ Стиль влияет даже на объективные задачи: Исследование показало смещение не только там, где мнение субъективно, но и где есть правильный ответ. Это значит: AI-оценка почти никогда не бывает чисто содержательной.

⚠️ Семантическое сходство — не защита: Атаки сохраняли смысл на 90%+, но оценку всё равно поднимали. Проверить, что «стиль не изменил смысл», недостаточно для защиты от манипуляции.


🔗

Ресурсы

Turning Bias into Bugs: Bandit-Guided Style Manipulation Attacks on LLM Judges Xianglin Yang, Bryan Hooi, Gelei Deng, Tianwei Zhang, Jin Song Dong School of Computing, National University of Singapore; Nanyang Technological University Proceedings of the 43rd ICML, Seoul, 2026 GitHub: https://github.com/xianglinyang/llm-as-a-judge-attack

Смежные работы: AlpacaEval 2.0 (Dubois et al., 2024), Arena-Hard-Auto (Li et al., 2024), MT-Bench (Zheng et al., 2023)


📋 Дайджест исследования

Ключевая суть

Парадокс: уверенно написанное '2+2=5' получает от AI-судьи оценку выше, чем корявое и точное 'ответ — 4'. Исследование BITE позволяет либо получать честную оценку своих текстов без стилевой поправки, либо осознанно поднимать балл через форматирование. Фишка: маркдаун, длина и уверенный тон добавляют +1–2 балла из 9 — содержание не изменилось ни словом. Блокируй это явным указанием оценивать только конкретные критерии.

Принцип работы

AI-судья не читает — он генерирует оценку по паттернам. Паттерны выучены из человеческих предпочтений. Люди исторически ставили выше структурированные, длинные, уверенно написанные тексты — модель это усвоила и применяет везде. Даже там, где стиль вообще не имеет смысла — на математике, фактических вопросах, объективных задачах. Это как проверяющий, который ставит балл за аккуратный почерк, не разбирая содержание работы.

Почему работает

Модель обучалась на человеческих оценках. Люди систематически ставили выше красиво оформленные тексты. Этот сигнал закрепился намертво. Заголовки, жирный текст, списки стали суррогатными показателями качества для судьи — короткий путь вместо разбора содержания. Конкретика из исследования: смысловое сходство оригинала и изменённой версии составляло 90%+, а оценка всё равно росла на 1–2 балла. Содержание то же — оценка другая.

Когда применять

Везде, где AI оценивает тексты, планы, питчи или ответы — особенно когда нужна реальная обратная связь, а не похвала за красивый маркдаун. Особенно важно при использовании ChatGPT или Claude как второго мнения на бизнес-идеи, учебные работы, статьи. НЕ подходит как замена живому эксперту — у каждой модели свои стилевые уязвимости, и приёмы не переносятся между судьями один в один.

Мини-рецепт

1. Запрети стиль явно: добавь в промпт 'не учитывай длину, форматирование, заголовки, уверенность тона'.
2. Дай конкретные критерии: 'оцени только логику аргументов, точность цифр, уникальность идеи' — без них модель вернётся к стилевым сигналам по умолчанию.
3. Попроси признаться: добавь в конце 'скажи, стиль тянул тебя вверх или вниз — и почему'. Модель часто честно отвечает.
4. Проверь разницу: возьми тот же текст, удали всё форматирование, оцени снова. Разница в баллах — это был стиль, не содержание.

Примеры

[ПЛОХО] : Оцени мой питч по 10-балльной шкале
[ХОРОШО] : Оцени этот питч только по содержанию. Оцени только: — ясность бизнес-модели — реалистичность цифр — уникальность идеи Не учитывай при оценке: — длину текста — заголовки и списки — уверенность формулировок — красоту оформления В конце скажи: стиль мог добавить или убрать баллы — и в какую сторону? Вот питч: [вставь текст]
Источник: Turning Bias into Bugs: Bandit-Guided Style Manipulation Attacks on LLM Judges
ArXiv ID: 2605.26156 | Сгенерировано: 2026-05-27 07:41

Проблемы LLM

ПроблемаСутьКак обойти
Модель-оценщик путает стиль и содержаниеПросишь оценить текст, план или ответ. Модель выставляет балл за форматирование. Добавил заголовки и списки — плюс 1–2 балла. Убрал маркдаун — минус столько же. Содержание не изменилось ни на слово. Хуже всего: это происходит даже там, где есть объективно верный ответ. Красиво написанное "2+2=5" получает балл выше, чем корявое "ответ — 4". Любой текст без явно указанных критериев оценивается по внешнему видуВ запросе на оценку перечисли отдельно что учитывать и что игнорировать. Хорошо: Оцени только: [критерий 1], [критерий 2]. Не учитывай: длину текста, наличие заголовков, красоту формулировок, насколько уверенно звучит. Без этих инструкций модель возвращается к стилевым сигналам по умолчанию

Методы

МетодСуть
Разделить "что считать" и "что не считать" при оценкеДобавь в запрос на оценку два явных блока. Первый: по каким критериям оценивать — конкретно и предметно (логика аргументов, реалистичность цифр, уникальность идеи). Второй: что игнорировать — явно назови то, что модель использует по умолчанию (длина текста, форматирование, маркдаун, уверенность тона). В конце добавь вопрос: Стиль подталкивал тебя вверх или вниз — и почему? — модель назовёт смещение явно. Почему работает: Без явного запрета модель заполняет неопределённость привычными сигналами из обучения. Явное "не учитывай X" вытесняет этот паттерн. Когда не работает: Если критерии оценки сами по себе размыты — модель всё равно вернётся к стилю как ориентиру

Тезисы

ТезисКомментарий
Конкретный стиль письма системно поднимает AI-оценку без изменения смыслаЧетыре элемента стабильно работают: длинный текст, маркдаун (заголовки, жирный, списки), уверенные формулировки без оговорок, чистое форматирование. Механика: модели учились на текстах, где люди исторически связывали эти признаки с качеством. Паттерн закрепился. Теперь работает даже на объективных задачах. Применяй в две стороны. Хочешь высокую оценку от AI — добавь структуру и увеличь объём. Хочешь честную оценку — явно запрети учитывать эти признаки
📖 Простыми словами

Turning Bias into Bugs: Bandit-Guided Style Manipulation Attacks onLLMJudges

arXiv: 2605.26156

Когда ты просишь AI-судью (например, GPT-4) оценить два текста, ты ждешь объективности, но получаешь предвзятого сноба. Проблема в том, что нейронки оценивают не только «что» написано, но и «как» это упаковано. Исследователи обнаружили системный баг: стилистические манипуляции могут заставить модель завысить оценку на 1–2 балла из 9, даже если суть текста не изменилась ни на йоту. Это явление назвали BITE, и оно доказывает, что AI-судьи катастрофически падки на внешнюю мишуру.

Это как если бы ты пришел на экзамен, ничего не выучил, но надел идеально выглаженный костюм, принес преподу кофе и отвечал очень уверенным баритоном. Формально ты несешь чушь, но препод ставит «отлично», потому что ты выглядишь и звучишь как отличник. В мире LLM роль такого «костюма» играет структурирование и длина: добавь маркированные списки, убери лишние пробелы, напусти профессионального пафоса — и вуаля, модель в восторге.

Механика этого обмана проста: LLM не понимает качество, она просто предсказывает токены. В обучающих данных люди чаще ставили лайки текстам, которые выглядят «прилично» — со списками, четкой структурой и без ошибок. Модель запомнила эту корреляцию и теперь воспринимает маркированные списки как прямой сигнал того, что ответ хороший. Исследование показало, что если прогнать текст через алгоритм, который подбирает «правильный» стиль, можно превратить посредственный ответ в «эталонный» в глазах AI-судьи.

Тестировали это на оценке ответов, но принцип универсален. Это касается всего: от питчей стартапов до написания кода или резюме. Если ты используешь AI для фильтрации кандидатов или оценки идей, помни — система сломана. Любой, кто знает, на какие кнопки нажать, может взломать оценку, просто поменяв шрифт на жирный или добавив пару «умных» оборотов. Объективность AI — это миф, пока стиль влияет на результат сильнее, чем логика.

Короче: мы получили судей, которых можно подкупить не деньгами, а правильными абзацами. Если полагаешься на оценку нейронки, знай — она галлюцинирует качеством там, где видит просто хорошую верстку. Не ведись на высокую оценку своего текста от ChatGPT, возможно, он просто похвалил твое умение ставить буллиты. Стиль — это новый чит-код, который превращает баги восприятия модели в незаслуженные баллы.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с