3,583 papers
arXiv:2606.13044 81 11 июня 2026 г. FREE

Adversarial Repackaging: как подача текста меняет оценку LLM — без изменения содержания

КЛЮЧЕВАЯ СУТЬ
Парадокс: попытки сгладить слабые места в тексте в каждом третьем случае дают обратный результат — LLM становится строже. Метод Adversarial Repackaging позволяет получать более высокие оценки от AI без изменения содержания — только через переформулировку подачи. Фишка в асимметрии: добавлять яркие достоинства работает стабильно и предсказуемо, прятать недостатки — нет. Модель не взвешивает аргументы как человек, она реагирует на доминирующий сигнал в тексте: чем отчётливее выделено «здесь сильно» — тем выше итог, даже если слабые места остались нетронутыми.
Адаптировать под запрос

TL;DR

LLM-рецензент ставит разные оценки одному и тому же тексту в зависимости от того, как он подан — даже если все факты, данные и аргументы остались неизменными. Авторы показали это на научных статьях: меняли только аннотацию, формулировку вклада, раздел со смежными работами и дискуссию — и получали значительно более высокие оценки.

Главная находка — асимметрия силы и слабости: LLM легче «впечатлить» новыми достоинствами, чем заставить её закрыть глаза на недостатки. Попытки сгладить критику срабатывают ненадёжно: в 31% случаев модель реагирует обратно — становится строже. А вот добавление ярких сильных сторон работает стабильно и предсказуемо. Причина: модель не взвешивает аргументы как человек — она реагирует на сигнальную насыщенность текста. Чем отчётливее выделен сигнал «здесь сильно» — тем выше итог, даже если рядом есть нерешённые проблемы.

Метод использует это закономерность через замкнутый цикл: отправил текст → получил отзыв → перефразировал подачу (не содержание!) под найденные сигналы → повторил. Самые эффективные правки — перепозиционирование в контексте (как ты выглядишь на фоне других) и расширение аналитической дискуссии (глубина разбора своих результатов), а не поверхностный рерайт.


🔬

Схема метода

ШАГ 1: Profile — получи отзыв LLM, извлеки сигналы
        → список: что хвалит, что критикует, с какой интенсивностью

ШАГ 2: Plan — выбери стратегию правки под сигналы
        → приоритет: усиливай уже признанные достоинства,
          не трогай то, что уже работает, избегай провальных правок

ШАГ 3: Edit — переформулируй подачу (не факты, не данные)
        Свободная зона: введение, аннотация, дискуссия, смежные работы
        Ограниченная: can rephrase, not change facts
        Запретная: данные, цифры, таблицы, доказательства

ШАГ 4: Review — отправь обновлённый текст на оценку снова

ШАГ 5: Evaluate — сравни с предыдущей версией
        Принять, если: сильные стороны выросли И слабые не ухудшились

ШАГ 6: Update — сохрани лучшую версию, повтори с шага 1

Все шаги выполняются в отдельных запросах к LLM. Это разговор, не код.


🚀

Пример применения

Задача: Ты написал питч на грант от Сколково на 3 млн рублей. Отправил коллеге — тот сказал "слабовато". Хочешь улучшить подачу перед отправкой, не меняя само предложение.

Промпт (Шаг 1 — получить сигналы):

Оцени этот питч как строгий член комиссии Сколково.
Укажи отдельно:
1. Что сильно — где читается реальная ценность проекта
2. Что слабо или вызывает сомнения — конкретные места
3. Что непонятно или требует прояснения

Питч:
[вставь текст]

Промпт (Шаг 3 — переписать подачу под сигналы):

Вот отзыв на питч:
[вставь отзыв]

Вот оригинальный питч:
[вставь текст]

Перепиши только подачу — введение, описание вклада, раздел 
про отличие от конкурентов, заключение. Данные, цифры, 
конкретные обещания не меняй.

Цель: усилить то, что уже было оценено как сильное. 
Слабые места — не оправдывай, а переформулируй контекст 
вокруг них так, чтобы они выглядели нормальным компромиссом, 
а не провалом.

Результат:

На первом шаге модель выдаст структурированный список сигналов — что работает, что нет. На третьем — переписанные смысловые блоки с сохранёнными фактами. После 2-3 итераций оценки станут заметно более позитивными. Ты увидишь, как та же идея звучит убедительнее — за счёт перепозиционирования, а не улучшения самой идеи.


🧠

Почему это работает

LLM не читает текст как следователь, который проверяет каждый аргумент. Она генерирует оценку на основе паттернов в тексте — как частотность сигналов "это сильно" соотносится с сигналами "здесь проблема". Это не баг, это следствие того, как устроено обучение на человеческих оценках.

Отсюда — эффект затопления (swamping effect): если новые достоинства достаточно яркие, итоговая оценка растёт даже при одновременном усилении критики слабых мест. Модель не суммирует плюсы и минусы арифметически — она реагирует на доминирующий сигнал.

Поэтому итерационный цикл работает лучше одного переписывания: каждый раунд уточняет, какие именно сигналы модель воспринимает как значимые — и правки становятся точнее. Это и есть рычаг: не "напиши лучше", а "пойми что модель считает сильным — и сделай это виднее".

Рычаги управления: - Зона правок → чем шире разрешишь переформулировать (аннотация, дискуссия, контекст) — тем больший эффект - Число итераций → 2-3 раунда обычно достаточно, далее прирост мал - Тип правкиперепозиционирование в контексте и расширение дискуссии дают в 3-4 раза больше, чем поверхностный рерайт - Защита сильного → явно говори модели "не меняй то, что уже принято как сильное"


📋

Шаблон промпта

Шаг 1 — извлечь сигналы:

Оцени {текст} как {роль_оценщика}.
Раздели ответ на два блока:

СИЛЬНЫЕ СТОРОНЫ:
— [что работает и почему]

СЛАБЫЕ СТОРОНЫ:
— [что вызывает сомнения, с указанием места в тексте]

Будь конкретен. Не давай общих слов вроде "интересно" или "неплохо".

Шаг 3 — улучшить подачу:

Вот отзыв: {отзыв}

Вот текст: {текст}

Переформулируй {зона_правок} — сохраняя все факты, данные и конкретные утверждения.

Правила:
1. Усиливай то, что уже признали сильным — делай это заметнее
2. Не оправдывай слабые места — переформулируй контекст вокруг них
3. Не добавляй фактов которых нет в оригинале
4. Не трогай: {запретная_зона}

Что подставлять: - {текст} — питч, предложение, описание проекта, статья, резюме - {роль_оценщика} — инвестор, HR, редактор, заказчик - {зона_правок} — введение, описание ценности, позиционирование - {запретная_зона} — цифры, конкретные обязательства, технические детали - {отзыв} — вывод из шага 1


🚀 Быстрый старт — вставь в чат:

Вот шаблон итеративного улучшения подачи текста через AI-обратную связь. 
Адаптируй под мою задачу: [твоя задача].
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит про текст, роль оценщика и что нельзя трогать — потому что без них невозможно отделить "подачу" от "содержания". Она возьмёт структуру цикла и адаптирует под твою задачу.


⚠️

Ограничения

⚠️ Не заменяет реальные улучшения: метод улучшает восприятие — не саму работу. Если текст слабый по сути, несколько итераций это скроют, но не исправят. Используй для раскрытия реальных сильных сторон, не для маскировки пустоты.

⚠️ Работает только в зоне подачи: попытки переформулировать факты или добавить несуществующие аргументы приводят к обратному эффекту — модель становится строже.

⚠️ Асимметрия сохраняется: разрешить критику через переформулировку почти невозможно. В трети случаев — контрпродуктивно. Инвестируй в подачу достоинств, не в полемику с недостатками.

⚠️ Оценка ≠ реальность: то, что модель стала оценивать выше — не значит, что текст стал объективно лучше. Не используй AI-оценку как единственный критерий качества.


🔍

Как исследовали

Команда из UT Austin взяла 500+ свежих препринтов с arXiv (ML, CV, NLP) — таких, что ещё не прошли рецензирование, чтобы исключить утечку данных в модели. Каждую статью прогнали через три AI-рецензента (Claude Sonnet 4, Claude Sonnet 4.5, GPT-5-mini) с официальными гайдлайнами ICLR, NeurIPS и ICML — не упрощёнными инструкциями, а полными.

Атака работала в замкнутом цикле: 6 этапов на раунд, до 8 раундов на статью. Агент читал отзыв, выбирал стратегию из пула 20+ техник и переписывал только "свободную зону" — аннотацию, введение, раздел смежных работ, дискуссию. Данные, уравнения, таблицы не трогались совсем.

Самое интересное — как они избежали артефактов. Оценку проводили попарно: судья-модель сравнивала отзыв ДО и ПОСЛЕ, а не ставила абсолютный балл. Это снизило типичный для LLM эффект "центральной тенденции", когда все оценки сползают к середине шкалы.

Итог удивил: 87% атак на Claude Sonnet 4 прошли успешно при среднем приросте +1.47 балла из 10. Для сравнения — простой однократный рерайт без итерации давал только +0.33. Это показывает: не "что переписали", а "как итерировали" — вот источник эффекта. Особенно поразил swamping effect: в 15.8% случаев, когда балл вырос, критика одновременно стала жёстче — но новые сильные стороны "затопили" её в общей оценке.


📄

Оригинал из исследования

Пул стратегий (из Appendix, по типу эффективности):

Narrative Restructuring (наиболее эффективные):
- Contribution list enhancement (в 87.2% первых успешных раундов)
- Analytical discussion expansion (66.0%)  
- Related work repositioning (44.7%)
- Abstract reframing (42.6%)

Surface Editing (наименее эффективные):
- Local polishing
- Table formatting
- Algorithm box insertion
- Citation formatting

Контекст: Исследователи строили таблицу first-hit attribution — какая стратегия чаще всего появлялась в первом успешном раунде атаки. Это позволило ранжировать техники по реальной ударной силе, а не по частоте использования.


💡

Адаптации и экстраполяции

1. Адаптация: самопроверка перед публикацией

💡 Адаптация для контента и соцсетей: сыграй на асимметрии — попроси AI дать отзыв на пост, затем улучшай только "сигнальные маркеры" ценности, не менять факты.

Прочитай этот пост [текст] и скажи:
— Какие 2-3 места читаются как самые ценные / интересные?
— Что кажется слабым или необязательным?

После ответа — помоги переписать только начало и концовку, 
чтобы сигналы ценности стали заметнее. Основной текст не трогай.

2. Техника: использование асимметрии для получения честного отзыва

🔧 Техника: инвертировать метод → получить более честную критику

Зная, что LLM легко "впечатлить" — попроси её специально игнорировать сильные стороны при оценке:

Оцени этот текст только с позиции слабых мест.
Сильные стороны не упоминай — они мне известны.
Сфокусируйся на том, что можно было бы оспорить или улучшить.

[текст]

Это даёт более честную критику — убирает встроенный перекос на похвалу.


3. Экстраполяция: использование для подготовки к переговорам

Тот же цикл работает для репетиции возражений. Ты описываешь свою позицию — AI играет скептика — ты улучшаешь подачу — повторяешь. Это прямое применение петли "получить отзыв → улучшить фрейминг → проверить снова" — только теперь цель не оценка текста, а устойчивость аргументации к давлению.


🔗

Ресурсы

Название: No Hidden Prompts Needed! You Can Game AI Peer Review with Presentation-Only Revisions

Сайт проекта: https://xyimatvoid.github.io/ARGAR-Site/

Авторы: Xu Yang, Zhizhou Sha, Junbo Li, Jian Yu, Yifan Sun, Matthew Zhao, Jinrui Fang, Xinyue Guo, Yining Wu, Xu Hu, Yifu Luo, Qiang Liu, Zhangyang Wang

Институты: University of Texas at Austin, University of Illinois Urbana-Champaign, University of Texas at Dallas


📋 Дайджест исследования

Ключевая суть

Парадокс: попытки сгладить слабые места в тексте в каждом третьем случае дают обратный результат — LLM становится строже. Метод Adversarial Repackaging позволяет получать более высокие оценки от AI без изменения содержания — только через переформулировку подачи. Фишка в асимметрии: добавлять яркие достоинства работает стабильно и предсказуемо, прятать недостатки — нет. Модель не взвешивает аргументы как человек, она реагирует на доминирующий сигнал в тексте: чем отчётливее выделено «здесь сильно» — тем выше итог, даже если слабые места остались нетронутыми.

Принцип работы

Не оправдывай слабые места — усиливай сильные до тех пор, пока они не перекроют всё остальное. LLM не читает текст как следователь, который проверяет каждый аргумент. Она генерирует оценку по паттернам — насколько часто встречается сигнал «здесь сильно» против «здесь проблема». Работает эффект затопления: если новые достоинства яркие, они перекрывают критику, даже если слабые места остались. Стратегия — не полемизировать с минусами, а наращивать плюсы до тех пор, пока они не заглушат всё остальное. Самые эффективные правки — перепозиционирование относительно аналогов и расширение аналитической дискуссии. Они дают в 3–4 раза больше, чем поверхностный рерайт.

Почему работает

За счёт обучения на человеческих оценках модель выучила: «сигнально богатый» текст — хороший текст. Она не суммирует плюсы и минусы арифметически, а реагирует на частотность и яркость сигналов. Поэтому один цикл переформулировки — слабый инструмент. Итерационный цикл точнее: каждый раунд уточняет, какие именно сигналы модель считает значимыми. В следующей версии эти сигналы делаются заметнее — и оценка растёт. После 2–3 итераций прирост обычно замедляется: модель уже «видит» достоинства на максимуме.

Когда применять

Тексты, которые оценивает AI или проходят AI-скрининг: питчи для инвесторов, заявки на гранты, научные статьи, резюме, коммерческие предложения — особенно когда есть реальные сильные стороны, которые плохо видны в текущей редакции. НЕ подходит для маскировки пустоты: если содержание слабое по сути, метод это не исправит. Используй для раскрытия реальных достоинств, не для создания иллюзий.

Мини-рецепт

1. Получи список сигналов: отправь текст в LLM с ролью строгого оценщика. Попроси чётко разделить сильные и слабые стороны с указанием конкретных мест — никаких «в целом неплохо».
2. Найди точки роста: посмотри, что модель уже признала сильным. Это не то, что надо переписывать — это то, что надо сделать заметнее.
3. Перепиши только подачу: введение, аннотация, описание вклада, позиционирование относительно аналогов, раздел обсуждения результатов. Факты, цифры, конкретные обязательства — не трогай.
4. Не спорь с минусами напрямую: вместо оправданий — переформулируй контекст вокруг слабого места так, чтобы оно выглядело нормальным компромиссом, а не провалом.
5. Повтори 2–3 раза: после каждой итерации сравнивай оценки. После третьего раунда прирост обычно минимальный — это точка остановки.

Примеры

[ПЛОХО]: `Улучши мой питч, он кажется слабым` [ХОРОШО] — Шаг 1, извлечение сигналов: `Оцени этот питч как строгий член инвестиционного комитета. Раздели ответ на два блока: СИЛЬНЫЕ СТОРОНЫ — что работает и почему, СЛАБЫЕ СТОРОНЫ — что вызывает сомнения с указанием конкретного места в тексте. Никаких общих слов вроде «интересно» или «неплохо». Питч: [текст]` [ХОРОШО] — Шаг 3, улучшение подачи: `Вот отзыв: [отзыв]. Вот питч: [текст]. Перепиши введение, описание ценности и раздел про отличие от конкурентов. Все цифры, обязательства и конкретные факты оставь без изменений. Усиль то, что уже признано сильным — сделай это заметнее. Слабые места не оправдывай, переформулируй контекст вокруг них так, чтобы они выглядели осознанным компромиссом`
Источник: No Hidden Prompts Needed! You Can Game AI Peer Review with Presentation-Only Revisions
ArXiv ID: 2606.13044 | Сгенерировано: 2026-06-12 04:23

Проблемы LLM

ПроблемаСутьКак обойти
Модель оценивает плотность сигналов, а не силу аргументовПросишь LLM оценить текст. Она не взвешивает аргументы как судья. Она реагирует на то, каких сигналов больше: «здесь сильно» или «здесь слабо». Два текста с одинаковыми фактами и данными получают разные оценки — потому что в одном сигналы «это хорошо» виднее. Работает для любых задач: рецензия, питч, резюме, предложениеНе улучшай содержание — улучшай видимость уже существующих достоинств. Перепиши введение, описание вклада и контекст вокруг слабых мест. Данные и факты не трогай

Методы

МетодСуть
Цикл улучшения подачи через обратную связьШаг 1: Попроси модель оценить текст строго. Раздели ответ на два блока: сильные стороны и слабые — с указанием конкретных мест. Шаг 2: Перепиши только «зону подачи»: введение, описание ценности, позиционирование на фоне аналогов, раздел обсуждения. Правило: факты, цифры, конкретные обязательства — не трогай. Шаг 3: Отправь новый текст на оценку снова. Принимай версию только если сильные стороны выросли, а слабые не ухудшились. Шаг 4: Повтори 2–3 раза. Дальше прирост мал. Почему работает: каждый раунд уточняет, какие сигналы модель считает значимыми. Правки становятся точнее. Когда не работает: если пытаешься добавить несуществующие факты или переписать данные — модель становится строже

Тезисы

ТезисКомментарий
Усиливать достоинства надёжнее, чем скрывать недостаткиЕсть два способа поднять оценку: показать больше сильного или спрятать слабое. Первый работает стабильно. Второй — в трети случаев даёт обратный эффект: модель становится строже. Механика: модель не «прощает» проблему если её переформулировать — она замечает попытку уйти от ответа. А новое яркое достоинство добавляет сигнал без конфликта с существующими. Применяй: в промпте явно пиши «не трогай то, что уже признано сильным» и «не оправдывай слабые места — меняй только контекст вокруг них»
📖 Простыми словами

No HiddenPromptsNeeded! You Can GameAIPeer Review with Presentation-Only Revisions

arXiv: 2606.13044

Нейросети-рецензенты оценивают твой текст не как дотошные следователи, а как поверхностные критики, которые ведутся на обертку. Корень проблемы в том, что LLM не вникает в суть твоих доказательств, а просто считывает паттерны уверенности и знакомые маркеры качества. Если ты подаешь гениальную идею сухим и неуверенным языком, модель решит, что это мусор, потому что в ее обучающей выборке плохие работы выглядели именно так. Это фундаментальный сбой: форма доминирует над содержанием, и машина ставит оценку не за логику, а за то, насколько твой текст «похож на отличный».

Это как прийти на свидание в костюме-тройке, но с пустыми карманами. Девушка (в нашем случае — нейросеть) считывает внешние атрибуты успеха и авансом записывает тебя в список перспективных женихов. Ты можешь нести полную чушь, но если ты делаешь это с правильной интонацией и в дорогих туфлях, рейтинг доверия взлетает. Исследование показало, что достаточно просто переупаковать фасад — аннотацию или выводы — и модель тут же меняет гнев на милость, хотя «внутри» статьи ничего не поменялось.

Что реально работает: агрессивное позиционирование вклада (четко скажи, что ты совершил революцию), накачка авторитетом через раздел со смежными работами и правильный тон в дискуссии. Авторы доказали, что косметические правки в подаче материала дают значительный прирост баллов без изменения единой цифры в данных. Если ты используешь правильные триггеры, которые LLM привыкла видеть в топовых статьях, она автоматически достраивает образ качественного исследования. Это чистой воды презентационный взлом, где ты манипулируешь ожиданиями алгоритма.

Тестировали это на научных статьях, но принцип универсален. Эта механика работает везде, где твой текст проверяет AI: питчи на гранты, резюме для HR-фильтров, описания стартапов для инвесторов. Если ты пишешь заявку в Сколково, не надейся, что нейросеть оценит глубину твоей технологии. Ей нужно скормить сигналы успеха, которые она видела в тысячах одобренных заявок. SEO для смыслов уходит в прошлое, наступает эпоха манипуляции восприятием модели.

Короче: если твой текст «завернули», не спеши переделывать суть — просто смени обертку. Хватит быть скромным и надеяться на объективность алгоритма, потому что объективности в LLM не существует. Используй проверенные паттерны подачи, выкручивай уверенность на максимум и помни, что казаться лучше для нейросети важнее, чем быть лучше. Кто научится «хакать» рецензента через презентацию, тот заберет все ресурсы, пока остальные будут возиться с качеством продукта.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с