TL;DR
LLM-рецензент ставит разные оценки одному и тому же тексту в зависимости от того, как он подан — даже если все факты, данные и аргументы остались неизменными. Авторы показали это на научных статьях: меняли только аннотацию, формулировку вклада, раздел со смежными работами и дискуссию — и получали значительно более высокие оценки.
Главная находка — асимметрия силы и слабости: LLM легче «впечатлить» новыми достоинствами, чем заставить её закрыть глаза на недостатки. Попытки сгладить критику срабатывают ненадёжно: в 31% случаев модель реагирует обратно — становится строже. А вот добавление ярких сильных сторон работает стабильно и предсказуемо. Причина: модель не взвешивает аргументы как человек — она реагирует на сигнальную насыщенность текста. Чем отчётливее выделен сигнал «здесь сильно» — тем выше итог, даже если рядом есть нерешённые проблемы.
Метод использует это закономерность через замкнутый цикл: отправил текст → получил отзыв → перефразировал подачу (не содержание!) под найденные сигналы → повторил. Самые эффективные правки — перепозиционирование в контексте (как ты выглядишь на фоне других) и расширение аналитической дискуссии (глубина разбора своих результатов), а не поверхностный рерайт.
Схема метода
ШАГ 1: Profile — получи отзыв LLM, извлеки сигналы
→ список: что хвалит, что критикует, с какой интенсивностью
ШАГ 2: Plan — выбери стратегию правки под сигналы
→ приоритет: усиливай уже признанные достоинства,
не трогай то, что уже работает, избегай провальных правок
ШАГ 3: Edit — переформулируй подачу (не факты, не данные)
Свободная зона: введение, аннотация, дискуссия, смежные работы
Ограниченная: can rephrase, not change facts
Запретная: данные, цифры, таблицы, доказательства
ШАГ 4: Review — отправь обновлённый текст на оценку снова
ШАГ 5: Evaluate — сравни с предыдущей версией
Принять, если: сильные стороны выросли И слабые не ухудшились
ШАГ 6: Update — сохрани лучшую версию, повтори с шага 1
Все шаги выполняются в отдельных запросах к LLM. Это разговор, не код.
Пример применения
Задача: Ты написал питч на грант от Сколково на 3 млн рублей. Отправил коллеге — тот сказал "слабовато". Хочешь улучшить подачу перед отправкой, не меняя само предложение.
Промпт (Шаг 1 — получить сигналы):
Оцени этот питч как строгий член комиссии Сколково.
Укажи отдельно:
1. Что сильно — где читается реальная ценность проекта
2. Что слабо или вызывает сомнения — конкретные места
3. Что непонятно или требует прояснения
Питч:
[вставь текст]
Промпт (Шаг 3 — переписать подачу под сигналы):
Вот отзыв на питч:
[вставь отзыв]
Вот оригинальный питч:
[вставь текст]
Перепиши только подачу — введение, описание вклада, раздел
про отличие от конкурентов, заключение. Данные, цифры,
конкретные обещания не меняй.
Цель: усилить то, что уже было оценено как сильное.
Слабые места — не оправдывай, а переформулируй контекст
вокруг них так, чтобы они выглядели нормальным компромиссом,
а не провалом.
Результат:
На первом шаге модель выдаст структурированный список сигналов — что работает, что нет. На третьем — переписанные смысловые блоки с сохранёнными фактами. После 2-3 итераций оценки станут заметно более позитивными. Ты увидишь, как та же идея звучит убедительнее — за счёт перепозиционирования, а не улучшения самой идеи.
Почему это работает
LLM не читает текст как следователь, который проверяет каждый аргумент. Она генерирует оценку на основе паттернов в тексте — как частотность сигналов "это сильно" соотносится с сигналами "здесь проблема". Это не баг, это следствие того, как устроено обучение на человеческих оценках.
Отсюда — эффект затопления (swamping effect): если новые достоинства достаточно яркие, итоговая оценка растёт даже при одновременном усилении критики слабых мест. Модель не суммирует плюсы и минусы арифметически — она реагирует на доминирующий сигнал.
Поэтому итерационный цикл работает лучше одного переписывания: каждый раунд уточняет, какие именно сигналы модель воспринимает как значимые — и правки становятся точнее. Это и есть рычаг: не "напиши лучше", а "пойми что модель считает сильным — и сделай это виднее".
Рычаги управления: - Зона правок → чем шире разрешишь переформулировать (аннотация, дискуссия, контекст) — тем больший эффект - Число итераций → 2-3 раунда обычно достаточно, далее прирост мал - Тип правки → перепозиционирование в контексте и расширение дискуссии дают в 3-4 раза больше, чем поверхностный рерайт - Защита сильного → явно говори модели "не меняй то, что уже принято как сильное"
Шаблон промпта
Шаг 1 — извлечь сигналы:
Оцени {текст} как {роль_оценщика}.
Раздели ответ на два блока:
СИЛЬНЫЕ СТОРОНЫ:
— [что работает и почему]
СЛАБЫЕ СТОРОНЫ:
— [что вызывает сомнения, с указанием места в тексте]
Будь конкретен. Не давай общих слов вроде "интересно" или "неплохо".
Шаг 3 — улучшить подачу:
Вот отзыв: {отзыв}
Вот текст: {текст}
Переформулируй {зона_правок} — сохраняя все факты, данные и конкретные утверждения.
Правила:
1. Усиливай то, что уже признали сильным — делай это заметнее
2. Не оправдывай слабые места — переформулируй контекст вокруг них
3. Не добавляй фактов которых нет в оригинале
4. Не трогай: {запретная_зона}
Что подставлять:
- {текст} — питч, предложение, описание проекта, статья, резюме
- {роль_оценщика} — инвестор, HR, редактор, заказчик
- {зона_правок} — введение, описание ценности, позиционирование
- {запретная_зона} — цифры, конкретные обязательства, технические детали
- {отзыв} — вывод из шага 1
🚀 Быстрый старт — вставь в чат:
Вот шаблон итеративного улучшения подачи текста через AI-обратную связь.
Адаптируй под мою задачу: [твоя задача].
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит про текст, роль оценщика и что нельзя трогать — потому что без них невозможно отделить "подачу" от "содержания". Она возьмёт структуру цикла и адаптирует под твою задачу.
Ограничения
⚠️ Не заменяет реальные улучшения: метод улучшает восприятие — не саму работу. Если текст слабый по сути, несколько итераций это скроют, но не исправят. Используй для раскрытия реальных сильных сторон, не для маскировки пустоты.
⚠️ Работает только в зоне подачи: попытки переформулировать факты или добавить несуществующие аргументы приводят к обратному эффекту — модель становится строже.
⚠️ Асимметрия сохраняется: разрешить критику через переформулировку почти невозможно. В трети случаев — контрпродуктивно. Инвестируй в подачу достоинств, не в полемику с недостатками.
⚠️ Оценка ≠ реальность: то, что модель стала оценивать выше — не значит, что текст стал объективно лучше. Не используй AI-оценку как единственный критерий качества.
Как исследовали
Команда из UT Austin взяла 500+ свежих препринтов с arXiv (ML, CV, NLP) — таких, что ещё не прошли рецензирование, чтобы исключить утечку данных в модели. Каждую статью прогнали через три AI-рецензента (Claude Sonnet 4, Claude Sonnet 4.5, GPT-5-mini) с официальными гайдлайнами ICLR, NeurIPS и ICML — не упрощёнными инструкциями, а полными.
Атака работала в замкнутом цикле: 6 этапов на раунд, до 8 раундов на статью. Агент читал отзыв, выбирал стратегию из пула 20+ техник и переписывал только "свободную зону" — аннотацию, введение, раздел смежных работ, дискуссию. Данные, уравнения, таблицы не трогались совсем.
Самое интересное — как они избежали артефактов. Оценку проводили попарно: судья-модель сравнивала отзыв ДО и ПОСЛЕ, а не ставила абсолютный балл. Это снизило типичный для LLM эффект "центральной тенденции", когда все оценки сползают к середине шкалы.
Итог удивил: 87% атак на Claude Sonnet 4 прошли успешно при среднем приросте +1.47 балла из 10. Для сравнения — простой однократный рерайт без итерации давал только +0.33. Это показывает: не "что переписали", а "как итерировали" — вот источник эффекта. Особенно поразил swamping effect: в 15.8% случаев, когда балл вырос, критика одновременно стала жёстче — но новые сильные стороны "затопили" её в общей оценке.
Оригинал из исследования
Пул стратегий (из Appendix, по типу эффективности):
Narrative Restructuring (наиболее эффективные):
- Contribution list enhancement (в 87.2% первых успешных раундов)
- Analytical discussion expansion (66.0%)
- Related work repositioning (44.7%)
- Abstract reframing (42.6%)
Surface Editing (наименее эффективные):
- Local polishing
- Table formatting
- Algorithm box insertion
- Citation formatting
Контекст: Исследователи строили таблицу first-hit attribution — какая стратегия чаще всего появлялась в первом успешном раунде атаки. Это позволило ранжировать техники по реальной ударной силе, а не по частоте использования.
Адаптации и экстраполяции
1. Адаптация: самопроверка перед публикацией
💡 Адаптация для контента и соцсетей: сыграй на асимметрии — попроси AI дать отзыв на пост, затем улучшай только "сигнальные маркеры" ценности, не менять факты.
Прочитай этот пост [текст] и скажи:
— Какие 2-3 места читаются как самые ценные / интересные?
— Что кажется слабым или необязательным?
После ответа — помоги переписать только начало и концовку,
чтобы сигналы ценности стали заметнее. Основной текст не трогай.
2. Техника: использование асимметрии для получения честного отзыва
🔧 Техника: инвертировать метод → получить более честную критику
Зная, что LLM легко "впечатлить" — попроси её специально игнорировать сильные стороны при оценке:
Оцени этот текст только с позиции слабых мест.
Сильные стороны не упоминай — они мне известны.
Сфокусируйся на том, что можно было бы оспорить или улучшить.
[текст]
Это даёт более честную критику — убирает встроенный перекос на похвалу.
3. Экстраполяция: использование для подготовки к переговорам
Тот же цикл работает для репетиции возражений. Ты описываешь свою позицию — AI играет скептика — ты улучшаешь подачу — повторяешь. Это прямое применение петли "получить отзыв → улучшить фрейминг → проверить снова" — только теперь цель не оценка текста, а устойчивость аргументации к давлению.
Ресурсы
Название: No Hidden Prompts Needed! You Can Game AI Peer Review with Presentation-Only Revisions
Сайт проекта: https://xyimatvoid.github.io/ARGAR-Site/
Авторы: Xu Yang, Zhizhou Sha, Junbo Li, Jian Yu, Yifan Sun, Matthew Zhao, Jinrui Fang, Xinyue Guo, Yining Wu, Xu Hu, Yifu Luo, Qiang Liu, Zhangyang Wang
Институты: University of Texas at Austin, University of Illinois Urbana-Champaign, University of Texas at Dallas
