3,583 papers
arXiv:2605.28897 72 27 мая 2026 г. FREE

ISI: итеративная петля «рецензия → правка» для улучшения текста через LLM

КЛЮЧЕВАЯ СУТЬ
Парадокс: детальная инструкция для рецензента работает не лучше однострочной «просто проверь». Чем больше критериев — тем сильнее модель «дрейфует» под них и теряет общую картину. Метод ISI позволяет улучшать любой текст через петлю «рецензия → правка», повторённую 3–5 раз. Фишка: разбей на два отдельных запроса — сначала только рецензия, потом только правка. В режиме «не меняй суть, только ясность» результат стабильнее и сильнее, чем когда просишь «переделай как хочешь».
Адаптировать под запрос

TL;DR

Итеративное улучшение через LLM-рецензию (ISI) — это петля: просишь модель рецензировать твой текст, потом просишь переписать его на основе рецензии, повторяешь N раз. Исследование показывает, что даже чисто косметические правки без изменения сути — улучшение формулировок, структуры, ясности — статистически значимо повышают оценку текста.

Главная боль: когда просишь LLM оценить текст, кажется, что ответ объективный. Но это иллюзия. Одна и та же статья, один и тот же промпт — и модель даёт разные scores в 37% случаев. Смени промпт — результат кардинально меняется. Более «умный» и детальный промпт для рецензии не даёт лучшего результата, чем однострочный «просто проверь».

ISI работает так: просишь модель дать рецензию → просишь её же (или другую) улучшить текст на основе этой рецензии → повторяешь цикл. Важный инсайт: в режиме «только косметика» (не меняй суть, только ясность и формулировки) улучшение стабильнее и сильнее, чем в режиме «делай что хочешь».


🔬

Схема метода

Все шаги выполняются в чате — в одной или двух вкладках. Оптимально: 3–5 итераций.

ШАГ 1 (отдельный запрос): Рецензия
  Вход: твой текст
  Задача: найди слабые места, что непонятно, что мешает убедить
  Вывод: список конкретных замечаний (strengths + weaknesses)

ШАГ 2 (отдельный запрос): Правка
  Вход: текст + рецензия из шага 1
  Задача: улучши текст, не меняя суть — только ясность, структуру, формулировки
  Вывод: улучшенный текст

Повторить ШАГ 1 → ШАГ 2 ещё 2–4 раза на новом варианте

🚀

Пример применения

Задача: Написал описание своего продукта или услуги на лендинге. Хочешь, чтобы текст лучше конвертировал — более убедительно, ясно, без лишней воды.

Промпт — Шаг 1 (рецензия):

Ты — строгий потенциальный клиент, который читает описание продукта.

Прочитай текст ниже и дай рецензию:
1. Какие аргументы убеждают, а какие — слабые или непонятные?
2. Что вызывает вопросы или сомнения?
3. Что мешает принять решение о покупке/регистрации?

Текст:
[вставить текст лендинга]

Промпт — Шаг 2 (правка):

Ниже — оригинальный текст и список замечаний к нему.

Улучши текст на основе замечаний. Правила:
- Не меняй суть, факты, предложения продукта
- Только уточняй формулировки, убирай размытость, улучшай структуру
- Там где аргумент слабый — формулируй чётче, не добавляй выдуманных фактов

Оригинальный текст:
[текст]

Замечания:
[вставить рецензию из шага 1]

Результат: Модель предложит переработанный текст — более конкретный, с более чёткими аргументами. Повторив цикл 3–4 раза, получишь версию, которая каждый проход закрывает новые слабые места. Не ждёт радикальной переработки — каждая итерация небольшая, но суммарный эффект ощутим.


🧠

Почему это работает

LLM плохо делает всё сразу. Когда просишь «напиши хороший текст» — модель генерирует что-то приемлемое, но не может одновременно быть и автором, и критиком. Это как писать и редактировать в одной голове — мозг пропускает собственные ошибки.

Разделение ролей снимает этот конфликт. Модель-рецензент смотрит на текст «холодным взглядом» и замечает то, что при написании казалось очевидным. Модель-редактор работает с конкретным списком проблем — у неё есть цель, а не абстрактное «сделай лучше».

Ключевой контринтуитивный вывод: подробный, детальный промпт для рецензии не работает лучше простого. Чем сложнее инструкция, тем больше модель начинает «дрейфовать» под конкретные критерии и терять общую картину. Простой промпт — более нейтральный и менее предвзятый рецензент.

Рычаги управления: - Роль рецензента → меняй под свою задачу: строгий клиент, инвестор, HR, скептичный коллега - Ограничения правки → «только ясность» даёт стабильный результат; «меняй что угодно» — непредсказуемо - Число итераций → 3–5 оптимально; после 7–10 эффект плато - Один промпт vs цепочка → лучше два отдельных запроса: сначала рецензия, потом правка


📋

Шаблон промпта

Шаг 1 — Рецензия:

Ты — {роль рецензента: строгий клиент / инвестор / HR / эксперт в теме}.

Прочитай {тип текста: описание продукта / письмо / статью / предложение} ниже.

Дай рецензию по структуре:
СИЛЬНЫЕ СТОРОНЫ: что работает и почему
СЛАБЫЕ СТОРОНЫ: что непонятно, неубедительно или лишнее
ГЛАВНЫЕ ВОПРОСЫ: что ты спросил бы автора после прочтения

Текст:
{вставить текст}

Шаг 2 — Правка:

Ниже — текст и рецензия к нему.

Улучши текст по замечаниям из рецензии.
Ограничения: {выбери нужное}
- [мягкий режим] только уточняй формулировки и структуру, не меняй суть
- [жёсткий режим] переработай полностью, сохранив только ключевые факты

Текст: {текст}
Рецензия: {рецензия из шага 1}

Плейсхолдеры: - {роль рецензента} — кто читает твой текст в реальности - {тип текста} — что именно улучшаешь - {текст} — твой исходный материал - {ограничения} — мягкий режим сохраняет суть, жёсткий перерабатывает


🚀 Быстрый старт — вставь в чат:

Вот схема ISI — итеративного улучшения текста через рецензию.
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы понять что улучшать и кто мой читатель.

[вставить шаблоны шага 1 и шага 2 выше]

LLM уточнит роль рецензента и тип текста — потому что именно от этих параметров зависит, что считать «слабым местом» в твоём конкретном случае. После этого она адаптирует шаблон и запустит первую итерацию.


⚠️

Ограничения

⚠️ Нестабильность оценки: Один и тот же текст, один и тот же промпт — в трети случаев модель даст разные оценки при повторном запросе. Не суди текст по одному прогону: запусти рецензию 3 раза и смотри на паттерны, не на конкретные слова.

⚠️ Слабее на «отличном» контенте: LLM лучше замечает явные слабости, чем различает «хорошее» от «отличного». Если текст уже качественный, рецензент начнёт придираться по мелочам.

⚠️ Промпт-зависимость: Смена формулировки в промпте рецензии кардинально меняет результат. Это значит: LLM-рецензент не «объективный эксперт», а зеркало твоего промпта. Не принимай его оценку за истину.

⚠️ Не для фактчекинга: ISI улучшает ясность и убедительность, но не проверяет достоверность фактов. Модель может «улучшить» текст с ошибкой, сделав её звучать убедительнее.


🔍

Как исследовали

Команда взяла 984 реальные научные статьи из ACL Rolling Review 2025 — с настоящими оценками от человеческих рецензентов. Это важно: не искусственные тексты, а настоящие заявки на топовую конференцию по NLP. Затем они попросили несколько LLM (GPT-5.4, Qwen, Gemma, Llama) написать рецензии с пятью разными промптами — от минимального однострочного до подробного с инструкциями конкретной конференции.

Сюрприз первый: лучший промпт для одной модели — худший для другой. И вообще нет стабильного «победителя» среди промптов. Иногда простой однострочник "review this paper" обгонял детальные инструкции — потому что чем сложнее инструкция, тем сильнее модель смещается в одну сторону (слишком строгая или слишком мягкая).

Сюрприз второй: когда запускали один и тот же промпт с температурой 1.0 трижды, у 37% статей хотя бы один из трёх прогонов давал другой балл. У 20% — разница больше полбалла на 5-балльной шкале. Это не «погрешность» — это системная нестабильность.

Для ISI-эксперимента: взяли 10 итераций правки с тремя режимами (косметика, нейтральный, агрессивный с выдумыванием фактов). Неожиданно: агрессивный режим (фабрикация результатов) дал меньший эффект, чем косметический. Гипотеза: выдуманные данные создают внутренние противоречия в тексте, которые следующая рецензия и замечает.


💡

Адаптации и экстраполяции

🔧 Три рецензента вместо одного → снижение нестабильности

Раз одна рецензия нестабильна — запусти три с разными ролями. Смотри на пересечение критики: то, что заметили все трое — реальная проблема. Уникальные замечания — шум.

Дай рецензию на текст ниже от трёх разных ролей:
РОЛЬ 1 — Скептичный клиент, который ищет повод отказать
РОЛЬ 2 — Лояльный читатель, которому текст нравится, но он ищет непонятное
РОЛЬ 3 — Редактор, которому важна только ясность и структура

Для каждой роли: 3 главных замечания.

Текст: {текст}

После — попроси: «Какие замечания повторяются во всех трёх ролях? Именно их исправь в первую очередь.»

🔧 Техника «заморозки» → защита от нежелательных изменений

Добавь в промпт правки список элементов, которые нельзя трогать: конкретные цифры, названия, обещания, тон. Без этого ограничения модель при агрессивной правке может исказить суть.


🔗

Ресурсы

Review Arcade: On the Human Alignment and Gameability of LLM Reviews GitHub: https://github.com/uhh-hcds/reviewarcade

Авторы: Hans Ole Hatzel, Sebastian Steindl, Jan Strich Организации: Language Technology Group, University of Hamburg; Hub of Computing and Data Science (HCDS), University of Hamburg; OTH Amberg-Weiden

Связанные работы: NLPeer dataset (Dycke et al., 2023); Paper laundering (Baumann et al., 2026); LLM usage in peer review (Liang et al., 2024)


📋 Дайджест исследования

Ключевая суть

Парадокс: детальная инструкция для рецензента работает не лучше однострочной «просто проверь». Чем больше критериев — тем сильнее модель «дрейфует» под них и теряет общую картину. Метод ISI позволяет улучшать любой текст через петлю «рецензия → правка», повторённую 3–5 раз. Фишка: разбей на два отдельных запроса — сначала только рецензия, потом только правка. В режиме «не меняй суть, только ясность» результат стабильнее и сильнее, чем когда просишь «переделай как хочешь».

Принцип работы

Не проси модель «улучши текст» — это как просить шеф-повара готовить и одновременно дегустировать. Он верит своему блюду. Внешний дегустатор — нет. Разделение ролей снимает конфликт: рецензент смотрит холодным взглядом, редактор работает с конкретным списком проблем — а не с абстрактным «сделай лучше». Схема: Рецензент (роль = твой реальный читатель) → список слабостей → Редактор правит по списку → повторить. Ограничение «только формулировки, суть не трогай» не ослабляет метод. Наоборот — делает его предсказуемым.

Почему работает

LLM не может одновременно писать и критиковать. При генерации модель «верит» своему тексту. В отдельном запросе на рецензию — смотрит как на чужой. Разные режимы работы одной модели. Ключевой инсайт: простой промпт нейтральнее детального — он не навязывает критерии, а даёт модели заметить реальные слабости самостоятельно. Детальный промпт загоняет в рамки — модель оценивает только то, что ей велели, и пропускает остальное. Отдельное предупреждение: один и тот же текст с одним и тем же промптом даёт разные оценки в 37% случаев. Это не баг твоего текста — это нестабильность модели. Не суди по одному прогону.

Когда применять

Тексты для убеждения → лендинги, коммерческие предложения, письма, заявки — особенно когда написано, но что-то «не цепляет». Статьи и посты → когда хочешь проверить, понятно ли для целевого читателя, а не для себя. НЕ подходит для проверки фактов: ISI улучшает ясность и убедительность, но не проверяет достоверность. Слабый аргумент после правки будет звучать увереннее — но останется слабым.

Мини-рецепт

1. Определи роль рецензента: кто реально читает твой текст — скептичный клиент, инвестор, работодатель, строгий коллега. Чем точнее роль — тем полезнее рецензия.
2. Запрос 1 — только рецензия: Ты — [роль]. Прочитай текст ниже. Что убеждает и почему? Что слабо, непонятно или вызывает сомнение? Какие вопросы остаются после прочтения? Текст: [твой текст]
3. Запрос 2 — только правка: Улучши текст по замечаниям из рецензии. Не меняй суть, факты и предложения — только уточняй формулировки, убирай размытость, улучшай структуру. Текст: [текст]. Замечания: [рецензия из шага 1]
4. Повтори цикл 3–4 раза на новом варианте. Каждый проход закрывает новые слабые места. После 5–7 итераций — плато, дальше смысла нет.
5. Хочешь проверить итоговый текст: запусти рецензию 3 раза подряд на финальной версии. Смотри не на конкретные слова, а на повторяющиеся замечания — они и есть реальные слабости.

Примеры

[ПЛОХО] : Улучши мой текст лендинга, сделай его более убедительным
[ХОРОШО] : Запрос 1: Ты — потенциальный клиент, который выбирает между тремя похожими сервисами и пока не убеждён. Прочитай описание продукта ниже. Что тебя убеждает? Что вызывает сомнения или вопросы? Что мешает принять решение? Текст: [текст лендинга] — после получения рецензии: Запрос 2: Улучши текст по замечаниям. Не меняй суть продукта и предложения — только точнее формулируй, убирай размытость и лишние слова. Текст: [текст]. Замечания: [рецензия] — повторить 3–4 раза на каждом новом варианте.
Источник: Review Arcade: On the Human Alignment and Gameability of LLM Reviews
ArXiv ID: 2605.28897 | Сгенерировано: 2026-05-29 15:42

Проблемы LLM

ПроблемаСутьКак обойти
Оценка текста от модели нестабильнаПросишь модель оценить текст. Получаешь конкретные слова и цифры. Кажется объективным. Но запусти тот же запрос с тем же текстом ещё раз — в каждом третьем случае оценка другая. Разные акценты, другие выводы, другой тон. Нельзя доверять одному прогону как "истине"Запускай рецензию три раза. Смотри не на конкретные слова, а на паттерн. Что повторяется во всех трёх — то реальная проблема. Что появилось один раз — случайный шум

Методы

МетодСуть
Два отдельных запроса: сначала критик, потом редакторНе проси модель "улучши текст" одним запросом. Разбей на два. Запрос 1: "Ты — [кто читает твой текст]. Найди слабые места: что непонятно, что неубедительно, что вызывает вопросы." Запрос 2: "Вот текст и список замечаний. Улучши только ясность и структуру. Суть не меняй." Повтори 3–5 раз. Почему работает: Модель не может одновременно быть автором и критиком — как человек не видит своих опечаток. Разделение даёт "холодный взгляд" на первом шаге и конкретную цель на втором. Когда применять: любой текст где важна убедительность — письма, описания, предложения. Ограничение: не проверяет факты. Слабый аргумент может зазвучать убедительнее, но остаться слабым

Тезисы

ТезисКомментарий
Сложный промпт рецензии хуже простогоКажется логичным: чем детальнее инструкция рецензенту — тем точнее оценка. Работает наоборот. Детальный промпт заставляет модель смотреть только в заданном направлении. Она оценивает текст через твои критерии, а не видит общую картину. Простой промпт ("найди слабые места") — нейтральнее. Модель сама решает на что смотреть. Применяй: начинай с короткого запроса на рецензию. Усложняй только если результат слишком поверхностный
📖 Простыми словами

Review Arcade: On the Human Alignment and Gameability ofLLMReviews

arXiv: 2605.28897

Суть метода ISI (Iterative Self-Improvement) в том, что нейронки, как и люди, не умеют одновременно творить и критиковать. Когда ты просишь модель «напиши круто», она выдает средний результат, потому что ее фокус размыт. Но если заставить её работать в режиме петли — сначала написать, потом отдельно отрецензировать свой же бред, а затем переписать по пунктам этой рецензии — происходит магия. На уровне архитектуры это работает потому, что на этапе критики модель активирует другие паттерны внимания, замечая логические дыры и «воду», которые она сама же и нагенерила секунду назад.

Это как если бы ты писал диплом в три часа ночи: в моменте кажется, что ты гений, но стоит проспаться и взглянуть на текст свежим взглядом, как хочется всё сжечь. Метод ISI — это способ заставить нейронку «проспаться» за пять секунд. Ты буквально вытаскиваешь её из роли графомана и сажаешь в кресло душного редактора, который не прощает ни одного лишнего прилагательного. Формально текст остается тем же, но качество вылетает в стратосферу.

Исследование подтвердило забавный и немного пугающий факт: чисто косметические правки повышают итоговую оценку текста, даже если суть не изменилась ни на йоту. Работают конкретные приемы: улучшение структуры (чтобы глаз не спотыкался), повышение ясности (выкидываем канцелярит) и стилистическая полировка. Оптимально прогонять текст через 3–5 итераций рецензирования. Меньше — не добьешься блеска, больше — модель начнет «галлюцинировать» и портить то, что уже было нормально.

Тестировали это на академических текстах, но принцип универсален для любого контента, от описания пылесоса на маркетплейсе до твоего резюме. Если ты просто выплюнул текст из ChatGPT и запостил его — ты проиграл. SEO-тексты и лендинги, прогнанные через петлю рецензирования, выглядят для алгоритмов и людей на голову выше, потому что в них банально меньше «шума». Это превращает обычный промптинг в Review Arcade — игру, где каждая итерация добавляет тексту очков убедительности.

Короче: никогда не бери первый вариант, который выдала нейронка — это всегда черновик для корзины. Заставляй модель критиковать саму себя минимум трижды, пока текст не станет звенеть от четкости. Итеративное улучшение — это единственный способ выжать из LLM результат уровня «топ-1%», а не «среднее по больнице». Кто ленится и не делает ревью, тот кормит читателей текстовым мусором, который вроде бы ок, но никого не цепляет.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с