TL;DR
Итеративное улучшение через LLM-рецензию (ISI) — это петля: просишь модель рецензировать твой текст, потом просишь переписать его на основе рецензии, повторяешь N раз. Исследование показывает, что даже чисто косметические правки без изменения сути — улучшение формулировок, структуры, ясности — статистически значимо повышают оценку текста.
Главная боль: когда просишь LLM оценить текст, кажется, что ответ объективный. Но это иллюзия. Одна и та же статья, один и тот же промпт — и модель даёт разные scores в 37% случаев. Смени промпт — результат кардинально меняется. Более «умный» и детальный промпт для рецензии не даёт лучшего результата, чем однострочный «просто проверь».
ISI работает так: просишь модель дать рецензию → просишь её же (или другую) улучшить текст на основе этой рецензии → повторяешь цикл. Важный инсайт: в режиме «только косметика» (не меняй суть, только ясность и формулировки) улучшение стабильнее и сильнее, чем в режиме «делай что хочешь».
Схема метода
Все шаги выполняются в чате — в одной или двух вкладках. Оптимально: 3–5 итераций.
ШАГ 1 (отдельный запрос): Рецензия
Вход: твой текст
Задача: найди слабые места, что непонятно, что мешает убедить
Вывод: список конкретных замечаний (strengths + weaknesses)
ШАГ 2 (отдельный запрос): Правка
Вход: текст + рецензия из шага 1
Задача: улучши текст, не меняя суть — только ясность, структуру, формулировки
Вывод: улучшенный текст
Повторить ШАГ 1 → ШАГ 2 ещё 2–4 раза на новом варианте
Пример применения
Задача: Написал описание своего продукта или услуги на лендинге. Хочешь, чтобы текст лучше конвертировал — более убедительно, ясно, без лишней воды.
Промпт — Шаг 1 (рецензия):
Ты — строгий потенциальный клиент, который читает описание продукта.
Прочитай текст ниже и дай рецензию:
1. Какие аргументы убеждают, а какие — слабые или непонятные?
2. Что вызывает вопросы или сомнения?
3. Что мешает принять решение о покупке/регистрации?
Текст:
[вставить текст лендинга]
Промпт — Шаг 2 (правка):
Ниже — оригинальный текст и список замечаний к нему.
Улучши текст на основе замечаний. Правила:
- Не меняй суть, факты, предложения продукта
- Только уточняй формулировки, убирай размытость, улучшай структуру
- Там где аргумент слабый — формулируй чётче, не добавляй выдуманных фактов
Оригинальный текст:
[текст]
Замечания:
[вставить рецензию из шага 1]
Результат: Модель предложит переработанный текст — более конкретный, с более чёткими аргументами. Повторив цикл 3–4 раза, получишь версию, которая каждый проход закрывает новые слабые места. Не ждёт радикальной переработки — каждая итерация небольшая, но суммарный эффект ощутим.
Почему это работает
LLM плохо делает всё сразу. Когда просишь «напиши хороший текст» — модель генерирует что-то приемлемое, но не может одновременно быть и автором, и критиком. Это как писать и редактировать в одной голове — мозг пропускает собственные ошибки.
Разделение ролей снимает этот конфликт. Модель-рецензент смотрит на текст «холодным взглядом» и замечает то, что при написании казалось очевидным. Модель-редактор работает с конкретным списком проблем — у неё есть цель, а не абстрактное «сделай лучше».
Ключевой контринтуитивный вывод: подробный, детальный промпт для рецензии не работает лучше простого. Чем сложнее инструкция, тем больше модель начинает «дрейфовать» под конкретные критерии и терять общую картину. Простой промпт — более нейтральный и менее предвзятый рецензент.
Рычаги управления: - Роль рецензента → меняй под свою задачу: строгий клиент, инвестор, HR, скептичный коллега - Ограничения правки → «только ясность» даёт стабильный результат; «меняй что угодно» — непредсказуемо - Число итераций → 3–5 оптимально; после 7–10 эффект плато - Один промпт vs цепочка → лучше два отдельных запроса: сначала рецензия, потом правка
Шаблон промпта
Шаг 1 — Рецензия:
Ты — {роль рецензента: строгий клиент / инвестор / HR / эксперт в теме}.
Прочитай {тип текста: описание продукта / письмо / статью / предложение} ниже.
Дай рецензию по структуре:
СИЛЬНЫЕ СТОРОНЫ: что работает и почему
СЛАБЫЕ СТОРОНЫ: что непонятно, неубедительно или лишнее
ГЛАВНЫЕ ВОПРОСЫ: что ты спросил бы автора после прочтения
Текст:
{вставить текст}
Шаг 2 — Правка:
Ниже — текст и рецензия к нему.
Улучши текст по замечаниям из рецензии.
Ограничения: {выбери нужное}
- [мягкий режим] только уточняй формулировки и структуру, не меняй суть
- [жёсткий режим] переработай полностью, сохранив только ключевые факты
Текст: {текст}
Рецензия: {рецензия из шага 1}
Плейсхолдеры:
- {роль рецензента} — кто читает твой текст в реальности
- {тип текста} — что именно улучшаешь
- {текст} — твой исходный материал
- {ограничения} — мягкий режим сохраняет суть, жёсткий перерабатывает
🚀 Быстрый старт — вставь в чат:
Вот схема ISI — итеративного улучшения текста через рецензию.
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы понять что улучшать и кто мой читатель.
[вставить шаблоны шага 1 и шага 2 выше]
LLM уточнит роль рецензента и тип текста — потому что именно от этих параметров зависит, что считать «слабым местом» в твоём конкретном случае. После этого она адаптирует шаблон и запустит первую итерацию.
Ограничения
⚠️ Нестабильность оценки: Один и тот же текст, один и тот же промпт — в трети случаев модель даст разные оценки при повторном запросе. Не суди текст по одному прогону: запусти рецензию 3 раза и смотри на паттерны, не на конкретные слова.
⚠️ Слабее на «отличном» контенте: LLM лучше замечает явные слабости, чем различает «хорошее» от «отличного». Если текст уже качественный, рецензент начнёт придираться по мелочам.
⚠️ Промпт-зависимость: Смена формулировки в промпте рецензии кардинально меняет результат. Это значит: LLM-рецензент не «объективный эксперт», а зеркало твоего промпта. Не принимай его оценку за истину.
⚠️ Не для фактчекинга: ISI улучшает ясность и убедительность, но не проверяет достоверность фактов. Модель может «улучшить» текст с ошибкой, сделав её звучать убедительнее.
Как исследовали
Команда взяла 984 реальные научные статьи из ACL Rolling Review 2025 — с настоящими оценками от человеческих рецензентов. Это важно: не искусственные тексты, а настоящие заявки на топовую конференцию по NLP. Затем они попросили несколько LLM (GPT-5.4, Qwen, Gemma, Llama) написать рецензии с пятью разными промптами — от минимального однострочного до подробного с инструкциями конкретной конференции.
Сюрприз первый: лучший промпт для одной модели — худший для другой. И вообще нет стабильного «победителя» среди промптов. Иногда простой однострочник "review this paper" обгонял детальные инструкции — потому что чем сложнее инструкция, тем сильнее модель смещается в одну сторону (слишком строгая или слишком мягкая).
Сюрприз второй: когда запускали один и тот же промпт с температурой 1.0 трижды, у 37% статей хотя бы один из трёх прогонов давал другой балл. У 20% — разница больше полбалла на 5-балльной шкале. Это не «погрешность» — это системная нестабильность.
Для ISI-эксперимента: взяли 10 итераций правки с тремя режимами (косметика, нейтральный, агрессивный с выдумыванием фактов). Неожиданно: агрессивный режим (фабрикация результатов) дал меньший эффект, чем косметический. Гипотеза: выдуманные данные создают внутренние противоречия в тексте, которые следующая рецензия и замечает.
Адаптации и экстраполяции
🔧 Три рецензента вместо одного → снижение нестабильности
Раз одна рецензия нестабильна — запусти три с разными ролями. Смотри на пересечение критики: то, что заметили все трое — реальная проблема. Уникальные замечания — шум.
Дай рецензию на текст ниже от трёх разных ролей:
РОЛЬ 1 — Скептичный клиент, который ищет повод отказать
РОЛЬ 2 — Лояльный читатель, которому текст нравится, но он ищет непонятное
РОЛЬ 3 — Редактор, которому важна только ясность и структура
Для каждой роли: 3 главных замечания.
Текст: {текст}
После — попроси: «Какие замечания повторяются во всех трёх ролях? Именно их исправь в первую очередь.»
🔧 Техника «заморозки» → защита от нежелательных изменений
Добавь в промпт правки список элементов, которые нельзя трогать: конкретные цифры, названия, обещания, тон. Без этого ограничения модель при агрессивной правке может исказить суть.
Ресурсы
Review Arcade: On the Human Alignment and Gameability of LLM Reviews GitHub: https://github.com/uhh-hcds/reviewarcade
Авторы: Hans Ole Hatzel, Sebastian Steindl, Jan Strich Организации: Language Technology Group, University of Hamburg; Hub of Computing and Data Science (HCDS), University of Hamburg; OTH Amberg-Weiden
Связанные работы: NLPeer dataset (Dycke et al., 2023); Paper laundering (Baumann et al., 2026); LLM usage in peer review (Liang et al., 2024)
