TL;DR
Когда просишь LLM покритиковать текст, документ или план — она выдаёт смесь поверхностных наблюдений и реальных проблем без разбора: мелкие замечания стоят рядом с критическими, каждое «слабое место» сформулировано расплывчато, конкретных решений нет. Исследователи разобрали, что именно делает рецензию сильной, и выделили четыре измерения, которым ни один LLM не следует по умолчанию.
Главный инсайт: LLM знает, что критично, но без явных инструкций не расставляет приоритеты и не предлагает решений. В тестах нормализованный балл приоритизации у LLM почти совпадал с человеческим уровнем (≈0.97), зато конструктивность стабильно отставала во всех системах. Модель видит проблемы — но не оформляет их как actionable-фидбек.
PRISM описывает четыре измерения качественной рецензии: глубина анализа (каждое утверждение подкреплено доказательством), проверка новизны (утверждения о уникальности обоснованы), выявление и приоритизация недостатков (сначала критические, потом мелкие), конструктивность (конкретно, с решением, без агрессии). Зная эти измерения, можно встроить их прямо в промпт — и получить рецензию, которая работает по всем четырём осям одновременно.
Схема метода
ОДИН ПРОМПТ с явной инструкцией по 4 измерениям:
Измерение 1 → Глубина анализа
Каждое замечание = утверждение + конкретное доказательство из текста
Измерение 2 → Новизна/оригинальность
Если авторы заявляют уникальность — проверить, обоснован ли этот тезис
Измерение 3 → Недостатки с приоритизацией
Сначала КРИТИЧЕСКИЕ (ломают суть), потом МИНОРНЫЕ (правки, стиль)
Измерение 4 → Конструктивность
Каждый комментарий: конкретный + с предложением решения + профессиональный тон
Всё выполняется в одном запросе — структура задаётся инструкцией.
Пример применения
Задача: Ты написал питч-дек для инвесторов под свой B2B-сервис и хочешь получить жёсткую, но полезную рецензию перед встречей.
Промпт:
Ты опытный венчурный аналитик. Сделай структурированную рецензию моего питч-дека
по четырём измерениям.
Правила:
— В каждом измерении: сначала сильные стороны, потом слабые
— Каждое замечание = конкретная проблема + цитата или ссылка на слайд + предложение как исправить
— Недостатки разбей на два уровня: КРИТИЧЕСКИЕ (инвестор откажет из-за этого) и МИНОРНЫЕ (правки перед встречей). Критические — первыми.
Четыре измерения для анализа:
1. ГЛУБИНА АНАЛИЗА
Каждый тезис в питче подкреплён доказательством? Или это просто заявления?
Ищи: слайды с утверждениями без данных, ссылок, примеров
2. НОВИЗНА И ПОЗИЦИОНИРОВАНИЕ
Насколько обоснованы заявления об уникальности продукта?
Ищи: "первые в России", "единственное решение", "революционный подход" — и проверь, аргументированы ли они
3. НЕДОСТАТКИ С ПРИОРИТИЗАЦИЕЙ
Что реально может провалить питч на встрече? Список от самого критичного к мелочам.
Критические: провалы в логике, отсутствие ключевых метрик, нереалистичные допущения
Минорные: формулировки, структура слайдов, шрифты
4. КОНСТРУКТИВНОСТЬ ОБРАТНОЙ СВЯЗИ
Для каждого недостатка дай конкретное решение: что именно переписать, добавить или убрать.
Без общих слов вроде "нужно улучшить". Только исполняемые правки.
[Вставь текст питча или опиши содержание слайдов]
Результат: Модель выдаст структурированный разбор по четырём блокам. В блоке с недостатками критические проблемы (например, отсутствие unit-экономики или нереалистичный TAM) будут стоять первыми — до замечаний про шрифт и формулировки. Каждое замечание будет привязано к конкретному месту в тексте и содержать инструкцию что именно исправить.
Почему это работает
Проблема: LLM по умолчанию генерирует рецензию так, как это делает усталый рецензент под давлением дедлайна — перебирает всё подряд, не разделяя важное и мелкое. В исследовании обнаружили, что отдельные системы перегружали начало рецензии замечаниями о форматировании, погребая под ними реальные методологические ошибки.
Что умеет LLM: Расставлять веса между критическим и второстепенным она умеет хорошо — тесты показали, что при явном запросе модель приоритизирует не хуже человека. Также она умеет формулировать конкретные аргументы, если её об этом попросить. Проблема не в способностях, а в отсутствии инструкции.
Что делает промпт: Четырёхмерная структура убирает двусмысленность. Вместо "напиши рецензию" модель получает четыре отдельных задания с разными критериями. Это же объясняет, почему измерение конструктивности нужно прописывать явно: без него модель диагностирует проблемы, но не предлагает решений. Она видела проблему — но не получила задания её лечить.
Рычаги управления: - Уровни приоритизации → добавь третий уровень ("среднее") если хочешь более детальную градацию - Требование решения → усиль формулировкой "дай конкретный переписанный вариант" вместо просто "предложи исправление" - Измерение новизны → особенно ценно для текстов с сильными заявлениями ("лучший", "первый", "самый") - Счётчик критических проблем → добавь "не более 3 критических" если не хочешь получить 15 пунктов
Шаблон промпта
Ты — {роль рецензента}. Сделай структурированную рецензию {что рецензируем} по четырём измерениям.
Правило для каждого замечания: конкретная проблема + ссылка на место в тексте + как исправить.
---
ИЗМЕРЕНИЕ 1 — ГЛУБИНА АНАЛИЗА
Каждый ключевой тезис подкреплён доказательством или это голое утверждение?
Перечисли: что обосновано хорошо / что требует подкрепления
ИЗМЕРЕНИЕ 2 — ПРОВЕРКА ЗАЯВЛЕНИЙ
Есть ли в тексте тезисы об уникальности, первенстве или превосходстве?
Для каждого: насколько он обоснован в самом тексте?
ИЗМЕРЕНИЕ 3 — НЕДОСТАТКИ (с приоритизацией)
Сначала КРИТИЧЕСКИЕ — то, что ломает суть или доверие к материалу.
Потом МИНОРНЫЕ — правки, стиль, структура.
Для каждого: что именно не так и как исправить.
ИЗМЕРЕНИЕ 4 — КОНСТРУКТИВНОСТЬ
Оцени: насколько замечания в самом тексте (если они есть) или твои замечания конкретны и исполняемы?
Каждое замечание должно заканчиваться: "Для исправления нужно: [конкретное действие]"
---
{Вставь текст для рецензии}
Что подставлять:
- {роль рецензента} — венчурный аналитик, главред, технический директор, строгий заказчик
- {что рецензируем} — питч-дека, маркетинговой стратегии, статьи, технического задания
- {текст} — сам документ или его содержание
🚀 Быстрый старт — вставь в чат:
Вот шаблон PRISM-рецензии. Адаптируй под мою задачу: [твоя задача].
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит что именно рецензировать и какую роль принять — потому что без этого она не знает с какой позиции оценивать критичность. Она возьмёт четырёхмерную структуру из шаблона и адаптирует под твой контекст.
Ограничения
⚠️ Конструктивность — самое слабое место: Даже с явной инструкцией LLM выдаёт менее действенный фидбек, чем хороший человек-эксперт. Замечания есть, но глубина "что именно переписать" — слабее. Помогает конкретизация: "перепиши этот абзац так, чтобы…"
⚠️ Новизна без внешней базы: LLM не проверяет реальный рынок и реальную литературу в реальном времени. Измерение 2 работает только на логическую согласованность заявлений — не на фактическую проверку "а есть ли уже такой продукт".
⚠️ Не для очень коротких текстов: Если текст — один абзац или пара слайдов, метод избыточен. Четыре измерения раскрываются на материале средней и высокой сложности.
⚠️ Качество зависит от детализации роли: Просто "ты рецензент" работает хуже, чем "ты венчурный аналитик с опытом B2B SaaS". Чем точнее роль — тем острее критика по измерению новизны и глубины.
Как исследовали
Исследователи взяли 1000 реальных статей из ICLR, ICML и NeurIPS (за 2024–2026 годы) и попросили пять автоматических систем-рецензентов написать рецензии — а потом сравнили их с рецензиями живых людей. Но вместо стандартных метрик типа "насколько похож текст на человеческий" (ROUGE, BLEU) они построили четыре отдельных измерительных конвейера, каждый с собственной логикой. Для глубины анализа — разбивали рецензию на минимальные аргументативные единицы и проверяли, подкреплено ли каждое утверждение. Для новизны — делали реальный поиск по Semantic Scholar и проверяли, есть ли доказательства для каждого тезиса о уникальности. Удивительный результат: LLM почти идеально расставляют приоритеты (знают что критично) — но стабильно проигрывают людям в конструктивности. Это означает, что проблема не в понимании, а в том, что без явной инструкции модель не переключается в режим "помоги исправить".
Адаптации и экстраполяции
🔧 Техника: Одно измерение вместо всех четырёх → точечный аудит
Если нужна только конкретная проверка — бери одно измерение из шаблона. Например, только "измерение 3" для приоритизации рисков в плане проекта, или только "измерение 2" для проверки маркетинговых заявлений на сайте.
🔧 Техника: Роль-специалист → острее критика
Замени безликого "рецензента" на конкретный архетип: - "Ты Фёдор Овчинников [основатель Додо Пиццы] — оцени бизнес-модель с позиции оперблока" - "Ты придирчивый главред Т—Ж — разбери статью по четырём измерениям"
Конкретная роль даёт LLM систему координат для оценки критичности.
🔧 Экстраполяция: PRISM + Chain-of-Thought → видимые рассуждения
Добавь в промпт: "Перед каждым замечанием напиши одно предложение — почему ты это заметил". Это вынуждает модель не просто выдавать вывод, но показывать логику. Полезно когда не доверяешь критике или хочешь понять на чём она основана.
Ресурсы
PRISM: A Multi-Dimensional Benchmark for Evaluating LLM Peer Reviewers Демо и результаты: https://khanhthanhdev.github.io/prism-page/
Авторы: Ngoc Phan Phuoc Loc, Toan Huynh La Viet, Thanh Tran Khanh, Duy A Nguyen, Tuan Anh Nguyen Pham, Thanh Nguyen, Nitesh V. Chawla, Wray Buntine, Kok-Seng Wong, Khoa D. Doan, Binh T. Nguyen
Организации: VinUniversity, University of Illinois Urbana-Champaign, University of Notre Dame, Monash University
Связанные системы из исследования: TreeReview, Reviewer2, SEA-E, DeepReview, CycleReviewer
