3,583 papers
arXiv:2605.26730 74 26 мая 2026 г. FREE

PRISM-критика: четыре измерения хорошей рецензии — и как заставить LLM их соблюдать

КЛЮЧЕВАЯ СУТЬ
Парадокс: при явном запросе LLM сортирует проблемы по важности на уровне человека-эксперта — 0.97 из 1.0 в тестах. Без инструкции — сваливает «шрифт не тот» и «провал в методологии» в одну кучу. Метод позволяет встроить четыре измерения хорошей рецензии прямо в один промпт. Фишка: вместо «дай рецензию» — четыре отдельных задания с разными критериями. Модель перестаёт лечить поверхностные правки и критические ошибки одинаково. Каждое замечание кончается конкретным решением — не «улучшить», а «переписать вот это вот так».
Адаптировать под запрос

TL;DR

Когда просишь LLM покритиковать текст, документ или план — она выдаёт смесь поверхностных наблюдений и реальных проблем без разбора: мелкие замечания стоят рядом с критическими, каждое «слабое место» сформулировано расплывчато, конкретных решений нет. Исследователи разобрали, что именно делает рецензию сильной, и выделили четыре измерения, которым ни один LLM не следует по умолчанию.

Главный инсайт: LLM знает, что критично, но без явных инструкций не расставляет приоритеты и не предлагает решений. В тестах нормализованный балл приоритизации у LLM почти совпадал с человеческим уровнем (≈0.97), зато конструктивность стабильно отставала во всех системах. Модель видит проблемы — но не оформляет их как actionable-фидбек.

PRISM описывает четыре измерения качественной рецензии: глубина анализа (каждое утверждение подкреплено доказательством), проверка новизны (утверждения о уникальности обоснованы), выявление и приоритизация недостатков (сначала критические, потом мелкие), конструктивность (конкретно, с решением, без агрессии). Зная эти измерения, можно встроить их прямо в промпт — и получить рецензию, которая работает по всем четырём осям одновременно.


🔬

Схема метода

ОДИН ПРОМПТ с явной инструкцией по 4 измерениям:

Измерение 1 → Глубина анализа
  Каждое замечание = утверждение + конкретное доказательство из текста

Измерение 2 → Новизна/оригинальность
  Если авторы заявляют уникальность — проверить, обоснован ли этот тезис

Измерение 3 → Недостатки с приоритизацией
  Сначала КРИТИЧЕСКИЕ (ломают суть), потом МИНОРНЫЕ (правки, стиль)

Измерение 4 → Конструктивность
  Каждый комментарий: конкретный + с предложением решения + профессиональный тон

Всё выполняется в одном запросе — структура задаётся инструкцией.


🚀

Пример применения

Задача: Ты написал питч-дек для инвесторов под свой B2B-сервис и хочешь получить жёсткую, но полезную рецензию перед встречей.

Промпт:

Ты опытный венчурный аналитик. Сделай структурированную рецензию моего питч-дека 
по четырём измерениям.

Правила:
— В каждом измерении: сначала сильные стороны, потом слабые
— Каждое замечание = конкретная проблема + цитата или ссылка на слайд + предложение как исправить
— Недостатки разбей на два уровня: КРИТИЧЕСКИЕ (инвестор откажет из-за этого) и МИНОРНЫЕ (правки перед встречей). Критические — первыми.

Четыре измерения для анализа:

1. ГЛУБИНА АНАЛИЗА
Каждый тезис в питче подкреплён доказательством? Или это просто заявления?
Ищи: слайды с утверждениями без данных, ссылок, примеров

2. НОВИЗНА И ПОЗИЦИОНИРОВАНИЕ
Насколько обоснованы заявления об уникальности продукта?
Ищи: "первые в России", "единственное решение", "революционный подход" — и проверь, аргументированы ли они

3. НЕДОСТАТКИ С ПРИОРИТИЗАЦИЕЙ
Что реально может провалить питч на встрече? Список от самого критичного к мелочам.
Критические: провалы в логике, отсутствие ключевых метрик, нереалистичные допущения
Минорные: формулировки, структура слайдов, шрифты

4. КОНСТРУКТИВНОСТЬ ОБРАТНОЙ СВЯЗИ
Для каждого недостатка дай конкретное решение: что именно переписать, добавить или убрать.
Без общих слов вроде "нужно улучшить". Только исполняемые правки.

[Вставь текст питча или опиши содержание слайдов]

Результат: Модель выдаст структурированный разбор по четырём блокам. В блоке с недостатками критические проблемы (например, отсутствие unit-экономики или нереалистичный TAM) будут стоять первыми — до замечаний про шрифт и формулировки. Каждое замечание будет привязано к конкретному месту в тексте и содержать инструкцию что именно исправить.


🧠

Почему это работает

Проблема: LLM по умолчанию генерирует рецензию так, как это делает усталый рецензент под давлением дедлайна — перебирает всё подряд, не разделяя важное и мелкое. В исследовании обнаружили, что отдельные системы перегружали начало рецензии замечаниями о форматировании, погребая под ними реальные методологические ошибки.

Что умеет LLM: Расставлять веса между критическим и второстепенным она умеет хорошо — тесты показали, что при явном запросе модель приоритизирует не хуже человека. Также она умеет формулировать конкретные аргументы, если её об этом попросить. Проблема не в способностях, а в отсутствии инструкции.

Что делает промпт: Четырёхмерная структура убирает двусмысленность. Вместо "напиши рецензию" модель получает четыре отдельных задания с разными критериями. Это же объясняет, почему измерение конструктивности нужно прописывать явно: без него модель диагностирует проблемы, но не предлагает решений. Она видела проблему — но не получила задания её лечить.

Рычаги управления: - Уровни приоритизации → добавь третий уровень ("среднее") если хочешь более детальную градацию - Требование решения → усиль формулировкой "дай конкретный переписанный вариант" вместо просто "предложи исправление" - Измерение новизны → особенно ценно для текстов с сильными заявлениями ("лучший", "первый", "самый") - Счётчик критических проблем → добавь "не более 3 критических" если не хочешь получить 15 пунктов


📋

Шаблон промпта

Ты — {роль рецензента}. Сделай структурированную рецензию {что рецензируем} по четырём измерениям.

Правило для каждого замечания: конкретная проблема + ссылка на место в тексте + как исправить.

---

ИЗМЕРЕНИЕ 1 — ГЛУБИНА АНАЛИЗА
Каждый ключевой тезис подкреплён доказательством или это голое утверждение?
Перечисли: что обосновано хорошо / что требует подкрепления

ИЗМЕРЕНИЕ 2 — ПРОВЕРКА ЗАЯВЛЕНИЙ
Есть ли в тексте тезисы об уникальности, первенстве или превосходстве?
Для каждого: насколько он обоснован в самом тексте?

ИЗМЕРЕНИЕ 3 — НЕДОСТАТКИ (с приоритизацией)
Сначала КРИТИЧЕСКИЕ — то, что ломает суть или доверие к материалу.
Потом МИНОРНЫЕ — правки, стиль, структура.
Для каждого: что именно не так и как исправить.

ИЗМЕРЕНИЕ 4 — КОНСТРУКТИВНОСТЬ
Оцени: насколько замечания в самом тексте (если они есть) или твои замечания конкретны и исполняемы?
Каждое замечание должно заканчиваться: "Для исправления нужно: [конкретное действие]"

---

{Вставь текст для рецензии}

Что подставлять: - {роль рецензента} — венчурный аналитик, главред, технический директор, строгий заказчик - {что рецензируем} — питч-дека, маркетинговой стратегии, статьи, технического задания - {текст} — сам документ или его содержание


🚀 Быстрый старт — вставь в чат:

Вот шаблон PRISM-рецензии. Адаптируй под мою задачу: [твоя задача]. 
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит что именно рецензировать и какую роль принять — потому что без этого она не знает с какой позиции оценивать критичность. Она возьмёт четырёхмерную структуру из шаблона и адаптирует под твой контекст.


⚠️

Ограничения

⚠️ Конструктивность — самое слабое место: Даже с явной инструкцией LLM выдаёт менее действенный фидбек, чем хороший человек-эксперт. Замечания есть, но глубина "что именно переписать" — слабее. Помогает конкретизация: "перепиши этот абзац так, чтобы…"

⚠️ Новизна без внешней базы: LLM не проверяет реальный рынок и реальную литературу в реальном времени. Измерение 2 работает только на логическую согласованность заявлений — не на фактическую проверку "а есть ли уже такой продукт".

⚠️ Не для очень коротких текстов: Если текст — один абзац или пара слайдов, метод избыточен. Четыре измерения раскрываются на материале средней и высокой сложности.

⚠️ Качество зависит от детализации роли: Просто "ты рецензент" работает хуже, чем "ты венчурный аналитик с опытом B2B SaaS". Чем точнее роль — тем острее критика по измерению новизны и глубины.


🔍

Как исследовали

Исследователи взяли 1000 реальных статей из ICLR, ICML и NeurIPS (за 2024–2026 годы) и попросили пять автоматических систем-рецензентов написать рецензии — а потом сравнили их с рецензиями живых людей. Но вместо стандартных метрик типа "насколько похож текст на человеческий" (ROUGE, BLEU) они построили четыре отдельных измерительных конвейера, каждый с собственной логикой. Для глубины анализа — разбивали рецензию на минимальные аргументативные единицы и проверяли, подкреплено ли каждое утверждение. Для новизны — делали реальный поиск по Semantic Scholar и проверяли, есть ли доказательства для каждого тезиса о уникальности. Удивительный результат: LLM почти идеально расставляют приоритеты (знают что критично) — но стабильно проигрывают людям в конструктивности. Это означает, что проблема не в понимании, а в том, что без явной инструкции модель не переключается в режим "помоги исправить".


💡

Адаптации и экстраполяции

🔧 Техника: Одно измерение вместо всех четырёх → точечный аудит

Если нужна только конкретная проверка — бери одно измерение из шаблона. Например, только "измерение 3" для приоритизации рисков в плане проекта, или только "измерение 2" для проверки маркетинговых заявлений на сайте.

🔧 Техника: Роль-специалист → острее критика

Замени безликого "рецензента" на конкретный архетип: - "Ты Фёдор Овчинников [основатель Додо Пиццы] — оцени бизнес-модель с позиции оперблока" - "Ты придирчивый главред Т—Ж — разбери статью по четырём измерениям"

Конкретная роль даёт LLM систему координат для оценки критичности.

🔧 Экстраполяция: PRISM + Chain-of-Thought → видимые рассуждения

Добавь в промпт: "Перед каждым замечанием напиши одно предложение — почему ты это заметил". Это вынуждает модель не просто выдавать вывод, но показывать логику. Полезно когда не доверяешь критике или хочешь понять на чём она основана.


🔗

Ресурсы

PRISM: A Multi-Dimensional Benchmark for Evaluating LLM Peer Reviewers Демо и результаты: https://khanhthanhdev.github.io/prism-page/

Авторы: Ngoc Phan Phuoc Loc, Toan Huynh La Viet, Thanh Tran Khanh, Duy A Nguyen, Tuan Anh Nguyen Pham, Thanh Nguyen, Nitesh V. Chawla, Wray Buntine, Kok-Seng Wong, Khoa D. Doan, Binh T. Nguyen

Организации: VinUniversity, University of Illinois Urbana-Champaign, University of Notre Dame, Monash University

Связанные системы из исследования: TreeReview, Reviewer2, SEA-E, DeepReview, CycleReviewer


📋 Дайджест исследования

Ключевая суть

Парадокс: при явном запросе LLM сортирует проблемы по важности на уровне человека-эксперта — 0.97 из 1.0 в тестах. Без инструкции — сваливает «шрифт не тот» и «провал в методологии» в одну кучу. Метод позволяет встроить четыре измерения хорошей рецензии прямо в один промпт. Фишка: вместо «дай рецензию» — четыре отдельных задания с разными критериями. Модель перестаёт лечить поверхностные правки и критические ошибки одинаково. Каждое замечание кончается конкретным решением — не «улучшить», а «переписать вот это вот так».

Принцип работы

Четыре измерения — четыре разных механизма. Первое: глубина анализа — каждое утверждение подкреплено доказательством из самого текста, а не висит в воздухе. Второе: проверка заявлений — если автор пишет «единственное решение на рынке», докажи это прямо здесь. Третье: сначала всё что ломает суть — потом мелочи вроде структуры слайдов и формулировок. Четвёртое: конструктивность — не «нужно улучшить», а «для исправления сделай конкретно вот это». Без явного разделения модель смешивает все четыре в одну кашу.

Почему работает

LLM пишет рецензию так же, как усталый рецензент под дедлайн — перебирает всё подряд. В тестах отдельные системы начинали рецензию с замечаний о форматировании, погребая под ними реальные методологические ошибки. Способность сортировать по важности у модели есть — просто запрос «напиши рецензию» её не включает. Слишком широко: с чьей позиции? По каким критериям? Что важнее? Когда даёшь четыре задания — каждое со своим критерием — двусмысленность исчезает. Поэтому конструктивность проседает сильнее всего остального: диагностировать проблему модель умеет сама, а задание «предложи решение» нужно поставить явно — иначе она найдёт болезнь, но не выпишет лечение.

Когда применять

Любой документ который нужно улучшить до показа реальным людям — особенно если ставки высоки. Питч инвесторам → найти провалы в логике до встречи. Маркетинговые материалы → проверить, обоснованы ли заявления об уникальности. Технические задания → выловить критические пробелы прежде чем команда начнёт работу. Статьи и отчёты → отделить методологические ошибки от правок стиля. НЕ подходит для коротких текстов (один абзац, пара слайдов) — четыре измерения просто не раскроются на таком материале. И не заменяет проверку фактов: модель оценивает логическую согласованность заявлений, но не проверяет реальный рынок и реальную базу исследований.

Мини-рецепт

1. Задай роль с контекстом: <роль>венчурный аналитик с опытом B2B-стартапов работает острее чем просто «ты рецензент». Роль задаёт с какой позиции оценивать, что критично, а что мелко.
2. Дай четыре блока явно: Не «дай рецензию» — а четыре отдельных секции: глубина анализа, проверка заявлений, недостатки от критических к мелким, конкретные решения.
3. Поставь правило для каждого замечания: Пропиши в инструкции — каждое замечание содержит: что именно, где в тексте, как исправить. Без этого правила решения исчезают.
4. Ограничь критические проблемы: Добавь «не более трёх критических» — иначе получишь пятнадцать пунктов одинакового веса и непонятно с чего начинать.
5. Усиль конструктивность если нужно глубже: Напиши «дай переписанный вариант» вместо «предложи исправление». Модель выдаст готовый текст, а не общие слова.

Примеры

[ПЛОХО] : Посмотри мой питч и скажи что улучшить
[ХОРОШО] : Ты венчурный аналитик с опытом B2B-сервисов. Рецензия питч-дека по четырём блокам. Правило для каждого замечания: конкретная проблема + ссылка на слайд + что именно переписать. Блок 1 — Глубина анализа: какие тезисы подкреплены данными, а какие просто заявлены без доказательств. Блок 2 — Проверка заявлений: «первые в России», «единственное решение» — обоснованы прямо в тексте или висят в воздухе? Блок 3 — Недостатки: сначала КРИТИЧЕСКИЕ (из-за этого инвестор откажет), потом МИНОРНЫЕ (правки перед встречей). Не более трёх критических. Блок 4 — Решения: для каждого критического — переписанный вариант абзаца или слайда. [текст питча]
Источник: PRISM: A Multi-Dimensional Benchmark for Evaluating LLM Peer Reviewers
ArXiv ID: 2605.26730 | Сгенерировано: 2026-05-27 07:37

Проблемы LLM

ПроблемаСутьКак обойти
Рецензия смешивает критичное и мелкоеПросишь покритиковать текст. Получаешь список замечаний вперемешку: "нет данных в третьем разделе" стоит рядом с "поправь шрифт". Непонятно где пожар, а где косметика. Это происходит для любого текста — статья, стратегия, питч, ТЗВ запросе явно задай два уровня. Пример: "Раздели замечания на два блока. КРИТИЧЕСКИЕ — то, что ломает суть. МИНОРНЫЕ — правки и стиль. Критические — первыми"
Рецензия ставит диагноз, но не лечитПросишь рецензию — получаешь список проблем без решений. "Раздел слабый", "тезис не обоснован", "логика нарушена". Что именно переписать — непонятно. Ожидаешь рецепт, получаешь список симптомовДобавь явное требование в запрос: "Каждое замечание заканчивается конкретным действием: что переписать, добавить или убрать. Без общих слов вроде 'нужно улучшить'"

Методы

МетодСуть
Четыре под-задания вместо одного "напиши рецензию"Вместо размытого запроса дай четыре отдельных задания с разными критериями. 1. Глубина: каждый ключевой тезис — обоснован или голое утверждение? 2. Заявления об уникальности: есть слова "первый", "лучший", "единственный" — аргументированы ли они в самом тексте? 3. Недостатки с уровнями: сначала критические (ломают суть), потом мелкие (стиль, правки). 4. Конструктивность: каждое замечание = проблема + ссылка на место в тексте + как исправить. Почему работает: одно слово "рецензия" — размытое задание. Четыре отдельных блока с критериями — четыре конкретных задания. Модель не угадывает что важно, а выполняет инструкцию. Когда не работает: текст из одного абзаца — структура избыточна. Нужен материал средней или высокой сложности

Тезисы

ТезисКомментарий
Модель умеет расставлять приоритеты — ей нужно только разрешениеКогда явно просишь выделить критические проблемы отдельно, модель делает это почти на уровне эксперта. Без такой инструкции она перечисляет всё подряд — не потому что не умеет, а потому что не получила задание выбирать. Это значит: проблема не в способности, а в промпте. Применяй: добавляй явную градацию в любые задачи с оценкой — "раздели на уровни важности", "что критично, что второстепенно"
📖 Простыми словами

PRISM: A Multi-Dimensional Benchmark for EvaluatingLLMPeer Reviewers

arXiv: 2605.26730

Когда ты просишь нейронку оценить твой текст или проект, она ведет себя как вежливый, но бесполезный стажер. Проблема в том, что LLM не понимает иерархию смыслов: для нее опечатка в третьем абзаце и фундаментальная дыра в логике имеют одинаковый вес. Модели просто вываливают на тебя поток замечаний, надеясь, что количество перейдет в качество, но на деле они просто имитируют бурную деятельность, не вникая в суть проблемы.

Это как если бы ты пригнал машину на техосмотр, а механик полчаса рассуждал о царапине на бампере, пока у тебя вытекает масло и дымится движок. Формально он прав — царапина есть. Но по факту такой осмотр — полная фигня, потому что он не расставил приоритеты и не сказал, доедешь ты до дома или нет. Исследование PRISM как раз про то, как заставить нейронку перестать быть этим бестолковым механиком.

Чтобы рецензия не была мусором, нужны четыре конкретных измерения: обоснованность (не придумывай проблемы из воздуха), конструктивность (скажи, как исправить, а не просто ной), структура (главное — вперед) и специфичность. Сейчас же большинство моделей лажают по всем фронтам: они либо пишут общие фразы типа "нужно добавить деталей", либо заваливают тебя мелкими придирками к форматированию, за которыми не видно реальных косяков в методологии.

Этот принцип оценки применим к любому фидбеку, будь то код, бизнес-план или сценарий для YouTube. Тестировали на научных статьях, но механика универсальна: если ты не заставишь модель ранжировать проблемы по степени их критичности, ты получишь белый шум. Без четких критериев PRISM нейронка всегда будет выбирать путь наименьшего сопротивления — придираться к запятым, игнорируя то, что сама идея может быть мертворожденной.

Короче, не надейся на стандартный промпт "оцени мой текст". Без жестких рамок и требований к многомерной оценке ты получишь поверхностную отписку, которая только создаст иллюзию проверки. Хочешь нормальный фидбек — заставляй модель разделять критические баги и косметические правки. Иначе ты пойдешь на встречу с инвестором с красивым шрифтом, но с дырой в бизнес-модели, которую твой AI-помощник просто поленился заметить.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с