3,583 papers
arXiv:2606.19749 70 18 июня 2026 г. FREE

Running Summary Review: пошаговая проверка длинных документов с накопленным контекстом

КЛЮЧЕВАЯ СУТЬ
Модель читает ваш документ как человек без блокнота — держит всё в голове, но к 10-й странице уже не помнит что было на 1-й. Именно поэтому LLM пропускает противоречия между разделами — даже очевидные. Running Summary Review даёт возможность ловить логические дыры и несоответствия между частями длинных документов: 68% пойманных ошибок против 37% при проверке всего текста за один запрос. Фишка: после каждого раздела модель пишет конспект ключевых утверждений — и он уходит в следующий запрос. Это искусственная долгосрочная память вместо той, которой у модели нет.
Адаптировать под запрос

TL;DR

Когда просишь Claude проверить длинный документ целиком, модель «забывает» начало к концу — и пропускает противоречия между разделами. Исследование OpenAIReview нашло решение: делить документ на части и вести накопленный конспект определений, ключевых утверждений и формул. Каждую следующую часть проверяешь с учётом уже прочитанного.

Главный инсайт: prose-уровневые ошибки — логические противоречия, неподкреплённые утверждения, сломанные рассуждения — модель ловит вдвое лучше при накопленном контексте (68% против 37% при проверке всего за раз). Локальные технические ошибки (опечатки, мелкая арифметика) — система ловит плохо в любом случае. Главная жалоба реальных пользователей — ложные срабатывания и мелкие придирки, не пропуски серьёзных проблем.

Метод работает в три хода внутри одного диалога: [1] передаёшь первую часть документа с чеклистом проверки, [2] модель выдаёт комментарии и обновляет конспект ключевых утверждений, [3] повторяешь для каждой следующей части — конспект идёт с собой.


🔬

Схема метода

ШАГ 0: Раздели документ на части по 500-800 слов

ШАГ 1 (первый запрос):
  Входные данные → Часть 1 + чеклист проверки
  Вывод → [Комментарии к части 1] + [Конспект: ключевые
           утверждения, термины, данные из части 1]

ШАГ 2 (второй запрос):
  Входные данные → Часть 2 + конспект из шага 1 + чеклист
  Вывод → [Новые комментарии] + [Обновлённый конспект]

ШАГ 3…N: Повторяй до конца документа

ФИНАЛ (последний запрос): Объедини все комментарии, убери
  дубли, сгруппируй по серьёзности

Каждый шаг — отдельный запрос в одном диалоге. Конспект передаёшь вручную от запроса к запросу.


🚀

Пример применения

Задача: Ты написал инвест-меморандум для привлечения раунда в стартап на 50 млн рублей. Документ — 8 страниц. Хочешь найти противоречия, неподкреплённые утверждения и логические дыры до того, как отправишь Baring Vostok.

Промпт (Шаг 1 — первая часть документа):

Ты — опытный инвестиционный аналитик. Проверяй документ по частям.

ЧЕКЛИСТ ПРОВЕРКИ (применяй к каждой части):
- Утверждения без доказательств: заявлено что-то важное, но не подкреплено данными?
- Противоречия: что-то в этом тексте противоречит тому, что было раньше?
- Сломанная логика: вывод не следует из предпосылок?
- Слишком смелые claims: «лучший», «единственный», «100%» — есть основания?
- Неопределённые термины: ключевое слово используется, но не объяснено?

ВАЖНО: если сомнение снимается контекстом того же абзаца — не поднимай. 
Только реальные проблемы.

После комментариев — дай КОНСПЕКТ: список ключевых утверждений, 
цифр и терминов из этой части, которые нужно помнить при проверке 
следующих разделов.

---
ЧАСТЬ 1 (стр. 1-2):
[вставь текст]

Промпт (Шаг 2 — следующая часть):

Продолжаем проверку. Вот что было установлено в предыдущих разделах:

КОНСПЕКТ ИЗ ЧАСТИ 1:
[вставь конспект из предыдущего ответа]

Теперь проверь Часть 2 по тому же чеклисту. 
Особое внимание: нет ли противоречий с тем, что в конспекте?

ЧАСТЬ 2 (стр. 3-4):
[вставь текст]

Результат:

Модель выдаст пронумерованные комментарии с цитатой проблемного места и объяснением — почему это проблема. В конце — обновлённый конспект для следующей части. На финальном шаге попроси объединить все комментарии и отсортировать по серьёзности: критические → важные → мелкие. Мелкие можно сразу проигнорировать — это главный источник ложных срабатываний.


🧠

Почему это работает

Слабость LLM: модель держит в голове то, что видит сейчас. Длинный документ — это как читать книгу, но помнить только последние 10 страниц. Противоречие между введением и выводами она не поймает, если они не помещаются в один запрос.

Сильная сторона LLM: модель отлично работает с явно заданным контекстом. Если написать ей «вот что было утверждено раньше» — она будет с этим сверяться. Конспект — это искусственная «долговременная память», которую ты создаёшь руками.

Как метод использует это: конспект превращает разрозненные запросы в связную проверку. Модель не читает заново — она сверяется с накопленным списком утверждений. Именно поэтому логические и смысловые ошибки ловятся вдвое лучше — они часто и есть противоречия между разными частями документа.

Рычаги управления: - Чеклист → убери пункты, которые не нужны (например, для художественного текста уберёшь "утверждения без данных") - Размер части → меньше 500 слов = больше запросов, но точнее; больше 800 = быстрее, но модель может упустить детали - «Только реальные проблемы» → ключевая инструкция против ложных срабатываний; можно ужесточить: "поднимай только то, что требует правки" - Конспект → можно попросить фиксировать не только утверждения, но и конкретные цифры, даты, имена — зависит от типа документа


📋

Шаблон промпта

Ты — {роль эксперта}. Проверяй документ по частям.

ЧЕКЛИСТ ПРОВЕРКИ:
- {критерий 1}
- {критерий 2}
- {критерий 3}
- {критерий 4}

ВАЖНО: если сомнение снимается контекстом этого же абзаца — 
не поднимай. Только реальные проблемы.

---
КОНСПЕКТ ИЗ ПРЕДЫДУЩИХ ЧАСТЕЙ:
{конспект — пусто для первой части}

---
ТЕКУЩАЯ ЧАСТЬ:
{текст части}

---
После комментариев дай ОБНОВЛЁННЫЙ КОНСПЕКТ: 
ключевые утверждения, цифры и термины из этой части, 
которые важно помнить при проверке следующих разделов.

Что подставлять: - {роль эксперта} → инвестиционный аналитик / редактор / юрист / технический рецензент - {критерий 1-4} → выбери из чеклиста выше или адаптируй под тип документа - {конспект} → копируй из предыдущего ответа модели - {текст части} → 500-800 слов из твоего документа


🚀 Быстрый старт — вставь в чат:

Вот шаблон для пошаговой проверки длинного документа 
с накопленным конспектом. Адаптируй под мою задачу: 
{опиши свой документ и что хочешь проверить}. 
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит тип документа, роль эксперта и критерии проверки — потому что без этого она не знает, что считать ошибкой. Она адаптирует чеклист и структуру конспекта под твою задачу.


⚠️

Ограничения

⚠️ Локальные технические ошибки: метод плохо ловит мелкие опечатки, числовые ошибки внутри одного уравнения или абзаца. Для этого лучше отдельный запрос с фокусом на конкретный раздел.

⚠️ Ложные срабатывания: главная жалоба реальных пользователей — модель поднимает несуществующие проблемы и придирается к мелочам. Инструкция «только реальные проблемы» снижает, но не устраняет. Всегда проверяй комментарии вручную.

⚠️ Ручной труд: конспект нужно копировать между запросами руками. Если документ больше 20 страниц — это 10+ запросов. Для очень длинных документов (договоры, отчёты на 50+ стр.) метод трудоёмок.

⚠️ Субъективные критерии: метод слабее работает для оценки стиля, тона, убедительности. Хорошо — для фактических противоречий и логических дыр.


🔍

Как исследовали

Команда из Чикагского университета взяла четыре системы автоматического рецензирования — OpenAIReview, 'coarse, Reviewer3 и простой zero-shot промпт — и прогнала через них реальные статьи с ICLR и NeurIPS 2021-2022. Проверяли простую гипотезу: слабые статьи должны получать больше комментариев. Сравнивали с внешними сигналами качества — числом цитирований, наградами конференций, оценками рецензентов. Все системы оказались выше случайного уровня: лучшая конфигурация (OpenAIReview + GPT-5.5) правильно определяла более слабую статью из пары в 83% случаев — и это без какого-либо специального обучения на задачу отбора статей.

Но корреляция с качеством не равна поимке конкретных ошибок. Поэтому команда построила второй бенчмарк: взяла 74 чистые статьи из 8 областей (от эконометрики до геномики), вручную внедрила известные ошибки четырёх типов и замерила, сколько из них системы поймают. Неожиданный результат: накопленная подсистема резюме OpenAIReview подняла обнаружение логических ошибок с 37% до 68% — почти вдвое, — но на математических опечатках внутри формул дала почти такой же результат, что и zero-shot. Это логично: локальная ошибка в уравнении не требует памяти о предыдущих разделах, а вот «в разделе 3 заявлено X, но в разделе 5 используется не-X» — требует. Ещё любопытная находка: разные модели ловят разные ошибки. Объединение всех шести моделей дало 83% recall против 72% у лучшей одиночной — прямое доказательство того, что несколько проходов разными «взглядами» лучше одного.


💡

Адаптации и экстраполяции

🔧 Техника: несколько проходов с разным фокусом → больше ошибок поймано

Один проход ловит ~70% проблем. Исследование показало: разные модели ловят разные ошибки. Значит — два прохода с разными инструкциями лучше одного.

Первый проход — чеклист на логику и противоречия (как в шаблоне выше). Второй проход — другой фокус:

Ты — скептичный читатель. Найди места, где автор утверждает 
X, но доказательств X нет. Не трогай логику и структуру — 
только голословные заявления и притянутые выводы.

ТЕКУЩАЯ ЧАСТЬ:
{текст}

КОНСПЕКТ ЗАЯВЛЕННЫХ ФАКТОВ ИЗ ПРЕДЫДУЩИХ ЧАСТЕЙ:
{конспект}

Объедини комментарии обоих проходов — и убери дубли в финальном запросе.


🔧 Техника: финальный шаг фильтрации — против ложных срабатываний

Главная жалоба реальных пользователей: слишком много мелких придирок. Добавь финальный промпт после сбора всех комментариев:

Вот список комментариев к документу:
{все комментарии}

Отфильтруй по критериям:
- УБЕРИ: стилистические пожелания, форматирование, 
  «можно было бы написать лучше»
- УБЕРИ: комментарии, где проблема снимается контекстом 
  того же абзаца
- ОСТАВЬ: только то, что требует фактической правки

Сгруппируй оставшееся: Критические → Важные → Мелкие

🔗

Ресурсы

Benchmarking Agentic Review Systems — Dang Nguyen, Wanqing Hao, Yanai Elazar, Chenhao Tan. University of Chicago, Bar-Ilan University, 2025/2026.

OpenAIReview — открытый инструмент Chicago Human+AI Lab: github.com/ChicagoHAI/openreview-agent

Связанные работы: Liu & Shah (2023), Tyser et al. (2024) — более ранние бенчмарки AI-рецензентов; FLAWS (Xi et al., 2025), SPECS (Biswas et al., 2026) — параллельные бенчмарки на другом материале.


📋 Дайджест исследования

Ключевая суть

Модель читает ваш документ как человек без блокнота — держит всё в голове, но к 10-й странице уже не помнит что было на 1-й. Именно поэтому LLM пропускает противоречия между разделами — даже очевидные. Running Summary Review даёт возможность ловить логические дыры и несоответствия между частями длинных документов: 68% пойманных ошибок против 37% при проверке всего текста за один запрос. Фишка: после каждого раздела модель пишет конспект ключевых утверждений — и он уходит в следующий запрос. Это искусственная долгосрочная память вместо той, которой у модели нет.

Принцип работы

Делишь документ на части по 500–800 слов — примерно страница текста. Каждую часть проверяешь отдельным запросом: роль эксперта, чеклист критериев, конспект из предыдущих частей и сам текст. Модель не просто смотрит что перед ней — она сверяется с тем, что уже было утверждено раньше. Конспект копируешь руками от запроса к запросу. Это единственная ручная работа в методе — зато она и даёт результат.

Почему работает

Противоречие — это по природе межсекционная история. «Рынок растёт на 40%» в главе 1 и «рынок стагнирует» в главе 5 — модель поймает только если оба факта у неё перед глазами одновременно. Конспект именно это и делает: переносит ключевые утверждения из прошлых частей в текущий контекст. Вот почему prose-уровневые ошибки ловятся почти вдвое чаще — большинство из них и есть противоречия между разделами, которые писались в разное время. Важная оговорка: мелкие опечатки и числовые ляпы внутри одного абзаца модель ловит одинаково плохо — с конспектом и без. Это не инструмент корректуры, а инструмент смысловой проверки.

Когда применять

Инвест-меморандумы, технические отчёты, дипломные работы, юридические договоры — везде, где важна внутренняя согласованность на 5+ страницах. Особенно когда разные разделы писались в разные дни и могли разъехаться в утверждениях, цифрах или логике. НЕ подходит для: охоты на опечатки и арифметические ошибки внутри одного абзаца. Для этого лучше отдельный сфокусированный запрос по конкретному разделу.

Мини-рецепт

1. Нарежь документ на части по 500–800 слов. Больше — модель начнёт упускать детали. Меньше — растёт число запросов без выигрыша в точности.
2. Первый запрос: задай роль эксперта, чеклист критериев проверки и текст первой части. Попроси выдать комментарии и конспект: ключевые утверждения, цифры, термины из этой части.
3. Следующие запросы: та же роль и чеклист, конспект из предыдущего ответа (копируешь руками), текст следующей части. Попроси обновить конспект.
4. Финальный запрос: попроси объединить все комментарии, убрать дубли и отсортировать: критические → важные → мелкие. Мелкие отбрасывай сразу — это главный источник ложных срабатываний.
5. Добавь в чеклист оговорку: «Если сомнение снимается контекстом того же абзаца — не поднимай. Только реальные проблемы». Это сокращает количество придирок к несуществующим ошибкам.

Примеры

[ПЛОХО]: `Проверь этот документ на ошибки, противоречия и логические дыры` [и вставляет 10 страниц целиком] [ХОРОШО] — Запрос для первой части: `Ты — опытный инвестиционный аналитик. Проверяй документ по частям. ЧЕКЛИСТ: - Утверждения без данных: заявлено важное, но не подкреплено? - Противоречия: что-то расходится с тем, что было раньше? - Сломанная логика: вывод не следует из предпосылок? - Необоснованные заявки: «лучший», «единственный» — есть основания? ВАЖНО: если сомнение снимается контекстом этого же абзаца — не поднимай. Только реальные проблемы. КОНСПЕКТ ИЗ ПРЕДЫДУЩИХ ЧАСТЕЙ: пусто (это первая часть) ЧАСТЬ 1 (стр. 1–2): [текст] После комментариев дай КОНСПЕКТ: ключевые утверждения, цифры и термины из этой части, которые нужно помнить при проверке следующих разделов.` [ХОРОШО] — Запрос для второй части: `Продолжаем проверку. КОНСПЕКТ ИЗ ЧАСТИ 1: [копируешь конспект из предыдущего ответа] Проверь Часть 2 по тому же чеклисту. Особое внимание: нет ли противоречий с тем, что в конспекте? ЧАСТЬ 2 (стр. 3–4): [текст]`
Источник: BenchmarkingAgenticReview Systems
ArXiv ID: 2606.19749 | Сгенерировано: 2026-06-19 04:31

Методы

МетодСуть
Конспект-эстафета — проверка длинных документов по частямРаздели документ на части по 500–800 слов. Первую часть проверяй с чеклистом критериев. В конце каждого ответа модель фиксирует: ключевые утверждения, цифры, термины из этой части. Следующую часть проверяй с тем же чеклистом — и добавляй конспект из предыдущего шага. Почему работает: Модель хорошо работает с явно переданным контекстом. Конспект — это рукотворная «память»: вместо того чтобы помнить весь документ, модель сверяет новый текст с готовым списком утверждений. Противоречия между разделами видны — потому что оба конца лежат в одном запросе. Когда применять: Документы от 4 страниц, цель — поймать противоречия между разделами, неподкреплённые утверждения, сломанную логику. Не поможет: Опечатки, арифметика внутри одного абзаца — для локальных ошибок лучше отдельный запрос с фокусом на конкретный раздел.

Тезисы

ТезисКомментарий
Главный риск при проверке документа — лишние замечания, не пропущенные ошибкиИнтуиция говорит: модель что-то пропустит. На практике — наоборот. Модель придирается к мелочам и поднимает несуществующие проблемы. Это съедает время больше чем реальные пропуски. Применяй: Добавляй в любой запрос на проверку явный фильтр: «поднимай только то, что требует правки» или «не комментируй если сомнение снимается тем же абзацем». Без такого фильтра список замечаний будет зашумлён.
📖 Простыми словами

BenchmarkingAgenticReview Systems

arXiv: 2606.19749

Современные LLM — это гениальные аналитики с памятью золотой рыбки. Когда ты скармливаешь модели огромный документ, она не «читает» его целиком, как человек, а просто скользит по контекстному окну. К середине текста нейронка напрочь забывает, что было в начале, поэтому логические противоречия и мелкие косяки пролетают мимо нее со свистом. Исследование OpenAIReview подтверждает: стандартный подход «проверь всё сразу» — это полный провал, потому что модель видит куски текста в изоляции и не может сопоставить факты, разнесенные по разным страницам.

Это как пытаться собрать сложный пазл на 5000 деталей, глядя в замочную скважину. Ты видишь конкретный фрагмент, он кажется нормальным, но ты понятия не имеешь, стыкуется ли он с тем, что лежит в другом углу стола. В итоге формально всё проверено, но на выходе получается каша, где в первой главе герой — вегетарианец, а в пятой он с аппетитом ест стейк, и AI даже не моргнет глазом.

Чтобы это починить, придумали агентурную систему проверки: документ режут на куски, а модель заставляют вести накопленный конспект. Прочитала первую часть — выписала ключевые определения и факты в «шпаргалку». Перешла ко второй — проверяет её не просто так, а сверяясь с этой шпаргалкой. Этот метод Agentic Review превращает процесс из беглого осмотра в полноценный аудит, где каждое новое утверждение проходит жесткий фильтр на соответствие всему, что было сказано ранее.

Если ты готовишь серьезный инвест-меморандум или техническое задание на сто страниц, обычный промпт «найди ошибки» тебя подставит. Принцип накопленного контекста универсален: он работает для кода, юридических договоров и даже написания книг. Вместо того чтобы надеяться на объем памяти модели, нужно заставить её работать итеративно, постоянно обновляя базу знаний по ходу чтения. Только так можно выловить те самые «дыры», которые стоят кучу денег или нервов.

Короче: хватит скармливать нейронке лонгриды целиком и ждать чуда — она просто имитирует понимание. Используй пошаговую проверку с фиксацией фактов, иначе пропустишь критический баг или противоречие в цифрах. Контроль контекста — это единственный способ заставить AI реально думать над структурой, а не просто галлюцинировать на тему твоего текста. Кто не дробит задачи, тот получает красивый, но бесполезный результат.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с