TL;DR
CCR — техника, при которой итоговый текст или код копируется в новый чат и там проверяется. Никакой истории предыдущего разговора, никаких инструкций по созданию — только готовый артефакт и запрос на ревью.
Когда вы просите модель проверить то, что она только что написала, в том же чате — она не критикует, она оправдывает. В контексте лежат все ваши инструкции, промежуточные итерации, компромиссы. Модель видит текст не как «что есть на самом деле», а как «результат правильной работы». Особенно жёстко это проявляется с критическими ошибками: логическими противоречиями и структурными пробелами, которые требуют смотреть на текст целиком — именно их модель в своём контексте не замечает.
CCR убирает производственный контекст полностью. В новом сеансе модель видит только артефакт — и вынуждена оценивать то, что реально написано, а не то, что планировалось написать. Ревью проходит по пяти критериям: точность фактов, внутренняя согласованность, применимость, читаемость, полнота.
Схема метода
СЕАНС A (производство):
Пишете текст / код / документ как обычно
→ Сохраняете финальный результат
ЭКСПОРТ:
Копируете только артефакт (без истории чата)
СЕАНС B (ревью) — новый чат, чистый старт:
Вставляете артефакт + промпт с 5 критериями
→ Получаете список найденных проблем
ИНТЕГРАЦИЯ:
Возвращаетесь в Сеанс A (или открываете третий)
→ Правите по найденному
Два отдельных запроса. Сеанс B не видит ничего из Сеанса A.
Пример применения
Задача: Написали лендинг для нового B2B SaaS-продукта — автоматизация отчётности для МСБ. Потратили час, несколько итераций с моделью, текст готов. Хотите проверить перед публикацией.
Промпт для Сеанса A (обычная работа):
Напиши лендинг для SaaS-продукта «ОтчётПро» —
автоматизация налоговой отчётности для ИП и малого бизнеса.
УТП: экономия 4 часов в неделю, интеграция с 1С и Моим налогом.
Цена: 2 900 ₽/месяц. Аудитория: бухгалтеры и владельцы ИП на УСН.
→ Получаете текст, правите, доводите до ума.
Промпт для Сеанса B (новый чат, вставляете артефакт):
Ниже — текст лендинга. Проверь его по пяти критериям
и выдай список конкретных проблем с указанием места в тексте:
1. Точность фактов — все ли цифры, утверждения и обещания
реалистичны и не противоречат друг другу?
2. Внутренняя согласованность — нет ли противоречий
между разными частями текста?
3. Применимость — будет ли это работать для заявленной аудитории
в реальных условиях?
4. Читаемость — может ли целевой читатель что-то неправильно понять
или пропустить важное?
5. Полнота — чего не хватает, чтобы читатель принял решение?
[ТЕКСТ ЛЕНДИНГА]
Результат: Модель выдаст пронумерованный список замечаний по каждому критерию с указанием конкретного блока или фразы. Не "всё хорошо, можно улучшить вот это", а реальные несоответствия — например, что обещание "экономия 4 часов" ничем не подкреплено, или что интеграция с 1С упомянута в шапке, но нет ни слова о том, как она работает.
Почему это работает
Слабость LLM — якорение (anchoring). Когда модель видит весь ваш разговор, у неё в контексте лежат ваши инструкции, промежуточные версии, ваши одобрения ("да, отлично, теперь добавь..."). Это создаёт сильный якорь: текст воспринимается как правильный результат выполнения правильной задачи. Модель не смотрит на него свежим взглядом — она его оправдывает.
Ещё один механизм — подхалимство (sycophancy). Модели обучены нравиться пользователю. В длинном разговоре, где вы много раз одобряли текст, у модели меньше стимулов быть жёстким критиком. Исследования показывают: когда модель не знает, что оценивает свой собственный текст — подхалимское смещение почти исчезает. CCR достигает этого автоматически: в новом сеансе модель просто не знает, кто написал этот текст.
Как CCR использует эту сильную сторону. Модель умеет хорошо находить ошибки в чужих текстах. CCR делает ваш текст "чужим" для ревьюера: новый сеанс — ноль памяти, ноль якорей. Плюс свежий сеанс работает с коротким контекстом (~5K токенов против 50K+ в производственном чате), что само по себе улучшает качество — эффект "потерялся в середине" значительно слабее.
Рычаги управления: - 5 критериев — можно убрать неактуальные или добавить свои (например, "соответствие SEO-требованиям") - Инструкция на выходе — добавьте "для каждой проблемы укажи: серьёзность (критично/важно/мелочь) и конкретную правку" - Роль — "Ты — скептичный инвестор / опытный копирайтер / целевой клиент, который видит это впервые" - Формат — попросите таблицу вместо списка для удобства сравнения
Шаблон промпта
Перед тобой {тип артефакта: текст / код / документ / скрипт}.
Проверь его по пяти критериям.
Для каждой найденной проблемы укажи: место в тексте,
в чём проблема, насколько это критично.
Критерии проверки:
1. Точность — все ли факты, цифры и утверждения верны и согласованы?
2. Непротиворечивость — нет ли внутренних противоречий?
3. Применимость — будет ли это работать в реальных условиях
для {целевая аудитория}?
4. Читаемость — что может быть неправильно понято или пропущено?
5. Полнота — чего не хватает для {цель артефакта: принятия решения /
запуска кода / публикации}?
{АРТЕФАКТ}
Что подставлять:
- {тип артефакта} — текст лендинга, питч для инвесторов, код функции, инструкция для сотрудника
- {целевая аудитория} — бухгалтер на УСН, CTO стартапа, новый менеджер
- {цель артефакта} — конкретное действие, которое должен совершить читатель/исполнитель
🚀 Быстрый старт — вставь в чат:
Вот шаблон Cross-Context Review для проверки текстов.
Адаптируй его под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить плейсхолдеры.
[вставить шаблон выше]
LLM спросит что именно нужно проверить и для кого — потому что критерии "применимость" и "полнота" зависят от контекста: проверять питч и проверять инструкцию по безопасности — разные задачи.
Ограничения
⚠️ Контекстуальные ошибки — всё равно сложно: CCR лучше всего находит фактические ошибки и противоречия. Ошибки типа "это не будет работать в конкретной среде" (contextual fitness) все условия находят плохо — максимум 16%. Для технических нюансов нужен человек, знающий контекст.
⚠️ Субъективный контент — минимальный эффект: Для скриптов, творческих текстов и материалов с размытыми критериями качества разница между сеансами минимальна. CCR максимально полезен для кода и технических документов.
⚠️ Повторные ревью в том же новом сеансе — контрпродуктивны: Если попросить модель "проверь ещё раз" в том же Сеансе B — она начнёт генерировать больше замечаний, но большинство окажутся ложными. Лучше открыть третий свежий сеанс, чем делать второй проход в том же.
⚠️ Одна модель в исследовании: Всё тестировалось на Claude Opus 4.6. Теоретически принципы универсальны (якорение и подхалимство задокументированы у всех крупных моделей), но прямых экспериментов с GPT-4 или Gemini нет.
Как исследовали
Исследователи задали себе точный вопрос: контекстная сепарация помогает, или просто помогает "посмотреть дважды"? Для этого добавили условие SR2 — тот же чат, второй проход ревью. Это умный контроль: если CCR просто выигрывает за счёт "двух взглядов", SR2 должен дать похожий результат.
Подготовили 30 артефактов трёх типов: Python-функции, технические туториалы, презентационные скрипты. В каждый намеренно вшили ровно 5 ошибок пяти типов с тремя уровнями серьёзности — итого 150 ошибок с известными ответами. Провели 360 ревью в четырёх условиях и каждое сравнили с эталоном.
SR2 не показал улучшений относительно одного прохода (p=0.11) — зато стал генерировать больше ложных находок. Модель "старалась сильнее", добавляя шум вместо сигнала. Это прямо показывает: дело не в количестве попыток, а именно в разрыве контекста. Любопытная деталь: предоставление модели оригинального промпта ("вот что просил пользователь") — условие SA — не помогло и даже слегка ухудшило результат. Похоже, любой производственный контекст триггерит якорение, не важно насколько он "полезный".
Оригинал из исследования
In the review phase, a new Session B starts from scratch.
The reviewer receives the artifact and a prompt asking it
to check five things:
factual accuracy (are the numbers and claims right?),
internal consistency (are there contradictions?),
contextual fitness (would this actually work in its intended environment?),
audience perspective (could a reader misinterpret something?),
and completeness (is anything important missing?).
Контекст: Это точная формулировка ревью-промпта из протокола исследования. Исследователи применяли её как стандартизированный запрос в Сеансе B для всех 30 артефактов.
Адаптации и экстраполяции
💡 Адаптация: ролевой ревьюер
Вместо нейтрального "проверь по 5 критериям" — дать конкретную роль в Сеансе B:
Ты — Фёдор Овчинников, который читает это впервые как потенциальный франчайзи. У тебя есть 1,5 млн рублей и скептицизм к красивым обещаниям. Что тебя насторожит? Что заставит закрыть страницу? [АРТЕФАКТ]Конкретная роль даёт острее критику — модель симулирует не абстрактного читателя, а человека с известной позицией и скептицизмом.
🔧 Техника: иерархическое ревью
Для сложных документов — несколько независимых Сеансов B с разными ролями, потом Сеанс C синтезирует находки:
СЕАНС B1: проверяет фактуру и цифры СЕАНС B2: проверяет структуру и логику СЕАНС B3: читает как целевая аудитория СЕАНС C: "Вот три независимых ревью одного документа. Объедини находки, убери дубли, расставь по приоритету."Каждый ревьюер специализирован → меньше ложных находок, выше точность по своему домену.
Ресурсы
Статья: Cross-Context Review: Improving LLM Output Quality by Separating Production and Review Sessions
Автор: Song Tae-Eun, Daejeon Jungang Cheonggua Co., Ltd. (higheun@gmail.com)
Ключевые работы, на которые опирается исследование: - Huang et al. (2024) — LLM не могут надёжно корректировать своё рассуждение без внешней обратной связи - Tsui (2025) — феномен "слепого пятна самокоррекции": средний показатель 64.5% у 14 моделей - Hong et al. (2025) — "context rot": деградация качества по мере роста контекста, задокументирована на 18 моделях - Liu et al. (2024) — "lost in the middle": модели хуже используют середину длинного контекста - Choi et al. (2025) — анонимизация авторства почти устраняет подхалимское смещение
