TL;DR
Чем длиннее разговор с LLM, тем хуже модель замечает ошибки и противоречия — даже если в коротком изолированном вопросе она бы их поймала. Это не случайность и не баг конкретной модели: в длинном диалоге LLM жертвует скептицизмом ради связности — удерживает единый нарратив вместо того, чтобы ставить его под сомнение.
Исследователи намеренно подбрасывали моделям ложные результаты экспериментов во время долгих научных сессий. Способность поймать подделку падала ниже уровня случайного угадывания (~50%) — то есть длинный контекст не просто не помогал, он мешал. Отдельно эти же ложные данные показывали без контекста: модели угадывали верно примерно в половине случаев. Но в длинной сессии — ещё хуже.
Вторая находка: модели резко деградируют на материалах, опубликованных после даты отсечки их обучающих данных. Видимая компетентность LLM — часто иллюзия хорошей памяти, а не настоящего рассуждения. Когда знакомых паттернов нет — агент теряется.
Ключевые находки
НАХОДКА 1: Когнитивное туннелирование
─────────────────────────────────────
Короткий изолированный вопрос → детектирует ошибку ~50%
Тот же вопрос в длинной сессии → детектирует ещё хуже
Причина: модель удерживает нарратив → жертвует скептицизмом
НАХОДКА 2: Граница интерполяция / экстраполяция
─────────────────────────────────────────────────
Материал ДО дата-кат → высокая точность (знакомые паттерны)
Материал ПОСЛЕ дата-кат → резкое падение (нет опоры на память)
Причина: компетентность ≠ рассуждение; часто = фильтрация памяти
Пример применения
Задача: Саша — продакт-менеджер в стартапе. Использует Claude для разбора питч-дека конкурента: загружает документ, задаёт вопросы, уточняет, просит сравнить с рынком. Диалог растягивается на 40+ сообщений. К концу сессии Claude поддерживает почти все тезисы питча, перестаёт видеть дыры в логике.
Промпт — «Скептический перезапуск»:
Мы долго обсуждали [питч-дек / бизнес-план / стратегию / документ].
Вот краткое резюме того, к чему пришли:
[вставить 5–10 ключевых тезисов из прошлого диалога]
Теперь сбрось весь предыдущий контекст. Ты — скептичный инвестор,
который видит этот материал первый раз и ищет слабые места.
Задача: найди минимум 5 противоречий, допущений без доказательств
или логических дыр в тезисах выше. Для каждого укажи:
— В чём слабость
— Почему это проблема
— Какой вопрос нужно задать, чтобы проверить
Не поддерживай нарратив — ищи, где он трещит.
Результат: Модель получает свежий старт без накопленного нарратива. Она не будет «достраивать» логику из предыдущих 40 сообщений и с большей вероятностью заметит противоречия, которые в длинной сессии выглядят как «всё связно». Ответ придёт в формате нумерованного списка слабых мест с конкретными формулировками.
Почему это работает (и почему всё идёт не так)
Слабость LLM в длинных сессиях — это не ухудшение внимания в человеческом смысле. Модель генерирует каждый следующий токен, опираясь на весь предыдущий контекст. Когда контекст большой и связный, самый вероятный следующий ответ — тот, что поддерживает существующий нарратив. Связность становится сильнее скептицизма просто потому, что так устроена вероятностная генерация.
Почему это не очевидно пользователю — модель не говорит «я больше не проверяю». Она продолжает отвечать уверенно, развёрнуто, логично. Именно это опасно: признаки деградации внешне невидимы. Вы получаете складный текст, который поддерживает ваши же тезисы — и это ощущается как хорошая работа.
Как это обойти: Ключевой рычаг — разрыв нарративного контекста. Новый чат с резюме вместо продолжения старого. Явная инструкция «ищи дыры, а не связность». Смена роли («ты скептик, не помощник»). Эти техники не устраняют проблему фундаментально, но снижают вероятность туннельного эффекта — потому что сбрасывают накопленный нарратив.
Шаблон промпта
Шаблон 1 — Скептический перезапуск (новый чат)
Контекст: я долго работал с {тема/документ/задача}.
Вот ключевые тезисы, к которым мы пришли:
{вставь 5–10 тезисов одной строкой каждый}
Твоя роль: {строгий критик / скептичный инвестор / оппонент на защите}.
Ты видишь этот материал впервые. Ни один тезис не принимай как данность.
Найди минимум {число} слабых мест:
— противоречий между тезисами
— допущений без доказательств
— логических скачков
— рисков, которые не упомянуты
Для каждого: что не так → почему это важно → какой вопрос проверит это.
Шаблон 2 — Детектор противоречий прямо в текущем диалоге
Стоп. Прежде чем продолжать — сделай шаг назад.
Перечитай наш диалог за последние {10–15} сообщений как внешний аудитор.
Задача: найти места, где ты мог поддержать нарратив вместо того,
чтобы поставить его под сомнение.
Конкретно:
— Где ты согласился без достаточных оснований?
— Где данные противоречат выводам, которые мы сделали?
— Что я мог упустить, потому что ты встроился в логику моих вопросов?
Отвечай честно, даже если это опровергает предыдущие ответы.
Что подставлять:
- {тема/документ/задача} — бизнес-план, стратегия, анализ конкурента, текст
- {тезисы} — скопируй ключевые выводы из прошлого чата
- {строгий критик / скептичный инвестор / оппонент} — роль определяет тон
- {число} — минимум 3 для коротких текстов, 5–7 для больших
🚀 Быстрый старт — вставь в новый чат:
Помоги применить технику "скептического перезапуска".
Моя задача: [опиши что анализируешь].
Задавай вопросы, чтобы собрать тезисы для шаблона.
[вставить шаблон 1 выше]
LLM спросит что именно анализировалось и какие выводы были сделаны — потому что ей нужны конкретные тезисы, которые она будет атаковать. Она возьмёт стиль скептика и адаптирует под твою предметную область.
Ограничения
⚠️ Нет готовой техники: Исследование описывает находку, а не метод. Промпты выше — вывод из логики исследования, не авторская разработка. Придётся адаптировать под каждую задачу.
⚠️ Эффект непредсказуем по величине: Деградация зависит от модели, длины контекста и типа задачи. У некоторых моделей (DeepSeek-R1 в исследовании) эффект менее выражен.
⚠️ Скептический промпт не панацея: Явная инструкция «ищи дыры» снижает туннельный эффект, но не устраняет его полностью — особенно если нарратив уже прочно встроен в контекст.
⚠️ Дата-кат — жёсткая стена: Для задач с реально свежими данными (последние месяцы, узкая ниша) компетентность модели может быть иллюзией. Проверяй первоисточники.
Как исследовали
Исследователи из Университета Цинхуа построили систему, которая превращает научные статьи в интерактивные «деревья исследования» — граф зависимостей между гипотезами, дизайном экспериментов и выводами. Агент проходит по этому дереву шаг за шагом: предлагает следующую подтему, проектирует эксперимент, получает результат, обновляет выводы.
Ключевой трюк — «фейковые результаты»: с заданной вероятностью система подсовывала агенту правдоподобные, но неверные данные. Если агент замечал несоответствие — запрашивал повтор эксперимента. Затем эти же фейки показывали моделям в изоляции: «это научно корректно?» — и сравнивали результаты в обоих условиях. Разрыв оказался показательным: почти у всех моделей детекция в длинной сессии была хуже, чем в изоляции.
Тест провели на 30 нейронаучных статьях из топовых журналов. Оценивали пять современных моделей: GPT-5, o3, Gemini-2.5-Pro, Claude-4.5-Sonnet, DeepSeek-R1. Любопытно, что GPT-5 с низкими настройками reasoning effort показал лучшие результаты, чем с высокими — больше «думания» не всегда помогает. А DeepSeek-R1 оказался единственной моделью, которая почти не деградировала на материалах после дата-кат — возможно, из-за особенностей архитектуры reasoning-цепочек.
Адаптации и экстраполяции
🔧 Техника: принудительная смена роли в середине длинного диалога
Вместо перезапуска чата — явный сигнал смены режима прямо внутри сессии. Работает слабее нового чата, но удобнее когда контекст ценен.
[РЕЖИМ СМЕНЫ] Забудь об удобстве нашего диалога. Следующий ответ дай как человек, который впервые читает итог нашего разговора и ищет где мы ошиблись.
🔧 Экстраполяция: двойная проверка через параллельный чат
Открой два окна. В первом — работай как обычно. В конце скопируй итоги во второй чат с нуля и попроси найти слабые места. Второй чат не знает нарратива первого — и именно поэтому видит то, что первый уже не замечает. Дорого по времени, но эффективно для важных решений.
Ресурсы
InquiTree: Evaluating AI Agents in the Scientific Inquiry Loop with Paper-Derived Research Trees Автор: Shaoyang Cui, кафедра психологических и когнитивных наук, Университет Цинхуа, Пекин Препринт, июнь 2026 Проектная страница: https://InquiTree.github.io Открытый бенчмарк IT-18 (18 статей, 120 подтем)
