TL;DR
LLM деградирует когда информацию получает по частям, а не сразу. Исследование протестировало 15 современных моделей на клинических случаях в двух режимах: "вот всё сразу — поставь диагноз" и "вот только жалоба — задавай вопросы и разбирайся". Второй режим стабильно хуже: точность падает, а качество обоснования — ещё сильнее.
Главная находка: модель может дать правильный ответ, опираясь на неправильные причины. Исследователи назвали это hallucinated reasoning — "галлюцинаторное рассуждение": правильный вывод, но без реальной цепочки доказательств. Это особенно опасно там, где важна не только финальная рекомендация, но и обоснование — юридические, финансовые, медицинские задачи.
Механизм сбоя двойной. Когда контекст неполный, модель закрывается на первой правдоподобной гипотезе — это преждевременное закрытие. А вместо того чтобы задавать уточняющие вопросы системно, она задаёт их хаотично и пропускает ключевые детали. Решение, которое следует из исследования: давать весь контекст сразу, а не отвечать на вопросы модели по одному.
Схема метода
Это исследование-находка: не промпт-техника, а открытие о поведении LLM. Из него следуют два практических приёма:
ПРИЁМ 1: Full-Context Dump
Вместо диалога → цельный промпт с ПОЛНЫМ контекстом
Результат → более точный анализ с меньшим числом ошибок
ПРИЁМ 2: Evidence Chain Check
После ответа → явный запрос доказательной цепи
Формат → "Что именно из моего описания это подтверждает?"
Результат → выявляешь "галлюцинаторное рассуждение"
Оба приёма работают в одном запросе — комбинируются.
Пример применения
Задача: Ты готовишь запуск нового продукта на Вайлдберриз — маска для лица из российского сырья. Хочешь понять, какую цену ставить и как позиционироваться. Обычно люди начинают так: "Помоги с ценой на маску" → модель спрашивает "а сколько стоит у конкурентов?" → "около 500 рублей" → "а ваша себестоимость?" → и так 10 сообщений. Результат — советы на основе выбитой по крупицам инфы.
Промпт:
Вот полная картина по запуску продукта. Проанализируй всё сразу —
не задавай уточняющих вопросов, работай с тем что есть:
ПРОДУКТ: Тканевая маска для лица с экстрактом алтайского облепихового масла.
Производство: Барнаул, русский производитель.
Себестоимость единицы (с упаковкой): 87 рублей.
Минимальная партия для WB: 500 штук.
РЫНОК (данные с WB): Аналоги корейских брендов — 350–600 руб.
Российские аналоги — 180–320 руб. Отзывов у топов: 2000–8000.
Наш рейтинг: пока 0 (новинка).
ПОЗИЦИОНИРОВАНИЕ: Хотим подчеркнуть российское сырьё и экологичность.
Целевая — женщины 28–45, Москва и регионы, средний сегмент.
ВОПРОСЫ:
1. Какую стартовую цену ставить?
2. Как выделиться в карточке при нулевом рейтинге?
3. Какой риск главный при запуске?
После каждого ответа — укажи конкретно, какой факт из моего описания
стал основой для этой рекомендации.
Результат: Модель даст три конкретных ответа без лишних уточнений — потому что все данные уже в промпте. После каждого вывода появится явная ссылка на исходные данные: "цена 290 рублей — потому что себестоимость 87р, наценка ×3,3, ниже корейского дна в 350р". Последняя часть — как раз проверка evidence chain: если модель не может указать конкретный факт, значит рассуждает "из воздуха".
Почему это работает
Слабость LLM — модель не накапливает информацию между репликами как человек. Каждый ответ на вопрос добавляется в контекст, но к моменту третьего-четвёртого ответа модель уже "держит в уме" только часть картины. При этом она не умеет приостановить вывод до получения всех данных — она генерирует следующий токен на основе того что есть прямо сейчас.
Главный эффект преждевременного закрытия. Если в первом сообщении ты написал "нет продаж второй месяц" и спросил почему — модель мгновенно выдвинула гипотезу. Дальше она задаёт вопросы в подтверждение этой гипотезы, не опровергая её. Человек-эксперт так же подвержен этому, но хотя бы осознаёт момент перехода. Модель — нет.
Почему evidence chain помогает. Явное требование "укажи из чего следует вывод" — это встроенный фильтр галлюцинаций. Если модель не может связать рекомендацию с конкретными данными из твоего промпта, она либо скажет об этом (хорошо), либо попытается выдумать связь (и ты это увидишь — связь будет нелогичной). Это не магия — просто запрос на явный вывод снижает вероятность неявных домыслов.
Рычаги управления: - "Не задавай уточняющих вопросов" — явно блокирует режим интервью, заставляет работать с тем что дано - Количество блоков с данными — чем чётче структура (заглавными, с кодовыми словами), тем лучше модель "видит" отдельные факты - "Укажи конкретно, какой факт стал основой" — включает режим проверки evidence chain; убери, если нужен быстрый черновик без аудита
Шаблон промпта
Вот полная информация по {задача}.
Проанализируй всё сразу — не задавай уточняющих вопросов.
{блок_1_название}: {данные}
{блок_2_название}: {данные}
{блок_3_название}: {данные}
МОИ ВОПРОСЫ:
1. {вопрос_1}
2. {вопрос_2}
3. {вопрос_3}
После каждого ответа — укажи конкретно, какой факт из моего описания
стал основой для этой рекомендации.
Что подставлять:
- {задача} — тема в двух словах: "запуск продукта", "карьерное решение", "юридический вопрос"
- {блок_N_название} — категории данных заглавными: ПРОДУКТ, РЫНОК, БЮДЖЕТ, КОНТЕКСТ
- {данные} — всё что знаешь по этой категории, без фильтрации
- {вопрос_N} — конкретные вопросы, не "помоги разобраться"
Ограничения
⚠️ Не универсально для простых задач: Если задача простая и контекста мало — "full-context dump" не даёт преимущества. Разница проявляется на сложных аналитических ситуациях с несколькими переменными.
⚠️ Evidence chain не защищает от ошибок в данных: Модель будет честно ссылаться на твои данные — но если ты ввёл ошибочные цифры, цепочка будет корректной формально и неверной по сути.
⚠️ Некоторые домены принципиально сложнее: Задачи, требующие тонкой экспертной интерпретации (неврология, сложная биохимия) — даже с полным контекстом дают ненадёжный результат почти во всех моделях. Переноси на другие домены осторожно.
⚠️ "Правильный ответ" ≠ правильное рассуждение: Evidence chain check снижает вероятность галлюцинации, но не устраняет её полностью. Если ставки высоки — проверяй обоснования самостоятельно.
Как исследовали
Команда из Шанхая создала бенчмарк ROUNDS-Bench: 468 клинических случаев из четырёх источников, равномерно разбитых по шести системам организма — сердце, лёгкие, неврология, инфекции и т.д. Одни и те же случаи тестировали в двух режимах: в первом модель получала полный файл пациента сразу, во втором — только главную жалобу и должна была сама спрашивать симулятор пациента. Симулятор отвечал только на логически обоснованные клинические запросы — нельзя было просто попросить "дай все данные".
Тестировали 15 моделей — от GPT-4o до Qwen3-32B и DeepSeek-R1-Distill. Измеряли не только точность диагноза, но и качество доказательной цепи: смог ли модель запросить и привести именно те факты, которые нужны для вывода. Оказалось, что точность падает в среднем на 12.75%, а качество обоснования — на 24.36%. То есть обоснование деградирует вдвое быстрее, чем сам ответ. Это и есть суть "галлюцинаторного рассуждения": модель угадывает правильно чаще, чем может это объяснить.
Особенно показательна разница между моделями: DeepSeek-v3 при чуть худшей точности (46% vs 49% у Gemini) показал лучшее качество доказательной цепи (54% vs 42%). Авторы интерпретировали это как "evidence-leading" стиль — когда модель собирает доказательства аккуратнее, чем делает выводы. Для практики это означает: смотри не только на то, что модель говорит, но и на то, как она это обосновывает.
Ресурсы
Active Evidence-Seeking and Diagnostic Reasoning in Large Language Models for Clinical Decision Support
Авторы: Chen Zhan, Xihe Qiu, Xiaoyu Tan, Xibing Zhuang, Gengchen Ma, Yue Zhang, Shuo Li, Peifeng Liu, Xiaoxiao Ge, Liang Liu, Lu Gan
Организации: Shanghai University of Engineering Science, Tencent Youtu Lab, Jinshan Hospital (Fudan University), Case Western Reserve University, Renji Hospital (Shanghai Jiao Tong University), Zhongshan Hospital (Fudan University)
Адаптации и экстраполяции
Адаптация 1: Быстрая проверка "а вдруг угадал?"
💡 Для любого важного ответа модели:
Ты только что порекомендовал {вывод}.
Теперь сыграй роль скептика: приведи три причины,
почему этот вывод может быть неверным,
опираясь только на данные которые я тебе дал —
не добавляя новых предположений.
Это эксплуатирует находку про "галлюцинаторное рассуждение". Если модель не может найти ни одного контраргумента в твоих же данных — повод перепроверить качество её рассуждения.
Адаптация 2: Когда контекст большой — структурируй как кейс
🔧 Техника: структура "кейс пациента" → для любой аналитической задачи
Исследователи использовали формат медкарты. Тот же принцип работает для бизнес-анализа, карьерных решений, оценки рисков:
КЕЙС: {название ситуации}
ИСХОДНЫЕ ДАННЫЕ:
— {факт 1}
— {факт 2}
— {факт 3}
ИСТОРИЯ: {как пришли к текущей ситуации}
ОГРАНИЧЕНИЯ: {что нельзя изменить}
ЦЕЛЬ: {что нужно решить}
Проанализируй этот кейс системно. Укажи какие данные
из раздела ИСХОДНЫЕ ДАННЫЕ критически важны для вывода.
Такая структура заставляет тебя самого собрать полный контекст перед запросом — и модель получает всё сразу, без распределённого диалога.
