3,583 papers
arXiv:2605.22047 74 21 мая 2026 г. FREE

ROUNDS-Bench: модели хуже думают, когда сами выясняют информацию — и это меняет как давать контекст

КЛЮЧЕВАЯ СУТЬ
Парадокс: правильный ответ — и при этом полностью придуманное обоснование. Исследование на 15 современных моделях зафиксировало: когда данные приходят по частям через диалог, точность падает, а качество рассуждений — ещё сильнее. Это назвали «галлюцинаторным рассуждением»: вывод верный, цепочка доказательств — из воздуха. Метод позволяет это обнаружить и заблокировать: даёшь весь контекст сразу и явно просишь привязать каждый вывод к конкретному факту из твоего текста. Если модель не может указать этот факт — она рассуждала наугад. Два шага отсекают домыслы там, где важны не только выводы, но и обоснования.
Адаптировать под запрос

TL;DR

LLM деградирует когда информацию получает по частям, а не сразу. Исследование протестировало 15 современных моделей на клинических случаях в двух режимах: "вот всё сразу — поставь диагноз" и "вот только жалоба — задавай вопросы и разбирайся". Второй режим стабильно хуже: точность падает, а качество обоснования — ещё сильнее.

Главная находка: модель может дать правильный ответ, опираясь на неправильные причины. Исследователи назвали это hallucinated reasoning — "галлюцинаторное рассуждение": правильный вывод, но без реальной цепочки доказательств. Это особенно опасно там, где важна не только финальная рекомендация, но и обоснование — юридические, финансовые, медицинские задачи.

Механизм сбоя двойной. Когда контекст неполный, модель закрывается на первой правдоподобной гипотезе — это преждевременное закрытие. А вместо того чтобы задавать уточняющие вопросы системно, она задаёт их хаотично и пропускает ключевые детали. Решение, которое следует из исследования: давать весь контекст сразу, а не отвечать на вопросы модели по одному.


🔬

Схема метода

Это исследование-находка: не промпт-техника, а открытие о поведении LLM. Из него следуют два практических приёма:

ПРИЁМ 1: Full-Context Dump
Вместо диалога → цельный промпт с ПОЛНЫМ контекстом
Результат → более точный анализ с меньшим числом ошибок

ПРИЁМ 2: Evidence Chain Check
После ответа → явный запрос доказательной цепи
Формат → "Что именно из моего описания это подтверждает?"
Результат → выявляешь "галлюцинаторное рассуждение"

Оба приёма работают в одном запросе — комбинируются.


🚀

Пример применения

Задача: Ты готовишь запуск нового продукта на Вайлдберриз — маска для лица из российского сырья. Хочешь понять, какую цену ставить и как позиционироваться. Обычно люди начинают так: "Помоги с ценой на маску" → модель спрашивает "а сколько стоит у конкурентов?" → "около 500 рублей" → "а ваша себестоимость?" → и так 10 сообщений. Результат — советы на основе выбитой по крупицам инфы.

Промпт:

Вот полная картина по запуску продукта. Проанализируй всё сразу — 
не задавай уточняющих вопросов, работай с тем что есть:

ПРОДУКТ: Тканевая маска для лица с экстрактом алтайского облепихового масла.
Производство: Барнаул, русский производитель.
Себестоимость единицы (с упаковкой): 87 рублей.
Минимальная партия для WB: 500 штук.

РЫНОК (данные с WB): Аналоги корейских брендов — 350–600 руб.
Российские аналоги — 180–320 руб. Отзывов у топов: 2000–8000.
Наш рейтинг: пока 0 (новинка).

ПОЗИЦИОНИРОВАНИЕ: Хотим подчеркнуть российское сырьё и экологичность.
Целевая — женщины 28–45, Москва и регионы, средний сегмент.

ВОПРОСЫ: 
1. Какую стартовую цену ставить?
2. Как выделиться в карточке при нулевом рейтинге?
3. Какой риск главный при запуске?

После каждого ответа — укажи конкретно, какой факт из моего описания 
стал основой для этой рекомендации.

Результат: Модель даст три конкретных ответа без лишних уточнений — потому что все данные уже в промпте. После каждого вывода появится явная ссылка на исходные данные: "цена 290 рублей — потому что себестоимость 87р, наценка ×3,3, ниже корейского дна в 350р". Последняя часть — как раз проверка evidence chain: если модель не может указать конкретный факт, значит рассуждает "из воздуха".


🧠

Почему это работает

Слабость LLM — модель не накапливает информацию между репликами как человек. Каждый ответ на вопрос добавляется в контекст, но к моменту третьего-четвёртого ответа модель уже "держит в уме" только часть картины. При этом она не умеет приостановить вывод до получения всех данных — она генерирует следующий токен на основе того что есть прямо сейчас.

Главный эффект преждевременного закрытия. Если в первом сообщении ты написал "нет продаж второй месяц" и спросил почему — модель мгновенно выдвинула гипотезу. Дальше она задаёт вопросы в подтверждение этой гипотезы, не опровергая её. Человек-эксперт так же подвержен этому, но хотя бы осознаёт момент перехода. Модель — нет.

Почему evidence chain помогает. Явное требование "укажи из чего следует вывод" — это встроенный фильтр галлюцинаций. Если модель не может связать рекомендацию с конкретными данными из твоего промпта, она либо скажет об этом (хорошо), либо попытается выдумать связь (и ты это увидишь — связь будет нелогичной). Это не магия — просто запрос на явный вывод снижает вероятность неявных домыслов.

Рычаги управления: - "Не задавай уточняющих вопросов" — явно блокирует режим интервью, заставляет работать с тем что дано - Количество блоков с данными — чем чётче структура (заглавными, с кодовыми словами), тем лучше модель "видит" отдельные факты - "Укажи конкретно, какой факт стал основой" — включает режим проверки evidence chain; убери, если нужен быстрый черновик без аудита


📋

Шаблон промпта

Вот полная информация по {задача}. 
Проанализируй всё сразу — не задавай уточняющих вопросов.

{блок_1_название}: {данные}
{блок_2_название}: {данные}
{блок_3_название}: {данные}

МОИ ВОПРОСЫ:
1. {вопрос_1}
2. {вопрос_2}
3. {вопрос_3}

После каждого ответа — укажи конкретно, какой факт из моего описания 
стал основой для этой рекомендации.

Что подставлять: - {задача} — тема в двух словах: "запуск продукта", "карьерное решение", "юридический вопрос" - {блок_N_название} — категории данных заглавными: ПРОДУКТ, РЫНОК, БЮДЖЕТ, КОНТЕКСТ - {данные} — всё что знаешь по этой категории, без фильтрации - {вопрос_N} — конкретные вопросы, не "помоги разобраться"


⚠️

Ограничения

⚠️ Не универсально для простых задач: Если задача простая и контекста мало — "full-context dump" не даёт преимущества. Разница проявляется на сложных аналитических ситуациях с несколькими переменными.

⚠️ Evidence chain не защищает от ошибок в данных: Модель будет честно ссылаться на твои данные — но если ты ввёл ошибочные цифры, цепочка будет корректной формально и неверной по сути.

⚠️ Некоторые домены принципиально сложнее: Задачи, требующие тонкой экспертной интерпретации (неврология, сложная биохимия) — даже с полным контекстом дают ненадёжный результат почти во всех моделях. Переноси на другие домены осторожно.

⚠️ "Правильный ответ" ≠ правильное рассуждение: Evidence chain check снижает вероятность галлюцинации, но не устраняет её полностью. Если ставки высоки — проверяй обоснования самостоятельно.


🔍

Как исследовали

Команда из Шанхая создала бенчмарк ROUNDS-Bench: 468 клинических случаев из четырёх источников, равномерно разбитых по шести системам организма — сердце, лёгкие, неврология, инфекции и т.д. Одни и те же случаи тестировали в двух режимах: в первом модель получала полный файл пациента сразу, во втором — только главную жалобу и должна была сама спрашивать симулятор пациента. Симулятор отвечал только на логически обоснованные клинические запросы — нельзя было просто попросить "дай все данные".

Тестировали 15 моделей — от GPT-4o до Qwen3-32B и DeepSeek-R1-Distill. Измеряли не только точность диагноза, но и качество доказательной цепи: смог ли модель запросить и привести именно те факты, которые нужны для вывода. Оказалось, что точность падает в среднем на 12.75%, а качество обоснования — на 24.36%. То есть обоснование деградирует вдвое быстрее, чем сам ответ. Это и есть суть "галлюцинаторного рассуждения": модель угадывает правильно чаще, чем может это объяснить.

Особенно показательна разница между моделями: DeepSeek-v3 при чуть худшей точности (46% vs 49% у Gemini) показал лучшее качество доказательной цепи (54% vs 42%). Авторы интерпретировали это как "evidence-leading" стиль — когда модель собирает доказательства аккуратнее, чем делает выводы. Для практики это означает: смотри не только на то, что модель говорит, но и на то, как она это обосновывает.


🔗

Ресурсы

Active Evidence-Seeking and Diagnostic Reasoning in Large Language Models for Clinical Decision Support

Авторы: Chen Zhan, Xihe Qiu, Xiaoyu Tan, Xibing Zhuang, Gengchen Ma, Yue Zhang, Shuo Li, Peifeng Liu, Xiaoxiao Ge, Liang Liu, Lu Gan

Организации: Shanghai University of Engineering Science, Tencent Youtu Lab, Jinshan Hospital (Fudan University), Case Western Reserve University, Renji Hospital (Shanghai Jiao Tong University), Zhongshan Hospital (Fudan University)


💡

Адаптации и экстраполяции

📌

Адаптация 1: Быстрая проверка "а вдруг угадал?"

💡 Для любого важного ответа модели:

Ты только что порекомендовал {вывод}. 
Теперь сыграй роль скептика: приведи три причины, 
почему этот вывод может быть неверным, 
опираясь только на данные которые я тебе дал — 
не добавляя новых предположений.

Это эксплуатирует находку про "галлюцинаторное рассуждение". Если модель не может найти ни одного контраргумента в твоих же данных — повод перепроверить качество её рассуждения.


📌

Адаптация 2: Когда контекст большой — структурируй как кейс

🔧 Техника: структура "кейс пациента" → для любой аналитической задачи

Исследователи использовали формат медкарты. Тот же принцип работает для бизнес-анализа, карьерных решений, оценки рисков:

КЕЙС: {название ситуации}

ИСХОДНЫЕ ДАННЫЕ:
— {факт 1}
— {факт 2}
— {факт 3}

ИСТОРИЯ: {как пришли к текущей ситуации}

ОГРАНИЧЕНИЯ: {что нельзя изменить}

ЦЕЛЬ: {что нужно решить}

Проанализируй этот кейс системно. Укажи какие данные 
из раздела ИСХОДНЫЕ ДАННЫЕ критически важны для вывода.

Такая структура заставляет тебя самого собрать полный контекст перед запросом — и модель получает всё сразу, без распределённого диалога.


📋 Дайджест исследования

Ключевая суть

Парадокс: правильный ответ — и при этом полностью придуманное обоснование. Исследование на 15 современных моделях зафиксировало: когда данные приходят по частям через диалог, точность падает, а качество рассуждений — ещё сильнее. Это назвали «галлюцинаторным рассуждением»: вывод верный, цепочка доказательств — из воздуха. Метод позволяет это обнаружить и заблокировать: даёшь весь контекст сразу и явно просишь привязать каждый вывод к конкретному факту из твоего текста. Если модель не может указать этот факт — она рассуждала наугад. Два шага отсекают домыслы там, где важны не только выводы, но и обоснования.

Принцип работы

Модель не умеет откладывать вывод. Получила первый факт — уже выдвинула гипотезу. Дальше задаёт уточняющие вопросы в подтверждение этой гипотезы, а не против неё. Человек-аналитик хотя бы осознаёт этот переход. Модель — нет. Чем больше итераций в диалоге, тем дальше первая гипотеза от реального контекста — это называют «преждевременным закрытием» (premature closure). Явный запрос «укажи, какой факт из описания стал основой» ломает этот цикл: модель либо честно признаёт что данных нет, либо пытается выдумать связь — и второе сразу видно: связь будет нелогичной.

Почему работает

Причина в том, как работает генерация. Каждый следующий токен строится на том, что есть прямо сейчас — без возможности «подождать» пока картина сложится полностью. При неполных данных гипотеза возникает раньше, чем появляются факты способные её опровергнуть. Именно поэтому диалоговый режим системно хуже монолитного промпта. Главная опасность не в ошибочных выводах — в правильных выводах с придуманным обоснованием: без явной проверки цепочки доказательств их не видно вообще. Это критично там где решение нужно объяснять — юридически, финансово, медицински.

Когда применять

Сложный анализ с несколькими переменными — особенно когда важен не только финальный ответ, но и ход рассуждений: юридические вопросы, финансовые решения, бизнес-ситуации с высокими ставками, медицинские случаи. Особенно полезно когда нужно объяснять решение другим людям и значит требуется рабочая цепочка доказательств, а не просто правдоподобный вывод. НЕ подходит для: простых задач с минимальным контекстом — разница между режимами исчезает; ситуаций где данных объективно мало и дать полную картину невозможно.

Мини-рецепт

1. Собери всё до промпта: цифры, ограничения, контекст, цели — всё в черновик, ничего не фильтруй
2. Структурируй блоками с заголовками заглавными буквами: ПРОДУКТ, РЫНОК, БЮДЖЕТ, ЦЕЛЬ — модель лучше различает отдельные факты когда они явно разделены
3. Добавь конкретные вопросы списком — не «помоги разобраться», а «1. Какую цену ставить? 2. Какой риск главный?»
4. Запрети уточняющие вопросы: добавь строчку «Не задавай уточняющих вопросов — работай с тем что есть»
5. Запроси проверку обоснования: «После каждого ответа укажи конкретно, какой факт из описания стал основой для этой рекомендации»

Примеры

[ПЛОХО] : Помоги разобраться со стратегией нашего продукта — модель начнёт выяснять детали по одной, зафиксируется на первой гипотезе и дальше будет её подтверждать, а не проверять
[ХОРОШО] : Вот полная картина. Не задавай уточняющих вопросов — работай с тем что есть. ПРОДУКТ: тканевые маски с алтайским облепиховым маслом, себестоимость 87 руб. РЫНОК: корейские аналоги 350–600 руб., российские 180–320 руб. ЗАДАЧА: стартовый запуск на Вайлдберриз, нулевой рейтинг. ВОПРОСЫ: 1. Какую стартовую цену ставить? 2. Как выделиться при нулевом рейтинге? 3. Какой риск главный? После каждого ответа укажи конкретно, какой факт из описания стал основой для рекомендации.
Источник: Active Evidence-Seeking and Diagnostic Reasoning in Large Language Models for Clinical Decision Support
ArXiv ID: 2605.22047 | Сгенерировано: 2026-05-22 06:33

Проблемы LLM

ПроблемаСутьКак обойти
Правильный ответ скрывает ошибку в рассужденииМодель даёт верный вывод — но строит его не на твоих данных, а на статистическом правдоподобии. Для простых задач незаметно. Для сложных — опасно: рекомендация верна случайно, и в следующем похожем случае уже нетПопроси модель явно указать: "Какой конкретный факт из моего описания стал основой для каждого вывода?" Если модель не может назвать — рассуждение шло "из воздуха"

Методы

МетодСуть
Проверка цепочки доказательств — фильтр домысловДобавь в конце запроса: После каждого вывода укажи конкретно, какой факт из моего описания стал его основой. Модель вынуждена явно связать рекомендацию с твоими данными. Если связь нелогичная — видишь сразу. Почему работает: явное требование цитировать источник блокирует генерацию "правдоподобного, но безосновательного". Когда не нужно: быстрый черновик без проверки качества
📖 Простыми словами

Active Evidence-Seeking and Diagnostic Reasoning inLargeLanguageModelsfor Clinical Decision Support

arXiv: 2605.22047

Суть в том, что современные нейронки — это не гениальные диагносты, а скорее пассивные накопители данных. Как только ты заставляешь модель саму добывать информацию по кусочкам, её интеллект начинает сыпаться. Исследование на 15 топовых моделях показало: когда им дают всю клиническую картину разом, они справляются, но стоит переключиться в режим живого диалога «вопрос-ответ», как точность летит в трубу. Проблема в фундаментальной механике: LLM не умеют строить стратегию поиска, они просто реагируют на последний кусок текста, теряя общую нить рассуждения.

Это как пытаться собрать сложный пазл, когда тебе выдают по одной детали в минуту, а старые детали при этом постоянно заметают под ковер. В теории ты должен помнить, что было в начале, но на практике твой фокус размыт. В итоге вместо того, чтобы увидеть целую картину, ты начинаешь гадать по последнему фрагменту. Модель в режиме диалога ведет себя как рассеянный интерн: она задает вопросы, получает ответы, но к пятому шагу забывает, с чего всё началось, и выдает диагноз «пальцем в небо».

Исследователи проверили это на двух сценариях: полный контекст против активного поиска. Результат удручающий: в режиме «допроса» модели не просто ошибаются в диагнозах, они выдают мусорные обоснования. Что реально работает — это завалить нейронку данными в первом же сообщении. Если заставлять её «вытягивать» из тебя подробности, она теряет способность к диагностическому резонингу. Точность падает даже у самых мощных моделей, потому что они не обучены планировать сбор доказательств, они обучены просто продолжать текст.

Этот принцип универсален и выходит далеко за рамки медицины. Тестировали на врачах, но это касается любого сложного анализа: от маркетинга на маркетплейсах до юридических разборов. Если ты просишь AI помочь с ценой на товар, не играй в «угадайку», выдавая инфу по чайной ложке. SEO-аналитика, расчеты себестоимости, данные конкурентов — всё должно лететь в один промпт. Как только начинается цепочка из десяти уточняющих сообщений, модель превращается в тыкву, потому что её окно внимания забивается техническим мусором диалога.

Короче: забудь про «умный диалог» там, где нужен глубокий анализ. Главный вывод исследования — LLM деградируют в итеративном процессе. Не жди, что нейронка сама догадается спросить о важном; она будет имитировать вежливость, пока окончательно не запутается. Хочешь адекватный результат — давай всё и сразу. Кто продолжает «общаться» с моделью вместо того, чтобы грузить её структурированным контекстом, получает галлюцинации вместо экспертизы.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с