3,583 papers
arXiv:2605.04039 76 5 мая 2026 г. FREE

Точность растёт — безопасность нет: почему качество контекста важнее размера модели

КЛЮЧЕВАЯ СУТЬ
Парадокс: размер модели и объём контекста улучшают точность — но не безопасность. Это два разных показателя, и они растут по разным законам. Исследование 34 моделей на медицинских вопросах показало: только качество поданных источников двигает оба показателя сразу. Чистые кураторские выдержки подняли точность с 73% до 94% и одновременно срезали опасные ошибки с 12% до 2,6%. Сложный автоматический поиск (RAG)? Дал +3% к точности — безопасность почти не шелохнулась.
Адаптировать под запрос

TL;DR

LLM одинаково уверенно» ошибается на опасных вопросах и на правильных ответах — разница в уверенности почти нулевая. Исследование SaFE-Scale проверило 34 модели на медицинских вопросах в шести режимах работы и обнаружило: уверенный тон ответа не говорит о его правильности в принципе.

Главная находка: то, как вы даёте контекст модели, влияет на качество ответа сильнее, чем размер модели или количество источников. Чистый, структурированный контекст (выдержки из надёжных источников без балласта) поднял точность с 73% до 94% — и одновременно снизил опасные ошибки с 12% до 2,6%. При этом варианты с большим контекстом и сложным поиском (RAG) практически не улучшили безопасность — только точность.

Суть: есть два разных показателя — точность (выбор правильного ответа в среднем) и безопасность (насколько редки и как серьёзны ошибки). Эти показатели растут по разным законам. Скейлинг — более крупная модель, больший контекст, сложный поиск — улучшает точность, но безопасность остаётся на месте. Только качество поданного контекста двигает оба показателя вместе.


🔬

Схема метода

Это не техника, а набор принципов, определяющих КАК подавать информацию LLM в важных задачах. Шесть режимов — от худшего к лучшему:

РЕЖИМ 1: Без контекста
Только вопрос → точность 73%, опасные ошибки 12%

РЕЖИМ 2: Много текста (max-context)
Вся доступная информация → точность 74%, ошибки 10,6%
⚠️ Просто больше текста не помогает

РЕЖИМ 3: Стандартный поиск (RAG)
Автоматически найденные фрагменты → точность 76%, ошибки 9,6%
⚠️ Лучше, но безопасность осталась низкой

РЕЖИМ 4: Агентный поиск
Многошаговый поиск с переформулировкой → точность 78%, ошибки 10,3%
⚠️ Точность выросла, но уверенных ошибок стало БОЛЬШЕ

РЕЖИМ 5: Конфликтующий контекст
Один источник правильный + один уводит в сторону → точность 92,5%, ошибки 3,5%
⚠️ Даже один противоречивый фрагмент увеличивает риск

РЕЖИМ 6: Чистый кураторский контекст ✅
Только релевантные, проверенные выдержки → точность 94%, ошибки 2,6%
✅ Единственный режим, где оба показателя высокие

🚀

Пример применения

Задача: Вы предприниматель и хотите разобраться в налоговых последствиях перевода бизнеса на ИП с НДС. Собираетесь спросить ChatGPT.

Промпт — режим «без контекста» (плохо):

Мне нужно разобраться в налоговых последствиях перехода с УСН 
на ОСНО с НДС для ИП. Какие риски?

Промпт — режим «чистого контекста» (как надо):

Вот выдержки из актуальных разъяснений ФНС и статей НК РФ 
по переходу с УСН на ОСНО:

[Статья 346.25 НК РФ: порядок учёта расходов при переходе...]
[Письмо ФНС № ... от ...: о восстановлении НДС...]
[Пункт 6 ст. 346.13: условия утраты права на УСН...]

Исходя из этих источников, какие налоговые риски возникают 
при переходе ИП с УСН 6% на ОСНО с НДС в середине года? 
Укажи, если приведённые источники не дают однозначного ответа.

Результат: Модель ответит строго в рамках поданных источников. Там, где источники однозначны — даст чёткий ответ. Там, где данных не хватает — скажет об этом. Вы получите структурированный анализ рисков с привязкой к конкретным нормам, а не уверенный ответ «из головы».


🧠

Почему это работает

LLM не имеет внутреннего счётчика уверенности — она генерирует текст, который выглядит уверенно, вне зависимости от того, правильный ответ или нет. Исследование показало: разница в уверенности между правильным ответом и опасной ошибкой — менее 10 процентных пунктов. Для фильтра нужно 30+. То есть доверять уверенному тону модели нельзя вообще.

Большой контекст — это шум, не помощь. Когда вы вставляете всё подряд — статьи, форумы, обсуждения — модель получает противоречивые сигналы. Даже один нерелевантный фрагмент заставляет её чаще выбирать неправильный ответ с высокой уверенностью. Исследователи специально проверили: добавление одного конфликтующего источника увеличивало долю уверенных ошибок с 2,6% до 3,5%.

Чистый контекст — это внешняя память. Модель хорошо умеет рассуждать внутри заданного контекста. Когда вы даёте ей точные, непротиворечивые выдержки — она работает как надёжный аналитик. Когда контекста нет или он зашумлён — она компенсирует уверенным тоном. Это и есть разрыв между точностью и безопасностью.

Рычаги управления: - Качество источников — чем более кураторский контекст, тем надёжнее ответ. Официальные документы > форумы > «всё подряд» - Инструкция «скажи, если не знаешь» — добавляй явный запрос признавать неопределённость - Разделение конфликтующих источников — если источники противоречат друг другу, скажи об этом явно в промпте, не мешай их в одном блоке - Размер модели — меняет точность в режиме «без контекста», но при хорошем контексте эффект выравнивается


📋

Шаблон промпта

Ниже — выдержки из источников по теме {тема}:

ИСТОЧНИК 1: {название и краткое описание}
{текст выдержки}

ИСТОЧНИК 2: {название и краткое описание}
{текст выдержки}

На основе только этих источников ответь на вопрос: {вопрос}.

Если источники дают противоречивые данные — укажи это явно.
Если источников недостаточно — скажи, какой информации не хватает.
Не добавляй информацию, которой нет в источниках.

Что подставлять: - {тема} — область вопроса: налоги, договорное право, медицина, финансы - {название источника} — закон, статья, официальное письмо, мануал - {текст выдержки} — только нужный фрагмент, не весь документ - {вопрос} — конкретный вопрос, не общий


🚀 Быстрый старт — вставь в чат:

Помоги адаптировать этот шаблон под мою задачу. 
Задавай уточняющие вопросы.

Моя задача: {опиши здесь}

[вставить шаблон выше]

LLM спросит, какие источники у тебя есть и какой конкретный вопрос нужно решить — потому что без этих данных шаблон нельзя правильно заполнить.


⚠️

Ограничения

⚠️ Медицинский домен: Всё исследование проводилось на радиологических вопросах с ответами типа «выбери из 4-5 вариантов». Переносить выводы на открытые творческие задачи нужно с осторожностью.

⚠️ «Чистый контекст» требует работы: Принцип работает только если источники действительно хорошие. Если вы вставляете плохой текст аккуратно — он остаётся плохим.

⚠️ Доверие к модели не восстановить через уверенность: Даже при лучшем режиме (чистый контекст) уверенность на неправильных ответах оставалась высокой — просто таких ответов стало меньше. Модель не сигнализирует об ошибках сомнением.

⚠️ RAG не замена кураторству: Если вы используете ChatGPT с поиском или плагины — это не то же самое, что вручную подобранные источники. Автоматический поиск улучшает точность, но не безопасность.


🔍

Как исследовали

Исследователи решили проверить простую гипотезу: если модель точнее, она безопаснее? И обнаружили, что нет.

Они взяли 200 медицинских вопросов по радиологии с 4-5 вариантами ответа. Для каждого вопроса врачи заранее размечали: какой ответ правильный, а какой — не просто неправильный, а опасно неправильный (например, может привести к неверному диагнозу). Это ключевое отличие от обычных бенчмарков, где все неправильные ответы одинаковы.

Затем 34 модели (от крохотных 0,5B до гигантских 685B параметров) прогнали через шесть режимов работы: без контекста, с чистым контекстом, с конфликтующим, с автоматическим поиском (RAG), с продвинутым поиском, с огромным контекстом. Итого — 40 800 комбинаций «модель × режим × вопрос».

Самый неожиданный результат: модели семейства MedGemma — специально дообученные на медицинских данных — в режиме «без контекста» показали худшую точность среди всех (68,2% против 86,4% у DeepSeek). Но при добавлении чистого контекста разрыв почти исчезал. Это противоречило интуиции: казалось бы, специализированная модель должна лучше работать. Оказалось — специализация помогает меньше, чем правильный контекст.

Кроме того, исследователи специально изучили уверенность модели: записывали числовую оценку уверенности для каждого ответа. И увидели, что на опасных ошибках уверенность была 87,8%, а на правильных ответах — 94,9%. Разрыв в 7 процентных пунктов — слишком мал, чтобы использовать как фильтр. Практический вывод: уверенный тон не говорит ни о чём.


📄

Оригинал из исследования

Deployment condition → Model-averaged outcomes (34 LLMs, 200 questions):

Closed-book:    Accuracy 73.5% | High-risk error 12.0% | Dangerous overconf. 8.0%
Clean evidence: Accuracy 94.1% | High-risk error  2.6% | Dangerous overconf. 1.6%
Standard RAG:   Accuracy 76.0% | High-risk error  9.6% | Dangerous overconf. 5.7%
Agentic RAG:    Accuracy 78.1% | High-risk error 10.3% | Dangerous overconf. 8.0%
Max context:    Accuracy 74.0% | High-risk error 10.6% | Dangerous overconf. 6.0%

Variance decomposition:
- Deployment condition explains: 43% (accuracy), 45% (high-risk error)
- Model family explains: 9% (accuracy), 8% (high-risk error)

Контекст: Авторы разложили, что именно объясняет разброс в результатах: выбор условий работы или выбор модели. Условия работы объясняют в 5 раз больше, чем семейство модели.


💡

Адаптации и экстраполяции

📌

💡 Адаптация: Принцип для любых важных решений, не только медицины

Юридический вопрос, финансовое решение, техническая экспертиза — везде, где ошибка дорого стоит:

У меня вопрос по {область: право / финансы / безопасность}.

Вот релевантные фрагменты из источников:

[ИСТОЧНИК: Название, дата]
Текст фрагмента...

[ИСТОЧНИК: Название, дата]
Текст фрагмента...

Вопрос: {конкретный вопрос}

Отвечай только на основе этих источников. 
Если они не дают однозначного ответа — скажи прямо.
Не додумывай то, чего нет в источниках.
📌

🔧 Техника: явная маркировка конфликтующих источников

Исследование показало: конфликтующий контекст повышает вероятность уверенных ошибок. Вместо того чтобы смешивать источники — скажи об этом явно:

Ниже два источника, которые могут противоречить друг другу.

ИСТОЧНИК A (возможно устаревший):
{текст}

ИСТОЧНИК B (более новый):
{текст}

Помоги разобраться: в чём они расходятся? 
Какому из них стоит доверять больше и почему?

Это превращает потенциально опасную ситуацию в явный анализ.

📌

🔧 Техника: запрос на явное признание неопределённости

Уверенность модели не снижается при ошибках — но её можно потребовать снизить явной инструкцией:

Важно: если ты не уверен в ответе или информации недостаточно — 
скажи "не знаю" или "данных недостаточно" вместо того, 
чтобы предполагать. Уверенность в ответе без оснований 
хуже, чем признание неопределённости.

Добавляй этот блок в начало промпта на важных задачах.


🔗

Ресурсы

Название работы: Safety and accuracy follow different scaling laws in clinical large language models

Авторы: Sebastian Wind, Tri-Thien Nguyen, Jeta Sopa, Mahshad Lotfinia, Sebastian Bickelhaupt, Michael Uder, Harald Köstler, Gerhard Wellein, Sven Nebelung, Daniel Truhn, Andreas Maier, Soroosh Tayebi Arasteh

Аффилиации: Pattern Recognition Lab, FAU Erlangen-Nürnberg; Institute of Radiology, University Hospital Erlangen; Lab for AI in Medicine, RWTH Aachen University

Датасет и фреймворк: RadSaFE-200 (200 вопросов), SaFE-Scale (Safety-Focused Evaluation of Scaling)


📋 Дайджест исследования

Ключевая суть

Парадокс: размер модели и объём контекста улучшают точность — но не безопасность. Это два разных показателя, и они растут по разным законам. Исследование 34 моделей на медицинских вопросах показало: только качество поданных источников двигает оба показателя сразу. Чистые кураторские выдержки подняли точность с 73% до 94% и одновременно срезали опасные ошибки с 12% до 2,6%. Сложный автоматический поиск (RAG)? Дал +3% к точности — безопасность почти не шелохнулась.

Принцип работы

Исследователи прогнали вопросы через шесть режимов — от «просто спроси модель» до «дай чистые кураторские выдержки». Качество источников, а не их количество, определяет надёжность. Один конфликтующий фрагмент в контексте поднял долю уверенных ошибок с 2,6% до 3,5% — даже когда все остальные источники были правильными. Больше текста — это больше шума, а не надёжности. Агентный поиск с переформулировкой запроса вырастил точность до 78%, но уверенных ошибок стало даже больше, чем в режиме без контекста. Прикол: усложнение системы маскирует проблему, не решая её.

Почему работает

У модели нет внутреннего «термометра уверенности». Она генерирует текст, который выглядит уверенно — и когда права, и когда ошибается. Разница в уверенности между правильным ответом и опасной ошибкой составила менее 10 процентных пунктов — а для надёжной фильтрации нужно 30+. Уверенный тон ответа ничего не говорит о его правильности. Единственное что работает — ограничение снаружи: чистый, непротиворечивый контекст оставляет модели мало пространства для манёвра. Она рассуждает внутри заданных рамок, а не компенсирует их отсутствие уверенным видом.

Когда применять

Любая высокоставочная задача — юридические вопросы, медицина, налоги, финансы, технические регламенты — особенно когда ошибка стоит денег, здоровья или репутации. Нет смысла заморачиваться для творческих задач с открытым результатом, где «правильного ответа» в принципе не существует. НЕ подходит если источников у вас нет или они плохого качества — аккуратно поданный плохой текст остаётся плохим текстом.

Мини-рецепт

1. Собери источники руками: законы, официальные письма, профессиональные публикации — не «пусть модель сама найдёт в интернете».
2. Бери выдержки, не целые документы: только нужный абзац или пункт. Весь документ — это шум.
3. Разделяй противоречивые источники явно: если два источника говорят разное — скажи об этом в промпте отдельно, не мешай в один блок.
4. Добавь запрет на додумывание: явно напиши «не добавляй информацию, которой нет в источниках» и «если данных не хватает — скажи об этом».
5. Проверяй выводы по источникам, не по тону: уверенный ответ ничего не значит — смотри, на что ссылается модель.

Примеры

[ПЛОХО] : Расскажи о рисках перехода с УСН на ОСНО с НДС для ИП
[ХОРОШО] : Вот выдержки из источников по переходу с УСН на ОСНО: ИСТОЧНИК 1: Статья 346.25 НК РФ — порядок учёта расходов при переходе [текст выдержки] ИСТОЧНИК 2: Письмо ФНС № ... — о восстановлении НДС [текст выдержки] Ответь на вопрос только на основе этих источников: какие налоговые риски возникают при переходе в середине года? Если источники противоречат друг другу — укажи это явно. Если данных не хватает — скажи, какой информации не хватает. Не добавляй то, чего нет в источниках. Разница ощутима: первый промпт получает уверенный ответ «из головы» без привязки к нормам. Второй — анализ строго в рамках поданных документов, с явным сигналом там, где данных недостаточно.
Источник: Safety and accuracy follow different scaling laws in clinical large language models
ArXiv ID: 2605.04039 | Сгенерировано: 2026-05-06 05:23

Проблемы LLM

ПроблемаСутьКак обойти
Уверенный тон не означает правильный ответМодель пишет уверенно и когда права, и когда ошибается. Разница в тоне между верным ответом и опасной ошибкой — меньше 10 процентных пунктов. Невозможно отличить по тексту. Работает для любой задачи где цена ошибки высока: право, медицина, финансы, налогиНе доверяй тону. Давай модели проверенные источники явно. Добавляй в запрос: "если источников не хватает — скажи об этом. Не добавляй информацию, которой нет в источниках"
Лишние источники делают ответ опаснееДобавляешь больше текста — не становится лучше. Даже один нерелевантный или противоречивый фрагмент повышает число уверенных ошибок. Модель не умеет отфильтровать шум — она обрабатывает всё поданное как равнозначноеПодавай только нужное. Один чёткий фрагмент из надёжного источника лучше пяти смешанных

Методы

МетодСуть
Кураторский контекст — точность и безопасность вместеВместо "задай вопрос" — подай проверенные выдержки вручную. Структура: ИСТОЧНИК 1: {название} {нужный фрагмент} ИСТОЧНИК 2: ... Вопрос: .... В конце добавь три явных ограничения: "если источники противоречат — укажи", "если данных не хватает — скажи", "не добавляй то, чего нет в источниках". Почему работает: модель хорошо рассуждает внутри заданного контекста. Когда контекст точный и непротиворечивый — она опирается на него. Когда зашумлён — компенсирует уверенным тоном. Когда применять: важные задачи с высокой ценой ошибки, есть доступ к первичным источникам. Когда не работает: нет надёжных источников под рукой — тогда этот метод лучше не имитировать плохими материалами

Тезисы

ТезисКомментарий
Качество контекста двигает и точность, и безопасность. Размер модели — только точностьБольше параметров модель лучше угадывает правильный ответ в среднем. Но доля опасных уверенных ошибок почти не меняется. Только чистый, кураторский контекст снижает оба показателя одновременно. Применяй: когда важна не только правильность в среднем, но и надёжность каждого ответа — вкладывай усилия в качество источника, не в выбор модели
📖 Простыми словами

Safety and accuracy follow different scaling laws in clinicallargelanguagemodels

arXiv: 2605.04039

Проблема в том, что нейронки — патологические лжецы с каменным лицом. Когда модель выдает тебе опасную медицинскую чушь или ошибочный диагноз, она делает это с той же интонацией и уверенностью, с какой сообщает таблицу умножения. У LLM внутри просто нет встроенного «детектора правды»: она не понимает разницу между фактом и галлюцинацией, она просто подбирает наиболее вероятные слова. Исследование SaFE-Scale на 34 моделях подтвердило печальный факт: разница в уровне уверенности между правильным ответом и смертельно опасной ошибкой составляет ничтожные 10%, хотя для безопасной фильтрации нужно хотя бы 30.

Это как если бы ты пришел к врачу, который одинаково бодро и уверенно назначает тебе и витамины, и цианид. Формально он выглядит профессионалом, у него чистый халат и умные слова, но внутри — пустота. Ты не можешь понять, когда он несет бред, просто по его поведению, потому что у него полностью отсутствует чувство сомнения. В этом и заключается главный облом: чем умнее и «человечнее» кажется модель, тем убедительнее она впаривает тебе полную дичь.

В работе проверили шесть режимов подачи информации, и выяснилось, что уверенный тон — это вообще не показатель качества. Если ты, например, предприниматель и спрашиваешь нейронку про налоги или юридические риски, она вывалит тебе ответ с рейтингом уверенности 4.8 из 5, даже если этот совет приведет тебя прямиком в тюрьму. Модель лажает не потому, что она «глупая», а потому что масштабирование точности и масштабирование безопасности идут по разным кривым — они не связаны друг с другом напрямую.

Этот принцип универсален: он касается не только медицины, но и кода, финансов или инженерии. Тестировали на врачах, но грабли везде одни и те же. Неважно, используешь ты ChatGPT, Perplexity или Gemini — если задача критически важна, нельзя полагаться на то, насколько убедительно звучит AI. SEO-копирайтинг приучил нас верить гладким текстам, но в эпоху LLM это становится ловушкой, где форма полностью оторвана от содержания.

Короче: забудь про «интуитивную» оценку ответов нейронки. Если модель не сомневается — это не значит, что она права, это значит, что она просто хорошо натренирована имитировать уверенность. Доверять тону модели нельзя вообще, особенно в вопросах, где цена ошибки выше, чем потраченное время. Единственный выход — жесткая внешняя верификация и понимание, что перед тобой не эксперт, а очень продвинутый генератор правдоподобных букв.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с