TL;DR
LLM одинаково уверенно» ошибается на опасных вопросах и на правильных ответах — разница в уверенности почти нулевая. Исследование SaFE-Scale проверило 34 модели на медицинских вопросах в шести режимах работы и обнаружило: уверенный тон ответа не говорит о его правильности в принципе.
Главная находка: то, как вы даёте контекст модели, влияет на качество ответа сильнее, чем размер модели или количество источников. Чистый, структурированный контекст (выдержки из надёжных источников без балласта) поднял точность с 73% до 94% — и одновременно снизил опасные ошибки с 12% до 2,6%. При этом варианты с большим контекстом и сложным поиском (RAG) практически не улучшили безопасность — только точность.
Суть: есть два разных показателя — точность (выбор правильного ответа в среднем) и безопасность (насколько редки и как серьёзны ошибки). Эти показатели растут по разным законам. Скейлинг — более крупная модель, больший контекст, сложный поиск — улучшает точность, но безопасность остаётся на месте. Только качество поданного контекста двигает оба показателя вместе.
Схема метода
Это не техника, а набор принципов, определяющих КАК подавать информацию LLM в важных задачах. Шесть режимов — от худшего к лучшему:
РЕЖИМ 1: Без контекста
Только вопрос → точность 73%, опасные ошибки 12%
РЕЖИМ 2: Много текста (max-context)
Вся доступная информация → точность 74%, ошибки 10,6%
⚠️ Просто больше текста не помогает
РЕЖИМ 3: Стандартный поиск (RAG)
Автоматически найденные фрагменты → точность 76%, ошибки 9,6%
⚠️ Лучше, но безопасность осталась низкой
РЕЖИМ 4: Агентный поиск
Многошаговый поиск с переформулировкой → точность 78%, ошибки 10,3%
⚠️ Точность выросла, но уверенных ошибок стало БОЛЬШЕ
РЕЖИМ 5: Конфликтующий контекст
Один источник правильный + один уводит в сторону → точность 92,5%, ошибки 3,5%
⚠️ Даже один противоречивый фрагмент увеличивает риск
РЕЖИМ 6: Чистый кураторский контекст ✅
Только релевантные, проверенные выдержки → точность 94%, ошибки 2,6%
✅ Единственный режим, где оба показателя высокие
Пример применения
Задача: Вы предприниматель и хотите разобраться в налоговых последствиях перевода бизнеса на ИП с НДС. Собираетесь спросить ChatGPT.
Промпт — режим «без контекста» (плохо):
Мне нужно разобраться в налоговых последствиях перехода с УСН
на ОСНО с НДС для ИП. Какие риски?
Промпт — режим «чистого контекста» (как надо):
Вот выдержки из актуальных разъяснений ФНС и статей НК РФ
по переходу с УСН на ОСНО:
[Статья 346.25 НК РФ: порядок учёта расходов при переходе...]
[Письмо ФНС № ... от ...: о восстановлении НДС...]
[Пункт 6 ст. 346.13: условия утраты права на УСН...]
Исходя из этих источников, какие налоговые риски возникают
при переходе ИП с УСН 6% на ОСНО с НДС в середине года?
Укажи, если приведённые источники не дают однозначного ответа.
Результат: Модель ответит строго в рамках поданных источников. Там, где источники однозначны — даст чёткий ответ. Там, где данных не хватает — скажет об этом. Вы получите структурированный анализ рисков с привязкой к конкретным нормам, а не уверенный ответ «из головы».
Почему это работает
LLM не имеет внутреннего счётчика уверенности — она генерирует текст, который выглядит уверенно, вне зависимости от того, правильный ответ или нет. Исследование показало: разница в уверенности между правильным ответом и опасной ошибкой — менее 10 процентных пунктов. Для фильтра нужно 30+. То есть доверять уверенному тону модели нельзя вообще.
Большой контекст — это шум, не помощь. Когда вы вставляете всё подряд — статьи, форумы, обсуждения — модель получает противоречивые сигналы. Даже один нерелевантный фрагмент заставляет её чаще выбирать неправильный ответ с высокой уверенностью. Исследователи специально проверили: добавление одного конфликтующего источника увеличивало долю уверенных ошибок с 2,6% до 3,5%.
Чистый контекст — это внешняя память. Модель хорошо умеет рассуждать внутри заданного контекста. Когда вы даёте ей точные, непротиворечивые выдержки — она работает как надёжный аналитик. Когда контекста нет или он зашумлён — она компенсирует уверенным тоном. Это и есть разрыв между точностью и безопасностью.
Рычаги управления: - Качество источников — чем более кураторский контекст, тем надёжнее ответ. Официальные документы > форумы > «всё подряд» - Инструкция «скажи, если не знаешь» — добавляй явный запрос признавать неопределённость - Разделение конфликтующих источников — если источники противоречат друг другу, скажи об этом явно в промпте, не мешай их в одном блоке - Размер модели — меняет точность в режиме «без контекста», но при хорошем контексте эффект выравнивается
Шаблон промпта
Ниже — выдержки из источников по теме {тема}:
ИСТОЧНИК 1: {название и краткое описание}
{текст выдержки}
ИСТОЧНИК 2: {название и краткое описание}
{текст выдержки}
На основе только этих источников ответь на вопрос: {вопрос}.
Если источники дают противоречивые данные — укажи это явно.
Если источников недостаточно — скажи, какой информации не хватает.
Не добавляй информацию, которой нет в источниках.
Что подставлять:
- {тема} — область вопроса: налоги, договорное право, медицина, финансы
- {название источника} — закон, статья, официальное письмо, мануал
- {текст выдержки} — только нужный фрагмент, не весь документ
- {вопрос} — конкретный вопрос, не общий
🚀 Быстрый старт — вставь в чат:
Помоги адаптировать этот шаблон под мою задачу.
Задавай уточняющие вопросы.
Моя задача: {опиши здесь}
[вставить шаблон выше]
LLM спросит, какие источники у тебя есть и какой конкретный вопрос нужно решить — потому что без этих данных шаблон нельзя правильно заполнить.
Ограничения
⚠️ Медицинский домен: Всё исследование проводилось на радиологических вопросах с ответами типа «выбери из 4-5 вариантов». Переносить выводы на открытые творческие задачи нужно с осторожностью.
⚠️ «Чистый контекст» требует работы: Принцип работает только если источники действительно хорошие. Если вы вставляете плохой текст аккуратно — он остаётся плохим.
⚠️ Доверие к модели не восстановить через уверенность: Даже при лучшем режиме (чистый контекст) уверенность на неправильных ответах оставалась высокой — просто таких ответов стало меньше. Модель не сигнализирует об ошибках сомнением.
⚠️ RAG не замена кураторству: Если вы используете ChatGPT с поиском или плагины — это не то же самое, что вручную подобранные источники. Автоматический поиск улучшает точность, но не безопасность.
Как исследовали
Исследователи решили проверить простую гипотезу: если модель точнее, она безопаснее? И обнаружили, что нет.
Они взяли 200 медицинских вопросов по радиологии с 4-5 вариантами ответа. Для каждого вопроса врачи заранее размечали: какой ответ правильный, а какой — не просто неправильный, а опасно неправильный (например, может привести к неверному диагнозу). Это ключевое отличие от обычных бенчмарков, где все неправильные ответы одинаковы.
Затем 34 модели (от крохотных 0,5B до гигантских 685B параметров) прогнали через шесть режимов работы: без контекста, с чистым контекстом, с конфликтующим, с автоматическим поиском (RAG), с продвинутым поиском, с огромным контекстом. Итого — 40 800 комбинаций «модель × режим × вопрос».
Самый неожиданный результат: модели семейства MedGemma — специально дообученные на медицинских данных — в режиме «без контекста» показали худшую точность среди всех (68,2% против 86,4% у DeepSeek). Но при добавлении чистого контекста разрыв почти исчезал. Это противоречило интуиции: казалось бы, специализированная модель должна лучше работать. Оказалось — специализация помогает меньше, чем правильный контекст.
Кроме того, исследователи специально изучили уверенность модели: записывали числовую оценку уверенности для каждого ответа. И увидели, что на опасных ошибках уверенность была 87,8%, а на правильных ответах — 94,9%. Разрыв в 7 процентных пунктов — слишком мал, чтобы использовать как фильтр. Практический вывод: уверенный тон не говорит ни о чём.
Оригинал из исследования
Deployment condition → Model-averaged outcomes (34 LLMs, 200 questions):
Closed-book: Accuracy 73.5% | High-risk error 12.0% | Dangerous overconf. 8.0%
Clean evidence: Accuracy 94.1% | High-risk error 2.6% | Dangerous overconf. 1.6%
Standard RAG: Accuracy 76.0% | High-risk error 9.6% | Dangerous overconf. 5.7%
Agentic RAG: Accuracy 78.1% | High-risk error 10.3% | Dangerous overconf. 8.0%
Max context: Accuracy 74.0% | High-risk error 10.6% | Dangerous overconf. 6.0%
Variance decomposition:
- Deployment condition explains: 43% (accuracy), 45% (high-risk error)
- Model family explains: 9% (accuracy), 8% (high-risk error)
Контекст: Авторы разложили, что именно объясняет разброс в результатах: выбор условий работы или выбор модели. Условия работы объясняют в 5 раз больше, чем семейство модели.
Адаптации и экстраполяции
💡 Адаптация: Принцип для любых важных решений, не только медицины
Юридический вопрос, финансовое решение, техническая экспертиза — везде, где ошибка дорого стоит:
У меня вопрос по {область: право / финансы / безопасность}.
Вот релевантные фрагменты из источников:
[ИСТОЧНИК: Название, дата]
Текст фрагмента...
[ИСТОЧНИК: Название, дата]
Текст фрагмента...
Вопрос: {конкретный вопрос}
Отвечай только на основе этих источников.
Если они не дают однозначного ответа — скажи прямо.
Не додумывай то, чего нет в источниках.
🔧 Техника: явная маркировка конфликтующих источников
Исследование показало: конфликтующий контекст повышает вероятность уверенных ошибок. Вместо того чтобы смешивать источники — скажи об этом явно:
Ниже два источника, которые могут противоречить друг другу.
ИСТОЧНИК A (возможно устаревший):
{текст}
ИСТОЧНИК B (более новый):
{текст}
Помоги разобраться: в чём они расходятся?
Какому из них стоит доверять больше и почему?
Это превращает потенциально опасную ситуацию в явный анализ.
🔧 Техника: запрос на явное признание неопределённости
Уверенность модели не снижается при ошибках — но её можно потребовать снизить явной инструкцией:
Важно: если ты не уверен в ответе или информации недостаточно —
скажи "не знаю" или "данных недостаточно" вместо того,
чтобы предполагать. Уверенность в ответе без оснований
хуже, чем признание неопределённости.
Добавляй этот блок в начало промпта на важных задачах.
Ресурсы
Название работы: Safety and accuracy follow different scaling laws in clinical large language models
Авторы: Sebastian Wind, Tri-Thien Nguyen, Jeta Sopa, Mahshad Lotfinia, Sebastian Bickelhaupt, Michael Uder, Harald Köstler, Gerhard Wellein, Sven Nebelung, Daniel Truhn, Andreas Maier, Soroosh Tayebi Arasteh
Аффилиации: Pattern Recognition Lab, FAU Erlangen-Nürnberg; Institute of Radiology, University Hospital Erlangen; Lab for AI in Medicine, RWTH Aachen University
Датасет и фреймворк: RadSaFE-200 (200 вопросов), SaFE-Scale (Safety-Focused Evaluation of Scaling)
