3,583 papers
arXiv:2604.03216 72 3 апр. 2026 г. FREE

BAS: как понять, когда доверять уверенности языковой модели

КЛЮЧЕВАЯ СУТЬ
Парадокс: GPT-4o на математике точнее GPT-oss — но её уверенность менее надёжна. Это не баг, это паттерн: когда просишь модель оценить уверенность после ответа — она не проверяет себя, она продолжает тот же текст. Раз дала ответ — 'уверенность' тоже будет высокой. Метод top-k позволяет вытащить реальную неопределённость — не спросить её, а вынудить показать. Попроси три варианта с распределением 100% — и модель не сможет накрутить одну цифру: нет знания → вес размажется поровну, есть знание → вес сконцентрируется на одном варианте. Один шаблон из двух строк — и ты видишь распределение знания, а не фасад уверенности.
Адаптировать под запрос

TL;DR

LLM систематически врёт о своей уверенности — и именно там, где это опаснее всего. Если спросить модель "насколько ты уверена?" после ответа, она часто назовёт 90%+ даже когда ошибается. Это не случайность — это паттерн. Исследование вводит метрику BAS (Behavioral Alignment Score), которая измеряет не просто "насколько точна уверенность", а "помогает ли уверенность принять правильное решение: отвечать или воздержаться".

Главная находка: уверенность модели наиболее опасна на фактических вопросах — где у модели нет знания, она всё равно называет высокие проценты вместо того, чтобы сказать "не знаю". На структурированных задачах (тесты с вариантами) — модели куда честнее. При этом большая модель ≠ честная модель: GPT-4o на математических задачах оказалась менее надёжной по уверенности, чем более слабая GPT-oss, хотя точнее её.

Ключевой практический вывод: вместо прямого запроса уверенности ("ты уверена в этом?") — попроси назвать несколько вариантов ответа с вероятностями. Этот приём (top-k elicitation) стабильно снижает самозаблуждение модели и даёт более реалистичную оценку без дополнительных шагов.


🔬

Схема метода

Обычный способ (ненадёжный):
Вопрос → Ответ + "Я уверена на 90%"

Top-k способ (надёжнее):
Вопрос → [Вариант 1: X, вероятность 70%]
          [Вариант 2: Y, вероятность 20%]
          [Вариант 3: Z, вероятность 10%]
         → Берём вариант с наибольшей вероятностью

Один запрос. Никаких дополнительных шагов.

🚀

Пример применения

Задача: Ты готовишь аргументы для переговоров с партнёром. Нужно знать, правда ли что конкуренты используют определённую схему ценообразования — и насколько точна эта информация.

Промпт:

Вопрос: Используют ли маркетплейсы на рынке РФ (Wildberries, Ozon, Яндекс.Маркет) 
модель динамического ценообразования с алгоритмической корректировкой цен 
в реальном времени?

Дай три варианта ответа в формате:
1. [Ответ] — вероятность: [X%] — почему: [1 предложение]
2. [Ответ] — вероятность: [X%] — почему: [1 предложение]  
3. [Ответ] — вероятность: [X%] — почему: [1 предложение]

Сумма вероятностей = 100%.

Результат: Модель предложит три конкурирующих утверждения с распределёнными вероятностями. Если уверенность концентрируется в одном ответе (70%+) — сигнал доверять. Если вес размазан поровну между вариантами — сигнал что модель не знает и честно это показывает. Ты видишь распределение знания, а не фасад уверенности.


🧠

Почему это работает

Почему прямой вопрос об уверенности ненадёжен. Когда просишь модель дать ответ и тут же сказать "насколько ты уверена?", обе части генерируются из одного потока текста. Модель не проверяет себя — она продолжает уже принятое направление. Раз дала ответ — "уверенность" тоже будет высокой, потому что модель не умеет "назад" по заданному тексту.

Почему top-k работает лучше. Когда просишь три варианта с вероятностями — задача меняется. Теперь нужно распределить уверенность, а не просто назвать число. Если модель плохо знает тему, три варианта будут разумными и вес распределится равномерно — структура запроса вытаскивает неопределённость наружу вместо того, чтобы прятать её за одним красивым процентом.

Рычаги управления: - k = 2 → для простых бинарных вопросов (да/нет с объяснением) - k = 3–5 → для фактических и аналитических вопросов - Добавь "почему ты присвоила именно этот процент" → видно рассуждение, можно поймать если модель "придумывает" обоснование - Если вероятности размазаны поровну → это сигнал: модель не знает, стоит перепроверить внешними источниками


📋

Шаблон промпта

{Вопрос или задача}

Дай {число} вариантов ответа в формате:
1. [Вариант] — вероятность: [X%] — обоснование: [1-2 предложения]
2. [Вариант] — вероятность: [X%] — обоснование: [1-2 предложения]
3. [Вариант] — вероятность: [X%] — обоснование: [1-2 предложения]

Сумма всех вероятностей = 100%.
Если ты неуверена — это должно быть видно в распределении вероятностей.

Плейсхолдеры: - {Вопрос или задача} — любой вопрос, где тебе важна надёжность ответа - {число} — обычно 3, для сложных вопросов можно 5

🚀 Быстрый старт — вставь в чат:

Вот шаблон для надёжной оценки уверенности модели. Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит какой вопрос нужно проверить и сколько вариантов нужно — потому что без этого не получится распределить вероятности. Она возьмёт паттерн из шаблона и адаптирует под задачу.


⚠️

Ограничения

⚠️ Структурированные задачи: На тестах с вариантами или чётко ограниченных задачах модели и без top-k дают приличную оценку уверенности. Метод особенно нужен для фактических и открытых вопросов.

⚠️ Вероятности — не числа, а сигнал: Если модель написала 73% — это не значит "73% вероятность правды". Это относительный сигнал: 73 против 15 против 12 — значит модель склоняется к первому варианту. Не интерпретируй цифры буквально.

⚠️ Самозаблуждение не исчезает полностью: Top-k снижает уверенность, но не исправляет. Если модель системно не знает тему — распределение может быть уверенным, но неверным. Метод помогает поймать сомнение, не гарантирует правду.

⚠️ Самопроверка ("проверь себя") не помогает: Исследование показало, что просьба отдельно оценить уверенность после ответа даёт нестабильные результаты и часто хуже, чем просто top-k. Не дублируй шаги "дай ответ → теперь проверь ответ".


🔍

Как исследовали

Команда Оксфорда взяла 12 моделей разного масштаба — от маленьких Mistral до GPT-4o и DeepSeek — и проверила их на трёх совершенно разных задачах: олимпийская математика AIME 2024/25, медицинские вопросы MedQA, и фактические вопросы SimpleQA. Для каждого вопроса модель давала ответ + число от 0 до 1 в качестве уверенности, а исследователи проверяли правильность.

Главный сюрприз: стандартные метрики "точности уверенности" (ECE) и "ранжирования" (AURC) давали одни оценки, а новая BAS — совершенно другие. Два примера: GPT-4o и более слабая модель могут иметь одинаковый ECE, но кардинально разный BAS — потому что BAS логарифмически бьёт за уверенные ошибки, а ECE такие ошибки не выделяет. Модель, которая говорит "я уверена на 95%" и ошибается — для BAS это катастрофа, для ECE — просто калибровочная погрешность.

Ещё один неожиданный результат: добавление самопроверки к top-k ухудшало надёжность по сравнению с чистым top-k. Меньше шагов — честнее ответ.


💡

Адаптации и экстраполяции

🔧 Техника: добавить "покажи своё незнание явно" → честнее распределение

Добавь в промпт: "Если ты не встречала надёжных источников по теме — один из вариантов должен быть 'недостаточно данных для ответа' с соответствующей вероятностью."

Это создаёт возможность для модели "выйти" из ситуации вместо того, чтобы уверенно галлюцинировать.

🔧 Техника: добавить разные типы обоснований → видно откуда уверенность

Вместо просто "обоснование" попроси: "источник уверенности: [общеизвестный факт / специализированное знание / логический вывод / неточно помню]"

Быстро видишь, на чём держится 70% — на реальном знании или на ощущении модели.


🔗

Ресурсы

BAS: A Decision-Theoretic Approach to Evaluating Large Language Model Confidence

Sean Wu, Fredrik K. Gustafsson, Edward Phillips, Boyan Gao, Anshul Thakur, David A. Clifton

Department of Engineering Science, University of Oxford; Oxford Suzhou Centre for Advanced Research

Код: github.com/SeanWu25/Behavioral-Alignment-Score

Preprint, под рецензией.


📋 Дайджест исследования

Ключевая суть

Парадокс: GPT-4o на математике точнее GPT-oss — но её уверенность менее надёжна. Это не баг, это паттерн: когда просишь модель оценить уверенность после ответа — она не проверяет себя, она продолжает тот же текст. Раз дала ответ — 'уверенность' тоже будет высокой. Метод top-k позволяет вытащить реальную неопределённость — не спросить её, а вынудить показать. Попроси три варианта с распределением 100% — и модель не сможет накрутить одну цифру: нет знания → вес размажется поровну, есть знание → вес сконцентрируется на одном варианте. Один шаблон из двух строк — и ты видишь распределение знания, а не фасад уверенности.

Принцип работы

Одна цифра уверенности — маска. Распределение — рентген. Когда просишь 'насколько уверена?' — модель называет удобное число из того же текстового потока. Когда просишь три варианта с суммой 100% — задача меняется: теперь нужно делить ограниченный ресурс между конкурирующими версиями. Структура запроса вытаскивает неопределённость наружу — вместо того чтобы прятать её за красивым процентом. Нет знания → веса размажутся. Есть знание → один вариант получит 70%+. Никакой магии — просто другой формат вопроса.

Почему работает

Прямой вопрос об уверенности — это вопрос после уже написанного ответа. Модель не видит альтернатив, только свой текст. Логично продолжить уверенно — и она продолжает. Top-k меняет задачу принципиально: не 'подтверди уверенность', а 'распредели ограниченный ресурс'. Это как разница между вопросом 'ты хороший врач?' и 'назови трёх лучших врачей в городе и объясни почему' — второй вопрос не даёт просто сказать 'да'. Плюс исследование BAS показало: большая модель не равно честная модель. На фактических вопросах, где у модели нет знания, она называет 90%+ вместо 'не знаю' — именно там top-k нужен больше всего.

Когда применять

Для любой задачи где важна надёжность информации — проверка фактов перед переговорами, ресёрч для статьи или отчёта, юридические и медицинские справки, стратегические решения на основе данных. Особенно хорошо работает на открытых фактических вопросах — именно там самозаблуждение модели максимально. НЕ нужно на структурированных тестах с готовыми вариантами ответа — там модели и без top-k дают реалистичную оценку.

Мини-рецепт

1. Задай вопрос нормально: сформулируй то, что хочешь узнать — без лишних просьб 'оцени уверенность'.
2. Добавь шаблон распределения: 'Дай 3 варианта ответа в формате: [вариант] — вероятность: [X%] — почему: [1-2 предложения]. Сумма всех вероятностей = 100%.'
3. Опционально: добавь 'Если неуверена — это должно быть видно в распределении' — это прямое разрешение модели показать сомнение вместо того, чтобы его скрывать.
4. Читай распределение, не цифры буквально: 70/20/10 → модель склоняется к первому варианту. 35/35/30 → модель не знает — иди проверять внешними источниками.

Примеры

[ПЛОХО] : Используют ли крупные маркетплейсы динамическое ценообразование? Насколько ты уверена в ответе?
[ХОРОШО] : Используют ли Wildberries, Ozon и Яндекс.Маркет алгоритмическое динамическое ценообразование в реальном времени? Дай 3 варианта ответа: 1. [Утверждение] — вероятность: [X%] — почему: [1-2 предложения] 2. [Утверждение] — вероятность: [X%] — почему: [1-2 предложения] 3. [Утверждение] — вероятность: [X%] — почему: [1-2 предложения] Сумма = 100%. Если неуверена — покажи это в распределении. Результат: если первый вариант получает 70%+ — сигнал доверять. Если веса примерно равны — проверяй вручную.
Источник: BAS: A Decision-Theoretic Approach to Evaluating Large Language Model Confidence
ArXiv ID: 2604.03216 | Сгенерировано: 2026-04-06 04:27

Проблемы LLM

ПроблемаСутьКак обойти
Модель врёт об уверенности на фактических вопросахСпрашиваешь "насколько ты уверена?". Модель называет 90%+ даже когда ошибается. Это не случайность — это паттерн. Ответ и "уверенность" генерируются одним потоком. Модель уже "выбрала направление". Назад не смотрит. Особенно опасно на открытых фактических вопросах: там модель не знает — но всё равно называет высокий процентНе спрашивай уверенность отдельно. Попроси сразу несколько вариантов с вероятностями. Одним запросом. Структура задачи вытаскивает неопределённость наружу

Методы

МетодСуть
Несколько вариантов с вероятностями — честная оценка уверенностиВместо "ответь и скажи насколько уверена" пиши: Дай 3 варианта ответа. Формат: [Вариант] — вероятность: [X%] — обоснование: [1-2 предложения]. Сумма = 100%. Почему работает: Когда нужно распределить уверенность между вариантами — нельзя всем дать по 90%. Ресурс ограничен. Модель вынуждена показать где сомневается. Сигнал чтения: вероятности 70/20/10 — модель склоняется к первому. Вероятности 35/33/32 — модель не знает. k=2 для да/нет вопросов. k=3–5 для фактических и аналитических. Не работает: на тестах с вариантами и чётко ограниченных задачах — там модели и без этого дают нормальную оценку

Тезисы

ТезисКомментарий
Равномерное распределение вероятностей — сигнал "не знаю"Когда просишь модель распределить 100% между вариантами, она не может спрятать незнание за одной красивой цифрой. Если веса размазаны поровну — модель честно показывает что не знает. Это встроенный индикатор. Применяй: увидел 33/33/33 — перепроверь ответ внешними источниками. Увидел 75/15/10 — можно доверять больше
📖 Простыми словами

BAS: A Decision-Theoretic Approach to EvaluatingLargeLanguageModelConfidence

arXiv: 2604.03216

Проблема в том, что современные нейронки — это патологические лжецы с завышенной самооценкой. Когда ты спрашиваешь модель: «Насколько ты уверена в ответе?», она не лезет в свои «чертоги разума» проверять факты, а просто генерирует текст, который звучит убедительно. Это фундаментальный баг архитектуры: модель просто продолжает заданный ею же тон. Если она уже выдала чушь, то и уверенность в 95% она припишет просто для того, чтобы не противоречить собственному уверенному стилю.

Это как нанять на работу стажера, который на любой вопрос отвечает с голливудской улыбкой, даже если понятия не имеет, о чем речь. Формально он молодец, но в реальности его советы — это мина замедленного действия. Ты полагаешься на его «зуб даю», принимаешь решение, а потом всё летит к чертям, потому что его уверенность была просто актерской игрой, а не знанием матчасти.

Чтобы прекратить этот цирк, придумали BAS (Behavioral Alignment Score). Суть метода в том, чтобы оценивать не красивые цифры в конце ответа, а реальное поведение модели. Вместо того чтобы верить ей на слово, исследователи смотрят, готова ли модель «поставить деньги» на свой ответ. BAS измеряет, насколько адекватно нейронка решает: выдать результат или честно сказать «я не знаю». Это не про абстрактную точность, а про практическую полезность: помогает ли самооценка модели принять верное решение в реальной ситуации или она просто пудрит тебе мозги.

Метод тестировали на сложных задачах, где цена ошибки высока, но принцип универсален. Это касается всего: от юридических справок до медицинских советов и бизнес-стратегий. Если модель не умеет вовремя заткнуться и признать пробел в знаниях, она бесполезна. BAS выводит таких болтунов на чистую воду, показывая, где нейронка реально соображает, а где просто галлюцинирует с умным видом.

Короче: забудь про прямые вопросы об уверенности, это пустой шум. Если хочешь внедрять AI в серьезные процессы, нужно смотреть на поведенческое выравнивание, а не на цифры в чате. Либо модель учится воздерживаться от ответа, когда она «плавает», либо ты рискуешь получить катастрофический провал там, где ожидал стопроцентную надежность. Кто первым научится фильтровать этот фальшивый апломб, тот и построит реально работающие системы.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с