TL;DR
LLM систематически врёт о своей уверенности — и именно там, где это опаснее всего. Если спросить модель "насколько ты уверена?" после ответа, она часто назовёт 90%+ даже когда ошибается. Это не случайность — это паттерн. Исследование вводит метрику BAS (Behavioral Alignment Score), которая измеряет не просто "насколько точна уверенность", а "помогает ли уверенность принять правильное решение: отвечать или воздержаться".
Главная находка: уверенность модели наиболее опасна на фактических вопросах — где у модели нет знания, она всё равно называет высокие проценты вместо того, чтобы сказать "не знаю". На структурированных задачах (тесты с вариантами) — модели куда честнее. При этом большая модель ≠ честная модель: GPT-4o на математических задачах оказалась менее надёжной по уверенности, чем более слабая GPT-oss, хотя точнее её.
Ключевой практический вывод: вместо прямого запроса уверенности ("ты уверена в этом?") — попроси назвать несколько вариантов ответа с вероятностями. Этот приём (top-k elicitation) стабильно снижает самозаблуждение модели и даёт более реалистичную оценку без дополнительных шагов.
Схема метода
Обычный способ (ненадёжный):
Вопрос → Ответ + "Я уверена на 90%"
Top-k способ (надёжнее):
Вопрос → [Вариант 1: X, вероятность 70%]
[Вариант 2: Y, вероятность 20%]
[Вариант 3: Z, вероятность 10%]
→ Берём вариант с наибольшей вероятностью
Один запрос. Никаких дополнительных шагов.
Пример применения
Задача: Ты готовишь аргументы для переговоров с партнёром. Нужно знать, правда ли что конкуренты используют определённую схему ценообразования — и насколько точна эта информация.
Промпт:
Вопрос: Используют ли маркетплейсы на рынке РФ (Wildberries, Ozon, Яндекс.Маркет)
модель динамического ценообразования с алгоритмической корректировкой цен
в реальном времени?
Дай три варианта ответа в формате:
1. [Ответ] — вероятность: [X%] — почему: [1 предложение]
2. [Ответ] — вероятность: [X%] — почему: [1 предложение]
3. [Ответ] — вероятность: [X%] — почему: [1 предложение]
Сумма вероятностей = 100%.
Результат: Модель предложит три конкурирующих утверждения с распределёнными вероятностями. Если уверенность концентрируется в одном ответе (70%+) — сигнал доверять. Если вес размазан поровну между вариантами — сигнал что модель не знает и честно это показывает. Ты видишь распределение знания, а не фасад уверенности.
Почему это работает
Почему прямой вопрос об уверенности ненадёжен. Когда просишь модель дать ответ и тут же сказать "насколько ты уверена?", обе части генерируются из одного потока текста. Модель не проверяет себя — она продолжает уже принятое направление. Раз дала ответ — "уверенность" тоже будет высокой, потому что модель не умеет "назад" по заданному тексту.
Почему top-k работает лучше. Когда просишь три варианта с вероятностями — задача меняется. Теперь нужно распределить уверенность, а не просто назвать число. Если модель плохо знает тему, три варианта будут разумными и вес распределится равномерно — структура запроса вытаскивает неопределённость наружу вместо того, чтобы прятать её за одним красивым процентом.
Рычаги управления: - k = 2 → для простых бинарных вопросов (да/нет с объяснением) - k = 3–5 → для фактических и аналитических вопросов - Добавь "почему ты присвоила именно этот процент" → видно рассуждение, можно поймать если модель "придумывает" обоснование - Если вероятности размазаны поровну → это сигнал: модель не знает, стоит перепроверить внешними источниками
Шаблон промпта
{Вопрос или задача}
Дай {число} вариантов ответа в формате:
1. [Вариант] — вероятность: [X%] — обоснование: [1-2 предложения]
2. [Вариант] — вероятность: [X%] — обоснование: [1-2 предложения]
3. [Вариант] — вероятность: [X%] — обоснование: [1-2 предложения]
Сумма всех вероятностей = 100%.
Если ты неуверена — это должно быть видно в распределении вероятностей.
Плейсхолдеры:
- {Вопрос или задача} — любой вопрос, где тебе важна надёжность ответа
- {число} — обычно 3, для сложных вопросов можно 5
🚀 Быстрый старт — вставь в чат:
Вот шаблон для надёжной оценки уверенности модели. Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит какой вопрос нужно проверить и сколько вариантов нужно — потому что без этого не получится распределить вероятности. Она возьмёт паттерн из шаблона и адаптирует под задачу.
Ограничения
⚠️ Структурированные задачи: На тестах с вариантами или чётко ограниченных задачах модели и без top-k дают приличную оценку уверенности. Метод особенно нужен для фактических и открытых вопросов.
⚠️ Вероятности — не числа, а сигнал: Если модель написала 73% — это не значит "73% вероятность правды". Это относительный сигнал: 73 против 15 против 12 — значит модель склоняется к первому варианту. Не интерпретируй цифры буквально.
⚠️ Самозаблуждение не исчезает полностью: Top-k снижает уверенность, но не исправляет. Если модель системно не знает тему — распределение может быть уверенным, но неверным. Метод помогает поймать сомнение, не гарантирует правду.
⚠️ Самопроверка ("проверь себя") не помогает: Исследование показало, что просьба отдельно оценить уверенность после ответа даёт нестабильные результаты и часто хуже, чем просто top-k. Не дублируй шаги "дай ответ → теперь проверь ответ".
Как исследовали
Команда Оксфорда взяла 12 моделей разного масштаба — от маленьких Mistral до GPT-4o и DeepSeek — и проверила их на трёх совершенно разных задачах: олимпийская математика AIME 2024/25, медицинские вопросы MedQA, и фактические вопросы SimpleQA. Для каждого вопроса модель давала ответ + число от 0 до 1 в качестве уверенности, а исследователи проверяли правильность.
Главный сюрприз: стандартные метрики "точности уверенности" (ECE) и "ранжирования" (AURC) давали одни оценки, а новая BAS — совершенно другие. Два примера: GPT-4o и более слабая модель могут иметь одинаковый ECE, но кардинально разный BAS — потому что BAS логарифмически бьёт за уверенные ошибки, а ECE такие ошибки не выделяет. Модель, которая говорит "я уверена на 95%" и ошибается — для BAS это катастрофа, для ECE — просто калибровочная погрешность.
Ещё один неожиданный результат: добавление самопроверки к top-k ухудшало надёжность по сравнению с чистым top-k. Меньше шагов — честнее ответ.
Адаптации и экстраполяции
🔧 Техника: добавить "покажи своё незнание явно" → честнее распределение
Добавь в промпт: "Если ты не встречала надёжных источников по теме — один из вариантов должен быть 'недостаточно данных для ответа' с соответствующей вероятностью."
Это создаёт возможность для модели "выйти" из ситуации вместо того, чтобы уверенно галлюцинировать.
🔧 Техника: добавить разные типы обоснований → видно откуда уверенность
Вместо просто "обоснование" попроси: "источник уверенности: [общеизвестный факт / специализированное знание / логический вывод / неточно помню]"
Быстро видишь, на чём держится 70% — на реальном знании или на ощущении модели.
Ресурсы
BAS: A Decision-Theoretic Approach to Evaluating Large Language Model Confidence
Sean Wu, Fredrik K. Gustafsson, Edward Phillips, Boyan Gao, Anshul Thakur, David A. Clifton
Department of Engineering Science, University of Oxford; Oxford Suzhou Centre for Advanced Research
Код: github.com/SeanWu25/Behavioral-Alignment-Score
Preprint, под рецензией.
