TL;DR
LLMs имеют внутреннее чувство уверенности — не показушное, а настоящее. Когда модель отвечает на вопрос, она одновременно генерирует внутренний сигнал «насколько я уверена в этом ответе» — и этот сигнал реально управляет тем, ответит она или уклонится. Исследование Google DeepMind доказало это причинно, а не корреляционно.
Главная проблема в работе с LLM — модели уверенно галлюцинируют. Когда модель не знает ответа, она всё равно генерирует текст с уверенным тоном. Пользователь получает красиво сформулированную неправду. Особенно опасно при медицинских, юридических, финансовых вопросах — там ошибка дороже молчания.
Решение: явно инструктировать модель использовать собственную уверенность как отсечку. Попросите модель сначала выбрать ответ, затем оценить уверенность в процентах, и выдать результат только если уверенность выше порога — иначе честно признаться в незнании. Это работает, потому что внутренний сигнал уверенности реально существует — и промптом мы его активируем.
Схема метода
Всё выполняется в одном промпте, один запрос.
ШАГ 1: Выбери ответ → лучший вариант из возможных
ШАГ 2: Оцени уверенность → число от 0 до 100%
ШАГ 3: Сравни с порогом T
если уверенность ≥ T → дай ответ
если уверенность < T → признайся в незнании
Пример применения
Метод в сильной зоне: фактические вопросы с высокой ценой ошибки — медицина, право, финансы, точные даты, технические нормы. Слабая зона: субъективные суждения, творческие задачи, мнения.
Задача: Фаундер стартапа хочет разобраться с налогами на опционы для сотрудников в России, но боится получить уверенный неверный ответ и сделать ошибку.
Промпт:
Я задам тебе фактический вопрос о российском налоговом праве.
Вот как ты должен отвечать:
1. Сначала выбери лучший ответ на вопрос — кратко сформулируй его внутри тегов
2. Оцени свою уверенность в этом ответе: вероятность что ты точен, от 0 до 100%.
Запиши внутри тегов
3. Если уверенность ≥ 75% — дай полный ответ
4. Если уверенность < 75% — напиши: "Не уверен достаточно для точного ответа.
Вот что известно точно: [только то, в чём уверен], но по ключевому вопросу
рекомендую проверить у специалиста."
Вопрос: Нужно ли платить НДФЛ с разницы между ценой опциона и рыночной стоимостью
акций в момент исполнения для сотрудников российского ООО?
Результат: Модель покажет черновик ответа и процент уверенности. Если уверенность высокая — получите конкретный ответ с объяснением. Если низкая — модель честно обозначит границу своего знания: что точно верно, а где лучше проверить у юриста. Никаких уверенных галлюцинаций.
Почему это работает
Слабость LLM: модель всегда генерирует следующий токен — она не «молчит» по умолчанию. Даже не зная ответа, она продолжает текст. Без явной инструкции внутренний сигнал неуверенности никуда не выходит — модель просто использует его тихо, и иногда решает уклониться, иногда нет.
Сильная сторона LLM: внутренний сигнал уверенности существует и работает. Исследование показало: уверенность предсказывает отказ от ответа в десять раз лучше, чем доступность знания из внешних источников или сложность вопроса. Это не поверхностная оценка — это реальное внутреннее состояние.
Как метод это использует: промпт Phase 4 экстернализирует внутренний сигнал. Вместо того чтобы надеяться, что модель сама решит промолчать — мы явно вводим порог. Модель сначала генерирует ответ-кандидат, потом оценивает уверенность в нём, потом применяет правило. Структура промпта разворачивает этот внутренний процесс наружу и делает его управляемым.
Рычаги управления: - Порог T — снизь до 60% для обычных вопросов, подними до 85–90% для медицины/права - Формат уверенности — можно попросить «низкая / средняя / высокая» вместо процентов — проще, но менее точно - Инструкция при низкой уверенности — замени "признайся в незнании" на "дай ответ, но выдели жирным что именно неточно" — получишь ответ с пометками вместо отказа
Шаблон промпта
Я задам тебе вопрос о {область: медицина / право / финансы / технические факты}.
Отвечай строго по схеме:
1. Сформулируй лучший ответ внутри тегов
2. Оцени уверенность в ответе от 0 до 100% внутри тегов
3. Примень правило:
— Если уверенность ≥ {порог, например 75}% → дай полный развёрнутый ответ
— Если уверенность < {порог}% → напиши: "Уверенность недостаточна для точного ответа.
Вот что точно верно: [только проверенное]. По остальному — рекомендую проверить у {специалиста}."
Вопрос: {твой вопрос}
Что подставлять:
- {область} — контекст, чтобы модель понимала цену ошибки
- {порог} — 70–75% для обычных задач, 85–90% для высокорисковых
- {специалиста} — врач, юрист, налоговый консультант — конкретно по теме
🚀 Быстрый старт — вставь в чат:
Вот шаблон для вопросов с порогом уверенности.
Адаптируй под мою задачу: {твоя задача}.
Задавай уточняющие вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит про область вопроса и нужный порог уверенности — потому что от этого зависит когда модель будет отвечать, а когда признаваться в незнании.
Ограничения
⚠️ Самооценка не идеальна: Модель может ошибаться в оценке собственной уверенности — особенно в областях, где она систематически переоценивает себя (например, редкие факты, события после даты обучения). Порог снижает риск, но не устраняет его полностью.
⚠️ Субъективные вопросы: Метод разработан для фактических вопросов с правильным ответом. Для суждений, прогнозов и творческих задач «уверенность» теряет смысл — модель будет выдавать числа, но они ничего не отражают.
⚠️ Слишком высокий порог = постоянные отказы: При пороге выше 90% модель начнёт уклоняться даже от вопросов, на которые знает ответ. Подбирай порог под задачу.
⚠️ Активационное управление недоступно: Фаза 3 исследования (прямая модификация внутренних сигналов через activation steering) требует доступа к весам модели и кода. Для пользователя чата недоступна. Всё что применимо без кода — это Phase 4, описанная выше.
Как исследовали
Исследователи придумали элегантный способ поймать LLM «на честности». Идея: сначала замерить уверенность модели до того как предложить ей опцию «не отвечать» — чтобы получить чистый сигнал без искажений. Потом — предложить отказаться от ответа и посмотреть, совпадёт ли поведение с ранее замеренной уверенностью.
Четыре модели (GPT-4o, Gemma 3 27B, DeepSeek 671B, Qwen 80B) отвечали на 1000 сложных фактических вопросов в 4 фазах. В первой фазе — просто выбор из 4 вариантов, уверенность замерялась через внутренние вероятности модели (без её ведома). Во второй — добавили пятый вариант «не знаю». Оказалось: уверенность из первой фазы предсказывала выбор «не знаю» точнее, чем доступность информации из интернета, сложность вопроса и смысловые характеристики вопроса вместе взятые — с эффектом в ~10 раз сильнее.
Самый провокационный эксперимент — третья фаза. Исследователи взяли Gemma 3 27B и буквально «докрутили» внутренние сигналы уверенности через активации нейросети. Когда искусственно повышали уверенность — модель реже отказывалась отвечать. Понижали — чаще. Это причинное доказательство, а не просто корреляция: уверенность не просто совпадает с поведением — она его вызывает. В четвёртой фазе показали, что этим же можно управлять через промпт — если явно попросить модель применить порог уверенности.
Адаптации и экстраполяции
🔧 Калиброванный ответ с метками вместо отказа:
Если отказ от ответа неудобен (нужен хоть какой-то ориентир), замените инструкцию при низкой уверенности:
— Если уверенность < {порог}% → дай ответ, но:
a) в начале поставь метку [НИЗКАЯ УВЕРЕННОСТЬ]
b) выдели жирным конкретные утверждения, в которых сомневаешься
c) в конце укажи что нужно проверить дополнительно
Это даёт ответ с явными маркерами риска вместо молчания — удобнее для итеративной работы.
🔧 Двойная проверка для критичных решений:
Запустите два запроса подряд: первый с порогом 75%, второй — тот же вопрос, но с просьбой сыграть роль скептика и атаковать ответ из первого запроса. Модель, атакующая свой же ответ, находит слабые места лучше, чем просто «проверь себя».
Ресурсы
Работа: "Causal Evidence that Language Models use Confidence to Drive Behavior"
Авторы: Dharshan Kumaran, Nathaniel Daw, Simon Osindero, Petar Veličković, Viorica Patraucean
Организации: Google DeepMind, Princeton University
Датасет: SimpleQA (Wei et al., 2024) — ~4000 сложных фактических вопросов
