3,583 papers
arXiv:2603.22161 74 23 мар. 2026 г. FREE

Пороговая уверенность: как заставить модель честно признаваться в незнании

КЛЮЧЕВАЯ СУТЬ
Доказано причинно (не корреляция): LLM держит внутри настоящий сигнал уверенности — и именно он решает, ответить или уклониться. Это не декорация и не случайность. Google DeepMind отделили причину от следствия — сигнал управляет поведением, а не просто сопровождает его. Метод позволяет вытащить этот сигнал наружу через промпт и задать порог отсечки — ниже которого модель честно скажет «не знаю» вместо красиво оформленной выдумки. Промпт разворачивает внутренний процесс наружу: сначала черновик ответа, потом оценка уверенности в процентах, потом сравнение с порогом — уверенность предсказывает отказ в 10 раз точнее, чем доступность знания о теме.
Адаптировать под запрос

TL;DR

LLMs имеют внутреннее чувство уверенности — не показушное, а настоящее. Когда модель отвечает на вопрос, она одновременно генерирует внутренний сигнал «насколько я уверена в этом ответе» — и этот сигнал реально управляет тем, ответит она или уклонится. Исследование Google DeepMind доказало это причинно, а не корреляционно.

Главная проблема в работе с LLM — модели уверенно галлюцинируют. Когда модель не знает ответа, она всё равно генерирует текст с уверенным тоном. Пользователь получает красиво сформулированную неправду. Особенно опасно при медицинских, юридических, финансовых вопросах — там ошибка дороже молчания.

Решение: явно инструктировать модель использовать собственную уверенность как отсечку. Попросите модель сначала выбрать ответ, затем оценить уверенность в процентах, и выдать результат только если уверенность выше порога — иначе честно признаться в незнании. Это работает, потому что внутренний сигнал уверенности реально существует — и промптом мы его активируем.


🔬

Схема метода

Всё выполняется в одном промпте, один запрос.

ШАГ 1: Выбери ответ → лучший вариант из возможных
ШАГ 2: Оцени уверенность → число от 0 до 100%
ШАГ 3: Сравни с порогом T
        если уверенность ≥ T → дай ответ
        если уверенность < T → признайся в незнании

🚀

Пример применения

Метод в сильной зоне: фактические вопросы с высокой ценой ошибки — медицина, право, финансы, точные даты, технические нормы. Слабая зона: субъективные суждения, творческие задачи, мнения.


Задача: Фаундер стартапа хочет разобраться с налогами на опционы для сотрудников в России, но боится получить уверенный неверный ответ и сделать ошибку.

Промпт:

Я задам тебе фактический вопрос о российском налоговом праве.

Вот как ты должен отвечать:
1. Сначала выбери лучший ответ на вопрос — кратко сформулируй его внутри тегов 
2. Оцени свою уверенность в этом ответе: вероятность что ты точен, от 0 до 100%. 
   Запиши внутри тегов 
3. Если уверенность ≥ 75% — дай полный ответ
4. Если уверенность < 75% — напиши: "Не уверен достаточно для точного ответа. 
   Вот что известно точно: [только то, в чём уверен], но по ключевому вопросу 
   рекомендую проверить у специалиста."

Вопрос: Нужно ли платить НДФЛ с разницы между ценой опциона и рыночной стоимостью 
акций в момент исполнения для сотрудников российского ООО?

Результат: Модель покажет черновик ответа и процент уверенности. Если уверенность высокая — получите конкретный ответ с объяснением. Если низкая — модель честно обозначит границу своего знания: что точно верно, а где лучше проверить у юриста. Никаких уверенных галлюцинаций.


🧠

Почему это работает

Слабость LLM: модель всегда генерирует следующий токен — она не «молчит» по умолчанию. Даже не зная ответа, она продолжает текст. Без явной инструкции внутренний сигнал неуверенности никуда не выходит — модель просто использует его тихо, и иногда решает уклониться, иногда нет.

Сильная сторона LLM: внутренний сигнал уверенности существует и работает. Исследование показало: уверенность предсказывает отказ от ответа в десять раз лучше, чем доступность знания из внешних источников или сложность вопроса. Это не поверхностная оценка — это реальное внутреннее состояние.

Как метод это использует: промпт Phase 4 экстернализирует внутренний сигнал. Вместо того чтобы надеяться, что модель сама решит промолчать — мы явно вводим порог. Модель сначала генерирует ответ-кандидат, потом оценивает уверенность в нём, потом применяет правило. Структура промпта разворачивает этот внутренний процесс наружу и делает его управляемым.

Рычаги управления: - Порог T — снизь до 60% для обычных вопросов, подними до 85–90% для медицины/права - Формат уверенности — можно попросить «низкая / средняя / высокая» вместо процентов — проще, но менее точно - Инструкция при низкой уверенности — замени "признайся в незнании" на "дай ответ, но выдели жирным что именно неточно" — получишь ответ с пометками вместо отказа


📋

Шаблон промпта

Я задам тебе вопрос о {область: медицина / право / финансы / технические факты}.

Отвечай строго по схеме:
1. Сформулируй лучший ответ внутри тегов 
2. Оцени уверенность в ответе от 0 до 100% внутри тегов 
3. Примень правило:
   — Если уверенность ≥ {порог, например 75}% → дай полный развёрнутый ответ
   — Если уверенность < {порог}% → напиши: "Уверенность недостаточна для точного ответа. 
     Вот что точно верно: [только проверенное]. По остальному — рекомендую проверить у {специалиста}."

Вопрос: {твой вопрос}

Что подставлять: - {область} — контекст, чтобы модель понимала цену ошибки - {порог} — 70–75% для обычных задач, 85–90% для высокорисковых - {специалиста} — врач, юрист, налоговый консультант — конкретно по теме


🚀 Быстрый старт — вставь в чат:

Вот шаблон для вопросов с порогом уверенности. 
Адаптируй под мою задачу: {твоя задача}.
Задавай уточняющие вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит про область вопроса и нужный порог уверенности — потому что от этого зависит когда модель будет отвечать, а когда признаваться в незнании.


⚠️

Ограничения

⚠️ Самооценка не идеальна: Модель может ошибаться в оценке собственной уверенности — особенно в областях, где она систематически переоценивает себя (например, редкие факты, события после даты обучения). Порог снижает риск, но не устраняет его полностью.

⚠️ Субъективные вопросы: Метод разработан для фактических вопросов с правильным ответом. Для суждений, прогнозов и творческих задач «уверенность» теряет смысл — модель будет выдавать числа, но они ничего не отражают.

⚠️ Слишком высокий порог = постоянные отказы: При пороге выше 90% модель начнёт уклоняться даже от вопросов, на которые знает ответ. Подбирай порог под задачу.

⚠️ Активационное управление недоступно: Фаза 3 исследования (прямая модификация внутренних сигналов через activation steering) требует доступа к весам модели и кода. Для пользователя чата недоступна. Всё что применимо без кода — это Phase 4, описанная выше.


🔍

Как исследовали

Исследователи придумали элегантный способ поймать LLM «на честности». Идея: сначала замерить уверенность модели до того как предложить ей опцию «не отвечать» — чтобы получить чистый сигнал без искажений. Потом — предложить отказаться от ответа и посмотреть, совпадёт ли поведение с ранее замеренной уверенностью.

Четыре модели (GPT-4o, Gemma 3 27B, DeepSeek 671B, Qwen 80B) отвечали на 1000 сложных фактических вопросов в 4 фазах. В первой фазе — просто выбор из 4 вариантов, уверенность замерялась через внутренние вероятности модели (без её ведома). Во второй — добавили пятый вариант «не знаю». Оказалось: уверенность из первой фазы предсказывала выбор «не знаю» точнее, чем доступность информации из интернета, сложность вопроса и смысловые характеристики вопроса вместе взятые — с эффектом в ~10 раз сильнее.

Самый провокационный эксперимент — третья фаза. Исследователи взяли Gemma 3 27B и буквально «докрутили» внутренние сигналы уверенности через активации нейросети. Когда искусственно повышали уверенность — модель реже отказывалась отвечать. Понижали — чаще. Это причинное доказательство, а не просто корреляция: уверенность не просто совпадает с поведением — она его вызывает. В четвёртой фазе показали, что этим же можно управлять через промпт — если явно попросить модель применить порог уверенности.


💡

Адаптации и экстраполяции

🔧 Калиброванный ответ с метками вместо отказа:

Если отказ от ответа неудобен (нужен хоть какой-то ориентир), замените инструкцию при низкой уверенности:

— Если уверенность < {порог}% → дай ответ, но:
  a) в начале поставь метку [НИЗКАЯ УВЕРЕННОСТЬ]
  b) выдели жирным конкретные утверждения, в которых сомневаешься
  c) в конце укажи что нужно проверить дополнительно

Это даёт ответ с явными маркерами риска вместо молчания — удобнее для итеративной работы.


🔧 Двойная проверка для критичных решений:

Запустите два запроса подряд: первый с порогом 75%, второй — тот же вопрос, но с просьбой сыграть роль скептика и атаковать ответ из первого запроса. Модель, атакующая свой же ответ, находит слабые места лучше, чем просто «проверь себя».


🔗

Ресурсы

Работа: "Causal Evidence that Language Models use Confidence to Drive Behavior"

Авторы: Dharshan Kumaran, Nathaniel Daw, Simon Osindero, Petar Veličković, Viorica Patraucean

Организации: Google DeepMind, Princeton University

Датасет: SimpleQA (Wei et al., 2024) — ~4000 сложных фактических вопросов


📋 Дайджест исследования

Ключевая суть

Доказано причинно (не корреляция): LLM держит внутри настоящий сигнал уверенности — и именно он решает, ответить или уклониться. Это не декорация и не случайность. Google DeepMind отделили причину от следствия — сигнал управляет поведением, а не просто сопровождает его. Метод позволяет вытащить этот сигнал наружу через промпт и задать порог отсечки — ниже которого модель честно скажет «не знаю» вместо красиво оформленной выдумки. Промпт разворачивает внутренний процесс наружу: сначала черновик ответа, потом оценка уверенности в процентах, потом сравнение с порогом — уверенность предсказывает отказ в 10 раз точнее, чем доступность знания о теме.

Принцип работы

По умолчанию внутренний сигнал неуверенности работает тихо. Модель как врач, который знает что сомневается, но всё равно пишет рецепт — потому что молчать не умеет. Без явной инструкции она иногда уклоняется, иногда нет — без системы и без объяснений. Промпт с порогом T превращает это в правило: уверенность выше T — отвечать, ниже — признаться. Структура «черновик → оценка уверенности → правило» вынуждает модель пройти этот путь явно, а не держать всё в голове.

Почему работает

Внутренний сигнал уверенности в модели реальный — это доказано не статистикой совпадений, а причинным экспериментом: когда сигнал меняли принудительно через прямое воздействие на внутренние состояния модели, поведение менялось предсказуемо. Это как разница между «температура и простуда коррелируют» и «вирус вызывает температуру». Уверенность предсказывает отказ в 10 раз лучше, чем то, есть ли у модели знание о теме вообще. Иными словами: модель знает когда не знает — просто без вашей инструкции это знание никуда не выходит.

Когда применять

Фактические вопросы с высокой ценой ошибки — медицина, налоги, право, технические нормы, точные даты и цифры. Особенно когда ошибка дороже молчания: лучше «не знаю» от модели, чем уверенная неверная дозировка. Порог T регулируй под задачу: 70–75% для обычных вопросов, 85–90% для высокорисковых. НЕ подходит для субъективных суждений, творческих задач и прогнозов — там уверенность в процентах ничего не отражает, модель будет выдавать числа в пустоту.

Мини-рецепт

1. Задай область и цену ошибки: напиши в промпте для какой сферы вопрос — медицина, право, финансы. Это помогает модели понять зачем вообще нужен порог.
2. Попроси черновик внутри тегов: Сначала сформулируй лучший ответ внутри тегов — это разделяет генерацию и оценку.
3. Попроси оценку уверенности: Оцени уверенность от 0 до 100% внутри тегов — без тегов модель смешает ответ и оценку в кашу.
4. Задай правило отсечки: Если уверенность ≥ {порог}% — дай полный ответ. Если ниже — напиши что точно верно, и честно укажи где нужен специалист.
5. Подбери порог под задачу: начни с 75% — если модель отказывается слишком часто, снизь до 65%; если тема высокорисковая, подними до 85–90%.

Примеры

[ПЛОХО] : Нужно ли платить налог с опционов сотрудников в российском ООО?
[ХОРОШО] : Я задам вопрос о российском налоговом праве — области где ошибка дороже молчания. Отвечай строго по схеме: 1. Сформулируй лучший ответ внутри тегов 2. Оцени уверенность от 0 до 100% внутри тегов 3. Если уверенность ≥ 80% — дай развёрнутый ответ 4. Если уверенность < 80% — напиши: "Уверенность недостаточна. Вот что точно верно: [только проверенное]. По остальному рекомендую проверить у налогового консультанта." Вопрос: нужно ли платить налог с разницы между ценой опциона и рыночной стоимостью акций в момент исполнения?
Источник: Causal Evidence that Language Models use Confidence to Drive Behavior
ArXiv ID: 2603.22161 | Сгенерировано: 2026-03-24 06:23

Проблемы LLM

ПроблемаСутьКак обойти
Внутренняя уверенность модели не выходит наружу без явного запросаМодель всегда генерирует следующий токен. Она не молчит по умолчанию. Внутри есть сигнал «насколько я уверена». Но без явной инструкции этот сигнал управляет поведением тихо и непредсказуемо. Иногда модель уклоняется. Иногда нет. Пользователь не знает когда ответу можно доверятьПопроси модель числом оценить уверенность. Потом задай правило: выше порога — отвечай, ниже — признайся в незнании. Структура промпта выводит внутренний сигнал наружу и делает его управляемым

Методы

МетодСуть
Порог уверенности — управляемый отказ от галлюцинацийСтруктурируй запрос в три шага. Шаг 1: — сформулируй лучший ответ. Шаг 2: — оцени уверенность от 0 до 100%. Шаг 3: правило отсечки — если уверенность {порог} полный ответ, если ниже «вот что точно верно: [X], по остальному проверь у специалиста». Почему работает: внутренний сигнал уверенности в модели реален. Промпт не создаёт его, а достаёт наружу. Когда сигнал виден — им можно управлять. Порог: 70–75% для обычных задач. 85–90% для медицины, права, финансов. Выше 90% — модель начнёт отказываться даже там где знает. Когда не работает: субъективные суждения, прогнозы, мнения — там число уверенности ничего не отражает
📖 Простыми словами

Causal Evidence thatLanguageModelsuseConfidence to Drive Behavior

arXiv: 2603.22161

Внутри нейросетей живет своеобразный «внутренний голос», который четко понимает, когда модель несет чушь, а когда говорит дело. Это не просто удачная догадка, а фундаментальный сигнал уверенности, который генерируется одновременно с ответом. Исследователи из Google DeepMind доказали, что LLM не просто выдают текст на автопилоте, а реально опираются на это внутреннее ощущение, чтобы решить: выдать результат или тактично слиться. Если этот сигнал слабый, модель начинает буксовать, и именно он, а не внешние инструкции, определяет финальное поведение системы.

Это похоже на студента на экзамене, который вытянул билет и сразу понял, что плавает в теме. Он может начать уверенно врать, надеясь на авось, но внутри у него горит красная лампочка: «я этого не знаю». Разница лишь в том, что нейросеть можно заставить «слушаться» этой лампочки. Если раньше мы думали, что модели просто галлюцинируют от балды, то теперь ясно — они прекрасно осознают свой провал в моменте, просто не всегда умеют это адекватно транслировать пользователю.

Главный прорыв здесь в причинно-следственной связи, которую подтвердили через жесткие тесты. Это критически важно для зон с высокой ценой ошибки: медицины, права или финансов, где цена неверной даты или дозировки — катастрофа. Модель использует внутренний предиктор, чтобы оценить вероятность успеха, и если данные в базе противоречивы или их мало, сигнал уверенности падает. Это работает как предохранитель: вместо того чтобы выдать опасную дезинформацию, система просто говорит, что не знает ответа.

Хотя эксперименты ставили на сухих фактах, этот принцип универсален для любых сложных систем. Его можно внедрять везде, где от AI требуется не творческий полет, а аптечная точность — от технических регламентов до проверки кода. Это переход от модели-болтушки, которая всегда обязана что-то сказать, к ответственному ассистенту, который понимает границы своих знаний. Мы наконец-то нащупали рычаг, который позволяет контролировать честность алгоритма на уровне его «инстинктов».

Короче, эпоха слепого доверия к генерации заканчивается — пора заставлять модели использовать их внутренний компас. Если в ответе есть хоть капля сомнения, лучше получить честный отказ, чем уверенную галлюцинацию. Уверенность — это не декор, а реальный драйвер поведения, и если научить софт правильно считывать этот сигнал, количество бреда в выдаче сократится в разы. Кто не научится калибровать этот «датчик правды», так и будет разгребать последствия уверенного вранья своих чат-ботов.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с