TL;DR
Внутри языковой модели живут два параллельных сигнала: один отражает реальную точность ответа — как хорошо модель знает тему. Другой управляет тем, что она скажет вслух о своей уверенности. Эти сигналы почти перпендикулярны друг другу: модель может внутри «знать», что ошибается, и всё равно заявить «я уверена на 90%».
Главная неожиданная находка: когда просишь модель одновременно решить задачу и оценить уверенность — рассуждение активно инвертирует связь между тем, что она знает, и тем, что говорит о своей уверенности. Из слабо положительной (совпадение +0.26) связь становится отрицательной (−0.63). Буквально: чем активнее модель думает над задачей в том же запросе, тем хуже её самооценка уверенности.
Практический вывод прямой: разделяй запрос на ответ и запрос на оценку уверенности. Спрашивай уверенность отдельным сообщением — после того как модель уже дала ответ, без повторного рассуждения.
Схема метода
ЗАПРОС 1 (отдельное сообщение):
Задай вопрос → получи ответ
⚠️ Без просьбы об оценке уверенности
ЗАПРОС 2 (отдельное сообщение — сразу после):
Попроси оценить уверенность в предыдущем ответе
→ Не переспрашивай задачу, не проси пересматривать
→ Только: "насколько уверен и в чём главная точка неопределённости"
Два сообщения. Не один промпт «ответь и оцени» — два отдельных запроса.
Пример применения
Задача: Вы хотите выйти на маркетплейс с новым товаром и спрашиваете у Claude, можно ли работать на патентной системе налогообложения при продажах через Wildberries. Ответ критически важен — налоговые последствия серьёзные. Нужно понять: модель знает ответ или угадывает?
Промпт — Запрос 1:
Я ИП, планирую продавать товары через Wildberries.
Могу ли я применять патентную систему налогообложения
для этой деятельности? Если да — какие условия и ограничения?
Промпт — Запрос 2 (следующее сообщение, после получения ответа):
Не пересматривай ответ. Оцени свою уверенность в нём
по шкале 0–100%. Укажи: на чём основана уверенность
и где главная неопределённость — там, где стоит
перепроверить у живого налогового консультанта.
Результат: Модель даст числовую оценку уверенности и опишет, в какой части ответа она уверена (например, общее правило ПСН), а в какой — нет (например, последние разъяснения ФНС по конкретным ОКВЭД для маркетплейсов). Это более честная картина, чем если бы модель оценивала уверенность в процессе рассуждения — там она склонна к завышенной уверенности.
Почему это работает
В LLM точность и уверенность — это разные «ящики». Модель хранит сигнал «насколько я реально компетентна здесь» и сигнал «что мне следует сказать о своей уверенности» в почти несвязанных частях своего представления. Из-за этого вербальная уверенность плохо отражает реальную точность — особенно у инструкционно обученных моделей, которые приучены звучать уверенно.
Когда рассуждение и оценка уверенности идут вместе, происходит интерференция. Процесс размышления над задачей буквально «загрязняет» сигнал уверенности — направления начинают противоречить друг другу. Модель больше думает, сильнее вовлекается в аргументацию, и тем самым смещает свою вербальную уверенность в сторону, противоположную реальной компетентности.
Разделение запросов даёт модели шанс «считать» сигнал точности изолированно, без примеси активного рассуждения. Пока это лучшее, что доступно в обычном чате — полная калибровка требует доступа к внутренним активациям модели, что за пределами чата недоступно.
Рычаги управления: - Формулировка «не пересматривай ответ» — критически важна. Без неё модель снова начнёт рассуждать и загрязнит оценку - Просьба назвать точку неопределённости — конкретизирует, где именно уверенность ниже - Шкала 0–100% — работает лучше, чем «низкая/высокая»: вынуждает модель дать дифференцированную оценку
Шаблон промпта
Запрос 1:
{Твой вопрос или задача}
Запрос 2 (отдельным сообщением):
Не пересматривай предыдущий ответ и не добавляй новых рассуждений.
Только оцени: насколько ты уверен в нём по шкале 0–100%?
Укажи:
1. Оценка уверенности: XX%
2. На чём она основана (1-2 предложения)
3. Главная точка неопределённости — что стоит проверить отдельно
{Твой вопрос}— любой вопрос, где важна надёжность ответа: юридические, медицинские, финансовые, технические темы- «Не пересматривай» — ключевое. Это блокирует повторное рассуждение, которое загрязняет оценку
- Пункт 3 направляет модель на честную саморефлексию, а не на защиту своего ответа
🚀 Быстрый старт — вставь в чат:
Вот шаблон двухшагового запроса уверенности.
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит про тему и контекст вопроса — чтобы точнее сформулировать п.3 про точку неопределённости именно для твоей области.
Ограничения
⚠️ Не лекарство, а улучшение: Даже разделённая оценка уверенности остаётся неточной. Модели, прошедшие инструкционное обучение (ChatGPT, Claude), системно смещены в сторону завышенной уверенности — это «вшито» в них на этапе обучения.
⚠️ Только для задач с проверяемым ответом: Принцип работает лучше там, где есть объективная правота/неправота (факты, право, математика). Для субъективных оценок («насколько хорош этот текст?») — не работает.
⚠️ Полная калибровка недоступна в чате: Настоящее исправление из статьи — двухэтапный конвейер с управлением активациями модели. Это требует доступа к внутренностям модели, недоступного в обычном ChatGPT/Claude.
⚠️ Работает хуже у моделей с высоким базовым уровнем уверенности: Если модель по умолчанию говорит «98% уверена» почти на всё — диапазон снижения ограничен.
Ресурсы
Работа: «Closing the Confidence-Faithfulness Gap in Large Language Models» — препринт, на рецензировании
Авторы: Miranda Muqing Miao, Lyle Ungar
Институт: University of Pennsylvania
Контакт: miaom@seas.upenn.edu
Бенчмарки: MATH, MMLU, TriviaQA, TruthfulQA
Модели: Llama-3.1-8B, Qwen2.5-7B, Mistral-7B-v0.3
