3,583 papers
arXiv:2603.25052 74 26 мар. 2026 г. FREE

Reasoning Contamination Effect: почему просить модель «подумай и оцени уверенность» — плохая идея

КЛЮЧЕВАЯ СУТЬ
Корреляция между реальной точностью модели и её заявленной уверенностью: +0.26 в обычном режиме — и −0.63, когда просишь думать и оценивать себя в одном промпте. Знак меняется. Рассуждение над задачей буквально разворачивает сигнал уверенности в обратную сторону. Метод двух раздельных запросов даёт возможность получить честную самооценку модели — понять, где она знает, а где угадывает. Фишка: сначала получи ответ, потом отдельным сообщением спроси уверенность — с явным запретом «не пересматривай ответ». Без этого запрета модель снова начнёт рассуждать и испортит оценку.
Адаптировать под запрос

TL;DR

Внутри языковой модели живут два параллельных сигнала: один отражает реальную точность ответа — как хорошо модель знает тему. Другой управляет тем, что она скажет вслух о своей уверенности. Эти сигналы почти перпендикулярны друг другу: модель может внутри «знать», что ошибается, и всё равно заявить «я уверена на 90%».

Главная неожиданная находка: когда просишь модель одновременно решить задачу и оценить уверенность — рассуждение активно инвертирует связь между тем, что она знает, и тем, что говорит о своей уверенности. Из слабо положительной (совпадение +0.26) связь становится отрицательной (−0.63). Буквально: чем активнее модель думает над задачей в том же запросе, тем хуже её самооценка уверенности.

Практический вывод прямой: разделяй запрос на ответ и запрос на оценку уверенности. Спрашивай уверенность отдельным сообщением — после того как модель уже дала ответ, без повторного рассуждения.


🔬

Схема метода

ЗАПРОС 1 (отдельное сообщение):
  Задай вопрос → получи ответ
  ⚠️ Без просьбы об оценке уверенности

ЗАПРОС 2 (отдельное сообщение — сразу после):
  Попроси оценить уверенность в предыдущем ответе
  → Не переспрашивай задачу, не проси пересматривать
  → Только: "насколько уверен и в чём главная точка неопределённости"

Два сообщения. Не один промпт «ответь и оцени» — два отдельных запроса.


🚀

Пример применения

Задача: Вы хотите выйти на маркетплейс с новым товаром и спрашиваете у Claude, можно ли работать на патентной системе налогообложения при продажах через Wildberries. Ответ критически важен — налоговые последствия серьёзные. Нужно понять: модель знает ответ или угадывает?

Промпт — Запрос 1:

Я ИП, планирую продавать товары через Wildberries. 
Могу ли я применять патентную систему налогообложения 
для этой деятельности? Если да — какие условия и ограничения?

Промпт — Запрос 2 (следующее сообщение, после получения ответа):

Не пересматривай ответ. Оцени свою уверенность в нём 
по шкале 0–100%. Укажи: на чём основана уверенность 
и где главная неопределённость — там, где стоит 
перепроверить у живого налогового консультанта.

Результат: Модель даст числовую оценку уверенности и опишет, в какой части ответа она уверена (например, общее правило ПСН), а в какой — нет (например, последние разъяснения ФНС по конкретным ОКВЭД для маркетплейсов). Это более честная картина, чем если бы модель оценивала уверенность в процессе рассуждения — там она склонна к завышенной уверенности.


🧠

Почему это работает

В LLM точность и уверенность — это разные «ящики». Модель хранит сигнал «насколько я реально компетентна здесь» и сигнал «что мне следует сказать о своей уверенности» в почти несвязанных частях своего представления. Из-за этого вербальная уверенность плохо отражает реальную точность — особенно у инструкционно обученных моделей, которые приучены звучать уверенно.

Когда рассуждение и оценка уверенности идут вместе, происходит интерференция. Процесс размышления над задачей буквально «загрязняет» сигнал уверенности — направления начинают противоречить друг другу. Модель больше думает, сильнее вовлекается в аргументацию, и тем самым смещает свою вербальную уверенность в сторону, противоположную реальной компетентности.

Разделение запросов даёт модели шанс «считать» сигнал точности изолированно, без примеси активного рассуждения. Пока это лучшее, что доступно в обычном чате — полная калибровка требует доступа к внутренним активациям модели, что за пределами чата недоступно.

Рычаги управления: - Формулировка «не пересматривай ответ» — критически важна. Без неё модель снова начнёт рассуждать и загрязнит оценку - Просьба назвать точку неопределённости — конкретизирует, где именно уверенность ниже - Шкала 0–100% — работает лучше, чем «низкая/высокая»: вынуждает модель дать дифференцированную оценку


📋

Шаблон промпта

Запрос 1:

{Твой вопрос или задача}

Запрос 2 (отдельным сообщением):

Не пересматривай предыдущий ответ и не добавляй новых рассуждений. 

Только оцени: насколько ты уверен в нём по шкале 0–100%?

Укажи:
1. Оценка уверенности: XX%
2. На чём она основана (1-2 предложения)
3. Главная точка неопределённости — что стоит проверить отдельно
  • {Твой вопрос} — любой вопрос, где важна надёжность ответа: юридические, медицинские, финансовые, технические темы
  • «Не пересматривай» — ключевое. Это блокирует повторное рассуждение, которое загрязняет оценку
  • Пункт 3 направляет модель на честную саморефлексию, а не на защиту своего ответа

🚀 Быстрый старт — вставь в чат:

Вот шаблон двухшагового запроса уверенности. 
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит про тему и контекст вопроса — чтобы точнее сформулировать п.3 про точку неопределённости именно для твоей области.


⚠️

Ограничения

⚠️ Не лекарство, а улучшение: Даже разделённая оценка уверенности остаётся неточной. Модели, прошедшие инструкционное обучение (ChatGPT, Claude), системно смещены в сторону завышенной уверенности — это «вшито» в них на этапе обучения.

⚠️ Только для задач с проверяемым ответом: Принцип работает лучше там, где есть объективная правота/неправота (факты, право, математика). Для субъективных оценок («насколько хорош этот текст?») — не работает.

⚠️ Полная калибровка недоступна в чате: Настоящее исправление из статьи — двухэтапный конвейер с управлением активациями модели. Это требует доступа к внутренностям модели, недоступного в обычном ChatGPT/Claude.

⚠️ Работает хуже у моделей с высоким базовым уровнем уверенности: Если модель по умолчанию говорит «98% уверена» почти на всё — диапазон снижения ограничен.


🔗

Ресурсы

Работа: «Closing the Confidence-Faithfulness Gap in Large Language Models» — препринт, на рецензировании

Авторы: Miranda Muqing Miao, Lyle Ungar

Институт: University of Pennsylvania

Контакт: miaom@seas.upenn.edu

Бенчмарки: MATH, MMLU, TriviaQA, TruthfulQA

Модели: Llama-3.1-8B, Qwen2.5-7B, Mistral-7B-v0.3


📋 Дайджест исследования

Ключевая суть

Корреляция между реальной точностью модели и её заявленной уверенностью: +0.26 в обычном режиме — и −0.63, когда просишь думать и оценивать себя в одном промпте. Знак меняется. Рассуждение над задачей буквально разворачивает сигнал уверенности в обратную сторону. Метод двух раздельных запросов даёт возможность получить честную самооценку модели — понять, где она знает, а где угадывает. Фишка: сначала получи ответ, потом отдельным сообщением спроси уверенность — с явным запретом «не пересматривай ответ». Без этого запрета модель снова начнёт рассуждать и испортит оценку.

Принцип работы

Стандартная интуиция подсказывает: дай модели больше думать — получишь честнее. Здесь наоборот. Точность и уверенность у модели — два разных «ящика» в голове, которые почти не связаны между собой. Даже без рассуждения эта связь слабая (+0.26). Запусти рассуждение — и она становится отрицательной (−0.63). Рассуждение тянет вербальную уверенность в сторону, противоположную реальной компетентности. Поэтому два сообщения. Не одно.

Почему работает

В модели точность и уверенность хранятся в почти несвязанных частях её внутреннего представления — как два разных сосуда. Инструкционное обучение (этап, когда модель учат быть полезной и вежливой) вшивает склонность звучать уверенно — независимо от реального знания. Когда рассуждение и оценка уверенности идут вместе — мышление над задачей тянет «сосуд уверенности» в сторону аргументации, а не в сторону честной самооценки. Разделение запросов даёт модели прочитать сигнал точности изолированно, без этой помехи. Цифры на трёх разных моделях (Llama, Qwen, Mistral) воспроизворяются.

Когда применять

Юридические вопросы, медицина, финансы, технические факты — особенно когда цена ошибки высока и нужно понять, стоит ли нести ответ к живому эксперту. НЕ подходит для субъективных оценок («насколько хорош этот текст?», «придумай идею») — там нет объективной правоты, которую модель знала бы и могла честно оценить.

Мини-рецепт

1. Задай вопрос без упоминания уверенности: только сам вопрос, никакого «и скажи насколько уверен» в конце
2. Получи ответ — не добавляй ничего: пусть ответ будет полным, модель не знает что дальше будет оценка
3. Отдельным сообщением попроси оценку: Не пересматривай предыдущий ответ и не добавляй новых рассуждений. Только оцени: насколько ты уверен по шкале 0–100%? Укажи: (1) оценка уверенности, (2) на чём она основана — 1-2 предложения, (3) главная точка неопределённости — что стоит проверить отдельно
4. Читай пункт 3 внимательно: именно там модель покажет, где её знание заканчивается и начинается угадывание

Примеры

[ПЛОХО] : Объясни, можно ли ИП на патентной системе продавать через Wildberries, и сразу оцени насколько ты уверен в ответе
[ХОРОШО] : Запрос 1: Я ИП, планирую продавать товары через Wildberries. Могу ли я применять патентную систему налогообложения для этой деятельности? Если да — какие условия и ограничения? → Получить ответ Запрос 2 (следующим сообщением): Не пересматривай ответ. Оцени уверенность 0–100%. Укажи: на чём основана и где главная точка неопределённости — где стоит перепроверить у живого налогового консультанта
Источник: Closing the Confidence-Faithfulness Gap in Large Language Models
ArXiv ID: 2603.25052 | Сгенерировано: 2026-03-27 04:30

Проблемы LLM

ПроблемаСутьКак обойти
Рассуждение в одном запросе портит оценку уверенностиПросишь модель ответить и оценить уверенность в одном сообщении. Кажется удобно. Но пока модель рассуждает над задачей — сигнал уверенности искажается. Причём в обратную сторону: чем активнее модель думала, тем хуже совпадение между тем что она реально знает и тем что говорит о своей уверенности. Связь переходит из положительной в отрицательную. Это работает в обратную сторону от интуиции большинстваРаздели на два отдельных сообщения. Первое — только вопрос. Второе — только «оцени уверенность в предыдущем ответе, не пересматривай его». Фраза «не пересматривай» критически важна — без неё модель начнёт рассуждать снова и испортит оценку

Методы

МетодСуть
Два отдельных сообщения вместо одного — чистая оценка уверенностиСообщение 1: задай вопрос. Без просьбы оценить уверенность. Сообщение 2 (отдельно, после ответа): Не пересматривай ответ и не добавляй рассуждений. Оцени уверенность по шкале 0–100%. Укажи: (1) оценка уверенности, (2) на чём основана, (3) где главная неопределённость. Почему работает: У модели есть два разных сигнала. Один — реальная компетентность. Другой — что говорить о своей уверенности. Когда рассуждение и оценка идут вместе, они мешают друг другу. Разделение даёт модели считать сигнал компетентности без помех. Когда применять: важные решения с проверяемым ответом — юридические, медицинские, финансовые, технические вопросы. Не работает: субъективные оценки («насколько хорош этот текст?»)

Тезисы

ТезисКомментарий
Рассуждение и самооценка уверенности мешают друг другу в одном запросеУ модели точность и уверенность хранятся как разные сигналы. Они почти не связаны. Когда рассуждение и оценка идут в одном запросе — сигналы конкурируют. Результат парадоксальный: чем больше модель думала над задачей, тем менее честной становится её самооценка. Применяй: если нужна честная оценка уверенности — никогда не совмещай её с решением задачи в одном сообщении
📖 Простыми словами

Closing the Confidence-Faithfulness Gap inLargeLanguageModels

arXiv: 2603.25052

Внутри нейросетей живут две личности, которые почти не общаются друг с другом. Одна личность — это реальная компетенция, то есть то, насколько модель на самом деле «шарит» в теме. Вторая — это внешняя уверенность, или то, что она выдает тебе в чате. Исследователи выяснили, что эти сигналы в архитектуре модели расположены почти перпендикулярно. Это значит, что внутри себя LLM может прекрасно понимать, что несет чушь, но при этом на голубом глазу заявлять: «Я уверена в этом на 90%». Проблема в том, что точность и уверенность — это разные «ящики» в мозгах ИИ, и они никак не синхронизированы.

Это как если бы ты пришел к врачу, который внутри себя сомневается в диагнозе, но по привычке говорит максимально бодрым и авторитетным голосом, потому что его так учили в институте. Формально он звучит убедительно, но его внутренняя неуверенность никак не отражается на тоне речи. В итоге ты получаешь ложную уверенность, которая не имеет ничего общего с реальностью, просто потому что модель натренирована «быть полезным ассистентом» и не мямлить.

Чтобы понять, насколько все плохо, посмотри на инструкционное обучение. Когда разработчики «причесывают» модель, чтобы она отвечала вежливо и четко, они фактически ломают ее способность адекватно оценивать свои силы. В итоге получается разрыв между знанием и верой: модель может обладать нужной информацией, но выдать неверный ответ с максимальным пафосом. Или наоборот — знать правильный ответ, но начать сомневаться на ровном месте, если ее об этом переспросить.

Этот принцип универсален для любых серьезных задач, будь то налоговые консультации или написание кода. Если ты спрашиваешь Claude про патент на Wildberries, ты рискуешь попасть в ловушку: модель выдаст стройный текст, который выглядит как истина в последней инстанции, хотя внутри ее «нейронка» сигнализирует о полной потере ориентации. SEO-копирайтинг или юридические советы — неважно, везде, где цена ошибки высока, слепая вера в слова модели превращается в лотерею.

Короче: никогда не верь модели на слово, когда она говорит, что «уверена». Ее вербальная уверенность — это просто маска, которая часто скрывает полный хаос во внутренних представлениях. Пока разработчики не научатся сшивать эти два сигнала вместе, единственный способ не облажаться — это проверять факты через внешние источники. Кто продолжает верить ИИ «на слово», тот рано или поздно столкнется с тем, что красивый ответ окажется дорогостоящей галлюцинацией.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с