3,583 papers
arXiv:2605.28778 72 27 мая 2026 г. FREE

Языковые маркеры уверенности LLM: «я уверен» ненадёжен, «возможно» — честнее

КЛЮЧЕВАЯ СУТЬ
Когда LLM пишет «я уверен» или «это точно» — это почти ничего не говорит о правильности ответа. Исследователи Yale University проверили: последовательно ли модели используют хеджирующие фразы («я думаю», «возможно», «скорее всего») для выражения реальной внутренней неопределённости? Нет — модели провалили даже щадящий тест, где их оценивали по собственным стандартам, не человеческим.
Адаптировать под запрос

TL;DR

Когда LLM пишет «я уверен» или «это точно» — это почти ничего не говорит о правильности ответа. Исследователи Yale University проверили: последовательно ли модели используют хеджирующие фразы («я думаю», «возможно», «скорее всего») для выражения реальной внутренней неопределённости? Нет — модели провалили даже щадящий тест, где их оценивали по собственным стандартам, не человеческим.

Главная находка: высокоуверенные маркеры — «я уверен», «точно», «несомненно» — используются автоматически, вне зависимости от того, реально ли модель «знает» ответ. Именно они — главный источник ложной уверенности. Это как студент, который всегда говорит убеждённо — даже когда чистое угадывание. Уверенный тон звучит убедительно, но не сигнализирует о качестве.

Что надёжнее: низкоуверенные маркеры — «возможно», «я думаю», «кажется» — ассоциированы с реально более низкой внутренней уверенностью модели. Если LLM всё-таки добавила «кажется» — это сигнал, который стоит принять всерьёз. И самое надёжное разграничение — хеджирует ли модель вообще или нет, а не какой именно хедж она выбрала.


📌

Схема: как читать маркеры уверенности

КОГДА ЧИТАЕШЬ ОТВЕТ LLM:
├── Нет хеджа («Ставка налога — 6%»)
│   → Модель условно уверена. Для важного — проверяй независимо.
│
├── Низкоуверенный хедж («возможно», «я думаю», «кажется», «если не ошибаюсь»)
│   → РЕАЛЬНЫЙ СИГНАЛ неопределённости. Проверяй обязательно.
│
└── Высокоуверенный хедж («я уверен», «точно», «несомненно», «без сомнения»)
    → НЕНАДЁЖЕН. Используется автоматически. Не доверяй больше, чем «нет хеджа».

КОГДА ПРОМПТИШЬ:
ШАГ 1: Добавь инструкцию — хеджировать при неуверенности (один маркер на предложение)
ШАГ 2: В ответе смотри на НАЛИЧИЕ или ОТСУТСТВИЕ хеджа — это информативнее типа хеджа

Оба шага — в одном промпте.


🚀

Пример применения

Задача: Маша готовит питч для инвесторов на Сколково Демо Дэй. Просит LLM собрать факты о рынке EdTech в России — объём, темпы роста, ключевые игроки.

Промпт:

Ты — аналитик рынка. Отвечай фактически и кратко.

Когда ты не уверен в точности факта или цифры — добавляй 
хеджирующую фразу («возможно», «по некоторым данным», «я думаю», 
«если не ошибаюсь»). Не более одного маркера на предложение.

Когда уверен полностью — пиши без оговорок.

Задача: опиши российский рынок EdTech — объём в рублях, 
темпы роста за последние 3 года, ключевые игроки и их доли.

Результат: Модель выдаст смешанный текст — часть утверждений без оговорок, часть с хеджами. Как читать: - Фразы без хеджей — берёшь как рабочую гипотезу, проверяешь если критично - Фразы с «возможно», «по некоторым данным» — обязательно проверяй перед питчем: это реальные пробелы модели - Фразы с «я уверен» или «точно» — не доверяй больше, чем фразам без хеджей вообще: это шум, не сигнал


🧠

Почему это работает

LLM генерирует текст по статистическим паттернам. Уверенный тон в обучающих данных встречается часто — в учебниках, Википедии, новостях, — поэтому модель воспроизводит его как стандартный стиль письма. Уверенное звучание — это стилистика, а не отражение внутреннего состояния.

Почему «возможно» надёжнее: Низкоуверенные хеджи используются реже и в более специфичных контекстах — там, где текст действительно выражает неопределённость. Модель подхватила этот паттерн точнее. Поэтому «я думаю» — слабый, но реальный сигнал. «Я уверен» — почти пустой.

Рычаг управления — наличие хеджа как бинарный сигнал. Спроси модель хеджировать при неуверенности → смотри не на КАКОЙ хедж, а ЕСТЬ ли он вообще. Это самый информативный сигнал из всех языковых маркеров.


📋

Шаблон промпта

Отвечай на {задача}.

Когда ты не уверен в точности утверждения — добавляй хеджирующую 
фразу: «возможно», «по некоторым данным», «я думаю», «если не 
ошибаюсь», «скорее всего». Не более одного маркера на предложение.

Когда факт точен — пиши без оговорок.

Вопрос: {твой вопрос}

Что подставлять: - {задача} — область или жанр: «как аналитик», «как юрист», «как редактор» - {твой вопрос} — конкретный вопрос

Как читать ответ: - Хедж («возможно», «я думаю») → сигнал: проверяй это место - Нет хеджа → рабочая гипотеза, проверяй важное - «Я уверен», «точно», «несомненно» → шум: не более надёжно, чем без хеджа


🚀 Быстрый старт — вставь в чат:

Вот шаблон метакогнитивного промпта с хеджами. Адаптируй под мою задачу: [твоя задача]. 
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит о теме вопроса и желаемой роли — потому что без этого не знает, какую экспертную позицию занять и в каком формате выдавать неопределённость.


⚠️

Ограничения

⚠️ Метакогнитивный промпт помогает мало: Если явно попросить «думай о своей неопределённости перед ответом» — результат лучше незначительно. Фундаментальная проблема не исчезает.

⚠️ Тип хеджа почти не несёт информации: «Возможно» и «наверное» внутри одной модели несут почти одинаковый уровень неопределённости. Не надейся на тонкие различия между конкретными маркерами.

⚠️ Разные задачи — разные паттерны: Модель может хеджировать по-разному в зависимости от темы. Продуктовые описания и юридические вопросы ведут себя не одинаково — принцип работает, но перекалибруй ожидания при смене домена.

⚠️ Большие модели не лучше в различении хеджей: GPT-5, Gemini-3.1-Pro используют хеджи чуть стабильнее, но различают их по смыслу не лучше маленьких моделей.


🔗

Ресурсы

Статья: Can LLMs Use Linguistic Uncertainty Markers to Reliably Reflect Intrinsic Confidence? Авторы: Gabrielle Kaili-May Liu, Arman Cohan — Yale University Код: github.com/yale-nlp/marker_internal_confidence Связанные работы: Liu et al. (cMFG метрика), Yona et al. (оценка хеджирования через выборку)


Проблемы LLM

ПроблемаСутьКак обойти
Уверенный тон модели — стиль, не сигнал качестваПишешь вопрос. Модель отвечает «точно», «несомненно», «я уверен». Кажется — надёжно. На деле эти слова встречаются в обучающих данных как стандартная стилистика. Учебники, Википедия, новости — все пишут уверенно. Модель копирует этот стиль автоматически. Даже когда угадывает. Это ломает любую задачу где важна фактическая точность: исследования, юридические вопросы, бизнес-данныеСмотри не на уровень уверенности, а на её наличие. Попроси модель добавлять «возможно», «я думаю», «если не ошибаюсь» когда сомневается. Фраза с хеджем — проверяй. Фраза без хеджа — рабочая гипотеза. Фраза «я уверен» — игнорируй как сигнал

Методы

МетодСуть
Хедж по запросу — находишь пробелы моделиДобавь в запрос инструкцию: «Когда не уверен в точности — добавляй "возможно", "по некоторым данным", "я думаю". Когда факт точен — пиши без оговорок». Синтаксис: Когда не уверен — добавляй: «возможно», «я думаю», «если не ошибаюсь». Один маркер на предложение. Почему работает: Низкоуверенные хеджи в обучающих данных встречаются в специфичном контексте — там где текст реально выражает сомнение. Модель усвоила этот паттерн точнее. Попросив явно — активируешь его. Как читать ответ: хедж есть проверяй обязательно. Хеджа нет рабочая гипотеза. «Я уверен» / «точно» игнорируй, это шум. Когда применять: любой запрос с фактами — данные рынка, юридические нормы, технические параметры. Когда не работает: субъективные мнения, творческие задачи — там неопределённость другой природы

Тезисы

ТезисКомментарий
Маркеры уверенности у модели несимметричны: низкие честны, высокие — нет«Возможно» и «я думаю» — слабый, но реальный сигнал. Модель добавляет их там где реально менее уверена. «Я уверен», «точно», «несомненно» — почти пустые. Механика: уверенный стиль письма — это норма в обучающих данных. Модель воспроизводит его как дефолтный. Сомневающийся стиль встречается реже и в специфичном контексте — поэтому модель точнее воспроизводит его смысл. Применяй: когда видишь «возможно» — это сигнал к проверке. Когда видишь «я уверен» — не доверяй больше чем нейтральной фразе
📖 Простыми словами

CanLLMsUseLinguistic Uncertainty Markers to Reliably Reflect Intrinsic Confidence?

arXiv: 2605.28778

Когда нейросеть пишет тебе «я абсолютно уверена», она нагло врет, даже если сама об этом не знает. Суть в том, что у LLM нет встроенного датчика правды, зато есть мощный генератор уверенного тона. Исследователи из Йеля копнули вглубь и выяснили: лингвистические маркеры неопределенности вроде «возможно» или «скорее всего» никак не связаны с тем, насколько модель реально «плавает» в теме. Это просто статистическая имитация, где уверенный стиль — это дефолтная настройка, а не результат проверки фактов.

Это как если бы ты нанял на работу патологического лжеца с дипломом театрального училища. Он может рассказывать о квантовой физике с таким лицом, будто вчера пил чай с Эйнштейном, но стоит копнуть глубже — и там пустота. Формально он звучит убедительно, но его уверенность — это просто актерская игра, а не знание предмета. Если такой персонаж говорит «я не уверен», это не значит, что он нашел ошибку в расчетах, просто в этом сценарии так положено по роли.

В реальности работают не слова, а математическая вероятность. Модели лажают даже в простых тестах, потому что их учили подражать текстам из интернета, где авторы обожают казаться экспертами. Исследование показало, что лингвистическая уверенность модели — это пустышка: когда нейросеть использует хеджирование (смягчающие фразы), она делает это невпопад, не опираясь на свою внутреннюю логику. В итоге 10 из 10 моделей провалили проверку на честность перед самими собой.

Этот принцип универсален: он касается не только сложных научных данных, но и обычных бытовых запросов. Будь то анализ рынка EdTech или совет по ремонту крана — если модель звучит как гуру маркетинга, это не значит, что цифры верны. SEO-копирайтинг приучил нейронки лить воду с умным видом, и этот паттерн перекочевал в ответы чат-ботов. Верить тексту на слово нельзя, потому что стиль и точность в мире LLM — это две параллельные прямые, которые не пересекаются.

Короче, если видишь в ответе нейросети фразы «я гарантирую» или «это точно так» — это красный флаг. Главный вывод исследования: лингвистические маркеры уверенности бесполезны для оценки качества ответа. Не давай себя обмануть красивым слогом и всегда проверяй факты, особенно если модель звучит слишком убедительно. Кто продолжает верить тону нейронки, тот рискует сесть в лужу с очень умным выражением лица.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с