TL;DR
Когда LLM пишет «я уверен» или «это точно» — это почти ничего не говорит о правильности ответа. Исследователи Yale University проверили: последовательно ли модели используют хеджирующие фразы («я думаю», «возможно», «скорее всего») для выражения реальной внутренней неопределённости? Нет — модели провалили даже щадящий тест, где их оценивали по собственным стандартам, не человеческим.
Главная находка: высокоуверенные маркеры — «я уверен», «точно», «несомненно» — используются автоматически, вне зависимости от того, реально ли модель «знает» ответ. Именно они — главный источник ложной уверенности. Это как студент, который всегда говорит убеждённо — даже когда чистое угадывание. Уверенный тон звучит убедительно, но не сигнализирует о качестве.
Что надёжнее: низкоуверенные маркеры — «возможно», «я думаю», «кажется» — ассоциированы с реально более низкой внутренней уверенностью модели. Если LLM всё-таки добавила «кажется» — это сигнал, который стоит принять всерьёз. И самое надёжное разграничение — хеджирует ли модель вообще или нет, а не какой именно хедж она выбрала.
Схема: как читать маркеры уверенности
КОГДА ЧИТАЕШЬ ОТВЕТ LLM:
├── Нет хеджа («Ставка налога — 6%»)
│ → Модель условно уверена. Для важного — проверяй независимо.
│
├── Низкоуверенный хедж («возможно», «я думаю», «кажется», «если не ошибаюсь»)
│ → РЕАЛЬНЫЙ СИГНАЛ неопределённости. Проверяй обязательно.
│
└── Высокоуверенный хедж («я уверен», «точно», «несомненно», «без сомнения»)
→ НЕНАДЁЖЕН. Используется автоматически. Не доверяй больше, чем «нет хеджа».
КОГДА ПРОМПТИШЬ:
ШАГ 1: Добавь инструкцию — хеджировать при неуверенности (один маркер на предложение)
ШАГ 2: В ответе смотри на НАЛИЧИЕ или ОТСУТСТВИЕ хеджа — это информативнее типа хеджа
Оба шага — в одном промпте.
Пример применения
Задача: Маша готовит питч для инвесторов на Сколково Демо Дэй. Просит LLM собрать факты о рынке EdTech в России — объём, темпы роста, ключевые игроки.
Промпт:
Ты — аналитик рынка. Отвечай фактически и кратко.
Когда ты не уверен в точности факта или цифры — добавляй
хеджирующую фразу («возможно», «по некоторым данным», «я думаю»,
«если не ошибаюсь»). Не более одного маркера на предложение.
Когда уверен полностью — пиши без оговорок.
Задача: опиши российский рынок EdTech — объём в рублях,
темпы роста за последние 3 года, ключевые игроки и их доли.
Результат: Модель выдаст смешанный текст — часть утверждений без оговорок, часть с хеджами. Как читать: - Фразы без хеджей — берёшь как рабочую гипотезу, проверяешь если критично - Фразы с «возможно», «по некоторым данным» — обязательно проверяй перед питчем: это реальные пробелы модели - Фразы с «я уверен» или «точно» — не доверяй больше, чем фразам без хеджей вообще: это шум, не сигнал
Почему это работает
LLM генерирует текст по статистическим паттернам. Уверенный тон в обучающих данных встречается часто — в учебниках, Википедии, новостях, — поэтому модель воспроизводит его как стандартный стиль письма. Уверенное звучание — это стилистика, а не отражение внутреннего состояния.
Почему «возможно» надёжнее: Низкоуверенные хеджи используются реже и в более специфичных контекстах — там, где текст действительно выражает неопределённость. Модель подхватила этот паттерн точнее. Поэтому «я думаю» — слабый, но реальный сигнал. «Я уверен» — почти пустой.
Рычаг управления — наличие хеджа как бинарный сигнал. Спроси модель хеджировать при неуверенности → смотри не на КАКОЙ хедж, а ЕСТЬ ли он вообще. Это самый информативный сигнал из всех языковых маркеров.
Шаблон промпта
Отвечай на {задача}.
Когда ты не уверен в точности утверждения — добавляй хеджирующую
фразу: «возможно», «по некоторым данным», «я думаю», «если не
ошибаюсь», «скорее всего». Не более одного маркера на предложение.
Когда факт точен — пиши без оговорок.
Вопрос: {твой вопрос}
Что подставлять:
- {задача} — область или жанр: «как аналитик», «как юрист», «как редактор»
- {твой вопрос} — конкретный вопрос
Как читать ответ: - Хедж («возможно», «я думаю») → сигнал: проверяй это место - Нет хеджа → рабочая гипотеза, проверяй важное - «Я уверен», «точно», «несомненно» → шум: не более надёжно, чем без хеджа
🚀 Быстрый старт — вставь в чат:
Вот шаблон метакогнитивного промпта с хеджами. Адаптируй под мою задачу: [твоя задача].
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит о теме вопроса и желаемой роли — потому что без этого не знает, какую экспертную позицию занять и в каком формате выдавать неопределённость.
Ограничения
⚠️ Метакогнитивный промпт помогает мало: Если явно попросить «думай о своей неопределённости перед ответом» — результат лучше незначительно. Фундаментальная проблема не исчезает.
⚠️ Тип хеджа почти не несёт информации: «Возможно» и «наверное» внутри одной модели несут почти одинаковый уровень неопределённости. Не надейся на тонкие различия между конкретными маркерами.
⚠️ Разные задачи — разные паттерны: Модель может хеджировать по-разному в зависимости от темы. Продуктовые описания и юридические вопросы ведут себя не одинаково — принцип работает, но перекалибруй ожидания при смене домена.
⚠️ Большие модели не лучше в различении хеджей: GPT-5, Gemini-3.1-Pro используют хеджи чуть стабильнее, но различают их по смыслу не лучше маленьких моделей.
Ресурсы
Статья: Can LLMs Use Linguistic Uncertainty Markers to Reliably Reflect Intrinsic Confidence? Авторы: Gabrielle Kaili-May Liu, Arman Cohan — Yale University Код: github.com/yale-nlp/marker_internal_confidence Связанные работы: Liu et al. (cMFG метрика), Yona et al. (оценка хеджирования через выборку)
