TL;DR
Когда модель отвечает неуверенно или противоречит себе, причин может быть три — и они требуют разных реакций. Первая: модель просто не знает ответа. Вторая: вопрос допускает несколько правильных ответов. Третья: вопрос сформулирован размыто, и модель молча выбрала одну интерпретацию из нескольких возможных. Современные инструменты оценки уверенности LLM сваливают все три причины в одну цифру — и поэтому регулярно ошибаются.
Главная боль: модель отвечает одинаково и уверенно — но неправильно. Пользователь видит стабильный ответ и доверяет ему. На самом деле это самосогласованная ошибка: модель раз за разом воспроизводит один и тот же неверный факт. Или обратная ситуация: вы три раза переспросили — получили три разных ответа — решили, что модель «не знает». Но она просто давала три равно правильных варианта на вопрос с множеством валидных ответов. А с размытым вопросом хуже всего: модель выбирает одну интерпретацию и отвечает с полной уверенностью, не предупреждая, что вопрос был неоднозначным.
Исследование показывает: попросить модель самой назвать тип неопределённости — самый надёжный способ обнаружить размытый вопрос. Это называют verbalized uncertainty — модель словами описывает свою уверенность. Для других типов неопределённости этот подход работает хуже, но для диагностики размытости вопроса — лучший из всех протестированных методов.
Схема метода
ШАГ 1: Задать вопрос + попросить диагностику →
модель называет тип неопределённости и что с ним делать
ШАГ 2 (зависит от диагноза):
→ Не знаю ответа : верифицировать через внешние источники
→ Много верных ответов: принять любой из них, не требовать одного «правильного»
→ Вопрос размыт : уточнить вопрос и переспросить
Один промпт, один чат.
Пример применения
Задача: Вы спрашиваете у Claude, стоит ли запускать Telegram-канал или YouTube — и каждый раз получаете разные советы. Непонятно, доверять ли ответу.
Промпт:
Я хочу задать тебе вопрос и получить не только ответ, но и диагноз —
почему ты отвечаешь именно так.
Вопрос: «Что лучше для личного бренда эксперта в B2B — Telegram-канал или YouTube?»
После ответа скажи:
1. Это вопрос с одним верным ответом, с несколькими равно верными,
или твой ответ зависит от того, как именно я понимаю вопрос?
2. Каких данных тебе не хватает, чтобы ответить точнее?
3. Если бы ты мог попросить у меня одно уточнение — какое?
Результат: Модель даст ответ, а затем — диагностику. Скорее всего, она выявит третий тип: вопрос размытый, потому что «лучше» зависит от аудитории, целей и ресурсов. Она предложит уточнение. Вы переспросите с конкретными параметрами — и получите ответ, которому уже можно доверять.
Почему это работает
LLM не предупреждает о размытости вопроса. Если вопрос допускает несколько интерпретаций, модель молча выбирает одну и отвечает уверенно — как будто никакой неоднозначности нет. Исследователи проверили это напрямую: на вопросы с намеренно убранным контекстом модели всё равно давали конкретные ответы, не запрашивая уточнений. Это ложная уверенность, которую трудно заметить без специального запроса.
Попросить модель описать свою неопределённость словами — это вытащить скрытый сигнал наружу. Модель «знает» что-то о качестве своего ответа, но по умолчанию это не сообщает. Явный запрос на диагностику заставляет её сформулировать то, что иначе осталось бы за кадром.
Разные типы неопределённости требуют разных действий. Не знает ответа — нужен внешний источник. Много верных ответов — нужно принять любой, не искать «правильный». Вопрос размыт — нужно сначала уточнить вопрос, а потом спрашивать снова. Без диагностики вы применяете не то решение к не той проблеме.
Рычаги управления: - Добавьте контекст к вопросу → снизит вероятность третьего типа (размытость) - Попросите несколько ответов → если они разные, это сигнал второго типа (много верных) - Попросите назвать источник → если модель колеблется, это первый тип (не знает) - Попросите уточняющий вопрос → самый прямой способ выловить третий тип
Шаблон промпта
Ответь на вопрос ниже — и сразу после ответа дай диагностику:
Вопрос: {ваш вопрос}
Диагностика:
A) Тип неопределённости — выбери один:
— «Не уверен в ответе» (возможно, нужна проверка через источники)
— «Несколько равно верных ответов» (мой ответ — один из валидных вариантов)
— «Вопрос требует уточнения» (я выбрал интерпретацию, но она может быть не твоей)
B) Что мне стоит уточнить или проверить, чтобы доверять этому ответу?
C) Если бы ты мог задать мне один вопрос для уточнения — какой?
Что подставлять:
- {ваш вопрос} — любой вопрос, где результат важен и вы хотите понять, насколько ему доверять
🚀 Быстрый старт — вставь в чат:
Вот шаблон для диагностики типа неопределённости в ответах LLM.
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит, какой вопрос вы планируете задавать и насколько критична точность ответа — чтобы настроить диагностику под ваш контекст.
Ограничения
⚠️ Самосогласованные ошибки: Если модель несколько раз дала один и тот же ответ — это ещё не значит, что он правильный. Стабильность ≡ уверенность только при первом типе неопределённости. Для фактических утверждений важных решений — проверяйте через внешние источники.
⚠️ Verbalized uncertainty — не панацея: Словесная диагностика надёжно работает для выявления размытых вопросов, но слабее помогает, когда модель просто не знает ответа или когда валидных ответов много. Не стоит полностью доверять самооценке модели.
⚠️ Модели не запрашивают уточнения сами: Даже если ваш вопрос откровенно размытый, модель по умолчанию выберет интерпретацию и ответит уверенно. Диагностический блок нужно добавлять явно — сам он не появится.
⚠️ Работает лучше на крупных моделях: Verbalized uncertainty становится точнее с ростом размера модели. На слабых или обрезанных моделях самодиагностика менее надёжна.
Как исследовали
Команда из Mohamed bin Zayed University of Artificial Intelligence заметила парадокс: все инструменты оценки уверенности LLM дают одно число, но неопределённость бывает трёх разных видов. Значит, одно число не может быть правдой для всех случаев. Чтобы проверить это, они создали датасет из 539 вопросов трёх типов — 1617 итого. Хитрость в том, как его собрали: брали один вопрос с множеством правильных ответов, затем переписывали его в версию с одним правильным ответом (тип 1), оставляли с несколькими валидными (тип 2), и намеренно убирали ключевой контекст чтобы сделать размытым (тип 3). Три версии одного вопроса — одинаковая длина, одна тема, разный тип неопределённости. Это позволило сравнивать честно, без путаницы.
Затем 20+ разных методов оценки уверенности прогнали через три модели — Llama, Gemma, Qwen. Результат оказался неожиданным: ни один метод не побеждает во всех сценариях. Hybrid-методы (лучшие в целом) разваливаются на размытых вопросах — оба компонента одновременно занижают неопределённость. Consistency-методы (смотрят, насколько ответы похожи друг на друга) теряются там, где модель делает одну и ту же ошибку или, наоборот, где разные ответы — все правильные. Verbalized-методы — единственные, кто стабильно держится на размытых вопросах, и становятся лучше с ростом модели. Вывод исследователей: не бывает универсального детектора неопределённости — нужно знать, с каким типом вы работаете.
Адаптации и экстраполяции
1. Диагностика перед важным запросом
Прежде чем задавать сложный вопрос — проверьте его сами:
🔧 Техника: pre-flight check вопроса → снижение ложной уверенности
Перед тем как отвечать на мой вопрос — оцени его качество:
- Он однозначный или допускает несколько интерпретаций?
- На него есть один правильный ответ или несколько равно верных?
- Каких данных тебе не хватает?
Если вопрос размытый — сначала задай уточняющий вопрос, потом отвечай.
Вопрос: {ваш вопрос}
2. Три агента — три диагноза
Комбинация с многоагентным подходом: один агент отвечает, второй проверяет тип неопределённости, третий предлагает действие.
Агент 1 (Ответчик): дай ответ на вопрос {вопрос}
Агент 2 (Диагност): определи тип неопределённости в этом ответе —
знание модели / множество верных ответов / размытый вопрос.
Агент 3 (Советник): предложи конкретное следующее действие для пользователя
исходя из типа неопределённости.
Ресурсы
Название: Why Don't You Know? Evaluating the Impact of Uncertainty Sources on Uncertainty Quantification in LLMs
Авторы: Maiya Goloburda, Roman Vashurin, Fedor Chernogorsky, Nurkhan Laiyk, Daniil Orel, Preslav Nakov, Maxim Panov — Mohamed bin Zayed University of Artificial Intelligence
Датасет: опубликован открыто, ссылка в репозитории github.com/placeholder (в финальной версии статьи)
Библиотека для UQ: lm-polygraph (Fadeeva et al., 2023; Vashurin et al., 2025)
