3,583 papers
arXiv:2604.10495 70 12 апр. 2026 г. FREE

Три типа неопределённости LLM: почему одинаковые вопросы дают разные ответы — и что с этим делать

КЛЮЧЕВАЯ СУТЬ
Модель выбирает одну интерпретацию размытого вопроса и отвечает с полной уверенностью — не предупреждая, что вопрос вообще был неоднозначным. Метод диагностики позволяет получить от модели не просто ответ, а объяснение почему она отвечает именно так — и что с этим делать. Попросить модель словами назвать тип своей неопределённости — единственный надёжный способ поймать размытый вопрос: это вытаскивает сигнал, который иначе остаётся за кадром. Три типа — три разных реакции. Без диагноза применяешь не то решение к не той проблеме.
Адаптировать под запрос

TL;DR

Когда модель отвечает неуверенно или противоречит себе, причин может быть три — и они требуют разных реакций. Первая: модель просто не знает ответа. Вторая: вопрос допускает несколько правильных ответов. Третья: вопрос сформулирован размыто, и модель молча выбрала одну интерпретацию из нескольких возможных. Современные инструменты оценки уверенности LLM сваливают все три причины в одну цифру — и поэтому регулярно ошибаются.

Главная боль: модель отвечает одинаково и уверенно — но неправильно. Пользователь видит стабильный ответ и доверяет ему. На самом деле это самосогласованная ошибка: модель раз за разом воспроизводит один и тот же неверный факт. Или обратная ситуация: вы три раза переспросили — получили три разных ответа — решили, что модель «не знает». Но она просто давала три равно правильных варианта на вопрос с множеством валидных ответов. А с размытым вопросом хуже всего: модель выбирает одну интерпретацию и отвечает с полной уверенностью, не предупреждая, что вопрос был неоднозначным.

Исследование показывает: попросить модель самой назвать тип неопределённости — самый надёжный способ обнаружить размытый вопрос. Это называют verbalized uncertainty — модель словами описывает свою уверенность. Для других типов неопределённости этот подход работает хуже, но для диагностики размытости вопроса — лучший из всех протестированных методов.


🔬

Схема метода

ШАГ 1: Задать вопрос + попросить диагностику → 
        модель называет тип неопределённости и что с ним делать

ШАГ 2 (зависит от диагноза):
  → Не знаю ответа     : верифицировать через внешние источники
  → Много верных ответов: принять любой из них, не требовать одного «правильного»
  → Вопрос размыт      : уточнить вопрос и переспросить

Один промпт, один чат.

🚀

Пример применения

Задача: Вы спрашиваете у Claude, стоит ли запускать Telegram-канал или YouTube — и каждый раз получаете разные советы. Непонятно, доверять ли ответу.

Промпт:

Я хочу задать тебе вопрос и получить не только ответ, но и диагноз — 
почему ты отвечаешь именно так.

Вопрос: «Что лучше для личного бренда эксперта в B2B — Telegram-канал или YouTube?»

После ответа скажи:
1. Это вопрос с одним верным ответом, с несколькими равно верными, 
   или твой ответ зависит от того, как именно я понимаю вопрос?
2. Каких данных тебе не хватает, чтобы ответить точнее?
3. Если бы ты мог попросить у меня одно уточнение — какое?

Результат: Модель даст ответ, а затем — диагностику. Скорее всего, она выявит третий тип: вопрос размытый, потому что «лучше» зависит от аудитории, целей и ресурсов. Она предложит уточнение. Вы переспросите с конкретными параметрами — и получите ответ, которому уже можно доверять.


🧠

Почему это работает

LLM не предупреждает о размытости вопроса. Если вопрос допускает несколько интерпретаций, модель молча выбирает одну и отвечает уверенно — как будто никакой неоднозначности нет. Исследователи проверили это напрямую: на вопросы с намеренно убранным контекстом модели всё равно давали конкретные ответы, не запрашивая уточнений. Это ложная уверенность, которую трудно заметить без специального запроса.

Попросить модель описать свою неопределённость словами — это вытащить скрытый сигнал наружу. Модель «знает» что-то о качестве своего ответа, но по умолчанию это не сообщает. Явный запрос на диагностику заставляет её сформулировать то, что иначе осталось бы за кадром.

Разные типы неопределённости требуют разных действий. Не знает ответа — нужен внешний источник. Много верных ответов — нужно принять любой, не искать «правильный». Вопрос размыт — нужно сначала уточнить вопрос, а потом спрашивать снова. Без диагностики вы применяете не то решение к не той проблеме.

Рычаги управления: - Добавьте контекст к вопросу → снизит вероятность третьего типа (размытость) - Попросите несколько ответов → если они разные, это сигнал второго типа (много верных) - Попросите назвать источник → если модель колеблется, это первый тип (не знает) - Попросите уточняющий вопрос → самый прямой способ выловить третий тип


📋

Шаблон промпта

Ответь на вопрос ниже — и сразу после ответа дай диагностику:

Вопрос: {ваш вопрос}

Диагностика:
A) Тип неопределённости — выбери один:
   — «Не уверен в ответе» (возможно, нужна проверка через источники)
   — «Несколько равно верных ответов» (мой ответ — один из валидных вариантов)
   — «Вопрос требует уточнения» (я выбрал интерпретацию, но она может быть не твоей)

B) Что мне стоит уточнить или проверить, чтобы доверять этому ответу?

C) Если бы ты мог задать мне один вопрос для уточнения — какой?

Что подставлять: - {ваш вопрос} — любой вопрос, где результат важен и вы хотите понять, насколько ему доверять


🚀 Быстрый старт — вставь в чат:

Вот шаблон для диагностики типа неопределённости в ответах LLM. 
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит, какой вопрос вы планируете задавать и насколько критична точность ответа — чтобы настроить диагностику под ваш контекст.


⚠️

Ограничения

⚠️ Самосогласованные ошибки: Если модель несколько раз дала один и тот же ответ — это ещё не значит, что он правильный. Стабильность ≡ уверенность только при первом типе неопределённости. Для фактических утверждений важных решений — проверяйте через внешние источники.

⚠️ Verbalized uncertainty — не панацея: Словесная диагностика надёжно работает для выявления размытых вопросов, но слабее помогает, когда модель просто не знает ответа или когда валидных ответов много. Не стоит полностью доверять самооценке модели.

⚠️ Модели не запрашивают уточнения сами: Даже если ваш вопрос откровенно размытый, модель по умолчанию выберет интерпретацию и ответит уверенно. Диагностический блок нужно добавлять явно — сам он не появится.

⚠️ Работает лучше на крупных моделях: Verbalized uncertainty становится точнее с ростом размера модели. На слабых или обрезанных моделях самодиагностика менее надёжна.


🔍

Как исследовали

Команда из Mohamed bin Zayed University of Artificial Intelligence заметила парадокс: все инструменты оценки уверенности LLM дают одно число, но неопределённость бывает трёх разных видов. Значит, одно число не может быть правдой для всех случаев. Чтобы проверить это, они создали датасет из 539 вопросов трёх типов — 1617 итого. Хитрость в том, как его собрали: брали один вопрос с множеством правильных ответов, затем переписывали его в версию с одним правильным ответом (тип 1), оставляли с несколькими валидными (тип 2), и намеренно убирали ключевой контекст чтобы сделать размытым (тип 3). Три версии одного вопроса — одинаковая длина, одна тема, разный тип неопределённости. Это позволило сравнивать честно, без путаницы.

Затем 20+ разных методов оценки уверенности прогнали через три модели — Llama, Gemma, Qwen. Результат оказался неожиданным: ни один метод не побеждает во всех сценариях. Hybrid-методы (лучшие в целом) разваливаются на размытых вопросах — оба компонента одновременно занижают неопределённость. Consistency-методы (смотрят, насколько ответы похожи друг на друга) теряются там, где модель делает одну и ту же ошибку или, наоборот, где разные ответы — все правильные. Verbalized-методы — единственные, кто стабильно держится на размытых вопросах, и становятся лучше с ростом модели. Вывод исследователей: не бывает универсального детектора неопределённости — нужно знать, с каким типом вы работаете.


💡

Адаптации и экстраполяции

1. Диагностика перед важным запросом

Прежде чем задавать сложный вопрос — проверьте его сами:

🔧 Техника: pre-flight check вопроса → снижение ложной уверенности

Перед тем как отвечать на мой вопрос — оцени его качество:
- Он однозначный или допускает несколько интерпретаций?
- На него есть один правильный ответ или несколько равно верных?
- Каких данных тебе не хватает?

Если вопрос размытый — сначала задай уточняющий вопрос, потом отвечай.

Вопрос: {ваш вопрос}

2. Три агента — три диагноза

Комбинация с многоагентным подходом: один агент отвечает, второй проверяет тип неопределённости, третий предлагает действие.

Агент 1 (Ответчик): дай ответ на вопрос {вопрос}

Агент 2 (Диагност): определи тип неопределённости в этом ответе —
знание модели / множество верных ответов / размытый вопрос.

Агент 3 (Советник): предложи конкретное следующее действие для пользователя
исходя из типа неопределённости.

🔗

Ресурсы

Название: Why Don't You Know? Evaluating the Impact of Uncertainty Sources on Uncertainty Quantification in LLMs

Авторы: Maiya Goloburda, Roman Vashurin, Fedor Chernogorsky, Nurkhan Laiyk, Daniil Orel, Preslav Nakov, Maxim Panov — Mohamed bin Zayed University of Artificial Intelligence

Датасет: опубликован открыто, ссылка в репозитории github.com/placeholder (в финальной версии статьи)

Библиотека для UQ: lm-polygraph (Fadeeva et al., 2023; Vashurin et al., 2025)


📋 Дайджест исследования

Ключевая суть

Модель выбирает одну интерпретацию размытого вопроса и отвечает с полной уверенностью — не предупреждая, что вопрос вообще был неоднозначным. Метод диагностики позволяет получить от модели не просто ответ, а объяснение почему она отвечает именно так — и что с этим делать. Попросить модель словами назвать тип своей неопределённости — единственный надёжный способ поймать размытый вопрос: это вытаскивает сигнал, который иначе остаётся за кадром. Три типа — три разных реакции. Без диагноза применяешь не то решение к не той проблеме.

Принцип работы

Три типа неопределённости — три разные ситуации: Модель не знает ответа → нужен внешний источник, не переспрашивай её ещё раз. У вопроса несколько равно верных ответов → прими любой, не ищи «единственно правильный». Вопрос сформулирован размыто → сначала уточни вопрос, потом спрашивай снова. Стандартные инструменты оценки уверенности LLM сваливают все три в одну цифру. Поэтому и ошибаются. Словесная диагностика — явный запрос «назови тип неопределённости и что мне стоит уточнить» — заставляет модель сформулировать то, что она иначе молча проглатывает.

Почему работает

Модель «знает» кое-что о качестве своего ответа — но по умолчанию не сообщает. Исследователи проверили это напрямую: вопросы с намеренно убранным контекстом модели всё равно получали конкретные уверенные ответы без единого уточняющего вопроса. Ложная уверенность, замаскированная под стабильность. Явный запрос на диагностику — это не просьба о рефлексии, а принудительное включение сигнала, который иначе остаётся выключенным. Дополнительный инструмент — самосогласованность: попроси три раза с разулыбками, сравни. Разные ответы — второй тип (несколько верных). Одинаковые, но неверные — первый тип (не знает, но уверенно воспроизводит ошибку). Размытость ловит только словесная диагностика — лучший из протестированных методов именно для этого типа.

Когда применять

Везде, где результат важен и вы собираетесь действовать на основании ответа: стратегические решения, сравнение вариантов, фактические утверждения в важных документах, технические рекомендации. Особенно полезно, когда получаете нестабильные ответы и не понимаете — модель не знает или просто вопрос допускает несколько правильных. НЕ подходит для: быстрых справочных запросов где цена ошибки низкая, или когда модель слабая — словесная диагностика хуже работает на небольших моделях.

Мини-рецепт

1. Добавь диагностический блок после вопроса: три пункта — тип неопределённости (не знаю / несколько верных / вопрос размыт), чего не хватает для точного ответа, какое уточнение попросила бы.

2. Прочитай диагноз, не ответ: сначала смотри что модель написала о типе неопределённости — это главное.

3. Выбери реакцию по типу:
— «Не знаю» → проверь через внешний источник, не переспрашивай модель.
— «Несколько верных» → возьми любой вариант из ответа, не ищи "правильный".
— «Вопрос размыт» → уточни что именно тебе нужно и задай вопрос заново.

4. Если хочешь ускорить: добавь к вопросу конкретный контекст сразу — это режет третий тип ещё до запроса.

Примеры

[ПЛОХО] : Что лучше для личного бренда — Telegram или YouTube?
[ХОРОШО] : Ответь на вопрос и сразу дай диагностику. Вопрос: Что лучше для личного бренда эксперта — Telegram или YouTube? Диагностика: А) Тип: «не знаю ответа» / «несколько равно верных» / «вопрос требует уточнения». Б) Чего не хватает, чтобы доверять этому ответу? В) Какое одно уточнение ты бы попросила? Результат: модель скажет что выбрала интерпретацию «личный бренд = охват», предложит уточнить аудиторию и цели. Переспросишь с параметрами — получишь ответ, которому уже можно доверять.
Источник: Why Don't You Know? Evaluating the Impact of Uncertainty Sources on Uncertainty Quantification in LLMs
ArXiv ID: 2604.10495 | Сгенерировано: 2026-04-14 04:50

Проблемы LLM

ПроблемаСутьКак обойти
Модель молча выбирает интерпретацию размытого вопросаВопрос допускает несколько прочтений. Модель не предупреждает. Выбирает одну интерпретацию и отвечает уверенно — как будто вопрос был чётким. Ты видишь уверенный ответ и не знаешь, что он на «другой вопрос». Это происходит с любым вопросом где не хватает контекстаДобавь в конец промпта диагностический блок. Попроси модель прямо: "если мой вопрос требовал уточнения — какое?" Выявляется только если спрашивать явно

Методы

МетодСуть
Диагностический блок — тип неопределённости + что уточнитьПосле основного вопроса добавь три вопроса к модели: (A) почему ты именно так отвечаешь — не знаешь ответа, есть несколько равно верных, или вопрос требовал уточнения? (B) что стоит проверить или уточнить? (C) какой один вопрос ты бы задал мне для уточнения? Пример: После ответа: A) тип неопределённости — «не уверен» / «несколько верных» / «вопрос требует уточнения». B) что мне проверить? C) твой уточняющий вопрос. Почему работает: модель «знает» о качестве своего ответа, но по умолчанию не сообщает. Явный запрос вытаскивает этот сигнал наружу. Когда применять: решения с последствиями, неоднозначные вопросы, когда важно понять насколько доверять ответу. Слабее работает на небольших моделях

Тезисы

ТезисКомментарий
Тип неопределённости определяет что делать дальшеТри разные ситуации требуют трёх разных действий. Модель не знает ответа — нужен внешний источник. Несколько равно верных ответов — любой из них подходит, не ищи «единственно правильный». Вопрос был размытым — сначала уточни вопрос, потом спрашивай снова. Без диагностики применяешь не то решение к не той проблеме. Применяй: когда ответ важен — сначала разбери в какой из трёх ситуаций ты находишься
📖 Простыми словами

Why Don't You Know? Evaluating the Impact of Uncertainty Sources on Uncertainty Quantification inLLMs

arXiv: 2604.10495

Когда LLM начинает нести чушь или сомневаться, мы привыкли думать, что она просто «глючит». На самом деле у модели в голове происходит один из трех разных сценариев, которые мы по ошибке сваливаем в одну кучу. Либо она реально не знает фактов, либо у вопроса есть несколько правильных ответов, либо сам вопрос — кривой и размытый. Проблема в том, что современные нейронки не умеют разделять эти состояния. Для них это просто шум, и они выдают одну общую цифру уверенности, которая в итоге не значит ровным счетом ничего.

Это как если бы ты спросил дорогу у прохожего, а он ответил с каменным лицом, хотя сам не уверен, правильно ли понял, куда тебе надо, и не перепутал ли он улицу. Формально ответ получен, но ты не понимаешь: он уверен в маршруте или просто угадывает? В жизни мы уточняем детали, а нейронка просто выбирает одну версию и шпарит по ней, даже если вопрос был максимально дырявым. Она не скажет «уточни, что ты имеешь в виду», она просто сделает вид, что всё под контролем.

Исследователи копнули глубже и увидели, что главная беда — это ложная уверенность. Когда из вопроса специально убирали контекст, модели всё равно выдавали конкретные ответы, даже не заикнувшись о том, что информации маловато. Это работает через три типа неопределенности: эпистемическую (нехватка знаний), алеаторную (вариативность мира) и лингвистическую (кривая формулировка). Большинство инструментов оценки лажают, потому что пытаются измерить всё это одним термометром, хотя у пациента одновременно и грипп, и перелом ноги.

Этот принцип применим к любому взаимодействию с AI, будь то написание кода или выбор стратегии для бизнеса. Если ты спрашиваешь Claude, стоит ли заводить Telegram-канал, и получаешь разные ответы, это не значит, что модель сломалась. Это значит, что в вопросе слишком много пустот, которые нейронка заполняет случайным образом. SEO для мозгов здесь не поможет — нужно понимать, что модель всегда будет пытаться казаться умнее, чем она есть в моменте, скрывая свою растерянность за уверенным тоном.

Короче: нельзя верить «индикаторам уверенности» LLM, пока они не научатся разделять незнание фактов и кривизну вопроса. Сейчас любая попытка измерить надежность ответа одной цифрой — это самообман. Чтобы не получить на выходе галлюцинацию, нужно не просто ждать ответа, а проверять, не пытается ли модель молча додумать за тебя то, что ты поленился расписать в промпте. Кто не научится разделять эти источники шума, тот так и будет получать рандомные советы вместо рабочих решений.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с