TL;DR
Когда AI показывает неопределённость по-разному — одним числом, по шагам рассуждения или подсвечивая слова — это вызывает принципиально разное поведение у пользователя. Причём часто не то, которого вы ожидаете. Исследование называет этот эффект uncertainty granularity — гранулярностью неопределённости.
Главная находка удивляет: чем детальнее отображается неопределённость, тем НЕ более критично вы мыслите. Когда AI подсвечивает неуверенные слова — вы начинаете соглашаться с ним больше, не меньше. Когда AI показывает уверенность по шагам рассуждения — вы перестаёте проверять ответ в других источниках, хотя точность при этом не растёт. Мозг воспринимает детализированный сигнал как «всё под контролем» и расслабляет критическую проверку.
Практическое следствие: если вы просите AI оценить уверенность без явного указания формата — вы получаете случайный формат с непредсказуемым эффектом на ваше суждение. Чтобы неопределённость AI помогала, а не вводила в заблуждение, нужно явно контролировать как и чем заканчивается анализ — иначе вместо критического мышления получите иллюзию его.
Схема эффектов (по результатам исследования)
ФОРМАТ 1: Одна оценка всего ответа (Output-level)
→ Снижает уверенность в СВОИХ суждениях
→ Не повышает доверие к AI
→ Эффект: сомневаешься в себе, но не в AI
ФОРМАТ 2: Оценка каждого шага рассуждения (Relation-level)
→ Снижает внешнюю проверку (перестаёшь гуглить)
→ Повышает опору на сигналы самого AI
→ Эффект: "AI сам всё взвесил, зачем мне проверять?"
ФОРМАТ 3: Подсветка неуверенных слов (Token-level)
→ Повышает согласие с AI
→ Эффект: деталь кажется прозрачностью → доверяешь больше
КЛЮЧЕВОЙ ВЫВОД:
Детальность ≠ Критичность
Больше информации об уверенности AI → не значит осторожнее
Все три формата выравниваются по точности ответов. Разница — только в поведении пользователя.
Пример применения
Задача: Вы открываете кофейню в Москве. Попросили Claude проанализировать, стоит ли брать помещение на Сретенке или Китай-городе. AI выдал развёрнутый анализ — и теперь вы хотите понять, насколько ему доверять, прежде чем платить залог.
Промпт:
Проанализируй, где лучше открыть кофейню — Сретенка или Китай-город (Москва).
Формат ответа:
1. Разбей ответ на отдельные утверждения (факты, прогнозы, оценки).
2. Для каждого утверждения укажи:
- Содержание
- Уверенность: [ВЫСОКАЯ / СРЕДНЯЯ / НИЗКАЯ]
- Источник уверенности: [общеизвестный факт / логический вывод / предположение]
3. В конце: список из 3-5 вещей, которые мне НУЖНО проверить самому —
где AI может ошибаться или где данные устарели.
Не давай финальную рекомендацию пока не закончишь таблицу.
Результат: Модель разобьёт анализ на конкретные утверждения с явной маркировкой уверенности и источника этой уверенности. Главное — в конце появится список что именно проверить самому: актуальная аренда, текущий трафик, конкуренты рядом. Вы получаете не просто «я уверен на 70%», а карту того где AI надёжен, а где — нет.
Почему это работает
Мозг эволюционно реагирует на визуальную детализацию как на доказательство работы. Когда вы видите подсвеченные слова или таблицу с оценками — ощущение: «система думает всерьёз». Это снижает собственное критическое усилие. Исследователи называют это automation bias — склонностью доверять автоматизированным сигналам.
LLM не «знает», что он не знает — в строгом смысле. Когда модель говорит «я уверен на 40% в этом шаге» — это статистический сигнал, не осознанная интроспекция. При этом сам сигнал хорошо откалиброван математически, но плохо откалиброван психологически: пользователь видит «заботу о точности» и расслабляется.
Правильный формат разрывает этот круг. Когда вы явно просите AI: (а) оценить уверенность по утверждениям и *(б) указать что проверить самому — вы перехватываете управление. Вместо того чтобы AI менял ваше поведение незаметно, вы задаёте правила игры. Список «что проверить» — критически важная часть: он направляет энергию в сторону действий, а не пассивного потребления уверенных сигналов.
Рычаги управления промптом: - Убрать «не давай финальную рекомендацию» → AI сразу выдаст вывод, вы быстрее согласитесь с ним, не изучив детали - Добавить «источник уверенности» → видите разницу между «это общий факт» и «это я предполагаю» - Добавить конкретные домены для проверки («особенно проверь данные по аренде») → AI сфокусирует список на важном - Заменить «ВЫСОКАЯ/СРЕДНЯЯ/НИЗКАЯ» на «проценты» → формально то же самое, но число ощущается точнее и может снова расслабить критику
Шаблон промпта
Проанализируй {задача или вопрос}.
Формат ответа:
1. Разбей анализ на отдельные утверждения — факты, прогнозы, оценки.
2. Для каждого утверждения:
- Содержание утверждения
- Уверенность: [ВЫСОКАЯ / СРЕДНЯЯ / НИЗКАЯ]
- Тип: [установленный факт / логический вывод / предположение]
3. После таблицы — список из {число} вещей, которые стоит проверить независимо.
Где данные могут быть устаревшими, субъективными или недоступными тебе?
{дополнительный контекст по задаче}
Что подставлять:
- {задача или вопрос} — конкретная ситуация: «стоит ли мне сменить работу», «оцени этот договор», «проанализируй рынок фитнес-приложений»
- {число} — 3-5 пунктов достаточно, больше перегружает
- {дополнительный контекст} — что у вас уже есть: данные, документы, ограничения
🚀 Быстрый старт — вставь в чат:
Вот шаблон для анализа с явной оценкой уверенности.
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит что именно анализировать и какой контекст есть — потому что без этого не сможет правильно разбить на утверждения и составить список для проверки. Она возьмёт структуру из шаблона и адаптирует под твою задачу.
Ограничения
⚠️ Высокие ставки не решаются промптом: Исследование проводилось на медицинских вопросах, где точность ответов между группами не отличалась — ни один формат не сделал людей умнее. Описанный подход снижает риск некритичного принятия, но не заменяет экспертную проверку там, где она нужна.
⚠️ AI остаётся оверконфидентным: Почти во всех случаях LLM переоценивает свою уверенность — даже в неверных ответах. Явный запрос на список «что проверить» частично компенсирует это, но не устраняет.
⚠️ Эффект не одинаков для всех задач: Исследование тестировали на фактических вопросах с правильным/неправильным ответом. Для творческих или стратегических задач (где нет «правильного ответа») гранулярность неопределённости может работать иначе.
⚠️ Списки для проверки могут быть общими: Если задача абстрактная, AI выдаёт банальные пункты («проверьте актуальность данных»). Для острых списков — добавьте контекст или попросите конкретизировать.
Как исследовали
Команда из Миннесотского университета взяла 192 участника и поставила им сложные медицинские вопросы — такие, на которые ни обычный поиск, ни обычный человек не ответит сразу. Каждый работал с AI, но в разных условиях: одни видели единственный процент уверенности, другие — оценку каждого шага рассуждения в виде интерактивного графа, третьи — подсветку слов по степени уверенности, четвёртые — вообще ничего.
Интересная деталь дизайна: участники могли в любой момент открыть Google прямо в интерфейсе или перейти по ссылкам. Исследователи отслеживали — кто и сколько раз это делал. Это позволило измерить не «что люди говорят», а что люди делают.
Результат оказался контринтуитивным: группа с подсветкой слов согласилась с AI чаще, чем контрольная группа без какой-либо информации об уверенности. А группа с пошаговой оценкой рассуждений гуглила реже — хотя логично было бы ожидать обратное. Авторы объясняют это когнитивной «иллюзией прозрачности»: детализированная неопределённость создаёт ощущение, что система всё уже проверила за тебя. Чем больше деталей — тем меньше твоё желание копаться самому.
Адаптации и экстраполяции
💡 Адаптация для юридических или финансовых документов:
Когда AI анализирует договор или финансовую модель — особенно важно знать не «насколько уверен в целом», а в каких конкретных пунктах уверенность низкая.
Проанализируй этот договор аренды. Для каждого ключевого пункта: - О чём пункт (коротко) - Риск: [НИЗКИЙ / СРЕДНИЙ / ВЫСОКИЙ] - Почему именно такой риск — 1 предложение В конце: какие 3 пункта стоит показать юристу в первую очередь и почему. [текст договора]
🔧 Техника: добавить "точку выхода из доверия"
Исследование показало: relation-level (оценка по шагам) отключает желание проверять внешние источники. Чтобы этого не происходило — добавьте явное задание на действие, а не просто оценку:
Вместо:
оцени уверенность по каждому шагуДобавьте:и для каждого шага с НИЗКОЙ уверенностью — предложи конкретный способ это проверить (ссылка, документ, эксперт)Это переводит «оценку» в «действие» и снимает иллюзию, что AI всё уже взвесил.
Ресурсы
Статья: Not All Uncertainty Is Equal: How Uncertainty Granularity Shapes Human Verification in LLM-Assisted Decision Making
Авторы: Mauricio Villavicencio, Sitong Pan, Qianwen Wang — University of Minnesota – Twin Cities
Конференция: FAccT '26 (ACM Conference on Fairness, Accountability, and Transparency), июнь 2026, Монреаль
DOI: https://doi.org/10.1145/3805689.3812329
