3,583 papers
arXiv:2605.28571 74 27 мая 2026 г. FREE

Гранулярность неопределённости: как формат уверенности AI меняет ваше поведение

КЛЮЧЕВАЯ СУТЬ
Парадокс: чем детальнее AI показывает неуверенность — тем больше вы с ним соглашаетесь, а не меньше. Когда модель подсвечивает неуверенные слова в тексте, согласие пользователей растёт. Когда оценивает каждый шаг рассуждения — люди перестают искать данные в других источниках. Фишка: детальность сигнала подменяет критическое мышление иллюзией прозрачности. Метод структурированного запроса позволяет перехватить управление — заставить AI раскладывать каждое утверждение по типу уверенности и явно называть где проверять самому. Вместо красивого отчёта — карта надёжности и список дыр.
Адаптировать под запрос

TL;DR

Когда AI показывает неопределённость по-разному — одним числом, по шагам рассуждения или подсвечивая слова — это вызывает принципиально разное поведение у пользователя. Причём часто не то, которого вы ожидаете. Исследование называет этот эффект uncertainty granularityгранулярностью неопределённости.

Главная находка удивляет: чем детальнее отображается неопределённость, тем НЕ более критично вы мыслите. Когда AI подсвечивает неуверенные слова — вы начинаете соглашаться с ним больше, не меньше. Когда AI показывает уверенность по шагам рассуждения — вы перестаёте проверять ответ в других источниках, хотя точность при этом не растёт. Мозг воспринимает детализированный сигнал как «всё под контролем» и расслабляет критическую проверку.

Практическое следствие: если вы просите AI оценить уверенность без явного указания формата — вы получаете случайный формат с непредсказуемым эффектом на ваше суждение. Чтобы неопределённость AI помогала, а не вводила в заблуждение, нужно явно контролировать как и чем заканчивается анализ — иначе вместо критического мышления получите иллюзию его.


📌

Схема эффектов (по результатам исследования)

ФОРМАТ 1: Одна оценка всего ответа (Output-level)
  → Снижает уверенность в СВОИХ суждениях
  → Не повышает доверие к AI
  → Эффект: сомневаешься в себе, но не в AI

ФОРМАТ 2: Оценка каждого шага рассуждения (Relation-level)
  → Снижает внешнюю проверку (перестаёшь гуглить)
  → Повышает опору на сигналы самого AI
  → Эффект: "AI сам всё взвесил, зачем мне проверять?"

ФОРМАТ 3: Подсветка неуверенных слов (Token-level)
  → Повышает согласие с AI
  → Эффект: деталь кажется прозрачностью → доверяешь больше

КЛЮЧЕВОЙ ВЫВОД:
  Детальность ≠ Критичность
  Больше информации об уверенности AI → не значит осторожнее

Все три формата выравниваются по точности ответов. Разница — только в поведении пользователя.


🚀

Пример применения

Задача: Вы открываете кофейню в Москве. Попросили Claude проанализировать, стоит ли брать помещение на Сретенке или Китай-городе. AI выдал развёрнутый анализ — и теперь вы хотите понять, насколько ему доверять, прежде чем платить залог.

Промпт:

Проанализируй, где лучше открыть кофейню — Сретенка или Китай-город (Москва).

Формат ответа:
1. Разбей ответ на отдельные утверждения (факты, прогнозы, оценки).
2. Для каждого утверждения укажи:
   - Содержание
   - Уверенность: [ВЫСОКАЯ / СРЕДНЯЯ / НИЗКАЯ]
   - Источник уверенности: [общеизвестный факт / логический вывод / предположение]
3. В конце: список из 3-5 вещей, которые мне НУЖНО проверить самому — 
   где AI может ошибаться или где данные устарели.

Не давай финальную рекомендацию пока не закончишь таблицу.

Результат: Модель разобьёт анализ на конкретные утверждения с явной маркировкой уверенности и источника этой уверенности. Главное — в конце появится список что именно проверить самому: актуальная аренда, текущий трафик, конкуренты рядом. Вы получаете не просто «я уверен на 70%», а карту того где AI надёжен, а где — нет.


🧠

Почему это работает

Мозг эволюционно реагирует на визуальную детализацию как на доказательство работы. Когда вы видите подсвеченные слова или таблицу с оценками — ощущение: «система думает всерьёз». Это снижает собственное критическое усилие. Исследователи называют это automation bias — склонностью доверять автоматизированным сигналам.

LLM не «знает», что он не знает — в строгом смысле. Когда модель говорит «я уверен на 40% в этом шаге» — это статистический сигнал, не осознанная интроспекция. При этом сам сигнал хорошо откалиброван математически, но плохо откалиброван психологически: пользователь видит «заботу о точности» и расслабляется.

Правильный формат разрывает этот круг. Когда вы явно просите AI: (а) оценить уверенность по утверждениям и *(б) указать что проверить самому — вы перехватываете управление. Вместо того чтобы AI менял ваше поведение незаметно, вы задаёте правила игры. Список «что проверить» — критически важная часть: он направляет энергию в сторону действий, а не пассивного потребления уверенных сигналов.

Рычаги управления промптом: - Убрать «не давай финальную рекомендацию» → AI сразу выдаст вывод, вы быстрее согласитесь с ним, не изучив детали - Добавить «источник уверенности» → видите разницу между «это общий факт» и «это я предполагаю» - Добавить конкретные домены для проверки («особенно проверь данные по аренде») → AI сфокусирует список на важном - Заменить «ВЫСОКАЯ/СРЕДНЯЯ/НИЗКАЯ» на «проценты» → формально то же самое, но число ощущается точнее и может снова расслабить критику


📋

Шаблон промпта

Проанализируй {задача или вопрос}.

Формат ответа:
1. Разбей анализ на отдельные утверждения — факты, прогнозы, оценки.
2. Для каждого утверждения:
   - Содержание утверждения
   - Уверенность: [ВЫСОКАЯ / СРЕДНЯЯ / НИЗКАЯ]
   - Тип: [установленный факт / логический вывод / предположение]
3. После таблицы — список из {число} вещей, которые стоит проверить независимо.
   Где данные могут быть устаревшими, субъективными или недоступными тебе?

{дополнительный контекст по задаче}

Что подставлять: - {задача или вопрос} — конкретная ситуация: «стоит ли мне сменить работу», «оцени этот договор», «проанализируй рынок фитнес-приложений» - {число} — 3-5 пунктов достаточно, больше перегружает - {дополнительный контекст} — что у вас уже есть: данные, документы, ограничения


🚀 Быстрый старт — вставь в чат:

Вот шаблон для анализа с явной оценкой уверенности. 
Адаптируй под мою задачу: {твоя задача}.
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит что именно анализировать и какой контекст есть — потому что без этого не сможет правильно разбить на утверждения и составить список для проверки. Она возьмёт структуру из шаблона и адаптирует под твою задачу.


⚠️

Ограничения

⚠️ Высокие ставки не решаются промптом: Исследование проводилось на медицинских вопросах, где точность ответов между группами не отличалась — ни один формат не сделал людей умнее. Описанный подход снижает риск некритичного принятия, но не заменяет экспертную проверку там, где она нужна.

⚠️ AI остаётся оверконфидентным: Почти во всех случаях LLM переоценивает свою уверенность — даже в неверных ответах. Явный запрос на список «что проверить» частично компенсирует это, но не устраняет.

⚠️ Эффект не одинаков для всех задач: Исследование тестировали на фактических вопросах с правильным/неправильным ответом. Для творческих или стратегических задач (где нет «правильного ответа») гранулярность неопределённости может работать иначе.

⚠️ Списки для проверки могут быть общими: Если задача абстрактная, AI выдаёт банальные пункты («проверьте актуальность данных»). Для острых списков — добавьте контекст или попросите конкретизировать.


🔍

Как исследовали

Команда из Миннесотского университета взяла 192 участника и поставила им сложные медицинские вопросы — такие, на которые ни обычный поиск, ни обычный человек не ответит сразу. Каждый работал с AI, но в разных условиях: одни видели единственный процент уверенности, другие — оценку каждого шага рассуждения в виде интерактивного графа, третьи — подсветку слов по степени уверенности, четвёртые — вообще ничего.

Интересная деталь дизайна: участники могли в любой момент открыть Google прямо в интерфейсе или перейти по ссылкам. Исследователи отслеживали — кто и сколько раз это делал. Это позволило измерить не «что люди говорят», а что люди делают.

Результат оказался контринтуитивным: группа с подсветкой слов согласилась с AI чаще, чем контрольная группа без какой-либо информации об уверенности. А группа с пошаговой оценкой рассуждений гуглила реже — хотя логично было бы ожидать обратное. Авторы объясняют это когнитивной «иллюзией прозрачности»: детализированная неопределённость создаёт ощущение, что система всё уже проверила за тебя. Чем больше деталей — тем меньше твоё желание копаться самому.


💡

Адаптации и экстраполяции

💡 Адаптация для юридических или финансовых документов:

Когда AI анализирует договор или финансовую модель — особенно важно знать не «насколько уверен в целом», а в каких конкретных пунктах уверенность низкая.

Проанализируй этот договор аренды. 

Для каждого ключевого пункта:
- О чём пункт (коротко)
- Риск: [НИЗКИЙ / СРЕДНИЙ / ВЫСОКИЙ]
- Почему именно такой риск — 1 предложение

В конце: какие 3 пункта стоит показать юристу в первую очередь и почему.

[текст договора]

🔧 Техника: добавить "точку выхода из доверия"

Исследование показало: relation-level (оценка по шагам) отключает желание проверять внешние источники. Чтобы этого не происходило — добавьте явное задание на действие, а не просто оценку:

Вместо: оцени уверенность по каждому шагу Добавьте: и для каждого шага с НИЗКОЙ уверенностью — предложи конкретный способ это проверить (ссылка, документ, эксперт)

Это переводит «оценку» в «действие» и снимает иллюзию, что AI всё уже взвесил.


🔗

Ресурсы

Статья: Not All Uncertainty Is Equal: How Uncertainty Granularity Shapes Human Verification in LLM-Assisted Decision Making

Авторы: Mauricio Villavicencio, Sitong Pan, Qianwen Wang — University of Minnesota – Twin Cities

Конференция: FAccT '26 (ACM Conference on Fairness, Accountability, and Transparency), июнь 2026, Монреаль

DOI: https://doi.org/10.1145/3805689.3812329


📋 Дайджест исследования

Ключевая суть

Парадокс: чем детальнее AI показывает неуверенность — тем больше вы с ним соглашаетесь, а не меньше. Когда модель подсвечивает неуверенные слова в тексте, согласие пользователей растёт. Когда оценивает каждый шаг рассуждения — люди перестают искать данные в других источниках. Фишка: детальность сигнала подменяет критическое мышление иллюзией прозрачности. Метод структурированного запроса позволяет перехватить управление — заставить AI раскладывать каждое утверждение по типу уверенности и явно называть где проверять самому. Вместо красивого отчёта — карта надёжности и список дыр.

Принцип работы

Три формата неопределённости ведут в три разных капкана. Одна общая оценка («уверен на 70%») — вы начинаете сомневаться в себе, не в AI. Оценка каждого шага рассуждения — вы перестаёте гуглить: модель же сама всё взвесила. Подсветка неуверенных слов — мозг читает детализацию как доказательство серьёзной работы и расслабляет критическую проверку. Это склонность к автоматизации — доверять подробному автоматизированному сигналу сильнее, чем стоит. Противоядие: явно просить AI разделить ответ на утверждения с типом уверенности — и добавить список что проверить самому.

Почему работает

Мозг воспринимает визуальную детализацию как признак компетентности. Таблица с оценками или подсвеченные слова дают ощущение: «система думает всерьёз». Собственное критическое усилие падает. При этом LLM не «знает» что не знает — «низкая уверенность» у модели — это статистический сигнал, а не осознанная оценка. Явный список «что проверить самому» разрывает этот круг: вместо пассивного потребления уверенных сигналов вы получаете план действий. Важно: ни один из трёх форматов не сделал пользователей точнее в ответах — разница только в поведении.

Когда применять

Любой анализ с последствиями — деловые решения (аренда, найм, инвестиции), юридические документы, медицинские вопросы — особенно когда AI выдаёт развёрнутый ответ и хочется просто согласиться. НЕ подходит как замена экспертной проверки там, где ставки высоки: исследование проводилось на медицинских вопросах — ни один формат не повысил точность ответов пользователей. Метод снижает некритичное принятие, но специалиста не заменяет.

Мини-рецепт

1. Разбей на утверждения: попроси AI разделить ответ на факты, прогнозы и оценки — не кидай всё в один абзац
2. Добавь тип уверенности: для каждого утверждения — не просто «высокая/низкая», а источник: «установленный факт / логический вывод / предположение». Это главная разница между «AI уверен» и «AI предполагает»
3. Запроси список дыр: явно попроси 3-5 вещей для самостоятельной проверки — где данные могут быть устаревшими, субъективными или недоступными модели
4. Задержи финальный вывод: добавь «не давай итоговую рекомендацию, пока не закончишь таблицу» — без этого мозг схватится за первый уверенный ответ и перестанет читать детали

Примеры

[ПЛОХО] : Проанализируй, стоит ли открывать кофейню на Сретенке или Китай-городе
[ХОРОШО] : Проанализируй, где лучше открыть кофейню — Сретенка или Китай-город. Разбей на отдельные утверждения. Для каждого укажи: содержание, уверенность [ВЫСОКАЯ / СРЕДНЯЯ / НИЗКАЯ], тип [установленный факт / логический вывод / предположение]. После таблицы — 3 вещи, которые мне нужно проверить самому: где данные могут быть устаревшими или тебе недоступными. Итоговую рекомендацию дай только после таблицы.
Источник: Not All Uncertainty Is Equal: How Uncertainty Granularity Shapes Human Verification in LLM-Assisted Decision Making
ArXiv ID: 2605.28571 | Сгенерировано: 2026-05-28 07:23

Проблемы LLM

ПроблемаСутьКак обойти
Детали уверенности увеличивают доверие к AI, а не осторожностьПросишь AI показать неопределённость. Получаешь подсветку слов или оценку каждого шага. Видишь детали — мозг сигнализирует: «система работает». Критичность снижается. Начинаешь соглашаться больше, проверять меньше. Парадокс: чем больше деталей про неопределённость — тем слепее ты доверяешь. Работает для любой задачи где AI оценивает что-то с разбивкойЯви перехвати управление форматом. Попроси AI разбить ответ на утверждения, оценить каждое и в конце выдать список «что проверить самому». Список переключает тебя с пассивного чтения на активные действия

Методы

МетодСуть
Разбивка на утверждения + тип + список для проверкиДобавь в запрос три требования: 1. Разбей на утверждения (факты, прогнозы, оценки). 2. Для каждого: уверенность [ВЫСОКАЯ / СРЕДНЯЯ / НИЗКАЯ] и тип [установленный факт / логический вывод / предположение]. 3. В конце — 3-5 вещей для независимой проверки. Почему работает: Тип утверждения показывает — это AI знал или придумал. Список для проверки переключает тебя с чтения на действие. Без этого списка детали уверенности расслабляют критику. С ним — направляют энергию куда надо. Когда применять: решения с реальными последствиями, анализ рынков, юридические / медицинские / финансовые вопросы. Когда слабее: творческие задачи без проверяемых фактов — список получится общим
📖 Простыми словами

Not All Uncertainty Is Equal: How Uncertainty Granularity Shapes Human Verification inLLM-Assisted Decision Making

arXiv: 2605.28571

Суть в том, что когда AI сомневается в своем ответе, он может сообщить об этом по-разному: выдать общую оценку уверенности в 80%, расписать риски по каждому пункту или просто подсветить сомнительные слова. Исследователи называют это гранулярностью неопределенности. Проблема в том, что наш мозг — ленивая штука, и он реагирует не на саму вероятность ошибки, а на то, как детально эта ошибка упакована. Чем подробнее нейронка «исповедуется» в своих сомнениях, тем сильнее меняется наше поведение, причем часто в худшую сторону.

Это как если бы ты пришел к врачу, и он либо просто сказал: «Я не уверен в диагнозе», либо начал тыкать в каждый пиксель на рентгеновском снимке, объясняя, где именно картинка смазана. В первом случае ты пойдешь за вторым мнением, а во втором — начнешь вглядываться в снимок вместе с ним, проникаясь доверием к его «тщательности». Хотя на самом деле врач может просто нести чушь, но его детальная неуверенность выглядит убедительнее, чем честное признание в некомпетентности.

В эксперименте проверили три уровня: общая уверенность (одно число на весь ответ), пошаговая (оценка каждого аргумента) и пословная (подсветка конкретных фраз). Выяснилось, что детальная подсветка — это ловушка. Люди начинают играть в детективов, проверяя только «красные» зоны, и напрочь пропускают ошибки там, где AI промолчал. Это классический automation bias: мы подсознательно верим, что если система умеет так круто подсвечивать свои косяки, то в неподсвеченных местах она точно не лажает.

Этот принцип работает везде: от медицинских диагнозов до выбора локации для кофейни или проверки юридического договора. Если интерфейс подсвечивает сомнительные абзацы, ты расслабляешься на «чистых» участках текста, хотя там может быть зарыта самая лютая галлюцинация. Визуальная детализация создает иллюзию контроля, которая на деле просто отключает твой критический фильтр. Мы верим не качеству данных, а качеству того, как нам презентовали сомнения.

Главный вывод: не дай себя обмануть красивым интерфейсом «честности» нейронки. Исследование доказало, что высокая гранулярность часто мешает человеку реально проверять факты, заставляя его фокусироваться на мелочах вместо общей картины. Если хочешь принять верное решение, не смотри на то, как старательно AI подсвечивает свои сомнения — проверяй всё, особенно те места, где модель выглядит подозрительно уверенной. Излишняя детализация — это просто еще один способ заставить тебя нажать кнопку «согласен», не включая голову.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с