TL;DR
Исследование раскрывает контринтуитивный паттерн: ошибки ИИ наиболее опасны именно там, где человек хорошо разбирается. На лёгких вопросах, где специалисты без бота давали правильный ответ в 75%+ случаев, неверная подсказка ИИ роняла точность на две трети. На сложных вопросах та же неверная подсказка вредила значительно меньше — потому что человек и без бота был не уверен.
Второй ключевой инсайт: люди не умеют оценивать качество ИИ. Корреляция между тем, насколько специалист доверял боту, и реальной точностью бота — 0.04. Это почти ноль. Вы не чувствуете, хорош бот или плох.
Из этого вырастает третья находка — «плато недодоверия»: после 80% точности бота человеческая точность перестаёт расти пропорционально. Бот становится лучше, а человек продолжает игнорировать часть правильных подсказок — особенно на сложных вопросах. Люди системно недобирают качество, которое им уже предоставляет ИИ.
Схема находки
ЛЁГКИЙ ВОПРОС + неверный ИИ → точность падает на 2/3 (самый опасный сценарий)
ЛЁГКИЙ ВОПРОС + верный ИИ → небольшой прирост (человек и так знал)
СЛОЖНЫЙ ВОПРОС + неверный ИИ → точность падает умеренно (человек и без того терялся)
СЛОЖНЫЙ ВОПРОС + верный ИИ → огромный прирост +45pp (ИИ реально помогает)
НА ЛЮБОМ УРОВНЕ качества бота: люди не могут оценить, хорош он или нет
ПОСЛЕ 80% точности бота: человеческая точность выходит на плато → «недодоверие»
Всё в одном чтении, не требует дополнительных запросов — это поведенческий паттерн, который меняет то, как вы работаете с ИИ.
Пример применения
Сильная зона метода: Знание паттерна помогает перестроить доверие к ИИ в зависимости от того, знакомая задача или новая. Особенно актуально в юридических, финансовых, регуляторных вопросах — где цена ошибки высокая.
Задача: Вы — налоговый консультант. Проверяете, можно ли клиенту учесть расходы на домашний офис при упрощёнке. Спрашиваете Claude.
Промпт:
Я консультирую ИП на УСН «доходы минус расходы». Клиент работает из дома
и хочет включить в расходы аренду части квартиры (у него в собственности)
под рабочий кабинет.
Прежде чем отвечать:
— Насколько этот вопрос однозначен в российском налоговом праве?
— Это стандартная ситуация или есть спорные моменты?
Потом дай ответ с опорой на НК РФ и позицию ФНС.
Результат:
Модель сначала оценит сложность вопроса. Если скажет «это спорно / позиция ФНС и судов расходится» — вы знаете: это сложный вопрос, и ответу ИИ стоит доверять больше (плюс проверить первоисточник). Если скажет «это однозначно» — включите скептицизм: именно на таких «очевидных» вещах неверный ответ ИИ ломает вашу уверенность сильнее всего.
Второй блок ответа выдаст конкретику с отсылками на нормы.
Почему это работает
Слабость человека плюс ИИ: Когда человек уверен в своём ответе, он более восприимчив к авторитетной альтернативе — если та преподносится уверенно. ИИ-бот всегда отвечает уверенно. На лёгком вопросе вы думаете: «наверное, я что-то упустил» — и следуете боту. Это автоматизационное смещение: на знакомой территории люди больше сомневаются в себе, видя чужое несогласие.
На сложных вопросах риск ниже, но другой: Там вы и без бота не уверены — поэтому неверный ответ ИИ не так сильно сдвигает вас с места. Зато правильный ответ ИИ помогает колоссально — вы его часто принимаете. Проблема в том, что люди всё равно не используют 100% качества бота: остаётся разрыв, особенно на самых сложных вопросах.
Практический вывод: Ваша стратегия доверия к ИИ должна быть асимметричной. На знакомых задачах — усиленный скептицизм к ответам, которые расходятся с вашим. На незнакомых — активнее следовать логике ИИ, а не только интуиции.
Рычаги управления: - Добавьте вопрос о сложности в свои промпты → ИИ сигнализирует, насколько ответ однозначен - Просите указывать спорные моменты → снижает риск слепого доверия точному, но неверному ответу - На знакомых темах → просите ИИ «сыграть адвоката дьявола» против его же ответа
Шаблон промпта
Универсальный шаблон для знание-интенсивных задач — встройте калибровку сложности:
{Контекст задачи и вопрос}
Перед ответом оцени:
1. Насколько этот вопрос однозначен? (шкала: стандартно / есть нюансы / спорно)
2. Где чаще всего ошибаются в этой теме?
Затем дай ответ. Если есть спорные интерпретации — укажи их явно.
Что подставлять:
- {Контекст задачи} — ваша ситуация + конкретный вопрос
- Подходит для юридических, налоговых, медицинских, регуляторных тем
- Работает в ChatGPT и Claude без дополнительных настроек
🚀 Быстрый старт — вставь в чат:
Мне нужен шаблон запроса, который сначала просит ИИ оценить сложность
и неоднозначность вопроса, а потом даёт ответ. Адаптируй под мою задачу:
{твоя тема/задача}. Задавай вопросы.
[вставить шаблон выше]
LLM спросит вашу область и тип вопросов — потому что калибровка сложности работает по-разному в юриспруденции, медицине и финансах.
Ограничения
⚠️ Это поведенческий инсайт, не техника: Знание паттерна не защищает от него автоматически. Автоматизационное смещение — когнитивный процесс, а не осознанный выбор. Нужна намеренная привычка проверять ИИ на знакомых темах.
⚠️ Нельзя оценить качество бота на ходу: Исследование показало: восприятие точности бота практически не коррелирует с реальной точностью. Не надейтесь на чутьё — выстраивайте независимую проверку.
⚠️ Контекст — SNAP в Калифорнии: Исследовали специалистов-людей с профессиональными знаниями, не рядовых пользователей. Масштаб эффекта может отличаться в других сценариях. Но направление — сохраняется.
Как исследовали
Команда из Cornell Tech и Georgetown взяла реальную проблему: некоммерческие организации в Лос-Анджелесе помогают людям разобраться с программой SNAP (американские продуктовые талоны), и их сотрудники регулярно ошибаются в сложных случаях. Исследователи создали 770 вопросов с множественным выбором — трудных, но реалистичных, на основе данных о реальных ошибках при проверке SNAP-заявок.
Дальше — элегантное решение: они не использовали «живой» бот, а жёстко зашили правильные и неправильные ответы под видом подсказок. Это позволило точно управлять качеством «бота» — от 53% до 100% точности — и наблюдать, как меняется поведение 125 специалистов. 31 человек работал без подсказок (контроль), 94 — с подсказками разного уровня.
Самый любопытный результат — не там, где ждали. Исследователи ожидали, что рост качества бота линейно улучшит результаты людей. Но после 80% точности кривая выровнялась: люди продолжали игнорировать часть верных ответов. На вопрос «почему» ответил тест на восприятие: корреляция между тем, насколько специалисты доверяли именно своему боту, и его реальной точностью составила 0.04. Люди буквально не умели отличить хороший бот от плохого — и поэтому продолжали полагаться на интуицию даже когда бот был прав.
Адаптации и экстраполяции
💡 Адаптация для самопроверки: Используйте принцип «лёгкое = опаснее» при редактуре текстов. Когда ИИ предлагает изменение в фрагменте, который вы считаете сильным — будьте особенно критичны. Это зона наибольшего риска принять плохой совет.
🔧 Техника: явный запрос на несогласие → снижение автоматизационного смещения
Вместо того чтобы просто спросить — добавьте контрудар:
{Ваш вопрос}
Дай ответ. Затем попробуй его опровергнуть: где твой ответ может быть
неверным, неполным или зависеть от условий, которые я не указал?
Это форсирует выход из «уверенного тона» бота и снижает риск слепого следования — особенно на знакомых вам темах.
🔧 Экстраполяция: плато недодоверия → осознанный режим "следуй ИИ"
Если вы работаете с незнакомой областью (новая индустрия, чужая специализация, нестандартный юридический вопрос) — попробуйте явно включить режим:
Я не эксперт в этой области. Дай подробный ответ и в конце скажи:
если бы ты был на 95% уверен в ответе — что именно я должен сделать?
Я готов следовать твоей рекомендации, но хочу понять логику.
Этот подход работает против плато недодоверия: вы намеренно снижаете порог доверия к собственной неуверенности и даёте больше веса ИИ там, где это оправдано.
Ресурсы
Название: LLMs in social services: How does chatbot accuracy affect human accuracy?
Авторы: Jennah Gosciak, Eric Giannella, Zhaowen Guo, Michael Chen, Allison Koenecke
Организации: Cornell Tech (Information Science), Better Government Lab (Georgetown University), Nava Labs
Дата: март 2026
Репликационные материалы: https://anonymous.4open.science/r/chatbots-social-services-94EB
Датасет SNAP QC: https://snapqcdata.net/
