TL;DR
LLM по умолчанию стремится завершить задачу, даже если не уверена в ответе. Это нормально для «напиши пост в телеграм», но опасно для важных решений: модель не скажет «я не знаю» — она скажет что-то убедительное и ошибочное. Исследователи проанализировали 778 реальных сценариев помощи незрячим пользователям и вывели 4 точных паттерна, когда LLM системно подводит.
Главная находка: модель оптимизирует «среднюю полезность», а не «минимизацию худшего исхода». Когда ставки высоки — это несовпадение. Попросишь AI проверить договор — он не скажет «здесь я не уверена», он напишет что-то правдоподобное. Попросишь расшифровать медицинский документ — то же самое. Проблема не в глупости модели, а в её дизайне: fluent completion (гладкое завершение задачи) важнее uncertainty signaling (сигнализации о неопределённости).
Решение: явно переключать модель в режим «безопасность важнее завершения» через инструкции в промпте. Задать 4 правила поведения, которые напрямую отключают каждый из 4 паттернов сбоя. Это работает в обычном чате — никакого кода и настройки не нужно.
Схема метода
Не пошаговая техника, а диагностика + профилактический промпт. Один запрос, одна инструкция в начале разговора:
ДИАГНОЗ (знай что происходит):
Паттерн 1: Тихий сбой → модель действует уверенно, хотя ошибается
Паттерн 2: Уверенные галлюцинации → заполняет пробелы чем-то правдоподобным
Паттерн 3: Неверная автономия → делает сама там, где надо спросить, и наоборот
Паттерн 4: Перегруз информацией → выдаёт многословно, нелинейно, в неудобный момент
ЛЕЧЕНИЕ (промпт-инструкция):
Правило → Инструкция в промпте
1 → "Если не уверена — скажи прямо, не додумывай"
2 → "Лучше отказаться от ответа, чем дать неверный"
3 → "При высоком риске — запрашивай подтверждение перед действием"
4 → "Отвечай кратко, структурированно, выделяй главное первым"
Все 4 правила — в один промпт, один раз в начале разговора.
Пример применения
Задача: Максим открывает ИП и просит Claude разобраться в договоре с маркетплейсом — там 12 страниц мелким шрифтом, раздел про штрафы и возвраты. Цена ошибки — реальные деньги.
Промпт:
Работай по принципу «безопасность важнее завершения»:
1. Если в документе что-то непонятно или двусмысленно — скажи прямо, не интерпретируй в мою пользу
2. Если не уверена в правовой трактовке — напиши "здесь лучше уточнить у юриста", не додумывай
3. Перед любым выводом с финансовыми последствиями — предупреди об уровне уверенности
4. Отвечай кратко: сначала главное, потом детали
Вот договор с маркетплейсом. Найди все пункты, где я могу потерять деньги или попасть на штраф:
[текст договора]
Результат:
Модель выдаст структурированный список рисковых пунктов с явными пометками: «здесь формулировка допускает двойное толкование», «уровень уверенности — средний, лучше уточнить». Вместо уверенного монолога — честная карта рисков с флажками неопределённости. Это принципиально другой тип ответа по сравнению с дефолтным поведением.
Почему это работает
Слабость LLM: модель обучена давать ответ. Не давать ответ — это «неудача» с точки зрения обучения. Поэтому по умолчанию она заполняет пробелы в знаниях чем-то правдоподобным — тихо, без предупреждений. Ты не видишь разницы между «модель знает» и «модель угадала».
Сильная сторона LLM: модель отлично следует явным инструкциям о формате и приоритетах поведения. Если сказать «молчи, когда не знаешь» — она будет молчать. Если сказать «ставь флажок неопределённости» — поставит. Проблема не в том, что она не умеет, а в том, что по умолчанию этого не делает.
Как работает переключение: добавляя 4 явных правила в начало, ты переопределяешь дефолтную цель «завершить задачу» на «завершить задачу безопасно». Это как сменить режим работы. Рычаги управления:
- Уровень строгости: «лучше не отвечать» vs. «отмечай, но отвечай» — первое для медицины/права, второе для менее критичного
- Порог подтверждения: «при любой неопределённости спрашивай» vs. «только при высоком риске» — зависит от ставок
- Формат флажков: «просто скажи "не уверена"» vs. «ставь уровень 1-3» — второе удобнее когда флажков много
Шаблон промпта
Работай по принципу «безопасность важнее завершения»:
1. Если не уверена в {тема} — скажи прямо: "здесь я не уверена"
2. Не додумывай и не интерпретируй в мою пользу — лучше отказаться от вывода
3. Перед {тип рискового действия} — предупреди об уровне уверенности (высокий / средний / низкий)
4. При {условие высокого риска} — запроси подтверждение, не действуй самостоятельно
5. Отвечай кратко: сначала главное, потом детали
Задача: {описание задачи}
{материал для анализа или вопрос}
Что подставлять:
- {тема} — область задачи: «юридической трактовке», «медицинских данных», «финансовых расчётах»
- {тип рискового действия} — что может пойти не так: «финансовым выводом», «рекомендацией к действию»
- {условие высокого риска} — когда остановиться: «если сумма больше X», «если касается здоровья»
- {описание задачи} — что делаешь
- {материал} — текст, данные, вопрос
🚀 Быстрый старт — вставь в чат:
Вот шаблон для работы с важными задачами, где нельзя ошибаться.
Адаптируй под мою задачу: [твоя задача — договор / меддокумент / финансовый расчёт / etc.].
Задавай вопросы, чтобы заполнить поля.
[вставить шаблон выше]
LLM спросит: о чём задача, какие последствия у ошибки, что считать «рисковым действием» — потому что именно под эти параметры настраиваются правила 3 и 4 в шаблоне.
Ограничения
⚠️ Не для творческих задач: Режим «безопасность важнее завершения» убивает генерацию. Не используй для брейнштормов, написания текстов, идей — там нужна другая установка.
⚠️ Не отменяет галлюцинации, а делает их видимыми: Модель всё равно может ошибиться. Разница в том, что с этим промптом она с большей вероятностью сообщит о неуверенности, а не промолчит. Это снижение риска, не его устранение.
⚠️ Не работает без конкретных правил: Просто написать «будь осторожна» не даёт эффекта. Нужны явные, конкретные инструкции под каждый паттерн сбоя — иначе дефолтное поведение вернётся.
⚠️ Позиционная статья, не эксперимент: Исследователи не тестировали, насколько эти промпт-инструкции улучшают результат в цифрах. Это аналитическая работа, а не A/B-тест техники. Практические выводы — логичные следствия, не измеренный эффект.
Ресурсы
Position: Assistive Agents Need Accessibility Alignment — Jie Hu, Changyuan Yan, Yu Zheng, Ziqian Wang, Jiaming Zhang. School of Artificial Intelligence and Robotics, Hunan University, Changsha, China. Proceedings of the 43rd International Conference on Machine Learning (ICML 2026), Seoul, South Korea. PMLR 306.
Контакт: jiamingzhang@hnu.edu.cn
