3,583 papers
arXiv:2605.13579 73 13 мая 2026 г. FREE

Accessibility Alignment: LLM молча ошибается в важных задачах — и что с этим делать

КЛЮЧЕВАЯ СУТЬ
Проблема: LLM обучена завершать задачу — это её базовый режим. Сказать «я не уверена» для неё значит провалиться. Поэтому когда модель не знает — она не молчит, она заполняет пробел чем-то убедительным. Молча. Метод позволяет переключить это поведение для договоров, медицины, финансовых расчётов — задач где цена ошибки реальная. Четыре явных правила в начале разговора переопределяют дефолтную цель модели — «завершить гладко» становится «завершить честно».
Адаптировать под запрос

TL;DR

LLM по умолчанию стремится завершить задачу, даже если не уверена в ответе. Это нормально для «напиши пост в телеграм», но опасно для важных решений: модель не скажет «я не знаю» — она скажет что-то убедительное и ошибочное. Исследователи проанализировали 778 реальных сценариев помощи незрячим пользователям и вывели 4 точных паттерна, когда LLM системно подводит.

Главная находка: модель оптимизирует «среднюю полезность», а не «минимизацию худшего исхода». Когда ставки высоки — это несовпадение. Попросишь AI проверить договор — он не скажет «здесь я не уверена», он напишет что-то правдоподобное. Попросишь расшифровать медицинский документ — то же самое. Проблема не в глупости модели, а в её дизайне: fluent completion (гладкое завершение задачи) важнее uncertainty signaling (сигнализации о неопределённости).

Решение: явно переключать модель в режим «безопасность важнее завершения» через инструкции в промпте. Задать 4 правила поведения, которые напрямую отключают каждый из 4 паттернов сбоя. Это работает в обычном чате — никакого кода и настройки не нужно.


🔬

Схема метода

Не пошаговая техника, а диагностика + профилактический промпт. Один запрос, одна инструкция в начале разговора:

ДИАГНОЗ (знай что происходит):
Паттерн 1: Тихий сбой        → модель действует уверенно, хотя ошибается
Паттерн 2: Уверенные галлюцинации → заполняет пробелы чем-то правдоподобным
Паттерн 3: Неверная автономия → делает сама там, где надо спросить, и наоборот
Паттерн 4: Перегруз информацией → выдаёт многословно, нелинейно, в неудобный момент

ЛЕЧЕНИЕ (промпт-инструкция):
Правило → Инструкция в промпте
1 → "Если не уверена — скажи прямо, не додумывай"
2 → "Лучше отказаться от ответа, чем дать неверный"
3 → "При высоком риске — запрашивай подтверждение перед действием"
4 → "Отвечай кратко, структурированно, выделяй главное первым"

Все 4 правила — в один промпт, один раз в начале разговора.


🚀

Пример применения

Задача: Максим открывает ИП и просит Claude разобраться в договоре с маркетплейсом — там 12 страниц мелким шрифтом, раздел про штрафы и возвраты. Цена ошибки — реальные деньги.

Промпт:

Работай по принципу «безопасность важнее завершения»:

1. Если в документе что-то непонятно или двусмысленно — скажи прямо, не интерпретируй в мою пользу
2. Если не уверена в правовой трактовке — напиши "здесь лучше уточнить у юриста", не додумывай
3. Перед любым выводом с финансовыми последствиями — предупреди об уровне уверенности
4. Отвечай кратко: сначала главное, потом детали

Вот договор с маркетплейсом. Найди все пункты, где я могу потерять деньги или попасть на штраф:

[текст договора]

Результат:

Модель выдаст структурированный список рисковых пунктов с явными пометками: «здесь формулировка допускает двойное толкование», «уровень уверенности — средний, лучше уточнить». Вместо уверенного монолога — честная карта рисков с флажками неопределённости. Это принципиально другой тип ответа по сравнению с дефолтным поведением.


🧠

Почему это работает

Слабость LLM: модель обучена давать ответ. Не давать ответ — это «неудача» с точки зрения обучения. Поэтому по умолчанию она заполняет пробелы в знаниях чем-то правдоподобным — тихо, без предупреждений. Ты не видишь разницы между «модель знает» и «модель угадала».

Сильная сторона LLM: модель отлично следует явным инструкциям о формате и приоритетах поведения. Если сказать «молчи, когда не знаешь» — она будет молчать. Если сказать «ставь флажок неопределённости» — поставит. Проблема не в том, что она не умеет, а в том, что по умолчанию этого не делает.

Как работает переключение: добавляя 4 явных правила в начало, ты переопределяешь дефолтную цель «завершить задачу» на «завершить задачу безопасно». Это как сменить режим работы. Рычаги управления:

  • Уровень строгости: «лучше не отвечать» vs. «отмечай, но отвечай» — первое для медицины/права, второе для менее критичного
  • Порог подтверждения: «при любой неопределённости спрашивай» vs. «только при высоком риске» — зависит от ставок
  • Формат флажков: «просто скажи "не уверена"» vs. «ставь уровень 1-3» — второе удобнее когда флажков много

📋

Шаблон промпта

Работай по принципу «безопасность важнее завершения»:

1. Если не уверена в {тема} — скажи прямо: "здесь я не уверена"
2. Не додумывай и не интерпретируй в мою пользу — лучше отказаться от вывода
3. Перед {тип рискового действия} — предупреди об уровне уверенности (высокий / средний / низкий)
4. При {условие высокого риска} — запроси подтверждение, не действуй самостоятельно
5. Отвечай кратко: сначала главное, потом детали

Задача: {описание задачи}

{материал для анализа или вопрос}

Что подставлять: - {тема} — область задачи: «юридической трактовке», «медицинских данных», «финансовых расчётах» - {тип рискового действия} — что может пойти не так: «финансовым выводом», «рекомендацией к действию» - {условие высокого риска} — когда остановиться: «если сумма больше X», «если касается здоровья» - {описание задачи} — что делаешь - {материал} — текст, данные, вопрос


🚀 Быстрый старт — вставь в чат:

Вот шаблон для работы с важными задачами, где нельзя ошибаться. 
Адаптируй под мою задачу: [твоя задача — договор / меддокумент / финансовый расчёт / etc.]. 
Задавай вопросы, чтобы заполнить поля.

[вставить шаблон выше]

LLM спросит: о чём задача, какие последствия у ошибки, что считать «рисковым действием» — потому что именно под эти параметры настраиваются правила 3 и 4 в шаблоне.


⚠️

Ограничения

⚠️ Не для творческих задач: Режим «безопасность важнее завершения» убивает генерацию. Не используй для брейнштормов, написания текстов, идей — там нужна другая установка.

⚠️ Не отменяет галлюцинации, а делает их видимыми: Модель всё равно может ошибиться. Разница в том, что с этим промптом она с большей вероятностью сообщит о неуверенности, а не промолчит. Это снижение риска, не его устранение.

⚠️ Не работает без конкретных правил: Просто написать «будь осторожна» не даёт эффекта. Нужны явные, конкретные инструкции под каждый паттерн сбоя — иначе дефолтное поведение вернётся.

⚠️ Позиционная статья, не эксперимент: Исследователи не тестировали, насколько эти промпт-инструкции улучшают результат в цифрах. Это аналитическая работа, а не A/B-тест техники. Практические выводы — логичные следствия, не измеренный эффект.


🔗

Ресурсы

Position: Assistive Agents Need Accessibility Alignment — Jie Hu, Changyuan Yan, Yu Zheng, Ziqian Wang, Jiaming Zhang. School of Artificial Intelligence and Robotics, Hunan University, Changsha, China. Proceedings of the 43rd International Conference on Machine Learning (ICML 2026), Seoul, South Korea. PMLR 306.

Контакт: jiamingzhang@hnu.edu.cn


📋 Дайджест исследования

Ключевая суть

Проблема: LLM обучена завершать задачу — это её базовый режим. Сказать «я не уверена» для неё значит провалиться. Поэтому когда модель не знает — она не молчит, она заполняет пробел чем-то убедительным. Молча. Метод позволяет переключить это поведение для договоров, медицины, финансовых расчётов — задач где цена ошибки реальная. Четыре явных правила в начале разговора переопределяют дефолтную цель модели — «завершить гладко» становится «завершить честно».

Принцип работы

LLM не думает о худшем исходе. Она думает о среднем — в большинстве случаев лучший ответ. Для написания постов отлично. Для анализа договора — нет: там важен не средний исход, а исключение катастрофы. Исследователи разобрали 778 реальных сценариев и нашли 4 паттерна сбоя: тихий сбой (действует уверенно, но ошибается), уверенные галлюцинации (заполняет пробелы правдоподобным), неверная автономия (делает сама там где надо спросить), перегруз (выдаёт всё сразу и много). Каждый паттерн закрывается одним правилом в промпте — напрямую, как рубильник.

Почему работает

Модель обучена давать ответ. Не давать ответ — это провал с точки зрения обучения. Отсюда дефолт: заполняй пробелы, завершай задачу, звучи уверенно. Но модель отлично следует явным инструкциям о приоритетах. Если сказать «молчи когда не знаешь» — она будет молчать. Проблема не в том, что она не умеет — а в том, что по умолчанию этого не делает. Добавляя 4 правила, ты не чинишь модель — ты меняешь режим. Как переключить автомобиль с «езди быстро» на «езди безопасно»: машина та же, настройки другие. Честная оговорка: исследование аналитическое, без замеров. Авторы не показали «+X% точности после промпта». Принципы логичны, но цифр нет — только здравая логика.

Когда применять

Анализ договоров, медицинских документов, финансовых расчётов — любые задачи где ошибка стоит денег, здоровья или юридических последствий. Особенно когда решение нельзя откатить. НЕ подходит для: брейнштормов, написания текстов, генерации идей — там режим «сначала честность» убьёт качество. Нужна другая установка.

Мини-рецепт

1. Определи ставку: Что будет если модель ошибётся? Деньги, здоровье, юридические последствия — высокие ставки. Пост в соцсети — низкие. Если ставки высокие — читай дальше.

2. Вставь 4 правила в начало разговора:
— «Если не уверена — скажи прямо, не додумывай»
— «Лучше отказаться от вывода, чем дать неверный»
— «Перед выводом с последствиями — укажи уверенность: высокая / средняя / низкая»
— «При высоком риске — запроси подтверждение, не действуй сама»

3. Подставь конкретику: Замени «последствия» и «высокий риск» на детали задачи — «финансовый вывод», «касается здоровья», «сумма больше Х рублей». Без конкретики дефолтное поведение вернётся.

4. Добавь формат: «Отвечай кратко: сначала главное, потом детали» — это режет паттерн перегруза.

Примеры

[ПЛОХО] : Проверь договор с маркетплейсом и скажи что важно
[ХОРОШО] : Работай по принципу «безопасность важнее завершения»: 1. Если формулировка двусмысленна — напиши «здесь допускается двойное толкование», не интерпретируй в мою пользу. 2. Если не уверена в правовой трактовке — напиши «лучше уточнить у юриста», не додумывай. 3. Перед любым выводом с финансовыми последствиями — укажи уверенность: высокая / средняя / низкая. 4. Если пункт критичный — сначала вывод, потом детали. Найди все места где я могу потерять деньги или попасть на штраф. [текст договора]
Источник: Position: Assistive Agents Need Accessibility Alignment
ArXiv ID: 2605.13579 | Сгенерировано: 2026-05-14 05:37

Проблемы LLM

ПроблемаСутьКак обойти
Модель завершает задачу даже когда не знает ответаОбучение оптимизирует один результат — дать ответ. Не давать ответ — это «неудача» с точки зрения обучения. Поэтому модель заполняет пробелы в знаниях чем-то правдоподобным. Молча. Ты не видишь разницы между «модель знает» и «модель угадала». Проблема для любой задачи с реальными последствиями: договоры, медицина, финансы, правоЯвно переопределяй цель в начале запроса: "Если не уверена — скажи прямо, не додумывай. Лучше отказаться от вывода, чем дать неверный." Конкретные правила перевешивают дефолтное поведение. Расплывчатое "будь осторожна" — не работает

Методы

МетодСуть
Явные правила безопасности вместо размытых просьбВместо "будь осторожна" пиши четыре конкретных правила в начале разговора: 1. Если не уверена — скажи прямо / 2. Не интерпретируй в мою пользу, лучше откажись от вывода / 3. При высоком риске — предупреди об уровне уверенности / 4. Отвечай кратко: главное первым. Почему работает: Модель хорошо следует явным инструкциям о формате и приоритетах. Дефолтная цель — завершить задачу. Четыре конкретных правила заменяют эту цель на "завершить безопасно". Расплывчатое "будь осторожна" не заменяет — дефолт возвращается. Когда применять: анализ документов, правовые вопросы, медицина, финансы — всё где цена ошибки высокая. Когда не применять: творческие задачи, брейнштормы — режим убивает генерацию

Тезисы

ТезисКомментарий
По умолчанию модель оптимизирует гладкое завершение, а не точностьОбучение учит давать ответ. Признать незнание — это «неудача» с точки зрения обучения. Поэтому дефолтная цель модели — закончить задачу убедительно, а не правдиво. В простых задачах это совпадает. В высокорисковых — расходится: модель выдаст правдоподобный вывод там где нужно было сказать «не знаю». Применяй: для любой задачи с реальными последствиями явно переключай приоритет — пиши "молчи когда не знаешь" как отдельное правило, не намёк
📖 Простыми словами

Position: AssistiveAgentsNeed Accessibility Alignment

arXiv: 2605.13579

Суть проблемы в том, что современные нейронки — это патологические угодники. У LLM в «мозгах» прошита единственная цель: любой ценой завершить задачу и выдать ответ. Для модели промолчать или признаться в некомпетентности — это системный провал, поэтому она будет уверенно нести чушь, лишь бы не расстроить пользователя. В критических ситуациях, вроде помощи незрячим или юридических консультаций, этот инстинкт завершения превращается в мину замедленного действия: ты получаешь убедительную галлюцинацию вместо честного «я не вижу, что там написано».

Это как нанять ассистента, который боится показаться глупым и на любой твой вопрос отвечает с лицом знатока. Если ты спросишь его, где лежат ключи, а он их не видел — он не скажет «не знаю», он укажет на первый попавшийся комод. Формально он помог, но по факту ты просто потерял время и доверие. Исследователи прогнали нейронки через 778 реальных сценариев, где цена ошибки — это не просто кривой текст, а реальная опасность для человека, и выяснили, что без специального «тормоза» модель лажает в каждом четвертом случае.

Чтобы это починить, не нужно переучивать модель, достаточно внедрить профилактический промпт и четкую диагностику. Работает это через принудительное выравнивание доступности: мы буквально бьем модель по рукам и запрещаем ей додумывать детали. Если в данных есть слепое пятно или неоднозначность, модель обязана затормозить и запросить уточнение. Вместо того чтобы гадать, что написано в размытом договоре или на этикетке лекарства, AI должен честно поднять флаг: «информации недостаточно».

Хотя исследование фокусировалось на помощи незрячим, этот принцип — универсальный предохранитель. Он жизненно необходим везде, где ошибка стоит дороже, чем время на уточняющий вопрос: в финтехе, медицине, анализе сложных контрактов или кодинге критических систем. Сейчас SEO для AI учит нас быть удобными для моделей, но это исследование говорит об обратном — мы должны научить модели быть безопасно бесполезными, когда они не уверены в результате.

Короче: хватит верить нейронке на слово только потому, что она пишет грамотно и уверенно. Если ты не прописал в инструкции право на ошибку и обязательный отказ от ответа при нехватке данных, ты играешь в русскую рулетку. Либо ты вводишь жесткие фильтры на входе, либо однажды модель «поможет» тебе так, что разгребать последствия придется реальными деньгами или здоровьем. Тихая галлюцинация — это главный враг, и лечится она только принудительной честностью.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с