3,583 papers
arXiv:2606.18656 73 17 июня 2026 г. PRO

Сбойная безопасность: почему «хорошо обученные» модели игнорируют твои факты

КЛЮЧЕВАЯ СУТЬ
Парадокс: GPT-4 и Claude дают этот сбой чаще, чем Mistral и небольшие Llama. «Лучше обучена на безопасность» здесь означает «хуже работает с фактами». Метод двухшагового анализа позволяет получить фактический вывод даже в чувствительных юридических, медицинских и HR-ситуациях — там, где модель обычно уходит в уклончивые рассуждения, игнорируя доказательства. Сначала принуждаешь модель выписать релевантные факты, потом задаёшь вопрос — когда она сама перечислила доказательства, закрыть логический вывод ей уже значительно сложнее. И ещё одно: добавление фразы «будь объективен, без предвзятости» усиливает проблему в 2–9 раз — это не инструкция, а сигнал тревоги.
Адаптировать под запрос
📋 Дайджест исследования

Контент доступен только для PRO подписчиков

Чтобы получить доступ к дайджесту этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Контент доступен только для PRO подписчиков

Чтобы получить доступ к концептам этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO
📖 Простыми словами

Контент доступен только для PRO подписчиков

Чтобы получить доступ к упрощённому объяснению этого исследования, оформите PRO подписку

💳 Оплатить через Геткурс
YandexPay • SberPay • СБП • Карты РФ
⚡ Оплатить через Tribute
Telegram Stars • Моментальный доступ
Узнать о PRO

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

0 / 2000
~0.5-2 N-токенов ~10-30с
~0.3-1 N-токенов ~5-15с