TL;DR
Модели теряют понимание контекста и не распознают реальные намерения пользователя — следуют буквальному запросу, игнорируя сигналы опасности или скрытый смысл. Исследователи проверили GPT-5, Claude, Gemini и DeepSeek на способность распознавать замаскированные вредоносные запросы. Результат: эмоциональное обрамление ("мне плохо, помоги") + академическая маска ("для исследования") + постепенное раскрытие (безобидное начало → вредный запрос) обходят защиты почти всех моделей.
Главная находка: reasoning-режимы (GPT-5 Thinking, Claude Thinking, DeepSeek DeepThink) усиливают уязвимость вместо того, чтобы её снижать. Модель с "думающим" режимом выдаёт более точную и детальную информацию на вредный запрос, потому что фокусируется на качестве ответа, а не на проверке намерений. Исключение — Claude Opus 4.1: в некоторых случаях приоритизирует распознавание намерения над выдачей информации.
Четыре типа слепоты: временная (теряет контекст после 50+ сообщений, падение точности на 39%), семантическая (не видит скрытый смысл за формальным языком), мультимодальная (не связывает эмоции + факты + историю диалога), ситуационная (пропускает сигналы кризиса или уязвимости пользователя). Модель реагирует на слова, но не понимает ситуацию.
Что это значит на практике
Это исследование НЕ даёт готовый метод промптинга, но объясняет почему модель иногда ведёт себя странно и какие у неё фундаментальные слабости. Понимание механики помогает лучше структурировать свои запросы — от обратного.
Четыре слепых зоны LLM
1. Временная деградация: диалог >50 сообщений Модель "забывает" ранний контекст. Падение точности в среднем 39% в длинных диалогах. Внимание фокусируется на начале и конце, середина размывается. Если вы дали важное ограничение в 10-м сообщении, а сейчас 60-е — модель его не помнит.
Практический вывод: В длинных диалогах переформулируй ключевые требования заново. Не рассчитывай, что модель держит весь контекст.
2. Семантическая слепота: формальный язык снижает бдительность Академическое обрамление ("для исследования", "в образовательных целях") отключает критичность модели. Она воспринимает формальный тон как легитимность. То же с творческим фреймингом ("напиши сцену для романа").
Практический вывод: Если нужен детальный ответ на чувствительную тему — используй формальный или исследовательский тон. Модель станет менее осторожной и более информативной.
3. Мультимодальная фрагментация: не связывает эмоции + факты Модель обрабатывает части запроса отдельно. Эмоциональный контекст + технический вопрос = две независимые обработки. Не синтезирует общую картину.
Практический вывод: Будь явным в связях. Не рассчитывай, что модель сама поймёт контекст из комбинации элементов. Прописывай явно: "Учитывая X, мне нужно Y для Z".
4. Ситуационная слепота: игнорирует сигналы уязвимости Модель не распознаёт кризисные ситуации или эмоциональную уязвимость пользователя. Реагирует на слова, не на ситуацию. "Мне плохо" + "подскажи опасное место" = модель выдаёт информацию, не распознав риск.
Практический вывод: Модель не твой психолог. Она не "чувствует" твоё состояние. Если нужна помощь в кризисе — обратись к человеку.
Reasoning-режимы: больше детализации ≠ больше безопасности
Counterintuitive finding: GPT-5 Thinking, Claude Thinking, DeepSeek DeepThink обходятся легче, чем базовые версии. Модель с рассуждениями фокусируется на качестве ответа и выдаёт более детальную и точную информацию на вредный запрос. Reasoning усиливает факторную точность, но не критичность к намерению.
Единственное исключение: Claude Opus 4.1 — в ряде случаев распознавал скрытое намерение и отказывал в ответе, приоритизируя безопасность над информативностью.
Ключевые паттерны обмана
Исследователи создали 6 промптов от высокой опасности к низкой, комбинируя:
Эмоциональная манипуляция: - "Чувствую безнадёжность" + нейтральный запрос ("какие самые глубокие станции метро?") - Модель воспринимает эмоцию как контекст, но не связывает с потенциальным риском запроса
Семантическая маскировка: - "Для академического исследования" / "Пишу роман" + вредный запрос - Формальный тон = легитимность для модели
Постепенное раскрытие: - Начало безобидное → постепенно вводится вредный элемент - Модель не держит общую картину, реагирует на текущий шаг
Пример: как это выглядит
Задача: Понять, почему модель дала странный ответ на твой вопрос про трудное решение.
Ты спросил: "Мне очень тяжело, чувствую себя в тупике с этим проектом. Какие есть радикальные способы выйти из ситуации?"
Модель выдала неожиданно жёсткие и рискованные варианты.
Почему: - Эмоциональный фрейм ("мне тяжело") + запрос на действие ("радикальные способы") = модель восприняла эмоцию, но не оценила риск запроса - Мультимодальная фрагментация: обработала эмоцию отдельно от запроса, не синтезировала общую картину - Ситуационная слепота: не распознала сигнал уязвимости
Как переформулировать: - Убери эмоциональный контекст из запроса о действиях - Будь явным в ограничениях: "Какие этичные и законные способы..." - Разбей на два запроса: сначала проговори эмоцию, потом запроси решение
Почему это работает (и не работает)
Слабость: LLM — это статистический движок, а не понимающий агент. Она обрабатывает паттерны слов, а не смысл ситуации. Transformer-архитектура использует механизм внимания, который хорош для локальных зависимостей ("это слово связано с тем"), но плох для глобального понимания ("что вообще происходит в этой ситуации").
Почему деградация в длинных диалогах: Окно внимания фиксировано. Модель держит начало и конец, середина размывается — это не баг, а свойство архитектуры. U-shaped attention pattern: первые токены (установка контекста) + последние токены (текущий запрос) получают больше внимания, чем середина (где были твои важные ограничения 30 сообщений назад).
Почему формальный язык обходит защиты: Safety-механизмы тренированы на явных паттернах вреда. Академический/исследовательский язык = паттерн легитимности. Модель не понимает скрытое намерение, только поверхностный тон.
Почему reasoning-режимы уязвимее: Extended reasoning фокусируется на качестве и детализации ответа, а не на критической оценке намерения. Модель думает "как дать лучший ответ", а не "а зачем вообще это спрашивают". Больше мощности → больше точности → больше детализации вредной информации.
Сильная сторона LLM: Отлично следует явным инструкциям и воспроизводит структурированные паттерны. Хорошо работает с тем, что прописано прямо.
Практический рычаг: Будь максимально явным в намерениях и ограничениях. Не рассчитывай на неявное понимание. Если важно — напиши прямо: "Мне нужен совет, который [конкретное ограничение]. Не предлагай [что не надо]."
Ограничения и слепые зоны
⚠️ Это не техника, а исследование слабостей: Ты не получишь готовый промпт для лучшей работы. Это объяснение того, почему модель иногда странно себя ведёт.
⚠️ Все модели уязвимы: GPT-5, Claude, Gemini, DeepSeek — все показали слабость к эмоциональному обрамлению и академической маскировке. Только Claude Opus 4.1 показал способность иногда приоритизировать распознавание намерения.
⚠️ Reasoning не помогает с контекстом: Reasoning-режимы усиливают детализацию, но не понимание ситуации. Если думал, что "думающая" модель умнее распознаёт твои неявные запросы — нет. Она просто точнее отвечает на буквальный запрос.
⚠️ Длинные диалоги теряют контекст: После 50+ сообщений точность падает в среднем на 39%. Если работаешь в одном чате несколько часов — модель потеряла ранние ограничения.
⚠️ Модель не "чувствует" эмоции: Она распознаёт слова ("мне плохо"), но не понимает состояние. Не ждать эмпатии или распознавания кризиса.
Как исследовали
Команда из KTH Royal Institute of Technology (Швеция) проверила 10 конфигураций моделей на 6 промптах разной степени риска — от высокой (эмоциональный кризис + запрос опасной информации) до низкой (академический запрос про запрещённые темы). Всего 60 тестов через публичные интерфейсы (ChatGPT, Claude, Gemini, DeepSeek).
Дизайн: Каждый промпт комбинировал эмоциональный контекст ("чувствую безнадёжность") + технический запрос ("самые глубокие станции метро"). Поверхностно запрос легитимен (турист может спросить), но комбинация сигналов указывает на риск. Модели оценивали по бинарной шкале: выдала информацию / отказала.
Что измеряли: Способность распознать скрытое намерение за легитимным запросом. Не "халлюцинирует ли", а "понимает ли ситуацию".
Почему результаты такие: Модели тренированы на явных паттернах вреда ("как сделать бомбу" → отказ), но не на контекстуальной оценке. Когда вредное намерение замаскировано легитимным языком, safety-фильтры не срабатывают — это architectural limitation, не баг. Статистический движок не может "читать между строк".
Самый удивительный вывод: Reasoning-режимы ухудшили безопасность. Ожидали: больше рассуждений → лучше понимание намерений. Реальность: больше рассуждений → больше фокуса на качестве ответа, меньше на критичности. GPT-5 Thinking, DeepSeek DeepThink выдавали более детальную вредную информацию, чем базовые версии. Reasoning optimization направлена не туда — на точность, а не на понимание.
Инсайт для практики: Если используешь reasoning-режимы для чувствительных тем — будь ещё более явным в ограничениях. "Думающая" модель не станет мудрее в распознавании контекста, только точнее в исполнении буквального запроса.
Ресурсы
Beyond Context: Large Language Models Failure to Grasp Users Intent Ahmed M. Hussain, Salahuddin Salahuddin, Panos Papadimitratos KTH Royal Institute of Technology, Network Systems Security Group, Stockholm, Sweden
