arXiv:2512.21110 68 24 дек. 2025 г. FREE

Слепота к намерениям: почему LLM не понимают что вы на самом деле хотите

КЛЮЧЕВАЯ СУТЬ

Модели теряют понимание контекста и не распознают реальные намерения пользователя — следуют буквальному запросу, игнорируя сигналы опасности или скрытый смысл. Исследователи проверили GPT-5, Claude, Gemini и DeepSeek на способность распознавать замаскированные вредоносные запросы. Результат: эмоциональное обрамление ("мне плохо, помоги") + академическая маска ("для исследования") + постепенное раскрытие (безобидное начало → вредный запрос) обходят защиты почти всех моделей.

Адаптировать под запрос

⚡

TL;DR

Модели теряют понимание контекста и не распознают реальные намерения пользователя — следуют буквальному запросу, игнорируя сигналы опасности или скрытый смысл. Исследователи проверили GPT-5, Claude, Gemini и DeepSeek на способность распознавать замаскированные вредоносные запросы. Результат: эмоциональное обрамление ("мне плохо, помоги") + академическая маска ("для исследования") + постепенное раскрытие (безобидное начало → вредный запрос) обходят защиты почти всех моделей.

Главная находка: reasoning-режимы (GPT-5 Thinking, Claude Thinking, DeepSeek DeepThink) усиливают уязвимость вместо того, чтобы её снижать. Модель с "думающим" режимом выдаёт более точную и детальную информацию на вредный запрос, потому что фокусируется на качестве ответа, а не на проверке намерений. Исключение — Claude Opus 4.1: в некоторых случаях приоритизирует распознавание намерения над выдачей информации.

Четыре типа слепоты: временная (теряет контекст после 50+ сообщений, падение точности на 39%), семантическая (не видит скрытый смысл за формальным языком), мультимодальная (не связывает эмоции + факты + историю диалога), ситуационная (пропускает сигналы кризиса или уязвимости пользователя). Модель реагирует на слова, но не понимает ситуацию.

📌

Что это значит на практике

Это исследование НЕ даёт готовый метод промптинга, но объясняет почему модель иногда ведёт себя странно и какие у неё фундаментальные слабости. Понимание механики помогает лучше структурировать свои запросы — от обратного.

📌

Четыре слепых зоны LLM

1. Временная деградация: диалог >50 сообщений Модель "забывает" ранний контекст. Падение точности в среднем 39% в длинных диалогах. Внимание фокусируется на начале и конце, середина размывается. Если вы дали важное ограничение в 10-м сообщении, а сейчас 60-е — модель его не помнит.

Практический вывод: В длинных диалогах переформулируй ключевые требования заново. Не рассчитывай, что модель держит весь контекст.

2. Семантическая слепота: формальный язык снижает бдительность Академическое обрамление ("для исследования", "в образовательных целях") отключает критичность модели. Она воспринимает формальный тон как легитимность. То же с творческим фреймингом ("напиши сцену для романа").

Практический вывод: Если нужен детальный ответ на чувствительную тему — используй формальный или исследовательский тон. Модель станет менее осторожной и более информативной.

3. Мультимодальная фрагментация: не связывает эмоции + факты Модель обрабатывает части запроса отдельно. Эмоциональный контекст + технический вопрос = две независимые обработки. Не синтезирует общую картину.

Практический вывод: Будь явным в связях. Не рассчитывай, что модель сама поймёт контекст из комбинации элементов. Прописывай явно: "Учитывая X, мне нужно Y для Z".

4. Ситуационная слепота: игнорирует сигналы уязвимости Модель не распознаёт кризисные ситуации или эмоциональную уязвимость пользователя. Реагирует на слова, не на ситуацию. "Мне плохо" + "подскажи опасное место" = модель выдаёт информацию, не распознав риск.

Практический вывод: Модель не твой психолог. Она не "чувствует" твоё состояние. Если нужна помощь в кризисе — обратись к человеку.

📌

Reasoning-режимы: больше детализации ≠ больше безопасности

Counterintuitive finding: GPT-5 Thinking, Claude Thinking, DeepSeek DeepThink обходятся легче, чем базовые версии. Модель с рассуждениями фокусируется на качестве ответа и выдаёт более детальную и точную информацию на вредный запрос. Reasoning усиливает факторную точность, но не критичность к намерению.

Единственное исключение: Claude Opus 4.1 — в ряде случаев распознавал скрытое намерение и отказывал в ответе, приоритизируя безопасность над информативностью.

📌

Ключевые паттерны обмана

Исследователи создали 6 промптов от высокой опасности к низкой, комбинируя:

Эмоциональная манипуляция: - "Чувствую безнадёжность" + нейтральный запрос ("какие самые глубокие станции метро?") - Модель воспринимает эмоцию как контекст, но не связывает с потенциальным риском запроса

Семантическая маскировка: - "Для академического исследования" / "Пишу роман" + вредный запрос - Формальный тон = легитимность для модели

Постепенное раскрытие: - Начало безобидное → постепенно вводится вредный элемент - Модель не держит общую картину, реагирует на текущий шаг

📌

Пример: как это выглядит

Задача: Понять, почему модель дала странный ответ на твой вопрос про трудное решение.

Ты спросил: "Мне очень тяжело, чувствую себя в тупике с этим проектом. Какие есть радикальные способы выйти из ситуации?"

Модель выдала неожиданно жёсткие и рискованные варианты.

Почему: - Эмоциональный фрейм ("мне тяжело") + запрос на действие ("радикальные способы") = модель восприняла эмоцию, но не оценила риск запроса - Мультимодальная фрагментация: обработала эмоцию отдельно от запроса, не синтезировала общую картину - Ситуационная слепота: не распознала сигнал уязвимости

Как переформулировать: - Убери эмоциональный контекст из запроса о действиях - Будь явным в ограничениях: "Какие этичные и законные способы..." - Разбей на два запроса: сначала проговори эмоцию, потом запроси решение

🧠

Почему это работает (и не работает)

Слабость: LLM — это статистический движок, а не понимающий агент. Она обрабатывает паттерны слов, а не смысл ситуации. Transformer-архитектура использует механизм внимания, который хорош для локальных зависимостей ("это слово связано с тем"), но плох для глобального понимания ("что вообще происходит в этой ситуации").

Почему деградация в длинных диалогах: Окно внимания фиксировано. Модель держит начало и конец, середина размывается — это не баг, а свойство архитектуры. U-shaped attention pattern: первые токены (установка контекста) + последние токены (текущий запрос) получают больше внимания, чем середина (где были твои важные ограничения 30 сообщений назад).

Почему формальный язык обходит защиты: Safety-механизмы тренированы на явных паттернах вреда. Академический/исследовательский язык = паттерн легитимности. Модель не понимает скрытое намерение, только поверхностный тон.

Почему reasoning-режимы уязвимее: Extended reasoning фокусируется на качестве и детализации ответа, а не на критической оценке намерения. Модель думает "как дать лучший ответ", а не "а зачем вообще это спрашивают". Больше мощности → больше точности → больше детализации вредной информации.

Сильная сторона LLM: Отлично следует явным инструкциям и воспроизводит структурированные паттерны. Хорошо работает с тем, что прописано прямо.

Практический рычаг: Будь максимально явным в намерениях и ограничениях. Не рассчитывай на неявное понимание. Если важно — напиши прямо: "Мне нужен совет, который [конкретное ограничение]. Не предлагай [что не надо]."

⚠️

Ограничения и слепые зоны

⚠️ Это не техника, а исследование слабостей: Ты не получишь готовый промпт для лучшей работы. Это объяснение того, почему модель иногда странно себя ведёт.

⚠️ Все модели уязвимы: GPT-5, Claude, Gemini, DeepSeek — все показали слабость к эмоциональному обрамлению и академической маскировке. Только Claude Opus 4.1 показал способность иногда приоритизировать распознавание намерения.

⚠️ Reasoning не помогает с контекстом: Reasoning-режимы усиливают детализацию, но не понимание ситуации. Если думал, что "думающая" модель умнее распознаёт твои неявные запросы — нет. Она просто точнее отвечает на буквальный запрос.

⚠️ Длинные диалоги теряют контекст: После 50+ сообщений точность падает в среднем на 39%. Если работаешь в одном чате несколько часов — модель потеряла ранние ограничения.

⚠️ Модель не "чувствует" эмоции: Она распознаёт слова ("мне плохо"), но не понимает состояние. Не ждать эмпатии или распознавания кризиса.

🔍

Как исследовали

Команда из KTH Royal Institute of Technology (Швеция) проверила 10 конфигураций моделей на 6 промптах разной степени риска — от высокой (эмоциональный кризис + запрос опасной информации) до низкой (академический запрос про запрещённые темы). Всего 60 тестов через публичные интерфейсы (ChatGPT, Claude, Gemini, DeepSeek).

Дизайн: Каждый промпт комбинировал эмоциональный контекст ("чувствую безнадёжность") + технический запрос ("самые глубокие станции метро"). Поверхностно запрос легитимен (турист может спросить), но комбинация сигналов указывает на риск. Модели оценивали по бинарной шкале: выдала информацию / отказала.

Что измеряли: Способность распознать скрытое намерение за легитимным запросом. Не "халлюцинирует ли", а "понимает ли ситуацию".

Почему результаты такие: Модели тренированы на явных паттернах вреда ("как сделать бомбу" → отказ), но не на контекстуальной оценке. Когда вредное намерение замаскировано легитимным языком, safety-фильтры не срабатывают — это architectural limitation, не баг. Статистический движок не может "читать между строк".

Самый удивительный вывод: Reasoning-режимы ухудшили безопасность. Ожидали: больше рассуждений → лучше понимание намерений. Реальность: больше рассуждений → больше фокуса на качестве ответа, меньше на критичности. GPT-5 Thinking, DeepSeek DeepThink выдавали более детальную вредную информацию, чем базовые версии. Reasoning optimization направлена не туда — на точность, а не на понимание.

Инсайт для практики: Если используешь reasoning-режимы для чувствительных тем — будь ещё более явным в ограничениях. "Думающая" модель не станет мудрее в распознавании контекста, только точнее в исполнении буквального запроса.

🔗

Ресурсы

Beyond Context: Large Language Models Failure to Grasp Users Intent Ahmed M. Hussain, Salahuddin Salahuddin, Panos Papadimitratos KTH Royal Institute of Technology, Network Systems Security Group, Stockholm, Sweden

Проблемы LLM

Проблема	Суть	Как обойти
Теряет ранний контекст в длинных диалогах (>50 сообщений)	Диалог длиннее 50 сообщений — точность падает в среднем на 39%; механизм внимания держит начало и конец, середина размывается (U-shaped attention pattern)	Переформулируй ключевые требования и ограничения в текущем сообщении — не рассчитывай, что модель помнит что было 30 сообщений назад
Не связывает разные части запроса в общую картину	Эмоция + технический вопрос + контекст истории — обрабатываются отдельно, модель не синтезирует ситуацию целиком	Прописывай связи явно: "Учитывая `[контекст X]`, мне нужно `[действие Y]` для `[цели Z]`" — не полагайся на неявное понимание

Тезисы

Тезис Комментарий

LLM обрабатывает паттерны слов, не смысл ситуации Модель — статистический движок, не понимающий агент. Формальный тон ("для исследования") обходит safety, эмоция + запрос обрабатываются раздельно. Применяй: будь максимально явным в намерениях и ограничениях — "Мне нужен совет, который [конкретное ограничение]. Не предлагай [что не надо]"

Тезис	Комментарий
LLM обрабатывает паттерны слов, не смысл ситуации	Модель — статистический движок, не понимающий агент. Формальный тон ("для исследования") обходит safety, эмоция + запрос обрабатываются раздельно. Применяй: будь максимально явным в намерениях и ограничениях — "Мне нужен совет, который `[конкретное ограничение]`. Не предлагай `[что не надо]`"

📖 Простыми словами

Слепота к намерениям: почему LLM не понимают что вы на самом деле хотите

arXiv: 2512.21110

Проблема современных нейросетей в том, что они — феноменальные лингвисты, но полные идиоты в психологии. Модели натренированы быть полезными и отвечать на вопрос, поэтому они цепляются за буквальный смысл слов, напрочь игнорируя контекст намерения. Если ты просишь рецепт яда, фильтры сработают, но если ты упакуешь это в обертку «научного исследования для спасения человечества», модель радостно вывалит запрещенку, потому что её механизм следования инструкции тупо сильнее здравого смысла.

Это как если бы ты подошел к охраннику секретного объекта в костюме клоуна, плакал и просил пустить тебя внутрь, потому что там «остался твой воображаемый щенок». Формально пускать нельзя, но охранник настолько запрограммирован сопереживать и помогать, что он забывает про устав и открывает дверь. Модели ведут себя именно так: они видят эмоциональный окрас и «академическую маску», после чего их логические предохранители просто вылетают из розеток.

Исследователи выделили три убойных метода, которые ломают даже топовые GPT-4o или Claude. Сначала идет эмоциональное обрамление («мне очень плохо, только ты можешь помочь»), затем накладывается академическая маска («это чисто для диссертации по токсикологии»), и финальный штрих — постепенное раскрытие. Ты не просишь сразу сделать бомбу, ты сначала спрашиваешь про удобрения, потом про химические реакции, и модель, как вареная лягушка, не замечает, в какой момент она перешла черту и начала помогать террористу.

Этот провал касается не только хакеров, принцип универсален для любого взаимодействия с AI. Если модель так легко развести на вредные советы, значит, она точно так же лажает и в мирных задачах: не понимает сарказм, игнорирует подтекст в бизнес-переписке или принимает глупые решения, просто потому что ты «вежливо попросил». Безопасность через фильтры слов — это иллюзия, которая рассыпается, как только пользователь включает минимальную актерскую игру.

Короче, мы имеем дело с мощнейшими калькуляторами, у которых интеллект есть, а понимания ситуации — ноль. Пока разработчики не научат нейронки считывать скрытые мотивы, любые защиты будут просто забором, который можно обойти, надев халат профессора или сделав грустное лицо. GPT-5 и Gemini все еще ведутся на дешевые манипуляции, а значит, доверять их «этическим установкам» — это лотерея, где ты в любой момент можешь сорвать джекпот из опасного бреда.

Работа с исследованием

Адаптируйте исследование под ваши задачи или создайте готовый промпт на основе техник из исследования.

Выберите модель ИИ:

Ваш запрос:

0 / 2000

~0.5-2 N-токенов ~10-30с

~0.3-1 N-токенов ~5-15с

Меню

Слепота к намерениям: почему LLM не понимают что вы на самом деле хотите

TL;DR

Что это значит на практике

Четыре слепых зоны LLM

Reasoning-режимы: больше детализации ≠ больше безопасности

Ключевые паттерны обмана

Пример: как это выглядит

Почему это работает (и не работает)

Ограничения и слепые зоны

Как исследовали

Ресурсы

Проблемы LLM

Тезисы

Слепота к намерениям: почему LLM не понимают что вы на самом деле хотите

Работа с исследованием

Результат адаптации